Zakaj uporabljati manj zmogljive modele?

Pri AI orodjih se zlahka ujamemo v misel, da je najboljši model vedno najmočnejši model. Če obstaja zmogljivejši sistem, zakaj bi sploh uporabili manjšega?

V praksi je odgovor podoben kot pri drugih orodjih. Za vsako nalogo ne potrebujete najdražje opreme. Včasih je manjši, hitrejši in cenejši model boljša izbira, ker naloga ne zahteva najvišje ravni sklepanja. Pomembno je razmerje med kakovostjo, stroškom, hitrostjo in tveganjem.

Najbolj uporabno vprašanje ni: kateri model je najpametnejši? Boljše vprašanje je: kateri model je dovolj dober za to nalogo ob sprejemljivem tveganju?

Kaj pomeni manj zmogljiv model?

Izraz "manj zmogljiv model" je praktična bližnjica. Lahko pomeni manjši model, cenejši model, hitrejši model, model z nižjo latenco ali model, ki je namenjen ožjemu naboru nalog kot največji frontier modeli.

To ne pomeni, da je tak model neuporaben ali slab. Pomeni, da je zasnovan za drugačen kompromis.

Vsaj OpenAI v svoji dokumentaciji in ceniku ločuje med različnimi razredi modelov: zmogljivejšimi modeli za kompleksne naloge in manjšimi oziroma cenejšimi modeli za bolj osredotočene naloge, kjer so pomembni hitrost, strošek in dovolj dobra kakovost. OpenAI na primer za modele mini v dokumentaciji poudarja cenovno učinkovitost, nižjo latenco in primernost za osredotočene naloge.

To so primeri ponudnika, ne priporočilo, da je določen model vedno najboljša izbira. Modelna imena, cene in priporočila se hitro spreminjajo, zato je treba pred uvedbo preveriti aktualne uradne strani.

Zakaj ni vedno treba izbrati najmočnejšega modela?

Najmočnejši model je lahko najboljši pri zahtevnih nalogah, vendar ima lahko tudi višji strošek, počasnejši odziv, večjo računsko porabo ali nepotrebno kompleksnost za preproste primere.

Če mora sistem vsak dan obdelati tisoče kratkih zahtevkov, se razlika v ceni in hitrosti hitro pozna. Če je naloga preprosta, na primer razvrščanje sporočil ali izluščenje nekaj polj iz besedila, je uporaba najmočnejšega modela lahko pretirana.

To je ista logika kot pri izbiri med različnimi vrstami modelov. Če še niste prebrali primerjave med frontier, zaprtimi, open-weight in odprtokodnimi modeli, je koristen spremljevalni članek Razlika med frontier, zaprtimi in odprtokodnimi modeli.

Kdaj je manjši model smiselna izbira?

Manjši oziroma manj zmogljiv model je najbolj smiseln takrat, ko je naloga jasna, ponovljiva in dobro omejena. Še posebej, če je pomembno, da se sistem odzove hitro in poceni.

Hitrost in latenca

Latenca pomeni čas, ki ga uporabnik čaka na odgovor. Pri klepetu z enim orodjem nekaj dodatnih sekund morda ni velik problem. Pri izdelku, ki mora odgovoriti številnim uporabnikom ali delovati skoraj v realnem času, pa je hitrost bistvena.

Manjši modeli so lahko primerni za naloge, kjer mora sistem hitro prepoznati namen uporabnika, pripraviti kratek odgovor, izbrati naslednji korak ali sprožiti ustrezno orodje.

Stroški

Strošek uporabe AI modelov je pogosto vezan na količino obdelanega besedila, število zahtevkov, način gostovanja ali izbrano raven storitve. Ceniki ponudnikov se hitro spreminjajo, zato je varneje gledati razmerja med razredi modelov kot konkretne številke brez datuma.

Pri množičnih in nizko tveganih nalogah lahko razlika v ceni in latenci bistveno vpliva na ekonomiko izdelka. Pri tem pa cenejše ni vedno boljše. Če napačen odgovor povzroči veliko škodo, je lahko dražji in zmogljivejši model racionalnejša izbira.

Ponavljajoče se naloge

Manjši modeli se dobro obnesejo pri nalogah, ki imajo jasen vzorec: razvrsti, označi, povzemaj, izlušči, prepiši, prevedi kratek segment, prepoznaj namen, pripravi osnutek.

Takšne naloge ne zahtevajo vedno najširšega znanja ali najglobljega sklepanja. Potrebujejo predvsem zanesljivo izvedbo v znanem okviru.

Dovolj dobra kakovost

Pri nekaterih nalogah popoln odgovor ni potreben. Če model samo razvrsti sporočilo v čakalno vrsto, pripravi interni osnutek ali predlaga oznako, je lahko dovolj, da je zelo pogosto pravilen in da so napake popravljive.

To ne pomeni, da kakovost ni pomembna. Pomeni, da kakovost merimo glede na namen uporabe. Druga merila veljajo za osnutek e-pošte kot za povzetek pogodbe.

Za katere naloge so manjši modeli pogosto dovolj dobri?

Ni varno trditi, da je manjši model vedno dovolj. Lahko pa naštejemo naloge, pri katerih je pogosto smiselno začeti z manj zmogljivim modelom in ga testirati.

Razvrščanje

Primer razvrščanja je določanje, ali je sporočilo pritožba, vprašanje za podporo, prodajni interes ali tehnična težava. Če so kategorije jasne in je tveganje majhno, lahko manjši model hitro in poceni opravi veliko dela.

Pri večjem tveganju je dobro dodati varovalke: prag zaupanja, človeški pregled pri nejasnih primerih in redno preverjanje napak.

Ekstrakcija podatkov

Ekstrakcija pomeni, da model iz besedila izlušči določene informacije: ime podjetja, datum, znesek, številko naročila, naslov, ključne besede ali kratek opis težave.

Če je vhodna oblika razmeroma predvidljiva, je lahko manjši model dovolj. Če so dokumenti dolgi, neurejeni, pravno občutljivi ali vsebujejo dvoumne podatke, je potrebna večja previdnost.

Kratki povzetki

Za kratke, manj občutljive povzetke je manjši model pogosto uporaben. Na primer za povzetek uporabniškega komentarja, kratkega obvestila ali internega zapiska.

Pri povzetkih pogodb, medicinskih dokumentov, finančnih poročil ali pravnih besedil pa "dovolj dobro" ni vedno dovolj. Tam je treba rezultat preveriti in pogosto uporabiti zmogljivejši model ali človeškega strokovnjaka.

Preprosto preoblikovanje besedila

Manjši model je lahko primeren za krajšanje besedila, spremembo tona, pripravo več različic naslova ali prilagoditev kratkega sporočila. Takšne naloge so koristne, vendar običajno ne zahtevajo najvišje ravni modela.

Tudi tukaj mora uporabnik preveriti, da se pomen ni spremenil.

Usmerjanje zahtevkov

Manjši model lahko deluje kot prvi filter: prepozna namen uporabnika, izbere ustrezno orodje, določi kategorijo ali odloči, ali primer potrebuje zmogljivejši model.

Takšna zasnova je pogosto učinkovita, ker najzmogljivejši model uporabite samo tam, kjer ga res potrebujete.

Kdaj manjši model ni dovolj?

Manjši model ni pametna izbira, če naloga zahteva globoko razumevanje, dolge povezave med informacijami, več korakov sklepanja ali visoko stopnjo zanesljivosti.

Kompleksno sklepanje

Če mora model povezati več dokumentov, primerjati argumente, analizirati nejasen problem ali načrtovati večstopenjski postopek, je zmogljivejši model pogosto primernejši.

Manjši model lahko v takih primerih zveni prepričljivo, vendar spregleda pomemben pogoj, narobe razume izjemo ali prehitro zaključi.

Visoko tvegane odločitve

Pri zdravju, pravu, financah, varnosti, zaposlovanju, zavarovanju ali drugih področjih z visokimi posledicami je treba biti posebej previden. NIST AI Risk Management Framework poudarja, da je treba AI sisteme upravljati glede na namen, kontekst uporabe, tveganja in možno škodo.

To ne pomeni, da manjši model nikoli ne sme sodelovati pri takem procesu. Pomeni pa, da ne sme biti nepreverjena zadnja beseda.

Občutljivi podatki

Če naloga vključuje osebne podatke, poslovne skrivnosti ali interne dokumente, izbira modela ni samo vprašanje velikosti. Pomembni so gostovanje, dostopne pravice, pogodbeni pogoji, beleženje podatkov, varnostne nastavitve in notranja pravila organizacije.

Manjši model, ki teče lokalno, lahko poveča nadzor, vendar lokalno izvajanje ni samodejna garancija za varnost. Slabo nastavljen lokalni sistem je lahko tvegan.

Dolgi in neurejeni dokumenti

Pri dolgih dokumentih se hitro pojavijo dodatne težave: model mora obdržati kontekst, ločiti pomembno od nepomembnega, razumeti sklice in ne sme izpustiti ključnih podrobnosti.

Če je dokument pravno, finančno ali tehnično pomemben, je smiselno uporabiti strožji postopek: boljši model, razrez dokumenta, preverjanje po virih in človeški pregled.

Kako razmišljati o strošku, hitrosti in kakovosti

Pri izbiri modela pomaga preprosta matrika:

Matrika za izbiro med manjšim in zmogljivejšim AI modelom glede na tveganje in zahtevnost naloge. — Začetna izbira modela mora slediti nalogi, ne prestižu modela.

Vprašanje	Če je odgovor da	Kaj to pomeni za izbiro
Ali je naloga jasna in ponovljiva?	Da	Testirajte manjši model.
Ali je napaka poceni in popravljiva?	Da	Manjši model je lahko razumna izbira.
Ali je potrebna zelo hitra odzivnost?	Da	Manjši model je pogosto primeren.
Ali naloga zahteva kompleksno sklepanje?	Da	Razmislite o zmogljivejšem modelu.
Ali gre za občutljive podatke?	Da	Preverite gostovanje, politiko podatkov in nadzor.
Ali je napaka lahko škodljiva?	Da	Dodajte človeški pregled in strožja merila kakovosti.

V praksi se pogosto izkaže, da najboljša rešitev ni en sam model. Lahko uporabite manjši model za prvo razvrščanje, zmogljivejši model za zahtevne primere in človeka za končni pregled pri občutljivih odločitvah.

Praktičen primer: podpora uporabnikom

Predstavljajte si podjetje, ki prejme veliko sporočil uporabnikov. Sistem mora prepoznati, ali gre za vprašanje o računu, tehnično težavo, odpoved naročnine ali pritožbo.

Diagram usmerjanja zahtevkov med manjšim modelom, zmogljivejšim modelom in človeškim pregledom. — Najboljša rešitev je pogosto kombinacija modelov in človeškega nadzora.

Za prvo razvrščanje je manjši model lahko zelo smiseln. Naloga je ozka, kategorije so znane, hitrost je pomembna, napačen rezultat pa se lahko popravi, če sistem pri nejasnih primerih vključi človeka.

Zmogljivejši model je lahko potreben šele kasneje: pri zahtevnem odgovoru, analizi več preteklih sporočil ali pripravi občutljivega pojasnila za uporabnika.

Takšna razdelitev nalog je pogosto boljša kot uporaba najmočnejšega modela za vse.

Kako testirati, ali je manjši model dovolj dober

Preden se odločite, pripravite majhen preizkus z resničnimi primeri. Ne testirajte samo lepih primerov, ampak tudi robne: nejasne zahteve, napake v besedilu, dvoumne kategorije, daljše vnose in primere, kjer je odgovor pomemben.

Merite vsaj:

točnost pri glavni nalogi,
pogostost napak,
hitrost odziva,
strošek na obdelan primer,
delež primerov, ki potrebujejo človeški pregled,
kakovost pri slovenskih besedilih, če je slovenščina pomembna,
obnašanje pri občutljivih ali nejasnih vhodih.

Če manjši model doseže dovolj dobro kakovost pri nizkem tveganju, je lahko bolj smiselna izbira od večjega. Če se napake kopičijo ali so drage, ga ne uporabljajte kot glavni model.

Za nadaljnji okvir o izbiri modelov si oglejte [Kaj so veliki jezikovni modeli oziroma LLM?](/umetna-inteligenca/kaj-so-veliki-jezikovni-modeli-llm/) in [Kako napisati dober prompt?](/umetna-inteligenca/kako-napisati-dober-prompt/).

Kaj si je smiselno zapomniti

Manj zmogljiv model ni nujno slabši model. Je drugačno orodje. Pri jasnih, ponavljajočih se in nizko tveganih nalogah lahko ponudi boljše razmerje med stroškom, hitrostjo in uporabnostjo.

Najmočnejši model je smiseln, ko naloga zahteva kompleksno sklepanje, visoko zanesljivost, daljši kontekst ali obravnavo pomembnih odločitev. Pri vsakdanjih sistemih pa je pogosto bolj smiselno uporabiti kombinacijo: manjši model za rutino, zmogljivejši model za zahtevne primere in človeka za nadzor.

Prava izbira modela ni vprašanje prestiža, ampak zasnove sistema.

FAQ

Ali so manjši modeli slabši?

Ne nujno. Manjši modeli so pogosto manj zmogljivi pri zahtevnih nalogah, vendar so lahko hitrejši, cenejši in dovolj dobri za jasno omejene primere uporabe.

Kdaj je manjši model dovolj dober?

Ko je naloga jasna, ponovljiva, nizko tvegana in jo je mogoče preveriti. Primeri so razvrščanje, ekstrakcija podatkov, kratki povzetki, usmerjanje zahtevkov in preprosto preoblikovanje besedila.

Ali manjši modeli vedno delajo hitreje?

Ne vedno, vendar so pogosto zasnovani za nižjo latenco in cenejšo obdelavo. Dejanska hitrost je odvisna od modela, infrastrukture, dolžine vnosa, obremenitve in načina uporabe.

Ali je cenejši model vedno boljša izbira?

Ne. Če je napaka draga ali škodljiva, je lahko cenejši model slabša odločitev. Strošek je treba primerjati s tveganjem in kakovostjo.

Kdaj je bolje uporabiti večji model?

Pri kompleksnem sklepanju, dolgih dokumentih, težkih programerskih nalogah, pomembnih odločitvah in primerih, kjer napačen odgovor lahko povzroči škodo.

Ali manjši model pomeni manj tveganja?

Ne samodejno. Manjši model lahko zmanjša strošek ali latenco, ne odpravi pa tveganj, kot so napake, zasebnost, pristranskost ali neustrezna uporaba.