Ievads

Vai jūs domājat, ka Grok3 būs iepriekš apmācītu modeļu "galapunkts"?

Elons Masks un xAI komanda tiešraides laikā oficiāli palaida jaunāko Grok versiju Grok3. Pirms šī notikuma ievērojams daudzums saistītās informācijas apvienojumā ar Maska nepārtraukto reklāmas ažiotāžu paaugstināja globālās gaidas attiecībā uz Grok3 līdz nepieredzētam līmenim. Tikai pirms nedēļas Masks tiešraides laikā, komentējot DeepSeek R1, pārliecināti paziņoja: "xAI gatavojas laist klajā labāku mākslīgā intelekta modeli." No tiešraidē prezentētajiem datiem izriet, ka Grok3 ir pārspējis visus pašreizējos galvenos modeļus matemātikas, zinātnes un programmēšanas etalonos, Maskam pat apgalvojot, ka Grok3 tiks izmantots skaitļošanas uzdevumiem, kas saistīti ar SpaceX Marsa misijām, prognozējot "Nobela prēmijas līmeņa izrāvienus trīs gadu laikā". Tomēr pašlaik tie ir tikai Maska apgalvojumi. Pēc palaišanas es testēju jaunāko Grok3 beta versiju un uzdevu klasisko viltīgo jautājumu lieliem modeļiem: "Kurš ir lielāks, 9.11 vai 9.9?" Diemžēl bez jebkādiem kvalifikācijas punktiem vai atzīmēm tā sauktais gudrākais Grok3 joprojām nevarēja pareizi atbildēt uz šo jautājumu. Grok3 neizdevās precīzi noteikt jautājuma nozīmi.

Šis tests ātri piesaistīja ievērojamu daudzu draugu uzmanību, un sagadīšanās kārtā dažādi līdzīgi testi ārzemēs ir parādījuši, ka Grok3 cīnās ar pamata fizikas/matemātikas jautājumiem, piemēram, "Kura bumba nokrīt pirmā no Pizas torņa?". Tādēļ tas ir humoristiski nosaukts par "ģēniju, kas nevēlas atbildēt uz vienkāršiem jautājumiem".

Grok3 ir labs, bet tas nav labāks par R1 vai o1-Pro.

Grok3 praksē piedzīvoja "neveiksmes" daudzos vispārējo zināšanu testos. xAI palaišanas pasākuma laikā Masks demonstrēja Grok3 izmantošanu, lai analizētu spēles Path of Exile 2 varoņu klases un efektus, kuru viņš apgalvoja bieži spēlējam, taču lielākā daļa Grok3 sniegto atbilžu bija nepareizas. Tiešraides laikā Masks šo acīmredzamo problēmu nepamanīja.

Šī kļūda ne tikai sniedza vēl vienu pierādījumu ārvalstu tīmekļa lietotājiem, lai izsmietu Masku par "aizvietotāja atrašanu" spēlēs, bet arī radīja nopietnas bažas par Grok3 uzticamību praktiskos pielietojumos. Šādam "ģēnijam", neatkarīgi no tā faktiskajām iespējām, tā uzticamība ārkārtīgi sarežģītos pielietojuma scenārijos, piemēram, Marsa izpētes uzdevumos, joprojām ir apšaubāma.

Pašlaik daudzi testētāji, kuri piekļuvi Grok3 ieguva pirms nedēļām, un tie, kuri tikai vakar dažas stundas testēja modeļa iespējas, visi norāda uz kopīgu secinājumu: "Grok3 ir labs, bet tas nav labāks par R1 vai o1-Pro."

Kritisks skatījums uz "Nvidia darbības traucēšanu"

Oficiāli prezentētajā PPT izlaišanas laikā Grok3 tika parādīts kā “tālu priekšā” Chatbot Arena, taču tas prasmīgi izmantoja grafiskās tehnikas: vertikālā ass līderu sarakstā uzrādīja tikai rezultātus 1400–1300 punktu diapazonā, padarot sākotnējo 1% atšķirību testa rezultātos šajā prezentācijā ārkārtīgi nozīmīgu.

Faktiskajos modeļu vērtēšanas rezultātos Grok3 ir tikai par 1–2 % priekšā DeepSeek R1 un GPT-4.0, kas atbilst daudzu lietotāju pieredzei praktiskajos testos, kuros netika konstatēta “manāma atšķirība”. Grok3 pārsniedz savus pēctečus tikai par 1–2 %.

Lai gan Grok3 ir ieguvis augstāku rezultātu nekā visi pašlaik publiski testētie modeļi, daudzi to neuztver nopietni: galu galā xAI iepriekš ir kritizēts par "rezultātu manipulāciju" Grok2 laikmetā. Tā kā līderu sarakstā tika sodīts atbildes garuma stils, rezultāti ievērojami samazinājās, liekot nozares pārstāvjiem bieži kritizēt fenomenu "augsts rezultāts, bet zemas spējas".

Vai nu ar līderu saraksta "manipulācijām", vai dizaina trikiem ilustrācijās, tie atklāj xAI un Maska apsēstību ar ideju "vadīt konkurentus" modeļu iespēju ziņā. Masks par šīm peļņas normām samaksāja augstu cenu: palaišanas laikā viņš lielījās ar 200 000 H100 GPU izmantošanu (tiešraides laikā apgalvojot "vairāk nekā 100 000") un kopējo apmācības laiku 200 miljoni stundu. Tas dažiem lika uzskatīt, ka tas ir vēl viens nozīmīgs ieguvums GPU nozarei, un uzskatīt DeepSeek ietekmi uz šo nozari par "muļķīgu". Jāatzīmē, ka daži uzskata, ka milzīga skaitļošanas jauda būs modeļu apmācības nākotne.

Tomēr daži tīmekļa lietotāji salīdzināja 2000 H800 GPU patēriņu divu mēnešu laikā, lai izveidotu DeepSeek V3, aprēķinot, ka Grok3 faktiskais treniņu enerģijas patēriņš ir 263 reizes lielāks nekā V3. Starpība starp DeepSeek V3, kas ieguva 1402 punktus, un Grok3 ir nedaudz mazāka par 100 punktiem. Pēc šo datu publicēšanas daudzi ātri saprata, ka aiz Grok3 titula kā "pasaules spēcīgākais" slēpjas skaidrs robežlietderības efekts — loģika, ka lielāki modeļi ģenerē spēcīgāku veiktspēju, ir sākusi uzrādīt mazāku atdevi.

Pat ar "augstu punktu skaitu, bet zemu spēju" Grok2 bija milzīgs apjoms augstas kvalitātes pirmās puses datu no X (Twitter) platformas, lai atbalstītu lietošanu. Tomēr Grok3 apmācībā xAI dabiski saskārās ar "griestiem", ar kuriem pašlaik saskaras OpenAI — augstākās kvalitātes apmācības datu trūkums ātri atklāj modeļa spēju marginālo lietderību.

Grok3 izstrādātāji un Masks, visticamāk, ir pirmie, kas dziļi izprot un identificē šos faktus, tāpēc Masks sociālajos tīklos ir pastāvīgi minējis, ka versija, ko lietotāji pašlaik piedzīvo, "joprojām ir tikai beta versija" un ka "pilna versija tiks izlaista turpmākajos mēnešos". Masks ir uzņēmies Grok3 produktu vadītāja lomu, iesakot lietotājiem sniegt atsauksmes par dažādām problēmām komentāru sadaļā. Viņš varētu būt visvairāk sekotais produktu vadītājs pasaulē.

Tomēr vienas dienas laikā Grok3 veiktspēja neapšaubāmi radīja trauksmi tiem, kas cerēja paļauties uz "masveida skaitļošanas jaudu", lai apmācītu spēcīgākus lielus modeļus: pamatojoties uz publiski pieejamo Microsoft informāciju, OpenAI GPT-4 parametru lielums ir 1,8 triljoni parametru, kas ir vairāk nekā desmit reizes lielāks nekā GPT-3. Baumas liecina, ka GPT-4.5 parametru lielums varētu būt vēl lielāks.

Pieaugot modeļa parametru izmēriem, strauji pieaug arī apmācības izmaksas. Līdz ar Grok3 klātbūtni tādiem pretendentiem kā GPT-4.5 un citiem, kas vēlas turpināt "tērēt naudu", lai sasniegtu labāku modeļa veiktspēju, izmantojot parametru izmērus, ir jāņem vērā tagad skaidri redzamie griesti un jāapsver, kā tos pārvarēt. Šobrīd bijušais OpenAI galvenais zinātnieks Iļja Sutskevers pagājušā gada decembrī bija paziņojis: "Mūsu pazīstamā iepriekšējā apmācība beigsies," kas atkal ir aktualizējies diskusijās, rosinot centienus atrast patieso ceļu lielu modeļu apmācībai.

Iļjas viedoklis ir sacēlis trauksmi nozarē. Viņš precīzi paredzēja pieejamu jaunu datu nenovēršamu izsīkumu, kas novedīs pie situācijas, kad veiktspēju vairs nevarēs uzlabot, izmantojot datu iegūšanu, salīdzinot to ar fosilā kurināmā izsīkumu. Viņš norādīja, ka "tāpat kā nafta, arī cilvēku ģenerēts saturs internetā ir ierobežots resurss". Sutskevera prognozēs nākamās paaudzes modeļiem pēc iepriekšējas apmācības būs "patiesa autonomija" un spriešanas spējas, "līdzīgas cilvēka smadzenēm".

Atšķirībā no mūsdienu iepriekš apmācītajiem modeļiem, kas galvenokārt balstās uz satura saskaņošanu (pamatojoties uz iepriekš apgūto modeļa saturu), nākotnes mākslīgā intelekta sistēmas spēs mācīties un izveidot metodoloģijas problēmu risināšanai līdzīgi kā cilvēka smadzenes "domā". Cilvēks var sasniegt pamatprasmes kādā priekšmetā, izmantojot tikai pamata profesionālo literatūru, savukārt lielam mākslīgā intelekta modelim ir nepieciešami miljoniem datu punktu, lai sasniegtu tikai visvienkāršāko sākuma līmeņa efektivitāti. Pat nedaudz mainot formulējumu, šie pamatjautājumi var netikt pareizi saprasti, kas ilustrē, ka modeļa intelekts nav patiesi uzlabojies: raksta sākumā minētie pamata, tomēr neatrisināmie jautājumi ir skaidrs šīs parādības piemērs.

Secinājums

Tomēr, ja Grok3 patiešām izdosies atklāt nozarei, ka "iepriekš apmācīti modeļi tuvojas savam galam", tas, bez brutāla spēka izmantošanas, būtiski ietekmētu šo jomu.

Iespējams, pēc tam, kad Grok3 izraisītā ažiotāža pakāpeniski norims, mēs redzēsim vairāk tādu gadījumu kā Fei-Fei Li piemērs, kurā "augstas veiktspējas modeļu regulēšana konkrētā datu kopā tikai par 50 ASV dolāriem", galu galā atklājot patieso ceļu uz AGI.