Pārbaudot “Gudrāko pasaulē” grok3

Aipu Waton grupa (1)

Ievads

Vai jūs domājat, ka Grok3 būs iepriekš apmācītu modeļu "galapunkts"?

Elons Musks un XAI komanda tiešraides laikā oficiāli atklāja jaunāko Grok, Grok3 versiju. Pirms šī notikuma ievērojams daudzums saistītas informācijas, apvienojumā ar MUSK 24/7 reklāmas hype, paaugstināja globālās cerības uz Grok3 līdz nepieredzētam līmenim. Tikai pirms nedēļas Musks pārliecinoši paziņoja tiešraides laikā, vienlaikus komentējot DeepSeek R1: "Xai gatavojas sākt labāku AI modeli." Sākot ar tiešraides datiem, GROK3, kā ziņots, ir pārspējis visus pašreizējos galvenos modeļus matemātikas, zinātnes un programmēšanas etalonos, Musk pat apgalvojot, ka Grok3 tiks izmantots skaitļošanas uzdevumiem, kas saistīti ar SpaceX Mars misijām, prognozējot "izrāvienus Nobela prēmijas līmenī trīs gadu laikā." Tomēr tie šobrīd ir tikai Muska apgalvojumi. Pēc palaišanas es pārbaudīju jaunāko GROK3 beta versiju un uzdodu klasisko triku jautājumu lieliem modeļiem: "Kas ir lielāks, 9.11 vai 9.9?" Diemžēl bez kvalifikācijas vai marķējumiem tā sauktais gudrākais grok3 joprojām nevarēja pareizi atbildēt uz šo jautājumu. Grok3 neizdevās precīzi noteikt jautājuma nozīmi.

 

Šis tests ātri pievērsa daudzu draugu ievērojamu uzmanību, un nejauši dažādi līdzīgi testi ārzemēs ir parādījuši, ka Grok3 cīnās ar fizikas/matemātikas pamata jautājumiem, piemēram, "kura bumba vispirms kritās no Pizas noliektā torņa?" Tādējādi tas ir humoristiski apzīmēts kā "ģēnijs, kurš nevēlas atbildēt uz vienkāršiem jautājumiem".

640

Grok3 ir labs, bet tas nav labāks par R1 vai O1-Pro.

Grok3 praksē piedzīvoja "neveiksmes" daudzos vispārzināmu testos. XAI atklāšanas pasākuma laikā Musk demonstrēja, izmantojot Grok3, lai analizētu rakstzīmju klases un efektus no 2. trimdas ceļa, kuru viņš apgalvoja, ka spēlē bieži, bet lielākā daļa Grok3 sniegto atbilžu bija nepareizas. Muska tiešraides laikā nepamanīja šo acīmredzamo jautājumu.

 

Šī kļūda ne tikai sniedza papildu pierādījumus tam, ka aizjūras netizens ņirgājas par Musku par "aizstājēja atrašanu" spēlēs, bet arī izraisīja ievērojamas bažas par Grok3 uzticamību praktiskos pielietojumos. Šādam "ģēnijam" neatkarīgi no tā faktiskajām iespējām joprojām ir šaubas par tā uzticamību ārkārtīgi sarežģītos lietojumprogrammu scenārijos, piemēram, Marsa izpētes uzdevumos.

 

Pašlaik daudzi testētāji, kuri saņēma piekļuvi GROK3 nedēļām, un tie, kas vakar tikai pārbaudīja modeļa iespējas, visi norāda uz kopīgu secinājumu: "Grok3 ir labs, bet tas nav labāks par R1 vai O1-Pro."

640 (1)

Kritiska perspektīva "NVIDIA izjaukšanai"

Oficiāli prezentētajā PPT izlaišanas laikā tika pierādīts, ka Grok3 ir “tālu uz priekšu” tērzēšanas arēnā, taču šī gudri izmantoja grafiskās metodes: vertikālā ass līderu sarakstā uzskaitīja tikai rezultātus tikai 1400–1300 punktu diapazonā, padarot sākotnējo 1% atšķirību testa rezultātos šajā prezentācijā ir ārkārtīgi nozīmīgi ievērojami nozīmīgi.

640

Faktiskos modeļa vērtēšanas rezultātos GROK3 ir tikai 1-2% priekšā DeepSeek R1 un GPT-4.0, kas atbilst daudzu lietotāju pieredzei praktiskos testos, kuros tika konstatēta "bez manāmām atšķirībām". GROK3 pārsniedz savus pēctečus tikai par 1%-2%.

640

Lai arī Grok3 ir ieguvis augstāku rezultātu nekā visi pašlaik publiski pārbaudītie modeļi, daudzi to neuztver nopietni: galu galā XAI iepriekš ir kritizēts par "rādītāja manipulācijām" Grok2 laikmetā. Tā kā līderu sarakstā tika sodīts atbildes garuma stils, rādītāji ievērojami samazinājās, vadošie nozares pārstāvji bieži kritizēt fenomenu par "augstu punktu skaitu, bet zemu spēju".

 

Neatkarīgi no tā, vai ir līderu saraksta "manipulācijas", vai arī dizaina triki ilustrācijās, viņi atklāj Xai un Musk apsēstību ar priekšstatu par "Pack" vadīšanu "modeļa spējas. Musks maksāja straujo cenu par šīm robežām: palaišanas laikā viņš lepojās ar 200 000 H100 GPU izmantošanu (tiešraides laikā apgalvojot "vairāk nekā 100 000") un kopējais apmācības laiks ir 200 miljoni stundu. Tas lika dažiem uzskatīt, ka tas ir vēl viens nozīmīgs svētīgs GPU nozarei un uzskata DeepSeek ietekmi uz nozari kā "muļķīgu". Proti, daži uzskata, ka milzīgā skaitļošanas jauda būs modeļa apmācības nākotne.

 

Tomēr daži netizens divu mēnešu laikā salīdzināja 2000 H800 GPU patēriņu, lai iegūtu DeepSeek V3, aprēķinot, ka Grok3 faktiskais apmācības enerģijas patēriņš ir 263 reizes lielāks nekā V3. Plaisa starp DeepSeek V3, kas guva 1402 punktus, un Grok3 ir nedaudz zem 100 punktiem. Pēc šo datu izlaišanas daudzi ātri saprata, ka aiz Grok3 titula kā “pasaules spēcīgākais” ir skaidrs margināls lietderības efekts - lielāku modeļu loģika, kas rada spēcīgāku veiktspēju, ir sākusi parādīt mazāku atdevi.

640 (2)

Pat ar "augstu punktu skaitu, bet zemu spēju" Grok2 bija milzīgs daudzums augstas kvalitātes pirmās puses datiem no X (Twitter) platformas, lai atbalstītu lietošanu. Tomēr Grok3 apmācībā Xai dabiski saskārās ar "griestiem", ar kuriem šobrīd saskaras Openai - premium klases apmācības datu trūkums ātri pakļauj modeļa spēju marginālo lietderību.

 

Grok3 un Musk izstrādātāji, visticamāk, ir pirmie, kas dziļi saprot un identificē šos faktus, tāpēc Musks sociālajos medijos pastāvīgi pieminēja, ka versijas lietotāji tagad ir "joprojām tikai beta" un ka "pilna versija tiks izlaista nākamajos mēnešos". Musks ir uzņēmies Grok3 produktu vadītāja lomu, ierosinot lietotājiem sniegt atsauksmes par dažādiem jautājumiem, kas sastopami komentāru sadaļā.

 

Tomēr dienas laikā Grok3 veiktspēja neapšaubāmi izraisīja trauksmes signālus tiem, kas cer paļauties uz "masīvu skaitļošanas muskuļiem", lai apmācītu stiprākus lielus modeļus: pamatojoties uz publiski pieejamu Microsoft informāciju, Openai GPT-4 ir parametra lielums 1,8 triljonu parametri, vairāk nekā desmit reizes vairāk nekā GPT-3. Baumas liecina, ka GPT-4.5 parametra lielums varētu būt vēl lielāks.

 

Tā kā modeļa parametru lielumi palielinās, arī treniņu izmaksas strauji palielinās. Izmantojot Grok3 klātbūtni, pretendenti, piemēram, GPT-4.5 un citiem, kuri vēlas turpināt “degt naudu”, lai sasniegtu labāku modeļa veiktspēju, izmantojot parametra lielumu, ir jāapsver griesti, kas tagad ir acīmredzami redzami, un jāpārdomā, kā to pārvarēt. Šajā brīdī Ilya Sutskever, bijušais Openai galvenais zinātnieks, iepriekš pagājušā gada decembrī bija paziņojis: "Pirms apmācība, ar kuru mēs esam pazīstami, beigsies", kas ir parādījusies diskusijās, pamudinot atrast patieso ceļu lielu modeļu apmācībai.

640 (3)

Iļjas viedoklis ir izklausījis trauksmi nozarē. Viņš precīzi paredzēja pieejamu jauno datu nenovēršamo izsīkumu, izraisot situāciju, kad veiktspēju nevar turpināt uzlabot, iegūstot datu iegūšanu, pielīdzinot to fosilā kurināmā izsīkumam. Viņš norādīja, ka "tāpat kā eļļa, cilvēku ģenerēts saturs internetā ir ierobežots resurss". SutaKever prognozēs nākamās paaudzes modeļi, kas ir pēcapstrādes apmācība, būs "patiesa autonomija" un argumentācijas spējas "līdzīgi kā cilvēka smadzenēm".

 

Atšķirībā no mūsdienu iepriekš apmācītajiem modeļiem, kas galvenokārt balstās uz satura saskaņošanu (balstoties uz iepriekš iemācīto modeļa saturu), nākotnes AI sistēmas spēs iemācīties un izveidot metodoloģijas problēmu risināšanai tādā veidā, kas līdzīgs cilvēka smadzeņu "domāšanas". Cilvēks var sasniegt fundamentālu prasmi priekšmetā ar tikai profesionālo literatūru, savukārt AI lielam modelim ir nepieciešami miljoniem datu punktu, lai sasniegtu tikai visvienkāršāko sākuma līmeņa efektivitāti. Pat tad, kad formulējums tiek nedaudz mainīts, šie pamatjautājumi var nebūt pareizi izprotami, parādot, ka modelim nav patiesi uzlabojies intelekts: raksta sākumā minētie pamata, bet neatrisināmie jautājumi atspoguļo skaidru šīs parādības piemēru.

微信图片 _20240614024031.jpg1

Secinājums

Tomēr ārpus brutāla spēka, ja GROK3 patiešām izdodas atklāt nozarei, ka "iepriekš apmācīti modeļi tuvojas to beigām", tam būtu būtiska ietekme uz lauku.

Iespējams, ka pēc tam, kad neprāts, kas ieskauj Grok3, pakāpeniski izzūd, mēs būsim liecinieki vairākām lietām, piemēram, Fei-Fei Li piemērs "augstas veiktspējas modeļu noregulēšana noteiktā datu kopā tikai par 50 USD", galu galā atklājot patieso ceļu uz AGI.

Atrodiet elv kabeļa šķīdumu

Kontroles kabeļi

BMS, autobusu, rūpniecības, instrumentācijas kabeļam.

Strukturēta kabeļu sistēma

Tīkls un dati, optiskās šķiedras kabelis, plākstera vads, moduļi, priekšējā plāksne

2024. gada izstādes un notikumi apskats

2024. gada 16.-18. aprīlis Vidusjūras enerģija Dubaijā

2024. gada 1824. gada aprīlis Securika Maskavā

2024. gada maijs. Jaunie produkti un tehnoloģijas atklāšanas pasākums Šanhajā

2024. gada oktobris 22.-25. Drošība Ķīna Pekinā

2024. gada novembris.


Pasta laiks: 19.-1925. Februāris