Testarea „cel mai inteligent din lume” Grok3

Aipu Waton Group (1)

Introducere

Crezi că Grok3 va fi „punctul final” al modelelor pre-instruite?

Elon Musk și echipa Xai au lansat oficial cea mai recentă versiune a lui Grok, Grok3, în timpul unei transmisiuni live. Înainte de acest eveniment, o cantitate semnificativă de informații conexe, împreună cu hype -ul promoțional 24/7 al MUSK, a ridicat așteptările globale pentru GROK3 la niveluri fără precedent. În urmă cu doar o săptămână, Musk a declarat cu încredere în timpul unei transmisii live, în timp ce comentează Deepseek R1, „Xai este pe cale să lanseze un model AI mai bun”. Din datele prezentate live, Grok3 a depășit toate modelele actuale de referință pentru matematică, știință și programare, Musk chiar susținând că GROK3 va fi utilizat pentru sarcini de calcul legate de misiunile Martex de la SpaceX, prezicând „descoperiri la nivelul premiului Nobel în termen de trei ani”. Cu toate acestea, acestea sunt în prezent doar afirmațiile lui Musk. După lansare, am testat cea mai recentă versiune beta a GROK3 și am pus întrebarea clasică truc pentru modele mari: „Care este mai mare, 9.11 sau 9.9?” Din păcate, fără calificări sau marcaje, așa-numitul Smart Grok3 încă nu ar putea răspunde corect la această întrebare. GROK3 nu a reușit să identifice cu exactitate sensul întrebării.

 

Acest test a atras rapid o atenție considerabilă din partea multor prieteni și, întâmplător, diverse teste similare de peste mări au arătat că Grok3 se luptă cu întrebări de bază/matematică de bază, cum ar fi „Care minge se încadrează mai întâi din turnul înclinat al Pisa?” Astfel, a fost etichetat cu umor drept „un geniu care nu dorește să răspundă la întrebări simple”.

640

GROK3 este bun, dar nu este mai bun decât R1 sau O1-Pro.

GROK3 a experimentat „eșecuri” la multe teste comune de cunoștințe în practică. În timpul evenimentului de lansare XAI, Musk a demonstrat folosind GROK3 pentru a analiza clasele de personaje și efectele din calea jocului Exile 2, pe care a pretins că o joacă des, dar majoritatea răspunsurilor oferite de Grok3 au fost incorecte. Musk -ul în timpul transmisiei live nu a observat această problemă evidentă.

 

Această greșeală nu numai că a furnizat dovezi suplimentare pentru internauții de peste mări pentru a -l batjocori pe Musk pentru „găsirea unui înlocuitor” în jocuri, dar a ridicat și preocupări semnificative cu privire la fiabilitatea Grok3 în aplicațiile practice. Pentru un astfel de „geniu”, indiferent de capacitățile sale reale, fiabilitatea sa în scenarii de aplicare extrem de complexe, cum ar fi sarcinile de explorare a lui Marte, rămâne la îndoială.

 

În prezent, mulți testeri care au primit acces la GROK3 în urmă, și cei care tocmai au testat capacitățile modelului pentru câteva ore ieri, toate indică o concluzie comună: „Grok3 este bun, dar nu este mai bun decât R1 sau O1-Pro”.

640 (1)

O perspectivă critică asupra „perturbării Nvidia”

În PPT-ul prezentat oficial în timpul lansării, GROK3 s-a dovedit a fi „cu mult înainte” în arena chatbot, dar acest lucru a folosit în mod inteligent tehnici grafice: axa verticală de pe clasament a fost listată doar rezultatele în intervalul de scor 1400-1300, ceea ce face ca diferența inițială de 1% a rezultatelor testelor să pară excepțional semnificativă în această prezentare.

640

În rezultatele efective de notare a modelului, GROK3 este cu doar 1-2% înaintea Deepseek R1 și GPT-4.0, ceea ce corespunde experiențelor multor utilizatori în teste practice care nu au găsit „nicio diferență notabilă”. GROK3 depășește succesorii săi doar cu 1%-2%.

640

Deși GROK3 a marcat mai mare decât toate modelele testate în prezent public, mulți nu iau acest lucru în serios: până la urmă, Xai a fost criticat anterior pentru „manipularea scorului” în epoca GROK2. Pe măsură ce clasamentul a penalizat stilul de lungime a răspunsului, scorurile au scăzut foarte mult, determinând persoanele din interiorul industriei să critice adesea fenomenul de „notare ridicată, dar capacitate scăzută”.

 

Fie prin „manipulare” sau trucuri de design în ilustrații, acestea dezvăluie obsesia lui Xai și Musk pentru noțiunea de „conducerea pachetului” în capacitățile modelului. Musk a plătit un preț abrupt pentru aceste marje: în timpul lansării, s -a lăudat să folosească 200.000 de GPU -uri H100 (susținând „peste 100.000” în timpul transmisiei live) și a obținut un timp total de antrenament de 200 de milioane de ore. Acest lucru i -a determinat pe unii să creadă că reprezintă un alt element semnificativ pentru industria GPU și să considere impactul lui Deepseek asupra sectorului drept „prost”. În special, unii consideră că puterea de calcul pur va fi viitorul formării modelului.

 

Cu toate acestea, unii internauți au comparat consumul de 2000 H800 GPU -uri pe parcursul a două luni pentru a produce Deepseek V3, calculând că consumul real de putere de antrenament al Grok3 este de 263 ori mai mare decât V3. Diferența dintre Deepseek V3, care a marcat 1402 de puncte, iar GROK3 este puțin sub 100 de puncte. În urma lansării acestor date, mulți și -au dat seama rapid că în spatele titlului lui Grok3 drept „cel mai puternic din lume” se află un efect marginal clar al utilității - logica unor modele mai mari care generează performanțe mai puternice a început să arate randamente diminuate.

640 (2)

Chiar și cu „notare ridicată, dar cu capacitate scăzută”, Grok2 a avut cantități mari de date de prim-partid de înaltă calitate din platforma X (Twitter) pentru a sprijini utilizarea. Cu toate acestea, în formarea GROK3, Xai a întâlnit în mod natural „plafonul” cu care se confruntă în prezent Openai - lipsa datelor de instruire premium expune rapid utilitatea marginală a capacităților modelului.

 

Dezvoltatorii Grok3 și Musk sunt probabil primii care au înțeles și identifică profund aceste fapte, motiv pentru care Musk a menționat continuu pe rețelele de socializare pe care le experimentează versiunile pe care le experimentează acum este „doar beta” și că „versiunea completă va fi lansată în lunile următoare”. Musk a preluat rolul managerului de produse Grok3, sugerând că utilizatorii oferă feedback cu privire la diverse probleme întâlnite în secțiunea de comentarii.

 

Cu toate acestea, într-o zi, performanța lui Grok3 a ridicat, fără îndoială, alarme pentru cei care speră să se bazeze pe „mușchiul de calcul masiv” pentru a antrena modele mari mai puternice: pe baza informațiilor Microsoft disponibile public, GPT-4 de OpenAI are o dimensiune a parametrului de 1,8 trilioane de parametri, de peste zece ori mai mare decât GPT-3. Zvonurile sugerează că dimensiunea parametrului GPT-4.5 ar putea fi și mai mare.

 

Pe măsură ce dimensiunile parametrilor modelului cresc, costurile de instruire sunt, de asemenea, mai mari. Cu prezența lui Grok3, concurenți precum GPT-4.5 și alții care doresc să continue „arderea banilor” pentru a obține o performanță mai bună a modelului prin dimensiunea parametrilor trebuie să ia în considerare plafonul care acum este clar la vedere și are în vedere modul de a-l depăși. În acest moment, Ilya Sutskever, fostul om de știință șef la OpenAI, a declarat anterior în decembrie trecut, „Pre-antrenamentul cu care suntem familiarizați se va încheia”, care a reapărut în discuții, determinând eforturi pentru a găsi adevărata cale pentru formarea modelelor mari.

640 (3)

Punctul de vedere al lui Ilya a sunat alarma în industrie. El a prevăzut cu exactitate epuizarea iminentă a datelor noi accesibile, ceea ce duce la o situație în care performanța nu poate continua să fie îmbunătățită prin achiziția de date, asemănându -l cu epuizarea combustibililor fosili. El a indicat că „la fel ca uleiul, conținutul generat de oameni pe internet este o resursă limitată”. În predicțiile lui Sutskever, următoarea generație de modele, post-pre-pregătire, va avea „adevărata autonomie” și capacități de raționament „similare cu creierul uman”.

 

Spre deosebire de modelele pre-instruite de astăzi, care se bazează în primul rând pe potrivirea conținutului (pe baza conținutului modelului învățat anterior), viitoarele sisteme AI vor putea învăța și stabili metodologii pentru a rezolva problemele într-o manieră asemănătoare cu „gândirea” creierului uman. Un om poate obține o competență fundamentală la un subiect doar cu literatură profesională de bază, în timp ce un model mare AI necesită milioane de puncte de date pentru a obține doar cea mai de bază eficacitate la nivel de intrare. Chiar și atunci când formularea este modificată ușor, aceste întrebări fundamentale nu pot fi înțelese corect, ilustrând că modelul nu s -a îmbunătățit cu adevărat în inteligență: întrebările de bază, dar de neconfundabil menționate la începutul articolului reprezintă un exemplu clar al acestui fenomen.

微信图片 _20240614024031.jpg1

Concluzie

Cu toate acestea, dincolo de forța brută, dacă Grok3 reușește într-adevăr să dezvăluie industriei că „modelele pre-instruite se apropie de sfârșitul lor”, ar avea implicații semnificative pentru domeniu.

Poate că după ce frenezia înconjurătoare Grok3 scade treptat, vom asista la mai multe cazuri precum exemplul lui Fei-fei Li de „reglare a modelelor de înaltă performanță pe un set de date specific pentru doar 50 de dolari”, descoperind în cele din urmă adevărata cale către AGI.

Găsiți soluția de cablu ELV

Cabluri de control

Pentru BMS, autobuz, industrial, cablu de instrumentare.

Sistem de cablare structurată

Rețea și date, cablu cu fibră optică, cablu de plasture, module, placă de față

2024 Expoziții și evenimente de recenzie

18 aprilie-18, 2024-energie mijlocie în Dubai

18-16 aprilie, 2024 Securika la Moscova

9 mai, 2024 Eveniment de lansare de produse și tehnologii noi în Shanghai

22 octombrie, 2024 Securitate China la Beijing

Nov.19-20, 2024 Conectat World KSA


Timpul post: februarie-192025