Testarea celui mai inteligent Grok3 din lume

AIPU WATON GROUP (1)

Introducere

Credeți că Grok3 va fi „punctul final” al modelelor pre-antrenate?

Elon Musk și echipa xAI au lansat oficial cea mai recentă versiune a Grok, Grok3, în timpul unei transmisiuni în direct. Înainte de acest eveniment, o cantitate semnificativă de informații conexe, împreună cu promovarea non-stop a lui Musk, au ridicat așteptările globale pentru Grok3 la niveluri fără precedent. Cu doar o săptămână în urmă, Musk a declarat cu încredere în timpul unei transmisiuni în direct, comentând despre DeepSeek R1: „xAI este pe cale să lanseze un model de inteligență artificială mai bun”. Din datele prezentate în direct, se pare că Grok3 a depășit toate modelele mainstream actuale în ceea ce privește testele de matematică, știință și programare, Musk susținând chiar că Grok3 va fi utilizat pentru sarcini de calcul legate de misiunile SpaceX pe Marte, prevăzând „descoperiri de nivel demne de Premiul Nobel în termen de trei ani”. Cu toate acestea, acestea sunt momentan doar afirmațiile lui Musk. După lansare, am testat cea mai recentă versiune beta a Grok3 și am pus clasica întrebare capcană pentru modelele mari: „Care este mai mare, 9,11 sau 9,9?” Din păcate, fără nicio calificare sau notare, așa-numitul cel mai inteligent Grok3 tot nu a putut răspunde corect la această întrebare. Grok3 nu a reușit să identifice cu exactitate sensul întrebării.

 

Acest test a atras rapid atenția considerabilă a multor prieteni și, în mod coincident, diverse teste similare din străinătate l-au arătat pe Grok3 luptându-se cu întrebări de fizică/matematică de bază, cum ar fi „Care minge cade prima din Turnul Înclinat din Pisa?”. Astfel, a fost etichetat cu umor drept „un geniu care nu vrea să răspundă la întrebări simple”.

640

Grok3 e bun, dar nu e mai bun decât R1 sau o1-Pro.

Grok3 a întâmpinat „eșecuri” la multe teste de cunoștințe comune în practică. În timpul evenimentului de lansare xAI, Musk a demonstrat utilizarea Grok3 pentru a analiza clasele și efectele personajelor din jocul Path of Exile 2, pe care a susținut că îl joacă des, dar majoritatea răspunsurilor oferite de Grok3 au fost incorecte. Musk în timpul transmisiunii în direct nu a observat această problemă evidentă.

 

Această greșeală nu numai că a oferit dovezi suplimentare pentru ca internauții din străinătate să-l batjocorească pe Musk pentru că „a găsit un substitut” în jocuri, dar a ridicat și îngrijorări semnificative cu privire la fiabilitatea Grok3 în aplicațiile practice. Pentru un astfel de „geniu”, indiferent de capacitățile sale reale, fiabilitatea sa în scenarii de aplicații extrem de complexe, cum ar fi misiunile de explorare a planetei Marte, rămâne sub semnul întrebării.

 

În prezent, mulți testeri care au primit acces la Grok3 în urmă cu câteva săptămâni și cei care au testat capabilitățile modelului doar câteva ore ieri, ajung cu toții la o concluzie comună: „Grok3 este bun, dar nu este mai bun decât R1 sau o1-Pro”.

640 (1)

O perspectivă critică asupra „perturbării Nvidia”

În prezentarea PPT prezentată oficial în timpul lansării, Grok3 a fost arătat ca fiind „mult în față” în Arena Chatbot, dar acesta a folosit ingenios tehnici grafice: axa verticală de pe clasament a listat doar rezultatele din intervalul de scor 1400-1300, făcând ca diferența inițială de 1% din rezultatele testelor să pară excepțional de semnificativă în această prezentare.

640

În rezultatele reale ale scorului modelului, Grok3 este cu doar 1-2% înaintea DeepSeek R1 și GPT-4.0, ceea ce corespunde experiențelor multor utilizatori în teste practice care nu au găsit „nicio diferență notabilă”. Grok3 îi depășește pe succesorii săi doar cu 1%-2%.

640

Deși Grok3 a obținut scoruri mai mari decât toate modelele testate public în prezent, mulți nu iau acest lucru în serios: la urma urmei, xAI a fost criticată anterior pentru „manipularea scorurilor” în era Grok2. Pe măsură ce clasamentul a penalizat stilul de lungime a răspunsurilor, scorurile au scăzut considerabil, determinând experții din industrie să critice adesea fenomenul de „scoruri mari, dar abilități scăzute”.

 

Fie prin „manipularea” clasamentelor sau prin trucuri de design în ilustrații, acestea dezvăluie xAI și obsesia lui Musk pentru noțiunea de „a fi lider” în ceea ce privește capabilitățile modelelor. Musk a plătit un preț piperat pentru aceste marje: în timpul lansării, s-a lăudat că a folosit 200.000 de GPU-uri H100 (susținând că a folosit „peste 100.000” în timpul transmisiunii în direct) și că a obținut un timp total de antrenament de 200 de milioane de ore. Acest lucru i-a determinat pe unii să creadă că reprezintă un alt avantaj semnificativ pentru industria GPU-urilor și să considere impactul DeepSeek asupra sectorului ca fiind „prostios”. În special, unii cred că puterea de calcul va fi viitorul antrenamentului modelelor.

 

Totuși, unii internauți au comparat consumul a 2000 de GPU-uri H800 pe parcursul a două luni pentru a produce DeepSeek V3, calculând că consumul real de energie al Grok3 pentru antrenament este de 263 de ori mai mare decât cel al V3. Diferența dintre DeepSeek V3, care a obținut 1402 puncte, și Grok3 este de puțin sub 100 de puncte. În urma publicării acestor date, mulți și-au dat seama rapid că în spatele titlului lui Grok3 de „cel mai puternic din lume” se află un efect clar al utilității marginale - logica modelelor mai mari care generează performanțe mai puternice a început să arate randamente descrescătoare.

640 (2)

Chiar și cu „scoruri mari, dar abilități scăzute”, Grok2 a avut la dispoziție cantități vaste de date first-party de înaltă calitate de pe platforma X (Twitter) pentru a susține utilizarea. Cu toate acestea, în antrenamentul Grok3, xAI a întâlnit în mod natural „plafonul” cu care se confruntă OpenAI în prezent - lipsa datelor de antrenament premium expune rapid utilitatea marginală a capabilităților modelului.

 

Dezvoltatorii Grok3 și Musk sunt probabil primii care înțeleg și identifică în profunzime aceste fapte, motiv pentru care Musk a menționat în mod repetat pe rețelele de socializare că versiunea pe care utilizatorii o experimentează acum este „încă doar versiunea beta” și că „versiunea completă va fi lansată în lunile următoare”. Musk a preluat rolul de manager de produs al Grok3, sugerând utilizatorilor să ofere feedback cu privire la diverse probleme întâlnite în secțiunea de comentarii. El ar putea fi cel mai urmărit manager de produs de pe Pământ.

 

Totuși, în decurs de o zi, performanța Grok3 a stârnit, fără îndoială, alarme pentru cei care sperau să se bazeze pe „putere computațională masivă” pentru a antrena modele mari, mai puternice: pe baza informațiilor Microsoft disponibile publicului, GPT-4 al OpenAI are o dimensiune a parametrilor de 1,8 trilioane de parametri, de peste zece ori mai mare decât GPT-3. Zvonurile sugerează că dimensiunea parametrilor GPT-4.5 ar putea fi chiar mai mare.

 

Pe măsură ce dimensiunile parametrilor modelului cresc vertiginos, costurile de antrenament cresc și ele vertiginos. Odată cu prezența Grok3, concurenți precum GPT-4.5 și alții care doresc să continue să „ardă bani” pentru a obține o performanță mai bună a modelului prin dimensiunea parametrilor trebuie să ia în considerare plafonul care este acum clar vizibil și să se gândească la cum să îl depășească. În acest moment, Ilya Sutskever, fost șef de cercetare la OpenAI, declarase anterior în decembrie anul trecut: „Pre-antrenamentul cu care suntem familiarizați se va încheia”, afirmație care a reapărut în discuții, determinând eforturi de a găsi adevărata cale pentru antrenarea modelelor mari.

640 (3)

Punctul de vedere al lui Ilya a tras un semnal de alarmă în industrie. El a prevăzut cu exactitate epuizarea iminentă a noilor date accesibile, ceea ce va duce la o situație în care performanța nu va mai putea fi îmbunătățită prin achiziția de date, comparând acest lucru cu epuizarea combustibililor fosili. El a indicat că „la fel ca petrolul, conținutul generat de oameni pe internet este o resursă limitată”. Conform predicțiilor lui Sutskever, următoarea generație de modele, după pre-antrenament, va poseda „o adevărată autonomie” și capacități de raționament „similare cu creierul uman”.

 

Spre deosebire de modelele pre-antrenate de astăzi, care se bazează în principal pe potrivirea conținutului (bazată pe conținutul modelului învățat anterior), viitoarele sisteme de inteligență artificială vor fi capabile să învețe și să stabilească metodologii pentru a rezolva probleme într-un mod similar cu „gândirea” creierului uman. Un om poate atinge competențe fundamentale într-un domeniu doar cu literatura de specialitate de bază, în timp ce un model de inteligență artificială de mari dimensiuni necesită milioane de puncte de date pentru a atinge doar cea mai simplă eficacitate de nivel de intrare. Chiar și atunci când formularea este ușor modificată, aceste întrebări fundamentale pot să nu fie înțelese corect, ilustrând faptul că modelul nu și-a îmbunătățit cu adevărat inteligența: întrebările de bază, dar nerezolvabile, menționate la începutul articolului reprezintă un exemplu clar al acestui fenomen.

微信图片_20240614024031.jpg1

Concluzie

Totuși, dincolo de forța brută, dacă Grok3 reușește într-adevăr să dezvăluie industriei că „modelele pre-antrenate se apropie de sfârșit”, acest lucru ar avea implicații semnificative pentru domeniu.

Poate că după ce frenezia din jurul Grok3 se va potoli treptat, vom fi martori la mai multe cazuri precum exemplul lui Fei-Fei Li de „reglare a modelelor de înaltă performanță pe un set de date specific pentru doar 50 de dolari”, descoperind în cele din urmă adevărata cale către AGI.

Găsiți soluții de cablu ELV

Cabluri de control

Pentru BMS, BUS, industrial, cablu de instrumentație.

Sistem de cablare structurată

Rețea și date, cablu cu fibră optică, cablu de conectare, module, placă frontală

Recenzie Expoziții și Evenimente 2024

16-18 aprilie 2024, evenimentul „Energie în Orientul Mijlociu” din Dubai

16-18 aprilie 2024, Securika la Moscova

9 mai 2024 EVENIMENT DE LANSARE DE NOI PRODUSE ȘI TEHNOLOGII la Shanghai

22-25 octombrie 2024 SECURITY CHINA la Beijing

19-20 noiembrie 2024, CONNECTED WORLD KSA


Data publicării: 19 februarie 2025