Kiekvieną sekmadienį NPR šeimininkas Willas Shortzas, „The New York Times“ kryžiažodžių dėlionės guru, pradeda tūkstančius klausytojų viktoriną ilgamečiame segmente, vadinamame „The Sunday Puzzle“. Nors parašyta, kad būtų išspręsta be taip pat Daug žinių apie tai, kad „Brainteasers“ paprastai kelia iššūkį net kvalifikuotiems konkurso dalyviams.
Štai kodėl kai kurie ekspertai mano, kad jie yra perspektyvus būdas patikrinti AI problemų sprendimo gebėjimų ribas.
Neseniai atliktame tyrime tyrėjų komanda, kilusi iš Wellesley koledžo, Oberlino koledžo, Teksaso universiteto Austine, Šiaurės rytų universitete, Charleso universitete ir „Startup Cursor“, sukūrė AI etaloną, naudodamas mįsles iš sekmadienio dėlionės epizodų. Komanda sako, kad jų testas atskleidė stebinančias įžvalgas, kaip ir šie samprotavimo modeliai – „Openai“ O1, be kita ko, kartais „pasiduoti“ ir pateikti atsakymus, kurie, jų žiniomis, nėra teisingi.
„Mes norėjome sukurti etaloną su problemomis, kurias žmonės gali suprasti turėdami tik bendrąsias žinias“,-„TechCrunch“ pasakojo Arjun Guha, „Northeastern“ informatikos fakulteto narys ir vienas iš tyrimo bendraautorių.
Šiuo metu AI pramonė yra šiek tiek palyginama. Daugelis testų, dažniausiai naudojamų vertinant PG modelius, zondo įgūdžius, pavyzdžiui, kompetencija atsižvelgiant į daktaro lygio matematikos ir mokslo klausimus, kurie nėra svarbūs paprastam vartotojui. Tuo tarpu daugelis etalonų – net palyginti neseniai išleisti etalonai greitai artėja prie sodrumo taško.
Viešojo radijo viktorinos žaidimo, pavyzdžiui, „The Sunday“ dėlionės, pranašumai yra tai, kad jis neišbando ezoterinių žinių, o iššūkiai yra suformuluoti taip, kad modeliai negali remtis „rote atmintimi“, kad juos išspręstų, paaiškino Guha.
„Manau, kad šios problemos sunkiai daro tai, kad tikrai sunku padaryti prasmingą problemos pažangą, kol neišspręsite – būtent tada viskas paspaudžia kartu“, – sakė Guha. „Tam reikalingas įžvalgos derinys ir pašalinimo procesas“.
Žinoma, nė vienas etalonas nėra tobulas. Sekmadienio galvosūkis yra tik JAV centras ir anglų kalba. Ir kadangi viktorinos yra viešai prieinamos, gali būti, kad jose apmokyti modeliai tam tikra prasme gali „apgauti“, nors Guha sako, kad jis to nematė.
„Nauji klausimai išleidžiami kiekvieną savaitę, ir mes galime tikėtis, kad naujausi klausimai bus tikrai nematyti“, – pridūrė jis. „Mes ketiname išlaikyti etaloną šviežią ir sekti, kaip laikui bėgant keičiasi modelio našumas“.
Tyrėjų etalone, kurį sudaro apie 600 sekmadienio galvosūkių mįslės, tokių samprotavimo modelių kaip O1 ir „Deepseek“ R1 žymiai pralenkia likusius. Priežiūros modeliai kruopščiai patikrinkite save prieš pateikdami rezultatus, o tai padeda jiems išvengti kai kurių spąstų, kurie paprastai kelia AI modelius. Kompromisas yra tas, kad samprotavimų modeliai užtrunka šiek tiek ilgiau, kad būtų galima gauti sprendimus-paprastai sekundžių ar minučių ilgiau.
Bent vienas modelis „Deepseek“ R1 pateikia sprendimus, kuriuos jis žino, kad klysta dėl kai kurių sekmadienio galvosūkių klausimų. R1 nurodys Verbatimą „Aš atsisakau“, po kurio pateiks neteisingas atsakymas, pasirinktas, atrodo, atsitiktinai – elgesys, su kuriuo šis žmogus tikrai gali būti susijęs.
Modeliai priima kitus keistus sprendimus, pavyzdžiui, pateikti neteisingą atsakymą tik tam, kad nedelsiant jį atsitrauktumėte, pabandykite erzinti geresnį ir vėl nesėkmingai. Jie taip pat įstrigo „galvoti“ amžinai ir pateikia nesąmoningus atsakymų paaiškinimus arba iškart pateikia teisingą atsakymą, bet tada be akivaizdžios priežasties svarsto alternatyvius atsakymus.
„Kalbant apie sunkias problemas, R1 tiesiogine prasme sako, kad jis„ nusivylė “, – sakė Guha. „Buvo juokinga pamatyti, kaip modelis mėgdžioja tai, ką gali pasakyti žmogus. Belieka išsiaiškinti, kaip „nusivylimas“ samprotavimais gali paveikti modelio rezultatų kokybę “.
Dabartinis geriausiai veikiantis etalono modelis yra O1, kurio rezultatas yra 59%, o po to neseniai išleistas „O3-Mini“ nustatytas aukštas „samprotavimo pastangas“ (47%). (R1 surinko 35%.) Kaip kitas žingsnis, tyrėjai planuoja išplėsti savo bandymus su papildomais samprotavimo modeliais, kurie, jų manymu, padės nustatyti sritis, kuriose šie modeliai gali būti sustiprinti.

„Jums nereikia doktorantūros, kad būtų galima gerai samprotauti, todėl turėtų būti įmanoma sukurti samprotavimo etalonus, kuriems nereikia žinių daktaro laipsnyje“,-teigė Guha. „Etalonas su platesne prieiga leidžia platesniam tyrėjų rinkiniui suprasti ir analizuoti rezultatus, o tai savo ruožtu gali sukelti geresnių sprendimų ateityje. Be to, kadangi moderniausi modeliai vis labiau naudojami nustatymuose, kurie daro įtaką visiems, mes tikime, kad visi turėtų sugebėti intuityviai nustatyti, kokie šie modeliai yra ir nėra-galimi. “