Představte si, že by umělá inteligence dokázala pracovat na stejné úrovni jako zkušení profesionálové. Přesně to se OpenAI pokusila změřit svým nejnovějším benchmarkem GDPval – a výsledky jsou pozoruhodné.
Co je GDPval a jak funguje
Ve čtvrtek OpenAI odhalila zcela nový způsob testování AI modelů. Místo abstraktních akademických testů jde tentokrát o něco mnohem praktičtějšího – přímé porovnání s lidskými profesionály v reálných pracovních situacích.
GDPval je benchmark zaměřený na devět klíčových odvětví, která nejvíce přispívají k americkému HDP. Zahrnuje zdravotnictví, finance, výrobu, vládní sektor a další oblasti. V rámci těchto odvětví test pokrývá 44 různých profesí – od softwarových inženýrů přes zdravotní sestry až po novináře.
Jak test probíhá? OpenAI požádala zkušené odborníky, aby porovnali zprávy vytvořené umělou inteligencí se zprávami od skutečných profesionálů. Následně měli vybrat tu kvalitnější – a často nevěděli, která pochází od AI.
GPT-5 překvapivě blízko lidem
Výsledky jsou impozantní. Model GPT-5-high, vylepšená verze GPT-5 s dodatečným výpočetním výkonem, byl hodnocen jako lepší nebo minimálně srovnatelný s lidskými experty ve 40,6 % případů. Ještě lépe si vedl konkurenční model Claude Opus 4.1 od Anthropic s úspěšností 49 %.
Pro srovnání – model GPT-4o, který vyšel před zhruba 15 měsíci, dosáhl pouze 13,7 %. Pokrok je tedy markantní a naznačuje prudký vývoj v této oblasti. Pokud vás zajímají praktické využití AI nástrojů, můžete je vyzkoušet na 1AI.cz.
Co to znamená pro budoucnost práce
Neznamená to však, že AI okamžitě nahradí lidi v jejich zaměstnáních. OpenAI sama přiznává, že současná verze GDPval pokrývá jen velmi úzký výsek toho, co lidé ve skutečnosti dělají. Test se zatím zaměřuje hlavně na tvorbu výzkumných zpráv, což je jen zlomek pracovní náplně většiny profesí.
Hlavní ekonom OpenAI, Dr. Aaron Chatterji, vidí výsledky spíše jako příležitost k optimismu. Podle něj mohou lidé v těchto profesích využívat AI modely k odlehčení rutinní práce a věnovat se smysluplnějším a hodnotnějším činnostem.
Vedoucí hodnocení v OpenAI, Tejal Patwardhan, je povzbuzená rychlostí pokroku. Trojnásobné zlepšení za pouhých 15 měsíců naznačuje, že trend bude pokračovat. OpenAI už plánuje robustnější verze testu, které budou zahrnovat více odvětví a interaktivních pracovních postupů.
Budoucnost práce s umělou inteligencí se rýsuje stále jasněji. Pokud chcete být v obraze a vyzkoušet si možnosti moderních AI nástrojů, navštivte 1AI.cz, kde najdete přehled aktuálních technologií.
