2024. május 20. 09:00 - Danube Institute

Megérkezett az OpenAI új, kísértetiesen emberszerű modellje

Az OpenAI bemutatta legújabb GPT-4 modelljét, a GPT-4o-t, ami képes valós időben, teljesen összehangolt beszélgetést folytatni, tulajdonképpen imitálva a természetes emberi beszédet, ráadásul az új modell bárki számára, ingyen hozzáférhető lesz.

shutterstock_2277274631.jpg

Az új GPT-4o nevének utolsó betűje az „omni” kifejezést jelképezi, ezzel is utalva a modell széleskörű, már-már univerzális kifejezőképességeire és magas fokú modalitására: az OpenAI legújabb terméke ugyanis egyaránt alkalmas szöveg, hang és kép szinte bármilyen kombinációjának befogadására és létrehozására. A képességeit tekintve úttörő fejlesztésről beszélhetünk, elődeivel ellentétben ugyanis a GPT-4o a be- és kimenő információkat egyetlen neuronhálózaton keresztül dolgozza fel. A korábbi modellek esetében 3 különálló csatorna segítségével ment végbe az információcsere: külön rendszer írta át a hangot szövegre, külön történt a szöveges válaszadás, és végül egy harmadik csatorna konvertálta vissza a szöveget hanggá.

A fejlesztés egyik leglátványosabb eredménye a GPT-4o elképesztő gyorsasága a válaszadás tekintetében: az új modell az átlagos 320 milliszekundumos sebességgel teljes mértékben képes letükrözni az emberi beszédsebességet.

Azonban nemcsak a válaszidő miatt ijesztően emberszerű a OpenAI új fejlesztése, hanem azért is, mert figyelemreméltó finomsággal képes megérteni a látványt és a hangot, továbbá arra reagálva, érzelmeket imitálva adja vissza az emberi hanglejtést. Sam Altman, az OpenAI vezérigazgatója a modell bemutatóját követően egy sokatmondó X posztban utalt a híres romantikus sci-fi, a Her (A nő) operációs rendszerére. 

Az összehangolt neuronhálózat sokkal több információ megőrzését biztosítja, így azok a részletek, amelyek a korábbi verziókban elvesztek, mint például a hangtónus, vagy a háttérzaj ugyanúgy feldolgozásra kerülnek. A GPT-4o integrált megoldásként sokkal összetettebb feladatok ellátására is alkalmas, képes énekelni, valós időben fordítani, sőt nevetni is. Az új multimodális modell széleskörűen használható lehet a gyakorlatban akár fordítási vagy ügyfélszolgálati tevékenységek ellátására.

A GPT-4o teljesítményszintje az angol nyelvű szövegek és a kódolási feladatok tekintetében szinte azonos az őt megelőző GPT-4-Turbo képességeivel, azonban idegen nyelvű feladatokban jelentősen felülmúlja, ami egy befogadóbb és sokoldalúbb modellt eredményezhetett.

aidiagram.png

Forrás: AI News

Az új GPT-4o folyamatos további fejlesztések és kiképzések mellett több fázisban válik majd teljesen elérhetővé a biztonságosság és a használhatóság fokozása érdekében.

Az OpenAI az immár virtuális baráthoz hasonló, beszélő modell összes funkcióját ingyenesen hozzáférhetővé tette, ami szintén egy jelentős változás a mesterséges intelligencia elérhetőségének tekintetében.

A minden korábbinál könnyedebb és természetesebb hatású AI modell széleskörű térhódítása így aligha várat sokat magára, a sci-fi-k mesterséges intelligenciájának kora talán már tényleg a küszöbön áll.

Szemlézte: Szigeti Eszter Virág

Tetszett a cikk? Hasonló tartalmakért kövess minket a Facebookon

komment
süti beállítások módosítása