K.I.T.T. hallasz? Gyere értem!

2013.05.16. 07:04

Pajti hallasz? Gyere értem, és közben tartsd nyitva az érzékelőidet! A legtöbben valószínűleg egyből rávágják, hogy ezek a szavak csak David Hasselhoff, pontosabban Michael Knight szájából hangozhattak el. És, hogy kihez beszél? Persze, hogy K.I.T.T.-hez, az átlag embernél is sokkal intelligensebb Pontiac Trans Amhez. A Jogért és Igazságért alapítvány megbízásait 1982 és '86 között végezte a világhírű páros, azaz huszonhét év telt el azóta, hogy K.I.T.T. utoljára teljesítette Michael utasításait. Persze, akkor ez csak a képernyőn fordulhatott elő, de hol tart ma a technika? Léteznek-e már igazi K.I.T.T.-ek?

Idén tizedik alkalommal rendezte meg a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kara a Simonyi Konferenciát. A konferencia során évről-évre egyetemisták, cégvezetők, multinacionális cégek magyar munkatársai tartanak előadásokat a jövő villamosmérnöki és informatikai vívmányairól. Így került a meghívottak közé Vékony Attila, az NNG Kft vezető fejlesztője is. Akinek az NNG név nem mondd semmit, annak elárulom, ők fejlesztették ki, az iGOt. A világszerte használt navigációs szoftver, az iGO My way 2006-os bemutatása óta vezető szerephez jutottak az autós navigációk piacán.

Ma már semmi meglepő sincs abban, hogy a grafikus felületet egy hangalapú rendszer egészíti ki, azaz, hogy Bori, Eszter, vagy az ízesen beszélő Isti igyekszik minket a helyes irányba terelni. Az autós navigációk világában ez kifejezetten fontos, hogy minél kevesebbet kelljen a sofőrnek levennie a tekintetét az útról, de a címet még mindig nekünk kell beírnunk az érintőfelületen. Van, ahol folyóírással, van ahol a felkínált virtuális billentyűzeten. Pedig mennyivel könnyebb lenne, ha csak meg kéne mondanunk, hogy hová irányítson minket a szoftver.  Ezzel el is jutottunk az előadás témájához, a beszédfelismerés tudományához, ami létezik, és nincs is olyan távol, mint a Knight Rider sorozat bemutatásakor tűnhetett.

Leírva nagyon egyszerűnek tűnhet a tudomány: belebeszélünk a mikrofonba, a hang byte-okká alakul, a byte-ok írásjelekké, pontosan C++ kódokká változnak, amiket már egyértelműen tud kezelni a szoftver, és azonosítani egy tárolt mintával, mintha csak begépeltük volna. Érdekesség nördöknek: a grafikus felület nem C++ban, hanem Lua Scriptben van.

Más típusú navigációkkal ellentétben van előnye is annak, hogy pont az autós rendszerekre való adoptálás az első számú cél: nincs akkumulátorprobléma, kompaktsági kényszer, és ebből kifolyó kapacitásgond. A könnyebbségeket ezzel ki is végeztük, jöhetnek a nehézségek. A beszédfelismerés egyik legkomolyabb problémája mi magunk vagyunk, azaz, hogy még nem vagyunk felkészülve rá. Ameddig a billentyűzettel és az egérrel konkrét utasításokat adunk, a hangunkkal nem biztos, és ezért félünk is a technikától. A másik nagy problémát az utasítások jelentik, pontosan az utasítások szűkössége.

Két típusú navigációt különböztetünk meg: online és offline. Az online navigációk előnye, hogy a mintákat nem kell az autóban tárolni, és folyamatosan bővíthető a készlet, ilyen például a Google rendszere. Az offline navigációknál behatároltak a lehetőségeink, sőt állandó szoftverfrissítési kényszer alatt állunk, ilyen az iGO. Ez általában úgy működik, hogy a megrendelő hardvergyártó cég megmondja, hogy milyen utasítások közül választhasson a jövőbeni felhasználó. Ezeket mind előre egy hangstúdióban rögzítik. Nagyon fontos az anyanyelv, a kiejtés, és a hangsúly, pontosabban a hangsúlytalanság. Csak egy átlagos menürendszer 150 felvett parancsszóból áll. Ezen kívül még sok mindenre meg kell tanítani a szoftvert, például egy adott parancsszó alternatíváira, a fonetikusan hasonló szavakra való visszakérdezésre, vagy a kulcsszavak keresésére. Ha elmondjuk az úti célunk a rendszernek, a szoftver sorba rendezi a lehetséges címeket, a leginkább egyezőnek találtat előre véve. Ilyenkor jön általában a visszakérdezés, hogy helyes-e az azonosított cím. Ez azért nagyon fontos, mert csak az Egyesült Államokban 4,3 millió választható cím van.

Választ adva a bevezetésben feltett kérdésre, hogy léteznek-e már igazi K.I.T.T.-ek? Egy kis túlzással a válasz igen. Sőt, a felsőkategóriás sorozatgyártásban lévő autók nagyon kis százalékában ugyan, de a navigáció már beszédfelismerő . Ebből azt hihetnénk, hogy megint egy megfizethetetlen úri kiváltságról beszélünk, pedig nem. A szoftveres rész egészen kis ráhatást gyakorol csak a navigációk áraira, hardveresen pedig nincs újdonság a folyamatban.

Akkor miért nincs beszédfelismerés az alsóbb kategóriában? Mert az autógyárak visszatartják. Ennek egyszerű oka van. Egy modellt átlagosan öt évig tartanak a piacon, amit két-három éves méregdrága fejlesztés előz meg, tehát nagyjából nyolc éves csúszásban van az autóipar a napról-napra rohamosan fejlődő informatikai megoldásokhoz képest. Kidobni a kifejlesztett konstrukciót pedig pazarlás lenne.

Nézzük a dolog jó oldalát, mire a családi kompaktokat is elöntik a beszédfelismerő navigációk még okosabbak lesznek a szoftverek, és akár több nyelven is szólhatnak hozzánk. Az iGO beszédfelismerője most még csak angolul ért, de a Volánbusz hangszóróiból ismert Eszter már szorgosan mondja az utasításkészletet a stúdióban.