A mesterséges intelligencia szerepe a járműelőéleti adatok keresztellenőrzésében
Győrben tavaly ősszel történt valami, ami jól mutatja, miért foglalkozik most fél iparág a gépi tanulással. Egy ottani használtautó-kereskedő három hét leforgása alatt hat kocsit vett vissza a vásárlóktól, mindegyiknél ugyanaz volt a sztori, visszatekert kilométeróra, a manipulációt még Németországban végezték el az importálás előtt. Az illető állítja, végigment a szervizkönyveken, megnézte a műszaki vizsgák bejegyzéseit is, de az egyik német tartomány műszaki vizsgaadatbázisa késett a frissítéssel, pont ott csúszott át a hamisítás. Na mármost, pont az ilyen jellegű réseket kellene befoldoznia a gépi tanulásnak, ezt hallja az ember minden második konferencián. Hogy mennyit ér mindez hétfő reggel, amikor tényleg ott a probléma, az viszont más kérdés.
Kezdjük a számokkal, mert azokkal legalább nehezebb trükközni. Az Európai Parlament 2018-ban készített egy tanulmányt, abban az állt, a határokon átnyúló használtautó-tranzakcióknál a járművek 30 és 50 százaléka között manipulálhatták az óraállást. Az éves kár Európa-szerte 5,3 milliárd euró körülire jön ki, legalábbis azóta nem frissítette ezt a becslést senki, ami már önmagában elég beszédes. Itthon meg mi a helyzet? A 2024 szeptembere és 2025 augusztusa közötti járműtörténeti jelentések azt mutatják, az ellenőrzött autók 5,3 százalékánál bukott ki visszatekerés. Importoknál rosszabb a kép, 6,6 százalék, a tisztán hazai forgalmúaknál meg kb. 4 körül van. Az átlagos eltérés mértéke 82700 kilométer, ami nem vicc, gondoljunk bele, mit jelent ez mondjuk a futómű vagy a turbó állapotára nézve. Nekem egy csalásmegelőzéssel foglalkozó szakember mondta egyszer, a kézi adategyeztetés tulajdonképpen szerencsejáték, azon múlik, az ellenőr melyik adatbázist nyitja meg először, és egyáltalán észreveszi-e, ha két szám nem stimmel. Száz autó felett hetente ez már nem megy.
Na itt jön be a gépi tanulás. Papíron legalábbis. Hogyan működik ez? Az algoritmus egyszerre szedi össze, ami elérhető, kormányzati nyilvántartás, biztosító, aukciós jegyzőkönyv, gyártói visszahívás, és ami fontos, nem egyenként vizsgálja ezeket, hanem egymáshoz képest keresi az ellentmondásokat. A carVertical egyik elemzője nekem azt mondta, a tényleges áttörés abban van, a gép összedobál két olyan rekordot, amiket élő ember sosem tenne egymás mellé, egyrészt nincs rá ideje, másrészt eszébe sem jut, mert a két rendszer köszönőviszonyban sincs egymással. Kézzel hét adatbázist végignézni napok, a gépi rendszer meg pillanatok alatt kiköpi, ha a szerviz és a műszaki vizsga nem stimmel, vagy a biztosító káresemény-dátuma nem illik a hirdetés időrendjébe.

Amerikában idén az egyik nagy kereskedőlánc valós idejű rendszert rakott össze hamis személyazonosságok kiszűrésére, ami mutatja, mekkora pénzekről van szó, az ottani autóipari csalások összértéke 2026-ra 10 milliárd dollárt is elérhet. Európában egész más a kép, itt minden szétszabdalt. Nincs egységes járműnyilvántartás, az adatformátumok tagállamonként mások, a hozzáférés meg végképp kuszált, aki mondjuk Romániából importál Magyarországra, az öt-hat adatforrásból rakja össze kézzel az autó teljes előéletét, ha egyáltalán hozzáfér mindhez. A gépi tanulásnak pont az a nagy előnye, megtanítható, különböző formátumú adatokban felismerje a gyanúsat. Mondjuk ha egy kocsi 2023-ban 180000-rel ment át a német műszaki vizsgán, aztán itthon 2024-ben 95000-rel hirdetik meg, na az elég egyértelmű jelzés kellene legyen.
Rendben, szóval nem csodaszer, és erről őszintén kéne beszélni a szakmában. Sokan kezelik úgy, mint valami varázspálcát, közben a keresztellenőrzés nem ér többet, mint az adat, amit kap. Márpedig az európai járműadatbázisok, hogy diplomatikusan fogalmazzak, szitának is gyengék lennének. Bulgáriában, Romániában a műszaki vizsgaadatok egy része a mai napig papíron létezik, ha egyáltalán létezik. Volt olyan eset, hogy egy adatbázis hónapokig nem frissült, és a hiányt senki nem vette észre, vagy ha igen, nem szólt. Adathiánynál a gép tehetetlen, a legokosabb algoritmusból sem lesz jóslás, ha nincs mihez nyúlnia. A NAV és a KSH adatai itthon azért fontosak, mert ezek a legstabilabb referenciapontok, de a hatósági rendszerek jellemzően csúsznak két-három hónapot, szóval friss importnál az AI sokszor tátott szájjal áll. Ezt a szakmában nyílt titoknak hívják, a tech cégek viszont nem szeretik megemlíteni, érthetően.
Egy dologban viszont a gép tényleg ver mindenkit, mégpedig a mintázatfelismerésben. Nem buzzword, tényleg erről van szó. Elég adatból az algoritmus kitalálja, milyen futásteljesítmény normális mondjuk egy 2018-as középkategóriásnál, és ha az óraállás az alsó 2 százalékba esik, na az még nem perdöntő, de azt jelenti, érdemes oda jobban odanézni. A prémium limuzin-kategóriában itthon 9,7 százaléknál jött ki visszatekerés az ellenőrzött autóknál, az átlagos mértéke 97927 kilométer. Az üzleti szedánoknál hasonló sztorik, 9 százalék, 62217 kilométeres átlag. Aki régóta van a pályán, fejben tartja ezeket a sávokat, de az algoritmus abban jobb, hogy minden beérkező adatból finomít, negyedévente senki sem kell, aki átírja a szabályokat.
Az emberi szakértelem ettől nem megy semmire, sőt, azt gondolom, a következő tíz évben biztosan nem. Van egy debreceni kereskedő, akivel rendszeresen beszélek, ő hetente futtatja a gépi ellenőrzést az összes bejövő kocsin. A durva eseteket kiszúrja a rendszer, abban zseniális, mondja, de ha a csaló profin dolgozott, ott az dönti el az egészet, hogy fogod magad, kézbe veszed a szervizkönyvet, felhívod a korábbi tulját, megnézed azokat az apróságokat, amiket semmilyen gép nem fog észrevenni. Mondott egy példát, tavaly két autó simán átment a szűrőn, mindkettőnél utólag bukott ki a probléma. Az ok banális volt, az adatforrás, ahonnan az algoritmusnak dolgoznia kellett volna, üres volt arra az időszakra. Nem a gép hibázott, nem kapott anyagot, ennyi. Egy tapasztalt elemző viszont olyasmire is figyel, amit a gép nem lát, tudja fejből, melyik román telepről jöttek korábban gyanús autók, melyik német aukciós ház szépíti rendszeresen az állapotleírásokat. Ezt nem lehet adattáblába önteni, de a kockázati besorolásnál ezek a puha infók döntik el a végeredményt. Az lenne az ideális, ha a gép szűri előre, ember dönt utána, a riasztás igazi-e. Egyelőre a jelzések talán harmada-negyede bizonyul tényleges manipulációnak, a többi szinkronhibából fakad. Az adathiányt infrastruktúrával kell orvosolni, digitalizálással, egységes formátumokkal, nem algoritmussal. Az EU-nak van valami tervezete erről, a járműadatok összehangolásáról, de az utolsó nyilvános státuszfrissítés óta csend van.

Hozzászólások lezárva.