Termékek kategorizálása a BERT modell segítségével
Elmentve itt :
| Szerző: | |
|---|---|
| További közreműködők: | |
| Dokumentumtípus: | TDK dolgozat |
| Kulcsszavak: | adatfeldolgozás BERT modell HuBERT kategorizálás mesterséges intelligencia Python |
| Online Access: | http://dolgozattar.uni-bge.hu/57963 |
| Kivonat: | A kategorizálás szerepe napjainkban nagyon fontos tényező, különösen egy online áruházat vezető cég számára, amely rengeteg termék árusításával foglalkozik. Fontos, hogy vevői szempontból a kategorizálás egyszerű, áttekinthető legyen, hogy gyorsan meg lehessen találni a megfelelő terméket. Ami a kategorizálás felépítésén kívül is fontosabb tényező az az, hogy a termékek jól legyenek besorolva, hiszen ha a vevő megtalálja a megfelelő kategóriát, akkor azt egyértelműen úgy kezeli, hogy csak azok a termékek vannak készleten, amik ott találhatóak. A dolgozat témája is ehhez köthető, hogy miként lehet bekategorizálni egy több ezer termékből álló adathalmazt a megfelelő csoportba kategorizálni, mindezt úgy, hogy több mint ezer kategória van. Ezt a feladatot egy webáruház egészen eddig manuálisan kezelte, viszont egy olyan megoldást szerettek volna, amely ezt automatizálni tudja. Célom az volt, hogy ez megvalósuljon, mindezt úgy, hogy a kategorizálási hiba arány csökkenjen a manuális megvalósítással szemben. A feladat lényege tehát az volt, hogy olyan programot készítsek, amely feldolgozza és értelmezi a termékek neveit és a rendelkezésemre álló adatbázisnak megfelelően kategóriákba sorolja őket. Ehhez a feladathoz mesterséges intelligencia használata tűnt a legoptimálisabbnak, ezért ezen a területen kezdtem el kutatni, hogy mely modell lenne megfelelő a feladatra. Így találtam rá a BERT modellre, amelyet a Google fejlesztett ki, és már sok más nagyobb cég is használ termékek kategorizálására. Ennél a projektnél egy BERT-Base modellt alkalmaztam, mivel ez az a modell, amely képes úgy tanulni, hogy figyelembe veszi a szavak közötti kapcsolatot, ami által könnyebben és gyorsabban tudja kezelni a kategorizálási folyamatot. Ehhez a kutatáshoz az adatokat megkaptam, mint primer adatforrás, secunder forrásként pedig az irodalmi kutatásokhoz fordultam. Mivel fontos volt a megbízhatóság és a korszerűség, az utóbbi területen e szerint próbáltam összegyűjteni a szükséges információkat. A kutatásaim során azt állapítottam meg, hogy ehhez a feladathoz elég csak egy finomhangolást végeznem egy már előre betanított modellen. Rengeteg BERT típust hoztak már létre különféle célokra, ezek közül én a HUBERT modellt (Hungarian Language modell) tartottam a legcélszerűbbnek választani, mivel az adatbázisom magyar nyelvű volt. Több tesztelés után végül megállapítottam, hogy bár nem tudtam kizárni a hibás bekategorizálás lehetőségét, azonban nagyon jól teljesített a feladat automatizálásában, mivel sokkal gyorsabban tudta megtalálni az adott kategóriát, mint a manuális megoldás esetében, illetve az átlagos manuális hibázási rátánál így is jobb eredményeket ért el. Továbbá a modell segítségével sikerült felfedezni olyan termékeket is, amelyek hibásan voltak bekategorizálva a manuális munkafolyamat során. |
|---|