képfelismerési technikák összehasonlítása mély tanulási és a hagyományos módszerek között
Elmentve itt :
Szerző: | |
---|---|
További közreműködők: | |
Dokumentumtípus: | Diplomadolgozat |
Kulcsszavak: | képfeldolgozás klasszifikáció Konvolúció mesterséges intelligencia neurális hálózatok |
Online Access: | http://dolgozattar.uni-bge.hu/54580 |
Kivonat: | A szakdolgozat a mesterséges intelligencia (AI) és a mély tanulás (deep learning) területének fejlődését és alkalmazásait vizsgálja a képfeldolgozás kontextusában. Kiemelten foglalkozik a konvolúciós neurális hálózatok (CNN) és a hagyományos gépi tanulási algoritmusok, mint a k-legközelebbi szomszéd (kNN) és a támogató vektor gépek (SVM) erősségeivel és gyengeségeivel a képosztályozás területén. A szakdolgozat részletesen elemez egy specifikus adathalmazt, a 'Stanford Dogs'-t, amely 20,580 képet tartalmaz 120 kutyafajtáról. A dolgozat a neurális hálózatok fejlődését és hatékonyságát vizsgálja a képosztályozás kontextusában, összehasonlítva a LeNet-5, AlexNet, VGGNet, GoogLeNet, ResNet és Xception modelleket. Ezek a modellek egy világos irányt mutatnak a mélyebb és összetettebb architektúrák felé, az előző modellek fejlesztéseire és hiányosságaira építve. Az eredmények egyértelműen azt mutatják, hogy az újabb architektúrák, mint a ResNet és az Xception, pontosság és hatékonyság tekintetében felülmúlják a hagyományos gépi tanulási modelleket, valamint a korábbi konvolúciós modelleket. A dolgozat kritikai elemzése rávilágít arra, hogy a neurális hálózatok architektúrájában nincsenek univerzális megoldások, mivel minden modell egyedi erősségeket és gyengeségeket mutat, amelyek különböző típusú képosztályozási feladatokhoz alkalmassá teszik őket. Például a VGGNet egyszerűsége és mélysége miatt nagy teljesítményű a képek összetett jellemzőinek megragadására, de számításigényes is, míg a GoogLeNet és az Xception a mélység szerint szeparálható konvolúciós rétegekkel egyensúlyt teremt a számítási hatékonyság és a teljesítmény között. A ResNet jelentős előrelépést jelentett a reziduális kapcsolatok bevezetésével, amely lehetővé tette a sokkal mélyebb hálózatok tanítását, az Xception pedig továbbfejlesztett a reziduális kapcsolatokra építve. Összefoglalva, a szakdolgozat mélyrehatóan vizsgálja a különböző neurális hálózati architektúrák fejlődését és hatékonyságát a képosztályozás területén, a tervezési elveket, működési mechanizmusokat és alkalmazási kontextusokat bemutatva. Az architektúrák fejlődése a mélytanulás területén jelentős technológiai előrelépéseket mutat, kiemelve a neurális hálózatok mélységének és komplexitásának fontosságát a képfelismerési lehetőségek javítása szempontjából. |
---|