5. alszekció a helyezések megjelölésével

Számítógépes grafika és képfeldolgozás

 

Balázsfalvi Gábor

Neurális hálók alkalmazása elektronikus beléptető rendszerekben

Debreceni Egyetem

Témavezető: dr. Várterész Magda

 

Dolgozatom az előrecsatolt, többrétegű neurális hálózatokról (továbbiakban háló), és ezek egy érdekes alkalmazási területéről szól. Ez a terület a hálók osztályozóképességén alapuló arcfelismerés, melyet kiválóan lehetne alkalmazni az elektronikus beléptető rendszerekben. Az ilyen helyekre történő regisztrálás általában két úton megy:

További gond a jelszóválasztás. A mostanában érvényben lévő biztonsági előírások nem tesznek lehetővé egyszerű jelszavakat. Ezért a különböző helyekhez különböző nevek és különböző jelszavak tartoznak majd. Léteznek különböző, beléptetést segítő szoftverek, viszont ezek géphez kötöttek. Az alapelv az, hogy az egyéni azonosítót ne kelljen megjegyezni, legyen mindig a felhasználónál, és legyen egységes. Ilyen azonosító például az arc. A megoldandó problémák, és néhány problémára a megoldás, amelyekről írok a dolgozatomban:

 

III. helyezett: Bors Bálint – Horváth Rudolf – Safranka Mátyás

Cerberus projekt

Budapesti Műszaki Főiskola

Témavezető: Vámossy Zoltán

 

A célunk egy olyan rendszer megvalósítása, amely alternatívát kínál a hagyományos jelszó alapú azonosítás helyett. Az azonosításhoz két biometriai jellemzőt használunk fel, az egyén arcformáját, illetve a hangjának jellemzőit.

A hangnak nem felismerése, szöveggé alakítása a cél, hanem a kapott hangmintából a beszélőre vonatkozó adatok kinyerése. Ezek alapján történhet annak megállapítására, hogy a beszélő az-e, akinek állítja magát. Az azonosítás első lépése a bejövő hangminta előfeldolgozása. Három eljárás kerül alkalmazásra: linear prediction módszert használunk spektrális analízishez, amely kiemeli a hang formáns struktúráját; az alapharmonikus-vizsgálat, amely egyénre jellemző hullámfüggvényt ad; míg az átlagos amplitúdó módszer felhasználásával a szavak szeparálása végezhető el. Ezután a kinyert jellemzők átadása következik az osztályozó rendszer számára.

A hang alapú azonosítást a hatékonyság növelése érdekében arcjellemzőket felhasználó technikával egészítettük ki. Már évtizedekkel ezelőtt írtak számítógépre arcfelismerő alkalmazásokat, azonban a gépi teljesítmény növekedésével vált igazán megbízhatóvá ez a megközelítés. Többféle megközelítési mód létezik a számítógép által nehezen értelmezhető képi információ feldolgozására, illetve az abból való információ kinyerésére. Az elkészült rendszeren belül a program először átalakítja a képet egy egyszerűbben értelmezhető formára, ezután a Randomized Hough transzformáció alkalmazásával megkeresi az arcot a képen, majd kiemeli jellemző pontjait (szemek, száj stb.). Ezen a referenciapontok szolgálnak az azonosítás alapjául.

Az osztályozó rendszer neurális hálózatos megvalósításban készült el. Ebben az esetben hasznos a neurális hálózatok asszociálási képessége, vagyis az, hogy képes minták hasonlóságát, vagy éppen eltérését felismerni. Egy többrétegű (3 rétegű + 1 bemeneti réteggel rendelkező), perceptron elvű, teljes összeköttetést alkalmazó, visszacsatolás nélküli hálózati topológiát választottunk. A bemeneti réteg és a két rejtett réteg elemszáma a bejövő információ méretétől függ. A tanítás egy felügyelt backpropagation algoritmussal történik, ahol a helyes kimenetet az output neuronok 1 értéke jelenti. A felismeréskor a minta végighalad a betanított hálón, majd a kimeneten a minden neurontól kívánt 1 értékű kimenettől való négyzetes eltérést vizsgáló függvény által visszaadott érték alapján történik az osztályozás.

 

Farkas Péter

Képnagyítási eljárások minőségének mérése pszichofizikai tesztek segítségével

Veszprémi Egyetem

Témavezető: dr. Szirányi Tamás

 

Képfeldolgozás területén mindig fontos kérdés egy adott eljárás minősége, azonban a különféle mértékek, amelyek a kép minőségét hivatottak mérni, soha nem felelnek meg pontosan az emberi szem által érzékelt, és az ember által érzett, tapasztalt minőségi mértéknek, ami többek közt a szem mint optika, a képi előfeldolgozó rendszer és az agy összetettségének, bonyolultságának, de mindenekelőtt az ember-ember közötti különbségeknek köszönhető.

Éppen ezért egy eljárás igazi próbája az, amikor az eredményt az a célszemély vagy célközönség értékeli, véleményezi, akinek/amelynek szempontjából az eljárás minőségmérését végezzük.

Számos képátméretezési, kép-újramintavételezési módszer létezik, azonban – minthogy a nagyítással plusz információt viszünk be a rendszerbe – az eredményképen zavaró hatások jelennek meg.

Az általam vizsgált képnagyítási eljárások legfőbb zavaró hatásai:

·         pixelesség (főleg az átlós vonalakon látható szögletesség),

·         elkentség (vagy más szóval homályosság),

·         irrealitás (ismert természeti képek esetén irreális, lehetetlen formák jelenléte).

Az általam használt képnagyítási eljárások a következők voltak:

·         Legközelebbi szomszéd – „nearest neighbourhood” módszer (pixeles eredmény),

·         Bell interpoláció (homályos eredmény),

·         Lanczos interpoláció (kevéssé pixeles és kevéssé homályos eredmény),

·         kétféle paraméterezésű fraktál tömörített kép, fraktáltartományban történt nagyítással (éles, bizonyos paraméterezésnél pixeles, de irreális, lehetetlen formákat tartalmazó eredmény).

Munkám során azt vizsgáltam, hogy a fent említett zavaró hatásokat a tesztalanyok mennyire tekintik saját maguk számára zavarónak, vagyis ezek közül melyiket tekintik súlyosabb hibának, és melyiket kevésbé súlyosnak.

 

különdíj: Gera Zsolt

Fókuszálás OpenGL-ben

Szegedi Tudományegyetem

Témavezető: dr. Dombi József

 

Dolgozatomban a számítógépes vizualizáció élethűségének növelésével foglalkozom. Általában a grafikai rendszerek, így az OpenGL is, minden objektumnak éles képét készíti el, legyen az objektum bármilyen távolságra is a képzeletbeli megfigyelőtől. Ez egy valótlan kép. A valóságban, az emberi látás során mindig egy bizonyos távolságra fókuszálunk szemünkkel, és minél távolabb esnek a tárgyak ettől a fókuszponttól, annál homályosabbnak látjuk őket. Ilyen módon megjelenítve az objektumokat, a virtuális tér sokkal valóságosabbnak hat, illetve jobban ki lehet emelni a lényeges információt.

Több módszert is ismertetek, elemzem mindegyik előnyeit, hátrányait. Dolgo­zatom végén pedig bemutatok egy olyan általános módszert, amelyet alkalmazva még több életszerűség vihető egy már létező virtuális világba.

 

I. helyezett: Kiss Zoltán – Rodek Lajos

Körmetszeteket tartalmazó tárgyak rekonstrukciója néhány vetületből

Szegedi Tudományegyetem

Témavezető: dr. Kuba Attila

 

Nemroncsoló anyagvizsgálat végzésekor jelentkezett a következő probléma: Rekonstruáljunk egy olyan 3D homogén anyagú tárgyat vetületi képeiből (pl. röntgen vagy neutronos felvételekből), amelyről tudjuk, hogy keresztmetszetei egymást nem átfedő, ismert számú körlapból és körgyűrűből állnak (pl. csapágyak, csövek). A megoldásnál vegyük figyelembe azt, hogy a leképezés – és így a vetületi képek – zajjal terheltek, továbbá szeretnénk a rekonstrukciót minél kevesebb számú vetületből elvégezni.

Megoldásként egy olyan eljárást választottunk, amely a rekonstrukciós problémát optimalizálásként fogalmazza meg. Keressük köröknek azt a konfigurációját, amelynek a vetületei a lehető legkisebb mértékben térnek el a megadott vetületi adatoktól. Az eltérés mértékeként a négyzetes eltérést választottuk. A keresési tér pontjai pedig megfelelnek a konfigurációban szereplő körök sugarai és középpontjai lehetséges értékeinek. A futási sebesség növelése és a rekonstrukció sikerességének biztosítása érdekében az eljárás egy alkalmas induló konfiguráció megkeresésével kezdődik. A szimulált lehűlés elvét használó algoritmust implementáltuk ennek az optimalizálási problémának a megoldására. Hogy a módszer hatékonyságát vizsgálhassuk, a programot beillesztettük a tanszéken fejlesztett DIRECT rendszerbe, amely diszkrét tomográfiai problémák megoldására alkalmas keretrendszer. Beszámolunk a program működésével kapcsolatos tapasztalatainkról és az elért eredményekről.

 

II. helyezett: Kovács Levente Attila

Animációs videók készítése sztochasztikus ecsetvonás‑transzformáció alapján

Veszprémi Egyetem

Témavezető: dr. Szirányi Tamás

 

Napjainkban számos kép- és videokódolási és tömörítési eljárás létezik. Az ecsetvonás-transzformációk alapötlete az volt, hogy úgy állítsunk elő egy képet, hogy az utánozza a művészi látásmódot, a festési eljárásokat és a képi információ – veszteséges – tömörítésére is alkalmas legyen.

Ebből a transzformációs eljárásból kiindulva próbáltunk eljárást kidolgozni mozgóképek – videók – transzformációjára, melynek lényege az, hogy hétköznapi videofelvételekből animációszerű kimenetet állít elő, amely szintén rendelkezik az eredeti transzformációs eljárás tulajdonságaival. Ecsetvonás alatt egy megfelelő méretű szürkeskálás képpel meghatározott mintát (template-et) értünk, melyet skálázunk mind méretben, mind irányban (tíz különböző méretskála, nyolc különböző irány).

A módszer lényege, hogy bizonyos számú keyframe teljes ecsetvonás-transzfor­mációs átalakításától eltekintve a frame-ek transzformálása mozgásinformációk alapján történik. Frame-ek közötti mozgásdetekció során nyert információkat felhasználva, csak a mozgó területeket transzformálva halad az eljárás, az átfestendő területeken a mozgás irányinformációit felhasználva a lehelyezendő ecsetvonások irányainak meghatározásánál.

A transzformáció kimenete egy ún. átmeneti formátum, melyben a video frame-jei a felhasznált ecsetvonások adataival kerülnek tárolásra (egy ecsetvonást egy paraméteregyüttes ír le: szín, pozíció, irány, azonosító), illetve a frame-ek közötti mozgásinformációkat is tartalmazza. Ebben a formátumban Huffmann (ecsetvonások paraméterlistája) és RLE (mozgásmezők) kódolással tároljuk az adatokat, ami elég jelentős méretcsökkenést tesz lehetővé. Ebből az átmeneti formátumból a kimeneti video teljesen visszaállítható, ami tetszőleges videoformátumban elmenthető.

Az eljárás csak a videók képi információt tartalmazó részét használja fel, a tartalmazott hanganyagot utólag kell a kimeneti videóhoz hozzáfűzni.

A módszer kiválóan alkalmazható átlagos videofelvételek rajzfilmszerű transzformálására, felvételek képi adatbázisokban történő indexelésre, valamint rajzfilmek kódolására és tárolására a hétköznapi kódolók (DCT, JPG, Wavelet) blokkosító mellékhatásainak elkerülésével.

 

Lukács Attila – Szelei Kis Gergely – Veres Péter

Valós idejű 3D-s megjelenítő rendszer

Debreceni Egyetem

Témavezető: Schwarcz Tibor

 

Ez a munka előre definiált háromdimenziós jelenetek valós idejű megjelenítésére irányul. Ezt három fő lépésben valósítottuk meg.

  1. Első lépésben a jelenetet leíró objektumok és azok tulajdonságai kerülnek betöltésre. Ezeket a szabványosnak tekinthető formátumban (3D-s) tárolt adatokat használjuk fel a transzformációk és a megjelenítés folyamán. Néhány szó a formátumról: az objektumokat a csúcsai alapján tárolja, minden oldallap háromszögekre (face) van bontva. A háromszögekhez csúcsonként tartozhatnak relatív minta – a mérete nem rögzített – koordináták. A kamera mozgása is itt van tárolva. Minden animálható dolog – skálázás, forgatás, mozgatás – véges sok pont formájában van tárolva (track), amiket futásidőben hermit-görbeként interpolálunk. Ezt az ún. Keyframer alegység végzi el.

  2. Második lépésben készül el a megjelenítendő kép. Ennek lépései: objektumok animálása a hozzájuk tartozó trackek alapján még objektumtérben. Itt minden objektumnak van egy jól definiált középpontja, amire nézve ezeket a műveleteket végrehajtjuk. Ez természetesen animálható. Így kerül minden egyes objektum a saját terében a megfelelő animációs fázisba. A kamerák is.

  3. Ezek után az objektumokat az ún. világtérbe helyezzük, ahol minden objektum egy adott origóhoz mérten helyezkedik el. Ehhez szükséges transzformációval az objektum rendelkezik. Az ezt követő lépésben ezt az origót helyezzük az adott kamera helyére – kamera tér –, mikor végül is megtörténik a centrális projekció, figyelembe véve a látószöget és a kamera dőlésszögét is.

Ekkor minden egyes csúcs adott kamerából nézve a helyére került, a face-ekhez hasonlóan. Ezt követi a legszámításigényesebb dolog: a látható objektumok képernyőn lévő pontjaihoz kell rendelni a megfelelő színértéket a minta alapján.

Az elkészült memóriabeli képet a Windows DirectX alrendszerének DirectDraw 4.0 interfészén keresztül tesszük a képernyőre. A kép adott színmélységre konvertálását gyors assembly rutinok végzik, az interfész ugyanis csak megfelelő formátumú képet képes megjeleníteni.

 

Pócza Krisztián

A láthatósági feladat megoldása háromdimenziós színtereken valós idejű alkalmazásokban. A PKBSP algoritmus

Eötvös Loránd Tudományegyetem

Témavezetők: Antal György, Csonka Ferenc

 

Napjainkban egyre nagyobb szerepet tölt be a háromdimenziós színterek valós idejű megjelenítése. Habár a számítógépek teljesítménye egyre nő, a háromdimenziós grafika számításigényének köszönhetően ez még mindig időigényes feladat. A színterek alapköveinek megjelenítésén algoritmikus módszerekkel nem, vagy csak elenyésző módon tudunk gyorsítani. A sebesség növelhető, ha megtaláljuk azokat az építőelemeket, amelyek nem láthatók, így az egyik fő feladat az, hogy kiszűrjük azokat a térrészeket, objektumokat, sokszögeket, illetve pontokat, amelyek az aktuális nézőpontból nem láthatók – kívül esnek a látótérén vagy más grafikai elemek eltakarják őket. Az eltakart elemek eltávolítására sok algoritmust fejlesztettek ki, melyeket összefoglaló néven takarásvizsgáló (Occlusion culling) módszereknek nevezünk.

TDK-munkánkban először a már ismert, gyakorlatban gyakran alkalmazott megoldásokba adunk betekintést, majd bemutatunk egy új megközelítést (PKBSP) a kitűzött feladat (nem látható elemek eltávolítása) megoldására. Algoritmusunk nem igényel bonyolult előfeldolgozást és olyan matematikai és geometriai módszereket, tulajdonságokat használ ki, melyek könnyedén alkalmazhatók valós időben. Az algoritmus térrészek, objektumok és sokszögek szintjén is dolgozik, ezzel lényegesen hatékonyabbá téve a takarások felderítését. Már ismert, széles körben használt megoldásokból építkeztünk.

 

Szabó Zoltán

Retina alapú mintavételezés arckomponens detektálási feladaton

Eötvös Loránd Tudományegyetem

Témavezető: Szatmáry Botond

 

A retina egy mindenki által tapasztalható jellemvonása a változó mintavételezési sűrűség: a retinában levő fényérzékeny sejtek eloszlása a centrumban (fovea) nagyfokú részletgazdagságot, a periféria felé haladva, pedig gyorsan csökkenő élességet eredményez (periférikus látás).

Neurobiológiai nyelvre áttérve az elsődleges látókéreg két fő alkotóelemből áll: (i) a foveának megfelelő nagyfelbontású központi részből, és (ii) a perifériáért – a nagyfelbontású részt körülvevő terület – felelős ritkább sűrűségű, de nagyobb receptív mezővel rendelkező, log-polár struktúrával leírható területből. Az az általános vélekedés, hogy a log-polár struktúra elsődleges oka a mozgásfelismerésben van: az idegrendszer előnyben részesíti ezt a nemlineáris transzformációt, hogy a fontos mozgások, mint például a közeledés (nagyítás), elfordulás (forgás) során fellépő változásokat egyszerű transzlációval (eltolással) közelíthesse.

Dolgozatomban azt a kérdést tanulmányoztam, hogy a nagyfelbontású fovea (központi) terület és az azt körülölelő log-polár környezet a viselkedés szempontjából fontos (FERET) arcadatbázis esetében okoz-e hatékonyságbeli romlást. A fo­veának megfelelő nagy felbontásnak egyenletes mintavételezést, míg a körülötte levő területnek log-polár perifériát feleltettem meg. A kialakított mintavételezések eredményét főkomponens analízis (PCA) segítségével reprezentáltam. Arckomponens jelöltek számát, illetve becsült pozíciójának pontosságát figyeltem a technikák összevetésekor, változó arányú foveaperiféria-méret mellett.

Eredményül azt kaptam, hogy az egyenletes mintavételezéshez képest a log-polár reprezentáció jelentősen ront az arckomponens felismerés jóságán. Az általam javasolt, biológiailag motivált eljárás (amely a peremen forgatás, és skálázásbeli invarianciával van felvértezve) egyáltalán nem ront, sőt, kismértékben javít ezen, viselkedés szempontjából fontos feladat felismerési esélyein.

 

Szolcsányi Éva

Háromdimenziós valósághű terepi modellezés

Gábor Dénes Főiskola

Témavezető: Berke József

 

A harmadik évezred küszöbén az információ szelektálásában, feldolgozásában különös jelentősséggel bír a képfeldolgozás. Mindezt alátámasztja az is, hogy az információ 60–90%-a vizuálisan vagy ahhoz köthető módon kerül feldolgozásra az agyban. A vizuális informatika széles körű alkalmazása közül került kiválasztásra jelen tudományos diákköri dolgozat témája is.

Nagypontossággal szkennelt légi felvételek alapján valósághű (geo-kódolt) virtuális terepmodellt állítottunk elő. A modellen elvégeztük a terepi adottságoknak megfelelő, geo-kódolás során keletkező hibák pontosítását.

A virtuális, valósághű szimulációhoz kiválasztottuk a megfelelő tesztterületeket, melyeken további terepi pontosításokat végeztünk digitális kamera segítségével.

A modell felhasználásával közvetlenül alkalmazható adatokat szolgáltatunk egy hazai tudományos kutatási program (Háromdimenziós képi adatokra épülő ökológiai folyamatok modellezése – IKTA-112, http://www.georgikon.hu/digkep /ikta112.htm) keretében elvégzendő szimulációkhoz.

Megvizsgáltuk interaktív tudásalapú multimédia anyagokban a valósághű modell alkalmazhatóságát. Elkészítettünk és gyári úton előállítottunk olyan multimédia alapú anyagot (Festmények interaktív kiállítása – NSZMAT v1.0), ahol a szimulációs modell egyszerűsített változata felhasználható.

Eredményeinket országos és nemzetközi szakmai konferencián mutattuk be:

·         Multimédia az oktatásban konferencia, Budapest, ZMNE, 2001. május 30. – június 1.

·         Fiatalok Műszaki Tudományos Ülésszaka VII., Kolozsvár, Erdélyi Múzeum Egyesület, 2002. március 22–23.

·         Mobile Information Systems in Agriculture, MISA 2002, Keszthely, VE GMK, 2002. október 18.

 

Várkonyi Dániel

Az IMPROC képfeldolgozó program kibővítése és átültetése Windows alá

Budapesti Műszaki és Gazdaságtudományi Egyetem

Témavezető: dr. Székely Vladimír

 

A BME Villamosmérnöki és Informatikai Karán évek óta oktatnak számítógépes grafikát és képfeldolgozást az informatika szakos, illetve a villamosmérnöki szak némely szakirányának hallgatóinak. A képfeldolgozási problémák és módszerek bemutatásához, illusztrálásához, illetve valós képfeldolgozási problémák megoldásának előkészítéséhez készítette dr. Székely Vladimír az IMPROC képfeldolgozó programot még DOS operációs rendszer alá. Munkám során az IMPROC-ban megvalósított képfeldolgozási algoritmusokat és módszereket ültettem át Windows platformra a korszerűbb felhasználói környezet kihasználásával bővítve a lehetőségeket, valamint néhány új képfeldolgozási funkció is bekerült a programba.

Az új és átültetett funkciók jelentős része egydimenziós (szürke) színskálájú képeken működik (normalizálás, hisztogram kiegyenlítés, lineáris és Rank szűrés, vágás, adaptív vágás, élkeresés Roberts és Laplace operátorokkal, élkiemelés), de van lehetőség színes képek megjelenítésére, színredukcióra (fekete-fehér esetben is). A programmal képek intenzitásának kétdimenziós Fourier transzformáltja is kiszámítható, megjeleníthető, a kis- vagy nagyfrekvenciák erősíthetők és gyengíthetők, ezáltal szűrni, illetve éleket kiemelni lehet. A Fourier térbeli képeket szorozva, osztva képtérben konvolválni és dekonvolválni lehet. A program 256 színű palettával dolgozik, ennek segítségével is képes fényességi transzformációkra: intenzitás- és színkiemelés, vágás.

Dolgozatomban kitérek az eredeti IMPROC szolgáltatásaira, az átírás problémáira, a felhasznált algoritmusokra, és a Windows-változat új szolgáltatásaira. Mivel a program a memóriában képfeldolgozásra különösen alkalmas formátumokban tárolja a képeket, és népszerű formátumokat is támogat (pl. BMP), jó alapot jelent további képfeldolgozási algoritmusok és módszerek megvalósítására.

 

Vass Gergely

Diffúz fényvisszaverődések és kiterjedt fényforrások modellezése rekurzív sugárkövetéssel

Budapesti Műszaki és Gazdaságtudományi Egyetem

Témavezető: dr. Szirmay-Kalos László

 

Napjainkban mind az ingyenes, mind a megvásárolható 3D grafikai programok képesek az ún. rekurzív sugárkövetés megvalósítására. Ez az algoritmus a felületek közötti fényvisszaverődések csupán egyetlen speciális esetét – a tökéletes tükröződést – képes kezelni, így nem alkalmas a szórt fényvisszaverődések számítására. Bár léteznek kiváló minőségű képgeneráló programok, melyek sikeresen modellezik a szórt fényvisszaverődéseket és a kiterjedt fényforrásokat is, ezek többnyire drága, professzionális alkalmazások

Dolgozatomban bemutatom, hogy egy standard 3D trükkszoftver segítségével hogyan lehet a részben vagy tökéletesen szórt fényvisszaverődéseket modellezni. Ehhez az ún. bump mapping, avagy bucka leképezés technikáját alkalmazom annak érdekében, hogy a felületi molekuláris vagy mikroszkópikus egyenetlenségeket szimuláljam. Kellően sűrű mintavételezés mellett a rekurzív sugárkövetés folyamán követett sugarak a gyűjtőséták szerepét töltik be, hiszen felületről felületre verődve gyűjtik a fényenergiát, mígnem elérnek egy nem visszaverő felületet, tipikusan egy fényforrást.

A fent leírtak miatt a bemutatásra kerülő módszer – a megjelenítő algoritmusok nagy részével ellentétben – a kiterjedt fényforrások kezelésére is alkalmassá teszi a 3D trükkszoftvert. Ennek áldásos hatása, hogy a pontszerű fényforrásokat használó rendszerekkel ellentétben fizikailag korrekt módon elmosódó árnyékokat kapunk.

Bemutatom, hogy a módszer segítségével generált képek miért tartalmaznak nagyfrekvenciás zajt, és ez hogyan csökkenthető. Bár az általam bemutatott módszer nem igazán alkalmas produkciós felhasználásra, nagyban segítheti a 3D grafikusok munkáját. Jó referencia lehet a jelenetek bevilágításánál, hiszen pontos képet ad arról, hogy hol jelennek meg derítések vagy finom árnyékok a képen.