Ha egy virtuális robot egy másiknak megtanítja, hogyan nyerjen videojátékokban, előbb-utóbb egy valódi takarító robot is képes lesz helyettesének elmagyarázni a sepregetést. Játszani ugyan szórakoztató, de ezúttal sokkal több puszta szórakozásnál – a tanulás automatizálása a robotika egyik legfontosabb kutatási területe.
Hogyan adhatnak számítógépek tanácsokat egymásnak? Miként taníthatják meg egymást különféle képességek elsajátítására?
A Washington Állami Egyetem kutatói ezekre a kérdésekre kerestek választ, és dolgoztak ki eredeti módszert. Virtuális robotokat – szoftverágenseket – edzettek, amelyek Pacmant és Starcraftot játszottak. A példát a valóságból lesték el: tanárok és diákok interakcióit utánozták. A diákok elakadtak menet közben, nem tanultak bele a játékokba. A tanárok feladata abból állt, hogy segítsék a bukdácsoló nebulóprogramokat. A kísérleteket vezető Matthew E. Taylor szerint olyan jól sikerült megtaníttatniuk a leckét, hogy idővel felülmúlták tanítóikat.
A kutatók a legáltalánosabbnak tartott gépi tanulási formát, a megerősítéses tanulást tesztelték. Az ágensek tanulási folyamatában a visszacsatolás a legfontosabb tényező. Ha nincs visszacsatolás, nem tudják eldönteni például a következő lépést. Tudniuk kell, hogy nyeréskor jó, vesztéskor rossz történik. Visszacsatolásra, annak is az egyik típusára, jutalomra vagy megerősítésre van szükségük. Egyes közegekben a folyamat végén, másokban lépésenként jön a megerősítés, amely nem mindig jutalom, mert negatív is lehet. A tanulás célja, hogy a jutalom maximalizálásához szükséges stratégiát kidolgozza a program.
„Az állatokba be van építve, hogy a fájdalom és az éhség „negatív” jutalom, míg a gyönyör és az élelem pozitív. Az állatpszichológiát kutatók 60 éve intenzíven tanulmányozzák a megerősítéses tanulást” – írja Stuart Russell és a Google-nál dolgozó Peter Norvig Mesterséges intelligencia – modern megközelítésben című könyvükben, amely a modern számítástudomány egyik kulcsműve.
A tanárokat úgy programozták, hogy megmondják a diákoknak, mikor cselekedjenek. Pontosan tudniuk kellett, mikor adjanak tanácsot, mikor ne. Ha nem adnak útmutatást, nem is tanítanak. Ha örökösen javaslatokkal állnak elő, a diák ráun, elege lesz belőle, nem hallgat rájuk. Ugyanúgy tesz, mint egy igazi iskolás. Nem tanulja meg, hogyan múlja felül mesterét, nincs megerősítés, nincs jutalom. Ez az algoritmus legnagyobb újdonsága: egyrészt tanácsadásra, másrészt a tanács következményeinek felmérésére tervezték. Arra, hogy megállapítsa, mikor éri el egy-egy tanács a legkedvezőbb hatást. A kutatók komplex tantervet akarnak kidolgozni: ágenseik egyszerű feladatokkal kezdenek, lépésről lépésre jutnak el a bonyolultabbak sikeres kivitelezéséhez nélkülözhetetlen képességekig.
Egyelőre azonban szó sincs arról, hogy bármilyen potenciális veszélyt hordozó képességre, tudásra tennének szert. Taylor úgy fogamlazott, hogy még nagyon ostobák az ágenseik. Még a legfejlettebb programokat is könnyen össze lehet zavarni, ebből az állapotból pedig csak lassan jutnak ki.
A kutatók hamarosan valódi robotokra is alkalmazzák a módszert. Ez azért szükséges, mert robotikai „robbanás” előtt állunk, tíz-húsz éven belül hétköznapjaink fontos gépkellékei lesznek. Ha pedig elterjednek, legjobb, ha egymástól tanulnak, nem minket idegesítenek azzal, hogy ezt vagy azt nem értik. Ha egy robot megismeri környezetét, a környezetében élő emberek szokásait, preferenciáit, helyettesének is birtokolnia és hasznosítania kell ugyanezeket az információkat. Ha más robotok jönnek, nekik is.
Elvileg a legegyszerűbb, ha az öregebb „agyát” a fiatalabbéba töltjük át, csakhogy könnyen előfordulhat, hogy a hardver vagy a szoftver, vagy egyik sem működik az új modellben. Rendszerhibát és összeomlást megelőzendő, jobb, ha tudását adja át. Aztán a tanítvány túlszárnyalja a mestert, a mester pedig nyugállományba vonulhat.
Taylor elmondta, hogy más kutatóközpontokban is próbálkoznak hasonlóval, viszont az ő megoldásuk azért egyedi, mert egymástól nagyon különböző robotokban gondolkoznak. Ha alig lenne különbség, tökéletesen működne az ismeretek átmásolása. A cél pontosan az, hogy a tanulók és a tanárok egyáltalán ne hasonlítsanak egymásra. Idővel akár embereket is taníthatnak. Öt-tízéves intervallumra terveznek, háromféle tanulástípushoz (robot-robot, robot-ember, ember-robot) dolgozzák ki az alapokat, kereteket.
(vs.hu)
Loan Good day , we are private lenders and We offer urgent personal/commercial loans at affordable (...)
Loan Offer Good day , we are private lenders and We offer urgent personal/commercial loans at affordable (...)
Loan Offer Good day , we are private lenders and We offer urgent personal/commercial loans at affordable (...)
adj fel hirdetést
VÉLEMÉNYEK, cikk kommentek