Qasja e re e OpenAI për mësimin imitues me një goditje, një vështrim në të ardhmen e AI

Imitimi me një fotografi Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Më 16 maj, studiuesit e OpenAI ndanë një video të njërit prej projekteve të tyre së bashku me dy dokumente me rëndësi duke eksploruar zgjidhje për tre pengesat kryesore të zhvillimit aktual të AI: meta-mësimi, mësimi një-shot dhe gjenerimi i automatizuar i të dhënave. Në postimin tim të mëparshëm, unë premtova një artikull kushtuar problemit interesant të mësimit me një goditje, kështu që këtu shkon. Ju mund të filloni duke hedhur një sy në videon që ata publikuan e cila shpjegon punën e tyre të mahnitshme:

Në këtë video ju shihni një robot fizik me një krah, i cili vendoset kubitë mbi njëri-tjetrin. Njohja me detyrat komplekse që robotët industrialë janë aktualisht në gjendje të kryejnë, nëse studiuesi nuk po përpiqej të shpjegojë se çfarë po ndodh, për shumë llogari kjo do të ishte shumë nënkuptuese. Në mjedisin e kontrolluar detyra është e thjeshtë, qasja procedurale (e koduar) kanë zgjidhur tashmë këto probleme, ajo që është premtuese dhe revolucionare është se sa korniza e përgjithshme nën të mund të shkallëzonte deri në sjellje të shumëfishta, më komplekse dhe adaptive në mjedise më të çuditshme.

Dallimi në mendje midis njeriut dhe kafshëve më të larta, i madh siç është, sigurisht që është i një shkalle dhe jo i llojit.
- Charles Darwin

Për analogji, ky artikull është një dëshmi e fortë që ndryshimet në sistemet njohëse midis AI aktualizuara aktuale (inteligjencë artificiale të sistemeve fizike) dhe robotëve të shekullit 22 do të jenë një shkallë dhe jo e llojit. Që nga viti 2012 konkurrenca ImageNet *, studimi i thellë i mësimit ka qenë në lulëzim, jo ​​aq shumë për të modifikuar natyrën e llogaritjes së shpërndarë të bërë nga një rrjet nervor, por duke gjetur mënyra të reja për të strukturuar rrjetet në mënyrë që ata të mësojnë një detyrë specifike. Për një funksion të rrjetit nervor është strukturë, kjo strukturë nuk është e kodifikuar (nuk është hartuar me dorë) por është rezultati i njësive atomike llogaritëse të lidhur fillimisht midis hyrjeve dhe daljeve, të cilat janë në gjendje të modifikojnë strukturën dhe lidhjet e tyre. Byshtë duke modifikuar strukturën e përgjithshme të rrjetit që mëson një funksion specifik.

Në këtë artikull ata ndërtuan një kornizë të përgjithshme të aftë për të trajnuar një agjent për të përfaqësuar detyrat në një mënyrë abstrakte, dhe të mësojnë ta transferojnë këtë njohuri në detyra të reja të padukshme (mësimi i transferimit) pas vetëm një demonstrimi të detyrës së romanit (një mësim imitues me qëllime).

Detyrat

Megjithëse zbatimi i saktë arkitektonik ndryshon, ato marrin dy detyra si shembuj për të treguar performancën e qasjes së përgjithshme.

Arritja e grimcave

Në shembullin e parë, sistemi merr hyrje të pozicioneve të synuara me ngjyrë në një aeroplan dhe një demonstrim të vetëm video të agjentit të simuluar që shkon në objektivin e specifikuar.

Figura 2. Roboti është një masë pikore e kontrolluar me forcë 2-dimensionale. Familja e detyrave është të arrihet në një pikë referimi të synuar. Identiteti i pikë referimit ndryshon nga detyra në detyrë, dhe modeli duhet të përcaktojë se cili objektiv duhet të ndjekë bazuar në demonstrimin. (majtas) ilustrim i robotit; (mes) detyra është të arrijmë kutinë portokalli, (djathtas) detyra është të arrijmë në trekëndëshin e gjelbër.

Gjatë stërvitjes, sistemi duhet të riprodhojë të njëjtën detyrë (arrin portokallin) por nga një konfigurim tjetër, me pozicione të ndryshme fillestare për robotin dhe objektivat. Nuk është e qartë nëse gjatë testimit agjenti është testuar në detyrën për të cilën ishte trajnuar (arrin portokallin) apo për detyrën që nuk e kishte parë kurrë më parë (arrijnë gjelbër për shembull) apo të dy.

Politika e trajnuar vlerësohet në skenarë të rinj dhe kushtëzohet nga trajektoret e reja demonstruese të padukshme gjatë trajnimeve.

Shtë e sigurt që agjenti duhet të konstatojë objektivin e synimit nga një demonstrim unik dhe përsëri të fillojë nga një konfigurim tjetër. Kjo nënkupton që sekuenca e saktë e motorit nuk mund të ishte mësuar para testimit dhe duhet të konstatohet përmes abstraksionit (përfaqësim i strukturuar i nivelit më të lartë) të detyrës dhe planifikimit motorik.

Stacking bllok

Në shembullin e dytë agjenti duhet të mësojë të grumbullojë kube (të identifikuar nga ngjyra të ndryshme) në të njëjtën mënyrë si ajo e treguar në një demonstrim të vetëm të simuluar. Kjo demonstrim e simuluar është një seri e imazheve 2D të krijuara nga një motor fizik 3D në të cilin modelohen vetitë e aparateve motorike dhe shqisore të robotëve.

Politika me një goditje. Një politikë e vetme e trajnuar për të zgjidhur shumë detyra. Detyra kryesore: {abc, def}, Detyrë fundore: {ab, cd, ef

Në të dy shembujt pozicionet fillestare të kubeve në demonstrim dhe në provën e vërtetë janë të ndryshme, secila detyrë po fillon nga një pozicion tjetër fillestar. Roboti nuk përpiqet të zëvendësojë kubet për të përputhet me pozicionin fillestar të demonstrimit, ai transferon detyrën e nivelit më të lartë të grumbullimit të kubit, në çfarëdo gjendje që ai të fillojë.

Trajnim duke përdorur randomizimin e domain

Në të dy rastet, të gjitha imazhet e përdorura gjatë trajnimit merren përmes simulimit duke përdorur randomizimin e domain-it në të cilin ata do të randomizojnë aspektet e mëposhtme të mostrave:

Numri dhe forma e objekteve shpërqendruese në tryezë Pozicioni dhe cilësi e të gjitha objekteve në tryezë Tekstilet e tabelës, dyshemesë, kutisë së qiellit dhe robotit Pozicioni, orientimi dhe fusha e pamjes së kamerës Numri i dritave në skenë Pozicioni, orientimi, etj. dhe karakteristikat specifike të dritave Lloji dhe sasia e zhurmës së rastësishme të shtuar në imazhe

Trajnim i vendosur për arritjen e grimcave

Ne konsiderojmë një grup gjithnjë e më të vështirë të familjeve detyrë, ku numri i shenjave të shënjave rritet nga 2 në 10. Për secilën familje detyrë, ne mbledhim 10000 trajektorë për trajnime, ku pozicionet e shenjave të shënjestrimit dhe pozicioni fillestar i robotit të pikave janë të rastit. Ne përdorim një politikë të koduar të vështirë për të gjeneruar në mënyrë efektive demonstrime. Ne shtojmë zhurmë në trajektoret duke shqetësuar veprimet e llogaritura para se t'i zbatojmë ato në mjedis, dhe përdorim klonimin e thjeshtë të sjelljes për të trajnuar politikën e rrjetit nervor

Set i trajnimeve për grumbullimin e bllokut

Konkretisht, ne mbledhim 140 detyra trainimi, dhe 43 detyra provash, secila me një skedar të ndryshëm të dëshiruar të blloqeve. Numri i blloqeve në secilën detyrë mund të ndryshojë midis 2 dhe 10. Ne mbledhim 1000 trajektori për detyrë për trajnim, dhe mbajmë një seri të veçantë të trajektoreve dhe konfigurimeve fillestare që do të përdoren për vlerësim. Ngjashëm me detyrën e arritjes së grimcave, ne injektojmë zhurmë në procesin e mbledhjes së trajektores. Trajektorët mblidhen duke përdorur një politikë të koduar.

Demonstratat e suksesshme mblidhen duke përdorur një politikë të koduar

Vini re se gjatë mësimit trajektoret e sakta gjenerohen nga një politikë procedurale "e koduar", që besoj se mbështetet në teknikat klasike të identifikimit dhe kontrollit të sistemit. Kështu që gjatë trainimit dhe testimit agjenti ka dy hyrje: a) një demonstrim në një konfigurim A, dhe b) një konfigurim fillestar B. Vetëm gjatë trajnimit, algoritmi i mësimit gjithashtu ka qasje në një përgjigje ideale: një trajektore duke filluar nga konfigurimi B që i përgjigjet problemit dhe me të cilin do të krahasohet përgjigjja e agjentit gjatë mësimit - duke e bërë atë një problem të mbikëqyrur të të mësuarit.

Për secilën detyrë trainimi supozojmë disponueshmërinë e një grupi demonstrimesh të suksesshme.

Nëse nuk është e qartë, unë do të kapërcej dallimet midis llojeve të ndryshme të modeleve të të mësuarit në seksionin tjetër.

Algoritmi i optimizmit dhe funksioni i humbjes

Mësimi i mbikëqyrur i referohet paradigmave të trajnimit në të cilat me secilin vendim rrjeti ka qasje në zgjedhjen e duhur që ai duhet të kishte bërë, dhe rrjedhimisht te një nocion i gabimit. Për shembull, në një detyrë klasifikimi midis qenve dhe maceve, etiketa e imazheve të qenve dhe maceve gjatë trajnimit njihet paraprakisht dhe gabimet zbulohen menjëherë. Në atë kuptim është ndryshe nga të mësuarit e mbikëqyrur, ku në përgjithësi agjentit i kërkohet të gjejë një strukturë të panjohur më parë në inputet që merr, dhe pa etiketat e maceve dhe qenve do të duhet të zbulojnë se ekzistojnë dy grupime të objekteve të ndryshme, bazuar vetëm në informacioni që përmbahet në të dhëna. Shtë gjithashtu ndryshe nga Mësimi i Përforcimit që shpesh aplikojnë në sistemin në kohë reale në të cilin sekuenca e saktë e vendimit që çon në një qëllim është e panjohur, por vetëm një "shpërblim" përfundimtar do të vendosë nëse sekuenca ishte e saktë apo jo. Duke përdorur mësimin imitues ata shndërrojnë një problem klasik të mësimit të përforcimit në një problem të mbikëqyrur të të mësuarit, në të cilin gabimi llogaritet nga distanca në një trajektore të vrojtuar.

Siç është rasti për çdo organizim të mbikëqyrur të trajnimit, detyra në fjalë përcaktohet plotësisht nga funksioni i humbjes, i cili synon të përcaktojë se sa larg ka qenë agjenti nga sjellja e synuar. Përcaktimi i këtij funksioni është shpesh hap kritik, pasi përcakton se si algoritmet e optimizmit azhurnojnë parametrat e modelit. Këto algoritme kanë rëndësi për sa i përket kohës së llogaritjes, dhe shpesh kërkojnë disa ndryshime për të qenë në gjendje të konvergojnë, nëse ka fare. Në të vërtetë, zgjidhjet që do të minimizojnë funksionin në dimension shumë të lartë, banojnë në një predhë shumë të vogël të hapësirës së parametrave, me një distancë të vogël shtrëngimi midis tyre, sa më shpejt që të largoheni nga ai fushë e vogël distanca midis zgjidhjeve rritet shpejt. Ka shumë punë shumë interesante për atë temë të bërë ndër të tjera nga Jennifer Chayes shumë e mahnitshme, ajo e braktis temën në një intervistë mjaft interesante në episodin e fundit të Talking Machines.

Gjatë trajnimit të rrjeteve të politikave (i gjithë rrjeti, të aftë të vendosin nga inputi se cili veprim duhet të ndërmarrë) ata së pari përpunojnë trajektoren e suksesshme të demonstrimit. Për këtë pjesë ata do të krahasojnë dy qasje, klonimin klasik të Sjelljes (jo saktësisht të sigurt për zbatimin që ata përdorën) dhe algoritmet DAGGER. Kjo më pas do të lejojë minimizimin përsëritës të funksionit të humbjes qoftë përmes humbjes l2 ose ndër-entropisë bazuar në atë se aksionet janë të vazhdueshme ose diskrete (bazuar në shpërndarjet e ngjarjeve në sekuencë). Në të gjithë eksperimentet, ata përdorën algoritmin Adamax për të kryer optimizimin me një normë mësimi prej 0,001.

Madhësia e hapit fillon e vogël dhe kalbet në mënyrë eksponenciale.

Algoritmi në vetvete nuk lejon transferimin, është mënyra sesi ndërtoni grupin tuaj të trajnimit dhe funksionin tuaj të humbjes që do të lejojë transferimin.

Dy detyra të transferimit ekzistojnë në detyra. Lloji i parë është referuar si "tejkalimi i hendekut të realitetit", është një përgjithësim në të mësuar që lejon transferimin midis trainimit në inputet e simuluara në provat e stimujve natyrorë. Të dhënat e simulimit shpesh janë një përafrim i varfër i botës reale, tepër i përsosur, i mungon kompleksiteti i objektit real. Në botën e vërtetë kamera mund të jetë e gabuar dhe më e zhurmshme, kontrolli i motorit do të jetë më pak i saktë, ngjyrat do të ndryshojnë, tekstilet do të jenë më të pasura etj. Për të lejuar këtë transferim të parë ata përdorin një metodë të cilës i referohen si "rastësi e domain" : është duke shtuar zhurmë në inputet që rrjeti mund të mësojë strukturën e përbashkët përkatëse që do t'i lejojë asaj të përgjithësohet në mënyrë të duhur me botën reale. Për shembull, ata do të ndryshojnë këndin e kamerës midis shembujve të trajnimit, do të ndryshojnë tekstilet ose do t'i bëjnë trajektoret të jenë më pak të përsosura. Duke shtuar zhurmën gjatë stërvitjes ne shtojmë qëndrueshmëri.

Transferimi i dytë i testuar këtu është aftësia për të prodhuar një sekuencë përkatëse motorike në konfigurimin dhe qëllimin e parë të padukshëm, bazuar në një demonstrim të vetëm që fillon në një konfigurim tjetër fillestar, por me një qëllim të ngjashëm përfundimtar. Përsëri këtu transferimi do të bëhet i mundur nga mënyra sesi ndërtojmë grupin e trajnimit dhe modelojmë funksionin e humbjes. Duke paraqitur demonstrime gjatë stërvitjes që nuk fillojnë nga e njëjta gjendje fillestare për të arritur një qëllim të ngjashëm, ju lejoni që rrjeti të mësojë të vendosë një përfaqësim të nivelit më të lartë të qëllimit pa përdorur pozicione absolute, si dhe një përfaqësim të rendit më të lartë të sekuenca motorike që nuk është një imitim i thjeshtë. Arkitektura fillestare naive lejon trainimin për të modifikuar strukturën në një mënyrë përkatëse, dhe kjo strukturë e trajnuar nënkupton funksionin përfundimtar.

objektivat

Për paradigmën e bllokimit të bllokut ata kishin disa kufizime që ata donin të përmbushnin agjentin e tyre të mësimit.

Duhet të jetë e thjeshtë për t'u zbatuar në instancat e detyrave që kanë numër të ndryshëm të blloqeve.
Ai natyrisht duhet të përgjithësohet në permutacione të ndryshme të së njëjtës detyrë. Për shembull, politika duhet të funksionojë mirë në detyrën c dcba}, edhe nëse është e trajnuar vetëm për detyra {abcd.
Ai duhet të strehojë demonstrime me gjatësi të ndryshueshme.

Ata kishin disa pyetje për të cilat ata donin t'i përgjigjeshin për këtë detyrë.

Si krahasohet trainimi me klonimin e sjelljes me DAGGER, duke pasur parasysh që të dhënat e mjaftueshme mund të mblidhen jashtë linje?
Si krahasohet kushtëzimi në tërë demonstrimin me kondicionimin në konfigurimin përfundimtar të dëshiruar, edhe kur konfiguracioni përfundimtar ka informacion të mjaftueshëm për të specifikuar plotësisht detyrën?
Si krahasohet kushtëzimi në tërë demonstrimin me kondicionimin në një “fotografi” të trajektores, e cila është një pjesë e vogël e kornizave që janë më informative
A mundet që korniza jonë përgjithësisht të përgjithësohet me llojet e detyrave që nuk ka parë kurrë gjatë trajnimit? (++)
Cilat janë kufizimet aktuale të metodës?

arkitekturë

Arritja e grimcave

Për këtë shembullin e parë ata krahasuan tre arkitektura të gjitha bazuar në rrjetet nervore Long Memory afatshkurtër (LSTM). Një përshkrim i atyre rrjetit do të vijë në një postim të ardhshëm në lidhje me kujtesën dhe vëmendjen, të cilat janë absolutisht lëndë magjepsëse si në shkencat njohëse ashtu dhe në ato kompjuterike. Në thelb, një LSTM ushqen rezultatet e mëparshme të rrjetit (me kohë) si pjesë e hyrjes së rrjetit në çdo pikë të re kohore, duke lejuar informacionin e shteteve të kaluara për të informuar të tashmen (pra emrin e tyre të rrjeteve të kujtesës afatshkurtër). Ato janë në rrënjën e shumë teknologjive më të reja të artit që merren me seritë kohore (Alexa, Siri etj.).

Këtu ata përdorin ato tre kushte specifike:

  1. LSTM i thjeshtë: mëson të ngërthejë trajektoren dhe gjendjen aktuale për ta ushqyer atë në një perceptron multilayer që do të prodhojë veprimin motorik
  2. LSTM me vëmendje: prodhoni një përfaqësim të ponderuar mbi pikat historike të trajektores
  3. Gjendja përfundimtare me vëmendje: përdorni në stërvitjen vetëm gjendjen përfundimtare në mënyrë që të prodhoni një peshim mbi monumentet, të ngjashme me arkitekturën e mëparshme

Stacking bllok

Ndërsa, në parim, një rrjet nervor gjenerik mund të mësojë hartëzimin nga demonstrimi dhe vëzhgimi aktual deri në veprimin e duhur, ne e gjetëm të rëndësishme të përdorim një arkitekturë të përshtatshme. Arkitektura jonë për të mësuar grumbullimin e blloqeve është një nga kontributet kryesore të këtij punimi, dhe ne besojmë se është përfaqësues i asaj që arkitekturat për mësimin imitues të detyrave më komplekse mund të duken në të ardhmen.

Modulet e vëmendjes

Artikulli mbetet një nivel relativisht i lartë në përshkrimin e strukturës së rrjeteve të përdorura për të mësuar detyrën. Një përbërës kryesor i arkitekturës është moduli i tyre i vëmendjes, por besoj se kësaj teme i duhet një postim specifik, i detajuar në rolin e tij thelbësor. Për analogji me konceptin shkencor njohës të vëmendjes së qëndrueshme, modulet e vëmendjes përdoren për të mbajtur dhe përqendruar në informatat përkatëse të përfshira në hapësira të ndryshme kohore. Prodhon një prodhim me madhësi fikse që përmban një ngulitje të një përmbajtje informacioni që ishte shtrirë në kohë dhe hapësirë. Për analogji me topologjinë, një degë e matematikës që besoj se do të informojë shumë sesi i kuptojmë përfaqësimet e shpërndara në të ardhmen, një rrjet vëmendjeje kryen një izomorfizëm topologjik të informacionit, të njëjtën lakim, formë të ndryshme. Vini re se këto rrjete nuk luajnë një rol të detektorit të pranueshmërisë në gjendje të përqëndrohet në ngjarje të papritura ose të rralla, që është një funksion i shoqëruar me nocionin e vëmendjes në neuroshkencë.

Këtu ata përdorin dy lloje të rrjetit të vëmendjes: a) një rrjet përkohësisht të vëmendjes që prodhon një shumë të peshuar mbi përmbajtjen (pyetje, kontekst dhe vektorë të kujtesës) të ruajtur në memorje, dhe b) një rrjet të vëmendjes së lagjes që është në gjendje të rikuperojë informacione në lidhje me bllokun. pozicionet në varësi të kërkesës aktuale të agjentit.

Rrjeti i vëmendjes së përkohshme, me c: vektor konteksti, m: vektori i kujtesës, q: vektori i pyetjes, v: pesha e mësuar e vektorit. Prodhimi është i të njëjtës madhësi si vektori i kujtesës. Shtë një kombinim linear i atyre vektorit që lejon që disa vektorë të kujtesës të kenë më shumë ndikim në prodhim bazuar në kontekstin dhe vektorët e pyetësorit.E njëjta ide këtu, konkurrenca midis informacionit hapësinor ruhet në mënyrë dinamike nga sistemi i vëmendjes.

Rrjeti i politikave

Rrjeti i plotë është i përbërë nga tre nëngrupe të ndryshëm: rrjeti i demonstrimit, rrjeti i kontekstit dhe rrjeti i manipulimeve.

Rrjeti i demonstrimit merr një trajektore demonstrimi si input, dhe prodhon një ngulitje të demonstrimit që do të përdoret nga politika. Madhësia e këtij ngulitja rritet në mënyrë lineare si një funksion i gjatësisë së demonstrimit, si dhe numri i blloqeve në mjedis.

Siç tregohet këtu, rrjeti i demonstrimeve është në gjendje të përfshijë demonstrimin e kompleksitetit dhe madhësisë së ndryshme në një format të përbashkët që do të përdoret nga rrjeti i kontekstit për të përfaqësuar detyrën. Probablyshtë ndoshta në këtë nivel tashmë që gjeneralizimi ndodh, ngulitja e demonstrimeve duhet të lërë informacione në lidhje me trajektoren e saktë dhe pozicionet absolute të kubit të parë gjatë demonstratave.

Duke parë strukturën e rrjetit të kontekstit, megjithëse nga një nivel shumë i lartë, ne shohim ndërfaqen me rrjetin e demonstrimit duke ushqyer një ngulitje të demonstrimit në modulet qendrore të vëmendjes kohore. Ne gjithashtu shohim që veprimet e mëparshme (LSTM) dhe gjendja aktuale ushqehen si input i bashkuar me ngulitjen e demonstrimit për të prodhuar një kontekst global të ngulitur të dërguar në rrjetin motorik.

Përshkrimi i tyre për funksionimin e rrjeteve është për mendimin tim pjesa më e rëndësishme e punimit:

Rrjeti i kontekstit fillon duke llogaritur një vektor të pyetësorit si një funksion të gjendjes aktuale, i cili më pas përdoret për të marrë pjesë në hapat e ndryshëm kohorë në ngulitjen e demonstrimit. Peshat e vëmendjes mbi blloqe të ndryshme brenda hapit të njëjtë kohor përmblidhen së bashku, për të prodhuar një peshë të vetme në hapin e kohës. Rezultati i kësaj vëmendje të përkohshme është një vektor, madhësia e të cilit është proporcionale me numrin e blloqeve në mjedis. Ne pastaj aplikojmë vëmendjen e lagjes për të përhapur informacionin nëpër kabllot e secilit bllok. Ky proces përsëritet shumë herë, ku shteti është avancuar duke përdorur një qelizë LSTM me pesha të palidhura.
Sekuenca e mëparshme e operacioneve prodhon një ngulitje, madhësia e së cilës është e pavarur nga gjatësia e demonstrimit, por ende varet nga numri i blloqeve. Atëherë ne aplikojmë vëmendje standarde të butë për të prodhuar vektorë dimensionale fikse, ku përmbajtja e kujtesës përbëhet vetëm nga pozicionet e secilit bllok, i cili, së bashku me gjendjen e robotit, formojnë inputin e kaluar në rrjetin e manipulimit.
Intuitivisht, megjithëse numri i objekteve në mjedis mund të ndryshojë, në secilën fazë të operacionit të manipulimit, numri i objekteve përkatëse është i vogël dhe zakonisht fikse. Për mjedisin e grumbullimit të bllokut posaçërisht, robotit duhet t'i kushtojnë vëmendje vetëm pozicionit të bllokut që po përpiqet të marr (blloku i burimit), si dhe pozicionin e bllokut që po përpiqet të vendosë në krye të ( blloku i synuar). Prandaj, një rrjet i trajnuar siç duhet mund të mësojë të përputhet me gjendjen aktuale me fazën përkatëse në demonstrim, dhe të konstatojë identitetin e burimit dhe blloqeve të synuara të shprehura si peshat e vëmendjes së butë mbi blloqe të ndryshme, të cilat më pas përdoren për të nxjerrë pozicionet përkatëse në të kalohet në rrjetin e manipulimeve.

Mënyra se si ata përfundojnë përshkrimin e tyre është një shembull i përsosur i rrjedhës aktuale të hulumtimit të UA nga një qasje e sistemit të ekspertëve për një qasje të sistemit të të mësuarit, dhe gjithashtu nënkupton diskutimin rreth asaj se si truri evoluoi më poshtë.

Megjithëse ne nuk e zbatojmë këtë interpretim në trajnim, analiza jonë e eksperimentit mbështet këtë interpretim se si politika e mësuar funksionon nga brenda.

Ata nuk e dinë se si funksionon! Ata ndërtojnë një strukturë të aftë për të kryer një llogaritje të caktuar dhe për të ruajtur informacione të caktuara për të cilat ne mendojmë se janë a-priori të dobishme, dhe e ushqejnë atë një grup trajnimi duke shpresuar se e gjithë struktura do të mësojë! Ekziston një lloj vudu i hulumtimit të Inteligjencës Artificiale, një art, një mënyrë për të drejtuar kërkimin heuristik në drejtimin e duhur. Dhe duket se shumë nga ata magjistarë tani janë duke punuar për OpenAI.

Me fjalët e tyre, rrjeti i manipulimit është struktura më e thjeshtë, nga konteksti i ngulitjes i dhënë deri te perceptroni i shumë shtresave, prodhohet një veprim motorik.

rezultatet

Rezultatet janë shpesh një pjesë për të cilën kam pak interes, veçanërisht për ato lloj letrash teknike jashtëzakonisht të shkëlqyera. Do të shkoj shpejt, në fund të fundit duke qenë se kjo metodë funksionon, ajo kryen me një saktësi të ngjashme me politikat e ekspertëve të koduar dhe, në kundërshtim me ato qasje specifike procedurale, është e përgjithësueshme për një grup të madh detyrash.

Arritja e grimcave

Stacking i bllokuar

Në këto eksperimente ata testuan edhe kushte të ndryshme. Duke përdorur DAGGER, ata krahasuan gjendjen e tre hyrjeve të ndryshme duke zvogëluar trajektoren e demonstruar: trajektoret e plota, pamjen e trajektores, ose duke përdorur vetëm gjendjen përfundimtare. Ata gjithashtu krahasuan algoritmin e klonimit të sjelljes me trajektoren e plotë të demonstrimit.

Një dëshmi e fortë e aftësisë së sistemit për të përgjithësuar mbi identitetin e kubit

diskutim

Duke lexuar përparimet e ritmeve të shpejta të bëra nga OpenAI këto muajt e fundit, unë ndjej një kërkesë në rritje për të folur për punën e tyre dhe të ndaj mendimet e mia për atë që unë besoj punën e tyre, dhe përparimet e fushës së AI si një e tërë, informoni të kuptuarit tonë se si funksionojnë trurin biologjik. Në veçanti, kjo ide në rritje që funksionet njohëse në dukje të përbashkëta midis qenieve njerëzore nuk janë aq shumë për shkak të një strukture të përbashkët që di të bëjë natyrshëm si të kryejë një detyrë, por përkundrazi është rezultat i strukturave naive relativisht të ngjashme, të cilat, përballen me të njëjtin mjedis, mësojnë të kryejnë detyra të ngjashme. Funksioni është rezultat i një strukture pa funksion, e cila është në gjendje të mësojë vetëm një detyrë specifike për shkak të një mjedisi specifik, sesa të një strukture që është në gjendje ta kryejë detyrën në vend, thjesht duke tundur disa parametra për tu përshtatur me mjedisin.

Detyrat kundrejt konfigurimit: një përkufizim në dukje arbitrar

Unë duhet të pranoj se nuk e kuptoj pse ata zgjodhën të flasin për detyra të ndryshme në mënyrën si vepruan. Një detyrë përcaktohet në eksperimentin e grumbullimit të bllokut si një grup vargjeve që përfaqësojnë pozicionin e blloqeve në lidhje me njëri-tjetrin, numri i elementeve në grup përcakton numrin e pirgjeve dhe numrin e karaktereve numrin e bllokut që duhet të rregullohet . Një detyrë atëherë është një rregullim i blloqeve në rafte, pavarësisht nga pozicioni absolut i pirgut.

Disa blloqe mund të jenë në tryezë, por jo pjesë e detyrës

Zgjedhja e tyre për të përcaktuar pozicionin relativ dhe numrin e rafteve si kritere për detyrë të veçantë duket arbitrare. Në të vërtetë, mund të kishte kuptim të flasim për detyra të ndryshme bazuar në pozicionet fillestare absolute të blloqeve (ato që ata i referohen si konfigurim). Unë besoj se natyra e përbashkët e problemit është e dukshme për ta, por për qëllime qartësie ata preferojnë të mos hyjnë në detaje. Ka më shumë kuptim që të kornizohet mësimi i politikave si dy lloj përgjithësimesh, mënyra sesi ata bëjnë më vonë:

Vini re se përgjithësimi vlerësohet në nivele të shumta: politika e mësuar jo vetëm që duhet të përgjithësohet në konfigurime të reja dhe demonstrime të reja të detyrave të shikuara tashmë, por gjithashtu duhet të përgjithësohet për detyra të reja.

Thjesht zëvendësoni "detyrat" me "urdhërat pirg". Për të mësuar saktë detyrën do të thotë që agjenti mëson një ngulitje në gjendje të abstraktojë pozicionin e kubeve (konfigurimit), por edhe identitetin e tyre (detyrën), numrin e rafteve (detyrës) dhe trajektoren e demonstrimit (prezantuar shkurtimisht në kuotimi) për të prodhuar një përgjigje përkatëse motorike.

Këto përgjithësime duken kontradiktore, si mund të heqin të njëjtin rrjet konfigurimin fillestar të kubit ose identitetin e tyre dhe të rimarrë pozicionin e tyre absolut për përgjigjen e motorit?

Kjo shpjegon nevojën për nënshtresa të ndryshme bashkëpunuese gjatë mësimit, marrjes së inputeve të ndryshme, dhe shpjegon se në rrjetin kontekst një përfaqësim abstrakt i detyrës ushqehet informacion me rend të ulët, si kube pozicione absolute, para komandës zbritëse.

Ju mund të mendoni që të komentoni për këtë dallim detyre dhe konfigurimi është pa kuptim, por është thelbësore të kuptoni se është në thelb i njëjti proces i abstraksionit në lojë në objekte të ndryshme (dhe kjo hapet për pjesën vijuese).

Nuk ka mësim pa pandryshim

Mësimi i transferimit është ndoshta koncepti më tërheqës i njohjes qoftë ai brenda-silikonit, qoftë in-vivo, është një temë shumë e nxehtë si për studiuesit e AI, ashtu edhe për Neuroshkencëtarët, dhe ndodh që të jetë tema e tezës sime të doktoraturës. Vini re se konceptet e lidhura ngushtë janë hulumtuar në shumë fusha para se të mësoni makinën, dhe ky koncept abstrakt dhe gjithmonë i përcaktuar pjesërisht ka shumë emra. Filozofët, antropologët dhe sociologët mund ta quajnë si Strukturalizëm (Post-) (Claude Levi-Strauss, Michel Foucault), Linguist do të flasë për strukturat e Sintagma dhe Nested Tree (Noam Chomsky), Matematikanët ndoshta do të mendojnë për Homeomorphism ose Invariants, dhe Edukimin studiuesit ose Neuroshkencëtarët mund t'i referohen asaj si të mësuarit strukturor. Ju gjithashtu mund të shihni koncept të lidhur në fushën e të mësuarit të makinerive si të mësuarit e përfaqësimit dhe të mësuarit meta, i cili në varësi të autorit mund t'i referohet mësimit transferues ose paradigmës së të mësuarit të përdorur për të kryer mësimin e transferimit. Kur flasim për Rrjetet nervore të thella, këto ndryshime janë mjegulluar, pasi në thelb një rrjet nervor po mëson të ngërthejë një problem të caktuar (mësim përfaqësimi) duke modifikuar strukturën e tij (mësimnxënia) zakonisht në një mjedis të zhurmshëm që nënkupton një formë të mësimit të transferimit.

Studiuesit e AI dhe Shkencëtari Kognitiv shpesh kanë një përkufizim shumë konkret të mësimit të transferimit, është procesi që lejon një sistem të përdorë njohuritë e marra në një detyrë të caktuar për të kryer një detyrë tjetër, duke ndarë një strukturë të përbashkët kompozicionale (siç përshkruhet në artikull). Shkenca njohëse ka këtë nocion të transferimit të afërt dhe të largët, në varësi të mënyrës se si duket se dy detyrat ndryshojnë. Por nga një këndvështrim më abstrakt, në një mjedis të zhurmshëm dhe kompleks, e gjithë mësimi është një formë e mësimit të transferimit dhe ndryshimi midis transferimit shumë të afërt dhe shumë larg është vetëm një çështje e informacionit të përbashkët - përsëri një çështje e shkallës jo e natyrës.

Në mjedisin e kontrolluar, bëhen përpjekje paraprakisht për të ndërtuar një diskretizim të kodifikuar të vështirë të realitetit, por në fakt ky diskretisim riprodhon proceduralisht atë që bën mësimi transferues, ai bashkon një grup të pafundmë gjendjesh që gjenden në realitet nën një strukturë të përbashkët mbyllëse. Në thelb, Mësimi i Transferimit i referohet drejtpërdrejt ose duke u zgjeruar në procesin përmes të cilit agjentët e të mësuarit përdorin invariantet për të krijuar modele të botës. Shtë një proces që përdor ngjashmëritë, përsëritjet dhe variacionet e së njëjtës, për të formuar një përfaqësim gjithnjë e më abstrakt dhe të përbërë që do të strukturojë ansamble mbi hapësirën e variancës nga inputi. Në një kuptim të përgjithshëm ai lejon të krijojmë operacionet themelore përmes të cilave manipulojmë grupet e informacionit, ashtu si në matematikë që lejon bashkimin dhe kryqëzimet. Lejon identitete, shpjegon aftësinë tonë për të kategorizuar objektet. Josh Tenembaum jep një shembull që më foli me të vërtetë: imagjinoni që po mësoni një fëmijë dy vjeçar të njohë një kalë për herë të parë, ju i tregoni atij një çift fotografish me kuaj të ndryshëm dhe më pas i tregoni atij figurën e një kali tjetër dhe fotografia e një shtëpie dhe kërkoni që ai t'ju tregojë se cili është kali. Një fëmijë do ta bëjë këtë detyrë mjaft lehtë, por prapëseprapë është diçka që kompjuteri nuk mund ta bëjë mirë me kaq pak input (të mësuarit me një goditje).

Si e bëri fëmija?

Njohja e kafshëve është studiuar tek fëmijët dhe ka të bëjë me aftësinë tonë për të dekonstruktuar objektet në pjesët përkatëse, gamën e ngjyrave të leshit, madhësinë e qafës, formën e përgjithshme etj. Kjo aftësi është gjithashtu ajo që ju lejon të hapni një derë nuk keni parë kurrë më parë, ju keni mësuar një sekuencë motorike që përgjithësohet në çdo situatë (përgjithësimi i fushës). Shtë gjithashtu ajo që përdorni për të ndërtuar modele shpjeguese që thjeshtojnë botën, me të vërtetë mund të habiteni fillimisht nga shfaqja e papritur e një Cuckoo në një orë të famshme zvicerane, por pas paraqitjes së dytë do ta prisni. Të gjesh pandryshimin është se si mëson një rrjet nervor dhe ato modele ndërtohen pa vetëdije. Një shembull është se si mësojmë intuitivisht për fizikën edhe përpara se të kishim dëgjuar për matematikë dhe numra.

Dikush mund të pyesë për shembull se sa shpejt një fëmijë i lindur në mikrogravitet përshtatet me peshën e tokës dhe të mësojë në mënyrë intuitive se objektet do të bien në tokë kur të rrëzohen?

Ne mund të hipotezojmë se foshnjat dhe shumica e kafshëve do të rishikojnë modelin e tyre në mënyrë të pandërgjegjshme, ashtu si kur vendosni çorape në putrat e një qeni dhe i duhet ca kohë për t'u përshtatur me informacionet e reja.

Por, për një fëmijë të ri do të bëhet një marrje në pyetje dhe rishikim i modelit të tij intuitiv, nga kurioziteti, përmes gjuhës, simboleve dhe besimeve. Aftësia jonë për të marrë në pyetje me ndërgjegje dhe për të ndryshuar modelet tona është interesante, dhe si një mendim i dukshëm, njerëzit mund të jenë specia e vetme në gjendje të verbalizojë procesin, por speciet e tjera mund të kryejnë rishikime të ngjashme me vetëdije.

Pushtueshmëria është një pronë e detyrueshme e kohës, nëse gjithçka ishte gjithnjë e re dhe në asnjë mënyrë të parashikueshme, do të mbetej ende kjo indiferentizëm unik që gjithçka është gjithmonë e re dhe e paparashikueshme. Shtë e pamundur të imagjinohet një botë pa ndryshim, pasi nuk mund të ekzistojë një botë për t'iu referuar, pa invariance jeta do të ishte e pamundur dhe trurin tonë të padobishëm. Jeta është një makinë që funksionon vetëm nga përsëritja e parashikueshme e ngjarjeve, përsëritja e shkaqeve dhe efekteve, të rivendosjes ciklike të energjisë në organizëm. Dhe në përpjekjen e Jetës për të përmirësuar përdorimin e tyre të atyre cikleve të nevojshme, truri ynë është mjeti përfundimtar. Shtë një makinë parashikuese, një organ adaptues i aftë të gjejë përsëritjen dinamike dhe ta përdorë atë për të bashkëvepruar më mirë me botën.

Kjo metodë që zgjodhi jeta është jashtëzakonisht e fortë ndaj ndryshimeve të vogla në strukturë. Ajo që mbetet e njëjtë është bota, vetitë statistikore të mjedisit, por struktura nervore që haset në të mund të ndryshojë për sa kohë që mund të përfshijë informacionin përkatës që evoluoi për të trajtuar. Kjo shpjegon pse trurin tonë mund të jenë kaq të ndryshëm nga individi tek individi, madje edhe kortekset parësore, dhe megjithatë ndajnë të njëjtat funksione.

Sistemet nervore janë adaptive, nuk kanë nevojë për evolucion dhe ngadalësojnë mutacione gjenetike për të ndryshuar sjelljen në mënyra përkatëse. Një sistem nervor i thjeshtë, siç është ai që gjendet në C. Elegans, shërben si një koordinator i brendshëm dhe sensori i jashtëm: kuptoni ushqimin dhe lëvizni drejt tij, ikni nga dhimbja, riprodhoni. Këto sisteme të thjeshta fillimisht ishin të ngurtë dhe po kryenin përafrim ekstrem të botës sonë shumë të zhurmshme, në mënyrë që ta diskretorizojnë atë në një grup të vogël gjendjesh të mundshme (ushqimi në të majtë, nxehtësia poshtë etj). Aftësitë tona motorike dhe shqisore evoluan së bashku me aftësitë parashikuese të sistemit tonë nervor. Ndërsa sensorët tanë u bënë më të saktë, sistemi nervor ngadalë u bë i aftë të modifikojë strukturën e tij për të ruajtur informacionin dhe mësuar nga përvoja. Fillimisht u bë në gjendje të mësonte të njohë kategori të caktuara të inputeve, të tilla si llojet e aromave ose modelet e dritës, dhe gjithashtu u bë në gjendje të mësonte përmes provës dhe gabimit për të kontrolluar sistemin e tij gjithnjë e më kompleks motorik. Vini re se bota është aq komplekse sa truri ynë evolucionarisht evoluoi drejt një paradigme të të mësuarit sesa një qasje e lindur procedurale. Në mënyrë llogjike, kjo ka kuptim të përsosur, një lojë e thjeshtë e Go ka një hapësirë ​​shtetërore shumë më të madhe (2.10¹⁷⁰) sesa numrin e atomeve në univers (10⁸⁰), dhe pasi organizmat bëhen më komplekse duke u përpjekur të përafrojnë me vështirësi të gjitha mundësitë deklaron se mund të jetë në shpejtësi bëhet i ndërhyrës për shkak të shpërthimit të kombinatorëve.

Disa njerëz mund të besojnë se truri ynë është i ndërtuar në atë mënyrë që të përfaqësojë në brendësi hapësirën në të cilën do të evoluojë, se në ADN diku ekziston një gjen për atë që përbën një fytyrë, ose organizimin e përkohshëm të valëve të tingullit që bëjnë fjalët lart Ata mund të besojnë se kjo njohuri e lindur është koduar në lindje diku. Të tjerët mund të besojnë, si mësuesi im i filozofisë kur isha në shkollë të mesme, se ekzistenca i paraprin thelbit, dhe se truri ynë përcaktohet plotësisht dhe vetëm nga takimi i organizmit dhe botës. Realiteti është natyrisht më kompleks, dhe për shumicën e sistemeve telencefalike që janë studiuar deri më tani, truri nuk e kodon në mënyrë të natyrshme funksionin që ai do të kryejë, por do ta mësojë atë në varësi të informacionit që përmban në inputet e tij. Nëse informacioni është shumë i dobët në informacionin përkatës, aftësia për të mësuar në atë strukturë mund të ketë një datë skadimi (p.sh. Amblyopia). Por nëse struktura e lindur nuk e kodon funksionin përfundimtar, truri ka një strukturë specifike. Kjo strukturë ruhet në të gjithë individët, dhe individë të së njëjtës specie ndajnë funksione dhe disqe të përbashkëta. ADN-ja krijon një strukturë të caktuar në vend, një strukturë që nuk është në gjendje të kryejë funksionin e tyre përfundimtar brenda, por një strukturë në gjendje të mësojë kompleksitetin e detyrave specifike bazuar në përvojën individuale. Nuk është për t'u habitur që evolucioni çoi në përhapjen e një pengese shumë të efektshme të gjakut-trurit duke izoluar trurin nga pjesa tjetër e trupit, si dhe meninges dhe guaskën e fortë të kockave që e mbron atë nga bota e jashtme, sepse ndryshe nga organet e tjera në të cilat struktura është e kodifikuar në gjenom, struktura e një truri të stërvitur nuk mund të rigjenerohet nga një model i ruajtur brenda. Ajo që është interesante është që ne shohim të njëjtat mekanizma të të mësuarit që lindin nga analogjia përmes zhvillimit të rrjeteve gjithnjë e më komplekse të thellë që kryejnë detyra gjithnjë e më komplekse.

Strukturat kompozicionale janë të vështira për tu parë por kudo

Si sidenote është e çuditshme që edhe autorët nuk e pranojnë që detyra e tyre e parë e arritjes së synimeve ka një strukturë kompozicionale.

Grimca që arrin detyrat tregon bukur sfidat në përgjithësim në një skenar të thjeshtë. Sidoqoftë, detyrat nuk kanë një strukturë përbërëse, duke e bërë vlerësimin e përgjithësimit të detyrave të reja sfiduese.

Megjithëse struktura është me të vërtetë një nivel më i ulët se stivimi i bllokut, dhe jo lehtësisht i arritshëm për manipulime eksperimentale, detyra është me të vërtetë e përbërë nga një strukturë e përbashkët. Përafrimi i botës në një aeroplan, një strukturë kompozicionale është se identiteti (ngjyra) e kubës ruhet me përkthim, dhe shkon nga blloku A-ose një pozicion fillestar i rastit- në pozicionin (Xa1, Ya1) për të bllokuar B në pozicionin (Xb1, Yb2 ) është pjesë e së njëjtës strukturë kompozicionale të rendit më të lartë sesa të shkosh nga blloku A në pozicion (Xa2, Ya2) për të bllokuar B në pozicion (Xb2, Yb2).

Ndërfaqet midis rrjeteve

Agjensimi i rrjeteve nervore të afta për të trajtuar hyrjet në nivele të ndryshme të abstraksionit do të kenë nevojë për ndërfaqe, një fushë që besoj se paraqet shumë më tepër për të zbuluar. Këto ndërfaqe mund të jenë të natyrave të shumta. Ato mund të shihen si gjuhë e zakonshme midis dy rrjeteve, siç tregohet në artikull, një rrjet i nivelit më të ulët i armatosur me një sistem vëmendjeje (rrjet demonstrimi) mund të përkthejë një demonstrim në një përfaqësim një rrjet tjetër (rrjeti i kontekstit) mund të përdorë për të drejtuar veprim pavarësisht nga gjatësia ose konfigurimi fillestar i demonstrimit.

Sipërfaqja e kësaj gjuhe është këtu një aeroplan, i fiksuar në madhësi, por mund të imagjinohet ndryshime të mundshme që mund të përmirësojnë komunikimet midis rrjetit. Për shembull, madhësia e sipërfaqes mund të vendoset të rritet ose tkurret në mënyrë dinamike pasi rrjetet bashkëveprojnë gjatë mësimit, duke ngjeshur ose shtrirë kompleksitetin gjuhësor. Ne gjithashtu mund të imagjinojmë ndërveprime më dinamike, përmes përshtypjeve për shembull. Ne mund të imagjinonim ekzistencën e rrjeteve lehtësuese të cilat do të mësojnë të rregullojnë komunikimin midis rrjeteve, ekzistues si një rrjet paralel që mësojnë të modulojnë inputin e rrjetit të parë bazuar në hyrjen dhe daljen e rrjetit të dytë. Ne mund të imagjinonim rrjete komplekse kontekstesh që veprojnë si fluks tonik (i ngadaltë në ndryshime) drejt rrjeteve të shumëfishta më të specializuara… Fusha interesante e hulumtimit në të ardhmen!

Casesështjet e dështimeve lë të kuptohet për rolet e mundshme që modulet e reja mund të kenë

Vlen të përmendet se gabimet shpesh janë për shkak të gabimeve në motor, dhe se numri i gabimeve rritet me kompleksitetin e detyrës.

Funksioni motorik nuk duhet të përkeqësohet vetëm duke rritur numrin e synimeve, kjo është një dëshmi e fortë që mënyra se si mëson rrjeti i riprodhimit të flasë me rrjetin motorik është shumë abstrakte. Shtë e çuditshme sepse ata thonë se testi i tyre tregon se ndërfaqja midis rrjetit kontekst dhe rrjetit motorik është relativisht konkret (pozicioni i robotit, pozicioni i objektivit).

Zgjidhja e mundshme mund të jetë, pasi kjo është një arkitekturë modulare, të përdorim funksione të ndryshme humbjeje, ose funksione modulare humbjeje që përfaqësojnë secilin një aspekt specifik të detyrës. Do të ndihmohej gjithashtu nga një ekuivalent i zonave para-motorike të trurit për të siguruar demonstrimin dhe rrjeti i kontekstit mund të mbetet abstrakt pa u përkeqësuar komanda motorike. Rajonet Premotor janë të nevojshme për lokalizimin më të mirë të objekteve bazuar në qëllimin (nga rrjetet abstrakte) dhe inputet shqisore, në mënyrë që të zgjidhni komandën më të mirë motorike. Duket se rrjeti kontekstual po përpiqet të transferojë demonstrimin në një ngulim të një niveli më të lartë dhe të përgatisë veprime motorike në të njëjtën kohë në një kontekst aktual. Roli i një rrjeti para-motorik do të jetë të mësojë të komunikojë me sistemin motorik në një mënyrë të orientuar dhe përshtatur me qëllimin, duke kombinuar të dy funksionet e premotorit dhe cerebellum për mësimin motorik dhe adaptimin e shpejtë.

Ekziston një teori interesante, paradoksi i Moravecit, i cili parashikon që nuk do të jetë njohje e nivelit më të lartë që do të tatohet në mënyrë llogaritëse, por trajtimi i inputeve shqisore dhe rezultateve të sistemeve motorike. Kjo me të vërtetë mund të përbëjë sasinë e madhe të neuroneve të pranishme në trurin tonë (më shumë se në pjesën tjetër të trurit tonë) për të kontrolluar në mënyrë adaptive veprimin motorik. Ky paradoks u formulua në një kohë (vitet 80) kur ne ende besonim se mund të mbanim njohuritë tona në një makinë për të kryer detyra komplekse në mjedise të pakontrolluara të zhurmshme. Sigurisht që ky paradoks ka kuptim nëse makina është në gjendje ta përfaqësojë botën në një grup shtetesh të diskutuar, ndërtimi i një funksioni të nivelit më të lartë mbi të do të ishte më i lehtë. Por unë besoj që të dy do të dëshmojnë se janë jashtëzakonisht të tatueshëm, dhe përfaqësimi i brendshëm i përdorur në ndërfaqen midis rrjeteve do të jetë larg nga gjithçka që i ngjan përfaqësimeve tona të vetëdijshme.

përfundim

Duke kombinuar rrjete të ndryshme nervore secili i ngarkuar me një trajtim specifik të problemit, ky artikull tregon se duke krijuar një detyrë që në mënyrë të natyrshme ka nevojë për përgjithësim, dhe ndërtimin e një mjedisi të përshtatshëm mësimi përmes randomizimit të domenit, një rrjet nervor me qasje në një memorje dhe një sistemi i vëmendjes mund të mësojë të përgjithësohet përtej riprodhimit të thjeshtë. Ai mund të mësojë të zbulojë një qëllim të rendit më të lartë që është demonstruar vetëm një herë në një rrjedhë vizuale mbi informacionin, dhe kryen llogaritjen në një hapësirë ​​të përgjithësuar për të rikuperuar veprimet e duhura për të riprodhuar atë qëllim në një kontekst të ndryshëm.

Në të ardhmen ne do të shohim një kompleksitet në rritje të strukturave të ndërtuara mbi ato blloqe ndërtimi atomike të afta për të mësuar të përgjithësojnë detyra komplekse por më e rëndësishmja të kryejnë disa nga detyrat e tilla, në mjedise të reja, me më pak mbështetje në metoda të kodifikuara të vështira siç është përpunimi i prurjeve ose ruajtja e kujtesës. Magazinimi i kujtesës do të zëvendësohet me përfaqësime të shpërndara nëpër një rrjet memorie, sistemet tërheqëse do të zëvendësohen nga aktiviteti ciklik në rrjetet e vëmendjes në kohë reale. Mbetet pyetja se si do të jemi në gjendje të adaptojmë një teknologji të fortë seriale (makina Turing) në besimin tonë të rritur në informatikën e shpërndarë në sistemin e mishëruar.