In 2023 kon iedereen zien hoe goed Artificiële Intelligentie (AI) is geworden. Maar er is nog veel meer op komst, zegt Pieter Abbeel. ChatGPT is getraind op teksten, als daar ook video bijkomt, zullen de systemen pas écht slim worden. En dan staat ons een echte revolutie te wachten.
Dominique Deckmyn – De Standaard
Zieners
Hoe kunnen we de radicale veranderingen begrijpen die onze wereld ondergaat?
In de reeks ‘Zieners‘ zoeken we houvast en inspiratie bij vooruitziende denkers.
In deze aflevering Pieter Abbeel, professor aan de universiteit van Berkeley. Hij is een van de vooraanstaande denkers over Artificiële Intelligentie.
Als directeur van het Berkeley Robot Learning Lab en chief scientist bij het robotbedrijf Covariant voedt hij AI-systemen niet alleen met tekst – zoals bij het bekende ChatGPT – maar ook met video. Alleen is daar duizenden keren meer rekenkracht voor nodig.
Zelfsturende robots zijn het uiteindelijke doel.
Pieter Abbeel zit dicht bij het hart van de AI-revolutie. Hij staat aan het hoofd van het Robot Learning Lab aan de Universiteit van Berkeley, ten noorden van Silicon Valley.
Haast alle zwaargewichten uit de AI waren al te gast in zijn podcast The robot brains. Heel wat van die zwaargewichten zijn ex-studenten of ex-collega’s van hem.
Zelf werkte hij een tijdje, naast zijn job in Berkeley, ook bij OpenAI. Hij richtte ook het robotbedrijf Covariant op.
De pijlsnelle evolutie die AI momenteel doormaakt, heeft grote gevolgen voor het vakgebied van Abbeel, de robotica, vertelt hij in een videogesprek vanuit Berkeley.
En de volgende grote stap in AI naar wat sommigen Artificial General Intelligence (AGI) of superintelligentie noemen, hangt heel nauw samen met een nieuwe generatie robots, volgens hem, én met video.
Pieter Abbeel: “Mijn interesse ligt in het ontwikkelen van AI die ons leven echt beter kan maken. En dan vooral van AI die slim genoeg is om ons te helpen bij de fysieke arbeid die we nog altijd moeten doen.
“We hebben natuurlijk al heel wat machines die ons op veel manier helpen. We hoeven niet overal te voet heen te gaan, want we hebben auto’s – die we trouwens niet meer met de hand moeten maken, want daar hebben we robots voor.
“Maar voor veel taken waren robots nog niet slim genoeg.
“De doorbraak van AI maakt dat mensen nu denken: ‘He, als AI dat allemaal kan in de digitale wereld, dan kan dat misschien ook in de fysieke wereld.’
“Dat zien we zeker bij mijn bedrijf Covariant, waar we AI ontwikkelen voor robots die de werking van een magazijn automatiseren. Iedereen in een onderneming, tot en met de ceo, snapt dat AI kan helpen, ze staan ervoor open.”
De grote taalmodellen (LLMs), zoals GPT-4, werden vaak wat geringschattend omschreven als “autocomplete op steroïden”, omdat ze in wezen gewoon het volgende woord voorspellen in een tekst. Hoe correct is dat?
“In zekere zin klopt dat wel. Maar misschien is de echte vraag: wat is er níét mogelijk met zo’n autocomplete op steroïden?
“Want we hebben de limiet nog niet bereikt. De technologie is niet perfect, maar ze doet veel meer dan iemand ooit voor mogelijk hield.
“Misschien heb je, om de technologie nog beter te maken, niets anders nodig dan simpelweg nog meer data – want data vormen de steroïde.”
Rekenwerk op input
Experts zijn het niet eens over wat er precies gebeurt binnenin die LLMs.
“Begrijpt” ChatGPT iets van wat het zegt, of produceert het gewoon blindelings woorden?
Geoffrey Hinton, die in 2012 het startschot gaf voor de deep learning-revolutie die tot ChatGPT heeft geleid, gelooft vandaag, dat zo’n LLM wel degelijk begrijpt en redeneert. Zijn voormalige medewerker Yann LeCun minimaliseert dat.
Pieter Abbeel: “We weten alvast dat zo’n LLM een reeks woorden als input neemt, en dan een hoop rekenwerk doet. Dat kun je een vorm van ‘denken’ noemen, al antropomorfiseer je dan misschien te veel.
“Het model verwerkt informatie en genereert dan het volgende woord op basis van wat het heeft geleerd.
“Veel van wat intelligente wezens doen, is observeren en daarop reageren. Het LLM doet dus een vorm van intelligente verwerking van de data.
“En dan is de vraag eigenlijk: welke data heb je nodig om te maken dat je de goede antwoorden krijgt?
“Door alleen maar met tekst te werken, zoals nu, blijkt zo’n model al veel te weten. Maar misschien moet het ook leren om video te verwerken, om beter te begrijpen hoe de fysieke wereld werkt en die tekst te aarden in een fysiek begrip van de wereld.”
“Mensen begrijpen de wereld eerst fysiek, hun begrip van taal is gegrond op de fysieke wereld.
“Daarom heb je metaforen als: hogerop klimmen in een bedrijf. Omdat je al een echte ladder hebt gezien, begrijp je wat het betekent om ‘hogerop’ te komen.
“Die AI-modellen doen het omgekeerde: ze beginnen met taal. De vraag is volgens mij: is taal alleen genoeg om echt te begrijpen?
“Het lijkt er toch op dat leren van video een dieper begrip van de fysieke wereld zal geven.”
“Taalmodellen zouden dan niet meer die domme fouten maken die ze vandaag nog maken, op domeinen die voor mensen heel simpel zijn.
“Dingen als: het duurde tien uur om tien kledingstukken te drogen in de zon, hoe lang duurt het om twintig stukken te drogen? Nu zal ChatGPT zeggen: ‘twintig uur’.
“Dat is fout, omdat ChatGPT niet begrijpt hoe de fysieke wereld werkt. Taalmodellen zullen veel beter worden. Maar een veel grotere impact, volgens mij, zal het genereren van video hebben.”
“Veel van het werk dat we hier aan Berkeley doen, draait rond het genereren van video. Want ik denk dat een neuraal netwerk dat video kan genereren een vrij diep begrip heeft van de fysieke wereld.
“Net zoals een taalmodel een vrij goed begrip heeft van de wereld van een conversatie.”
Google heeft in december zijn AI-model Gemini Ultra getoond, waarvan het beweert dat het video kan begrijpen. Is dat wat u bedoelt?
“Het is een interessant beginpunt. Volgens mij is Gemini Ultra gelijkaardig aan GPT-4V van OpenAI (de videoversie van GPT-4, red.).
“Maar die modellen werken niet echt met video, ze werken met een aantal frames, omdat het anders te veel rekenkracht vereist.
“Mijn vermoeden is dat, als we erin slagen om te trainen op full video, de modellen dan een grote stap voorwaarts zetten in hun begrip van hoe de wereld werkt.”
“En om de fysieke wereld écht te begrijpen, moeten we het model dwingen om de volgende frames in een video te voorspellen.
“Je toont het model vijf seconden video, en je vraagt: wat gebeurt er in de volgende tien seconden? Dat is een erg groot probleem.”
Is daar een doorbraak voor nodig, of hebben we de nodige technologie al?
“We hebben waarschijnlijk duizend keer meer rekenkracht en geheugen nodig dan waarmee we nu werken.
“Grote taalmodellen verwerken – laat ons zeggen – 10 terabytes aan tekst – dat is alle tekst van bruikbare kwaliteit die we op het internet kunnen vinden.
“Maar 10 terabytes aan video, dat is niks. Er zijn wel al stappen gezet. Mijn lab kan een paar seconden video produceren die er al vrij behoorlijk uitzien, en er zijn andere projecten om hetzelfde te doen. Maar we staan nog maar aan het begin.”
Duizend keer meer rekenkracht, hoe lang zal dat dan duren?
“Aan de hand van de wet van Moore (die stelt dat de rekenkracht van chips elk jaar verdubbelt, al ging dat de voorbije jaren een stuk trager, red.) zou je zeggen: tien jaar.
“Maar als mensen meer gespecialiseerde AI-chips bouwen, duurt het misschien maar vijf jaar. Dus ja, met de huidige ideeën zal AI volgens mij binnen de vijf tot tien jaar erg goede video kunnen genereren, zoals het nu erg goede tekst genereert en zoals het nu al erg goed audio begint te genereren.
“En misschien komen we op betere ideeën en kan het nog sneller.”
Superintelligentie
Als je dan AI hebt die video kan voorspellen en produceren, welke verdere stap zetten we dan? Komen we dan in de buurt van Artificial General Intelligence of superintelligentie?
“Er zijn veel definities van AGI, maar laat ons zeggen dat we het hebben over een AI-systeem dat evenwaardig is aan een universitair geschoolde persoon, in alle studierichtingen die er zijn, en die met een paar instructies in staat is min of meer om het even welke job uit te voeren.
“Ik denk: zodra je echte videogeneratie hebt, eenmaal je dus eigenlijk visueel de toekomst kunt genereren, dan open je de hele fysieke wereld voor AI. Dan wordt de fysieke wereld toegankelijk voor automatisering.”
U bedoelt: een doorbraak in robotica?
“Absoluut! Als onze robots in staat zijn om video te genereren, kunnen ze eigenlijk verschillende scenario’s doordenken en dan de handeling doen die tot het meest gewenste scenario leidt. Daaraan werken we bij Covariant.
“Dat zal een grote stap zijn voor alle fysieke taken. Ook voor zelfsturende auto’s: als ze elk mogelijk scenario kunnen bedenken, kunnen ze het scenario kiezen dat een ongeval vermijdt.”
Toen wij u in 2015 spraken, was uw grootste frustratie dat robots niet kunnen veralgemenen. Een robot leert de dop van een fles te schroeven, maar om het deksel van een potje te schroeven, moet hij helemaal opnieuw getraind worden. Komt dat met deze aanpak in orde?
“Het vermogen om te generaliseren is al enorm verbeterd, omdat we nu met veel grotere en bredere datasets werken.
“Bij Covariant werken we aan robots die in magazijnen werken. Traditioneel zou je hebben gezegd: als ik een robot wil die groenten uit een magazijn haalt, dan moet ik zo veel mogelijk data over groenten verzamelen.
“Maar wij hebben geleerd om een model te trainen op zo veel mogelijk gegevens over groenten, maar ook over cosmetica en kleding enzovoort. Zo kan onze robot generaliseren, en zal hij kunnen werken met de objecten die hij in het magazijn aantreft.”
De robot die ons in huis zal helpen, komt die eraan?
“Dat blijft moeilijk. Er is zoveel variatie tussen woningen. Eerst zullen er robots zijn die steeds meer doen in een magazijn en die steeds meer gaan doen op het vlak van, bijvoorbeeld, recyclage en landbouw.
“Dat zijn omgevingen die niet zo gestructureerd zijn als een autofabriek, maar ook niet zo onvoorspelbaar als een woning.
“Om robots in huis te krijgen, moeten ze slimmer en goedkoper zijn. Goedkoper, dat valt op te lossen. Als we voor 20.000 dollar een auto kunnen bouwen, dan moet je daar ook een robot voor kunnen bouwen – er zit minder metaal in.”
Elon Musk
Tesla ontwikkelt nu de Optimus robot. Wat kan de impact van Elon Musk zijn op de robotica?
“Wat Musk zegt, klopt: als we humanoïde robots hebben, met handen en benen, die overal kunnen gaan waar mensen gaan, dan is dat belangrijker dan gelijk welke andere uitvinding ooit.
“De impact zal gigantisch zijn.
“Maar eerst hebben we betere AI nodig én betere robothardware. De aanpak van Musk is om aan allebei tegelijk te werken.
“Als je beschikt over een onbeperkt budget, zoals hij, dan kan dat zinvol zijn. Covariant heeft geen onbeperkt budget, wij moeten werken aan iets dat op korte en middellange termijn nuttig en commercieel leefbaar is.
“Er zijn al best goede robots te vinden, alleen zijn het geen humanoïde robots en zijn ze dus niet zo breed inzetbaar.
“De industriële robots van ABB of FANUC bewijzen al decennia dat ze heel betrouwbaar en precies zijn.
“Onze aanpak is: laat ons kijken wat we met die robots kunnen doen als we ze voorzien van AI en gaan toepassen op magazijnbeheer.
“Ons voordeel tegenover Musk en Tesla is dat we op die manier al data terugkrijgen. Elke robot leert uit zijn ervaringen.”
Musk wil over de concurrentie heen springen met zijn Optimus. Lukt hem dat?
“Behalve de ontwikkeling van ChatGPT is er nog iets opmerkelijks gebeurd in 2023: er is zeker een dozijn bedrijven aan het opkomen die humanoïde robots maken, bedrijven die volledig of hoofdzakelijk gericht zijn op de hardware.
“Ik denk dat Musk en Tesla een indrukwekkende inhaaloperatie hebben uitgevoerd op die bedrijven. Hij heeft gedaan wat anderen hem al hadden voorgedaan, maar erg goed en erg snel.
“Wat hij misschien beter kan dan anderen, al valt dat nog te bezien, is massaproductie. Daarmee zou hij de prijs van humanoïde robots omlaag kunnen drijven.”
Het probleem deepfake
Sommige onderzoekers vrezen dat AI gevaarlijk wordt, andere zeggen dat de grootste gevaren zo veraf zijn, dat het belachelijk is om je er nu al zorgen over te maken. George Hinton zit in het ene kamp, Yann LeCun in het andere. Waar zit u?
“Ik zit ergens in het midden en ik denk dat heel wat mensen eigenlijk meer in dat midden zitten dan ze zelf laten uitschijnen.
“Iemand als Geoff Hinton is duidelijk erg bezorgd. Maar de manier waarop hij het verwoordt, is misschien deels gemotiveerd door het feit dat hij bij anderen niet genoeg bezorgdheid ziet.”
“Een van de zaken die zo prachtig zijn aan AI is dat wij, de hele mensheid, eraan bouwen. We kunnen AI bouwen op de manier die we zelf kiezen. En dus hebben we de kans om het goed te doen, als we aandacht hebben voor de mogelijke gevaren.
“Dan blijft nog de vraag: wil iederéén het wel op de goede manier doen? Misschien sta je concurrentieel sterker als je hoeken afsnijdt. Daar heb je dan regulering voor nodig.
“Sommige problemen kunnen opgelost worden door technologie. Nu bouwen we AI die video’s genereert, deepfakes. In de toekomst wordt dat waarschijnlijk nog veel gemakkelijker.
“Dat wordt een probleem, want je weet niet meer wat echt is en wat niet.
“Dat zou je technologisch kunnen oplossen: je kunt elke camerachip zo bouwen dat, als er iets opgenomen wordt, daar een cryptografische handtekening bijkomt.
“Maar de langetermijnkwestie waar Geoff het over heeft, is natuurlijk: wat als de AI slimmer wordt dan wij, nietwaar?”
Ja, wat dan?
“Dan zouden we daar eigenlijk beter van moeten worden, niet? Als je een kind bent, zijn je ouders slimmer dan jij, en ze voorkomen dat je je vingers verbrandt voor je weet dat het fornuis te heet is om aan te raken. Je hebt ook leraars en mensen die misschien niet slimmer zijn dan jij, maar expert op een ander domein.”
“Het wordt zorgwekkender als AI een soort eigen leven gaat leiden. Als het systeem zou beslissen dat het meer om zichzelf geeft, dan om ons.
“Ook dat is een technologische kwestie: hoe maken we dat een AI het goed voor heeft met ons?
“Of: hoe bouwen we een AI die duidelijke grenzen heeft aan wat die mag doen? Misschien mag een AI ons adviseren, maar niet zelf handelen – of toch niet zonder nauwe supervisie.”
Versnelling
Achter de stroomversnelling die AI de voorbije jaren gekend heeft, zit één inzicht, zegt Abbeel: dat een AI-systeem beter presteert, en in voorspelbare mate, als het meer data en rekenkracht krijgt.
“Dat heeft een grote impact gehad”, zegt Abbeel.
“Want plots gaat het over geld, nietwaar? Je kunt gewoon meer data en rekenkracht, dus meer geld, erin pompen en kijken wat er gebeurt.
“OpenAI heeft die omschakeling als eerste gemaakt, met groot succes. Andere zijn gevolgd. En dat idee is nog altijd niet op een echte limiet gebotst.”
Vraagt u zich soms af hoe de wereld er straks zal uitzien?
“De timing kennen we niet, maar we kunnen wel extrapoleren hoe de toekomst eruit zou zien als er AI is die echt bekwaam is.
“Als je kijkt naar de wereld vandaag, dan is alles wat fysieke inspanning vraagt erg duur in vergelijking met wat digitaal is, nietwaar?
“Jij kunt naar dezelfde Netflix-film kijken als ik, dat kost niet veel, het is gewoon wat bandbreedte.
“Alles wat fysieke inspanning vereist, zal veel goedkoper en dus toegankelijker worden.”
“AI zal ons ook helpen om vooruitgang te boeken in de fundamentele wetenschappen. Denk aan nieuwe materialen, biologie, gezondheidszorg …
“We mogen dus een wereld verwachten waarin deze en andere wetenschappen veel sneller vooruitgang boeken dan in het verleden. Nieuwe materialen, nieuwe soorten kleding, ziekten die genezen worden …
“We worden misschien gezonder en sterker en leven misschien langer dan vandaag. We zouden betere batterijen en zonnepanelen hebben. Of misschien vinden we een betere manier om energie op te slaan dan batterijen.
“Ik zie een heel interessante wereld, waarin AI ons helpt dingen te ontdekken die ons anders decennia of eeuwen zouden kosten.
“Ik heb goede hoop dat ik veel van die dingen nog zelf zal meemaken in de komende tien tot twintig jaar.”
Kunnen wij al die verandering wel aan?
“Verandering kan zwaar zijn, daar heb je gelijk in. Daar moeten we voor opletten. Maar voor sommige zaken kan de verandering niet snel genoeg gaan.
“Wil je vandaag een remedie tegen kanker, of pas over honderd jaar? Dan kiest iedereen toch voor vandaag?”
Lees ook
Lees andere gesprekken in deze reeks
Lees ook
Lees andere berichten in deze categorie
Bron: De Standaard