Figure 01 - Robot met OpenAI C-3PO-achtige speech-to-speech vaardigheden

De ontwikkeling van humanoïde robots heeft zich gedurende het grootste deel van de afgelopen twintig jaar met een slakkengangetje voltrokken. Er is nu echter, dankzij een samenwerking tussen Figure AI en OpenAI, een flinke versnelling aan de gang. Het resultaat? Aanschouw daarvoor hieronder één van de verbluffendste echte humanoïde robotvideo’s die je ooit gezien hebt!

Het startup robotica bedrijf Figure AI bracht onlangs een opmerkelijke video-update uit van zijn Figure 01 robot met een nieuw Visual Language Model (VLM). Deze combo transformeerde deze bot op de één of andere manier van een nogal oninteressante robot in een volwaardige SciFi bot die aan de C-3PO mensachtige protocoldroid uit de bekende Star Wars saga doet denken.

De Figure 01 robot interactie in de demonstratievideo

In de bovenstaande video staat de Figure 01 robot achter een tafel met een bord, een appel en een kopje. Links is een afdruiprek. Een mens staat voor de robot en vraagt aan de robot: “Figure 01, wat zie je nu?”

De Figure 01 reageert na een paar seconden met een opmerkelijk menselijk klinkende stem, waarbij alles op de tafel wordt beschreven en de details van de man die ervoor staat. Er is echter geen gezicht van de robot te zien, maar enkel een geanimeerd licht dat synchroon met de robotstem reageert.

Dat is op zich al bijzonder gaaf, zul je dan denken als je dit ziet.

Dan vraagt de man vervolgens: “Hé, mag ik iets eten?”

De Figure 01 bot beantwoordt dan: “Zeker”, en pakt dan met behendige en vloeiende bewegingen de appel op en overhandigt deze aan de man.

Wauw, zullen velen daarover denken.

De man in de video haalt daarna voor Figure 01 wat verfrommeld papier uit een bak terwijl hij vraagt: “Kun je uitleggen waarom je deed wat je net deed terwijl je dit afval ophaalde?”

De Figure 01 robot verspilt daarop geen tijd met het uitleggen van de redenering terwijl de bot het papier terug in de bak plaatst. Het zegt: “Ik gaf je de appel omdat dit het enige eetbare item is dat ik je van tafel kon geven.”

Je denkt nu misschien dat deze demonstratie fake kan zijn, maar volgens Figure AI is het echt.

De Speech-to-speech VLM van OpenAI

Het bedrijf Figure legde in een release uit dat hun Figure 01 robot speech-to-speech redeneringen toepast. Het doet dit met behulp van OpenAI’s vooraf getrainde multimodale model (VLM) om beelden en teksten te begrijpen en het vertrouwt vervolgens op een volledig stemgesprek om zijn antwoorden te formuleren. Dit is heel anders dan bijvoorbeeld GPT-4 van OpenAI (met o.a. LLM), dat zich op schriftelijke aanwijzingen richt.

Het maakt daarnaast gebruik van wat het bedrijf ‘aangeleerde bimanuele manipulaties op laag niveau’ noemt. Het systeem koppelt daarin nauwkeurige beeldkalibraties (tot op pixelniveau) aan zijn neurale netwerk om de bewegingen van de bot te controleren.

Volgens Figure absorbeert dit netwerk 10 Hz beelden en genereert het daarmee zogenaamde ‘24-DOF’ acties bij 200 Hz. Dit bestaat onder meer uit polshoudingen en vinger gewrichtshoeken.

Het bedrijf beweert verder dat al het bot gedrag in de video op systeemleren is gebaseerd en niet wordt geteleopereerd. Iets wat simpelweg betekent dat er niemand achter de schermen een poppenspeler is!

Zonder Figure 01 zelf persoonlijk in actie te zien en persoonlijke vragen te stellen, is het bijzonder moeilijk om de beweringen van Figure te verifiëren. Het zou bovendien een mogelijkheid kunnen zijn, dat het niet de eerste keer is de Figure 01 robot deze routine doorloopt. Het had zelfs al de 100e keer kunnen zijn. Iets wat de snelheid en vloeibaarheid van de humanoid zou kunnen verklaren…

Maar heel misschien is dit allemaal 100% echt. In dat geval kun je niets anders dan wow denken, ofwel een absoluut verbluffende openbaring!