Hjulpet av A.I. Språkmodeller, Googles roboter blir smarte (2023)

Annonse

HOPPE ANNONSE

Støttet av

HOPPE ANNONSE

Skiftet

Vår sniktitt på Googles nye robotmodell, RT-2, som kombinerer kunstig intelligens-teknologi med roboter.

Hjulpet av A.I. Språkmodeller, Googles roboter blir smarte (1)

AvKevin Roose

Kevin Roose er en teknologispaltist, og er medvert for Times podcast "Hard gaffel."

En enarmet robot sto foran et bord. På bordet satt tre plastfigurer: en løve, en hval og en dinosaur.

En ingeniør ga roboten en instruksjon: "Plukk opp det utdødde dyret."

Roboten surret et øyeblikk, så strakte armen seg ut og kloen åpnet seg og falt ned. Den tok tak i dinosauren.

Inntil helt nylig ville denne demonstrasjonen, som jeg var vitne til under et podcastintervju hos Googles robotavdeling i Mountain View, California, forrige uke, vært umulig. Roboter var ikke i stand til pålitelig å manipulere objekter de aldri hadde sett før, og de var absolutt ikke i stand til å ta det logiske spranget fra "utdødd dyr" til "plastdinosaur."

Video

Hjulpet av A.I. Språkmodeller, Googles roboter blir smarte (3)

Men en stille revolusjon er i gang innen robotikk, en som piggybacks på nyere fremskritt innen såkaltestore språkmodeller— samme type kunstig intelligens-system som driverChatGPT, Bard og andre chatbots.

Google har nylig begynt å koble toppmoderne språkmodeller inn i robotene sine, noe som gir dem det samme som kunstige hjerner. Det hemmelighetsfulle prosjektet har gjort robotene langt smartere og gitt dem nye krefter til forståelse og problemløsning.

Jeg fikk et glimt av fremgangen under en privat demonstrasjon av Googles nyeste robotikkmodell, kalt RT-2. Modellen, som avdukes på fredag, utgjør et første skritt mot det Google-ledere beskrev som et stort sprang i måten roboter bygges og programmeres på.

"Vi har måttet revurdere hele forskningsprogrammet vårt som et resultat av denne endringen," sa Vincent Vanhoucke, Google DeepMinds sjef for robotikk. "Mange av tingene vi jobbet med før har blitt fullstendig ugyldig."

Bilde

Roboter mangler fortsatt behendighet på menneskelig nivå og mislykkes i noen grunnleggende oppgaver, men Googles bruk av A.I. språkmodeller for å gi roboter nye ferdigheter innen resonnement og improvisasjon representerer et lovende gjennombrudd, sa Ken Goldberg, robotikkprofessor ved University of California, Berkeley.

"Det som er veldig imponerende er hvordan det kobler semantikk med roboter," sa han. "Det er veldig spennende for robotikk."

For å forstå omfanget av dette, hjelper det å vite litt om hvordan roboter konvensjonelt har blitt bygget.

I årevis var måten ingeniører hos Google og andre selskaper trente roboter til å utføre en mekanisk oppgave – for eksempel å snu en burger – ved å programmere dem med en spesifikk liste med instruksjoner. (Senk spatelen 6,5 tommer, skyv den fremover til den møter motstand, hev den 4,2 tommer, roter den 180 grader og så videre.) Roboter øvde deretter på oppgaven igjen og igjen, med ingeniører som finjusterte instruksjonene hver gang til de fikk det riktig.

Denne tilnærmingen fungerte for visse, begrensede bruksområder. Men å trene roboter på denne måten er sakte og arbeidskrevende. Det krever innsamling av mye data fra virkelige tester. Og hvis du ønsket å lære en robot å gjøre noe nytt - å snu en pannekake i stedet for en burger, for eksempel - måtte du vanligvis omprogrammere den fra bunnen av.

Delvis på grunn av disse begrensningene har maskinvareroboter forbedret seg mindre raskt enn sine programvarebaserte søsken. OpenAI, skaperen av ChatGPT,oppløste robotteameti 2021, med henvisning til langsom fremgang og mangel på treningsdata av høy kvalitet. I 2017, Googles morselskap, Alphabet,solgte Boston Dynamics, et robotselskap det hadde kjøpt opp, til det japanske teknologikonglomeratet SoftBank. (Boston Dynamics eies nå av Hyundai og ser ut til å eksistere hovedsakelig forprodusere virale videoerav humanoide roboter som utfører skremmende bragder av smidighet.)

Bilde

Bilde

De siste årene har forskere ved Google hatt en idé. Hva om roboter, i stedet for å bli programmert for spesifikke oppgaver én etter én, kunne bruke en A.I. språkmodell – en som hadde blitt trent på store deler av internetttekst – for å lære nye ferdigheter selv?

"Vi begynte å leke med disse språkmodellene for rundt to år siden, og da skjønte vi at de har mye kunnskap i dem," sa Karol Hausman, en Google-forsker. "Så vi begynte å koble dem til roboter."

Googles første forsøk på å slå sammen språkmodeller og fysiske roboter var et forskningsprosjekt kalt PaLM-SayCan, som ble avslørt i fjor. Dentrakk litt oppmerksomhet, men nytten var begrenset. Robotene manglet evnen til å tolke bilder - en avgjørende ferdighet hvis du vil at de skal kunne navigere i verden. De kunne skrive ut trinnvise instruksjoner for forskjellige oppgaver, men de kunne ikke gjøre disse trinnene til handlinger.

Googles nye robotmodell, RT-2, kan gjøre nettopp det. Det er det selskapet kaller en "vision-language-action"-modell, eller en A.I. system som har evnen til ikke bare å se og analysere verden rundt seg, men å fortelle en robot hvordan den skal bevege seg.

Det gjør det ved å oversette robotens bevegelser til en serie tall - en prosess som kalles tokenisering - og inkludere disse tokenene i de samme treningsdataene som språkmodellen. Til slutt, akkurat som ChatGPT eller Bard lærer å gjette hvilke ord som skal komme neste i et dikt eller et historieessay, kan RT-2 lære å gjette hvordan en robots arm skal bevege seg for å plukke opp en ball eller kaste en tom brusboks i resirkuleringen bin.

"Med andre ord, denne modellen kan lære å snakke robot," sa Mr. Hausman.

I en timelang demonstrasjon, som fant sted på et Google-kontorkjøkken overfylt med gjenstander fra en dollarbutikk, så podcastmedverten min og jeg RT-2 utføre en rekke imponerende oppgaver. Man fulgte med suksess komplekse instruksjoner som «flytt Volkswagen til det tyske flagget», noe RT-2 gjorde ved å finne og fange en modell VW Bus og sette den ned på et tysk miniatyrflagg flere meter unna.

Bilde

Den viste seg også i stand til å følge instruksjoner på andre språk enn engelsk, og til og med lage abstrakte forbindelser mellom relaterte konsepter. En gang, da jeg ville at RT-2 skulle hente en fotball, instruerte jeg den om å "hente Lionel Messi." RT-2 fikk rett på første forsøk.

Roboten var ikke perfekt. Den identifiserte feilaktig smaken av en boks med LaCroix plassert på bordet foran den. (Dåsen var sitron; RT-2 gjettet appelsin.) En annen gang, da det ble spurt om hva slags frukt som sto på et bord, svarte roboten ganske enkelt: «Hvit». (Det var en banan.) En talskvinne for Google sa at roboten hadde brukt et bufret svar på spørsmålet til en tidligere tester fordi Wi-Fi-nettverket kort var slukket.

Video

Hjulpet av A.I. Språkmodeller, Googles roboter blir smarte (4)

Google har ingen umiddelbare planer om å selge RT-2-roboter eller frigi dem mer utbredt, men forskerne tror at disse nye språkutstyrte maskinene til slutt vil være nyttige for mer enn bare salongtriks. Roboter med innebygde språkmodeller kan settes inn i varehus, brukes i medisin eller til og med brukes som husholdningsassistenter - brette klesvask, tømme oppvaskmaskinen, plukke opp rundt i huset, sa de.

"Dette åpner virkelig for å bruke roboter i miljøer der folk er," sa Vanhoucke. "I kontormiljøer, i hjemmemiljøer, på alle steder der det er mange fysiske oppgaver som må gjøres."

Selvfølgelig er det vanskeligere å flytte gjenstander rundt i den rotete, kaotiske fysiske verdenen enn å gjøre det i et kontrollert laboratorium. Og gitt at A.I. språkmodeller gjør ofte feil eller finner opp useriøse svar - som forskere kallerhallusinasjoneller konfabulering - å bruke dem som hjernen til roboter kan introdusere nye risikoer.

Men Mr. Goldberg, Berkeley robotikkprofessor, sa at disse risikoene fortsatt var fjerntliggende.

"Vi snakker ikke om å la disse tingene løpe løs," sa han. "I disse laboratoriemiljøene prøver de bare å skyve noen gjenstander rundt på et bord."

Video

Hjulpet av A.I. Språkmodeller, Googles roboter blir smarte (5)

Google på sin side sa at RT-2 var utstyrt med mange sikkerhetsfunksjoner. I tillegg til en stor rød knapp på baksiden av hver robot - som stopper roboten i sporene når den trykkes inn - bruker systemet sensorer for å unngå å støte på mennesker eller gjenstander.

A.I. programvare innebygd i RT-2 har sine egne sikkerhetstiltak, som den kan bruke for å forhindre at roboten gjør noe skadelig. Et godartet eksempel: Googles roboter kan trenes til ikke å plukke opp beholdere med vann i, fordi vann kan skade maskinvaren deres hvis det søles.

Hvis du er den typen som bekymrer deg for A.I. blir useriøse — og Hollywood har gitt oss mange grunner til å frykte det scenariet, fra den originale «Terminator» til fjorårets «M3gan» — ideen om å lage roboter som kan resonnere, planlegge og improvisere i farten, virker sannsynligvis forferdelig. idé.

Men hos Google er det den typen idé som forskere feirer. Etter år i villmarken er maskinvareroboter tilbake – og de har chatbot-hjerne å takke.

Kevin Rooseer en teknologispaltist og forfatter av "Futureproof: 9 Rules for Humans in the Age of Automation." Mer om Kevin Roose

En versjon av denne artikkelen vises på trykk på, Seksjon

EN

, Side

1

av New York-utgaven

med overskriften:

Ved hjelp av A.I. blir Googles roboter smarte.Bestill opptrykk|Dagens papir|Abonnere

Annonse

HOPPE ANNONSE

Top Articles
Latest Posts
Article information

Author: Roderick King

Last Updated: 01/12/2023

Views: 6698

Rating: 4 / 5 (71 voted)

Reviews: 86% of readers found this page helpful

Author information

Name: Roderick King

Birthday: 1997-10-09

Address: 3782 Madge Knoll, East Dudley, MA 63913

Phone: +2521695290067

Job: Customer Sales Coordinator

Hobby: Gunsmithing, Embroidery, Parkour, Kitesurfing, Rock climbing, Sand art, Beekeeping

Introduction: My name is Roderick King, I am a cute, splendid, excited, perfect, gentle, funny, vivacious person who loves writing and wants to share my knowledge and understanding with you.