I år kommer du for alvor til at snakke med din elektronik
Talegenkendelse og digitale assistenter er de nye it-buzzwords, men det er vores børn, der får mest glæde af teknologien. JP har testet den digitale butler Google Home, som foreløbig kun taler engelsk.
Robotter, der ikke bare taler til os men med os, er gang på gang blevet skildret i science fiction-film og bøger.
I glimt fungerede demoerne under besøget i Mountain View perfekt, og det var til at se perspektiverne, men der er langt til målet.John G. Pedersen, mobilekspert
Helt tilbage i 1800-tallet findes skildringer. Eksempelvis ”Frankenstein” – romanen fra 1831, hvor videnskabsmanden Victor Frankenstein sammensætter legemsdele fra døde personer og formår at give skabningen liv.
Frankenstein var dog ikke en robot, men fortællingens holdbarhed viser meget godt, hvor fascineret vi mennesker altid har været af organismer, der lever og tænker selv.
Mange forventer et gennembrud for talende elektronik i 2017. Spørgsmålet er, hvor sandsynligt det reelt er. Er vi virkelig parate til at tale med og til elektronikken?
Jyllands-Posten har besøgt Googles hovedkvarter i Mountain View, Californien, for at høre, hvor langt arbejdet med talegenkendelse og digitale assistenter er kommet. Arnestedet er udkanten af San Francisco, hvor Silicon Vally ligger, som Google også er en del af. Området er kendt for tusindvis af højteknologiske firmaer, der alle på den ene eller anden måde påvirker vores fremtid.
Google, men også firmaer som Microsoft, Amazon og Apple, har fokus på genkendelse af tale og deraf følgende oversættelse til informationer eller handlinger.
Hvis du har leget med teleassistenten Siri på din iPhone, ved du, hvad jeg taler om. ”Imponator-effekten” er enorm de gange, hvor teknologien fungerer, og man bliver helt høj af det. Lige så meget ned ad bakke går det dog, når det ikke virker som forventet – hvilket stadig er de fleste gange.
Forventningerne er større end teknologien
Udfordringen for udviklerne er slutbrugerne, og det hyperkomplekse instrument vi har, der kaldes ”stemme” og ”tale”. Dernæst forståelse af tale, der skal omsættes til handlinger.
Brugerne forventer, at teknologien er langt smartere end det, vi kender i dag, lyder det fra Google. Har vi først har haft én succesoplevelse med en digital assistent som Siri, er vi hurtige til at udfordre den, hvorefter hovedet hurtigt rammer loftet, og teknologiens mangler blotlægges.
Googles mål er, at brugerne skal kunne føre ”en samtale med Google” via en digital assistent. I glimt fungerede demoerne under besøget i Mountain View perfekt, og det var til at se perspektiverne, men der er langt til målet.
Her er vi nu
Googles ”digitale butler” har navnet Google Assistant. Det svarer til Siri i iPhone og Alexa i Amazon Echo.
I modsætning til Siri, som mange kender, er Google Assistant dog smartere, da den forstår sammenhænge.
Spørgsmålet ”hvor langt er der til Eiffeltårnet” udløser blandt andet en beregning af afstanden fra brugerens aktuelle placering til Eiffeltårnet i Paris. Få sekunder senere siger Google Assistant: ”Afstanden til Eiffeltårnet er xx kilometer i bil.”
Stemmen kommer fra Google Home, en netværksdims med indbygget højttaler. Designet ligner noget, der kunne være en duftfrisker. Google Home taler lige nu kun engelsk, og den er udelukkende tilgængelig på det amerikanske marked.
Efter spørgsmålet om den kendte franske seværdighed er systemet nu sporet ind på, at det er denne over 300 meter høje stålkonstruktion, vi taler om. Nu kan man følge op med spørgsmålet: ”Hvad er højden?”, ”Hvornår er det indviet?”, ”Hvornår begyndte byggeriet?”, ”Hvad er åbningstiderne?”, o.s.v. Alt sammen uden at sætte Eiffeltårnet ind i spørgsmålet – altså fuldkommen som når du taler med en rigtig person.
Det mest imponerede er, at man ikke behøver at formulere spørgsmålene særligt godt.
Forklaringen er, at Google benytter maskinel indlæring (machine learning) til indlæring af brugernes mange forskellige måder at spørge på, og den bliver løbende klogere og bedre.
At bede elektronikken om at gøre ting ligger for mange af os ikke naturligt. Det er grænseoverskridende. Især hvis man ikke er alene hjemme, men i nogle situationer giver det faktisk en lettelse.John G. Pedersen, mobilekspert
Med assistenten kan du også få svar på spørgsmål som: ”Er blåhvaler større end dinosaurerne?”. På et splitsekund hentes svaret fra et website, hvorefter den venlige kvindestemme fortæller det til dig. Her skal man huske, at Google Home kun har en højttaler og ingen skærm. Så brugeren er afhængig af, at systemet kan finde ét svar på ét spørgsmål – og at svaret er korrekt.
Styr hjemmet med stemmen
Et andet perspektiv i Google Home er smarthome-teknologi, hvor man med stemmen fortæller, at lyset skal tændes, slukkes, dæmpes eller skifte farve. Dette virker allerede med smartpærerne Philips Hue.
Sidder der en Chromecast-dongle i HDMI-porten på tv’et, er det blot at bede om Youtube-videoen, man gerne vil se, eller de seneste billeder fra ferien. ”Show me videoes from Michael Jackson on my tv” starter øjeblikkeligt videoer med Michael Jackson på tv’et, mens ”Show me photos from my trip to London” straks fremkalder feriebillederne på fladskærmen.
Sådan skal Google Home virke, forklarer Google i denne instruktionsvideo:
Allerede nu er tjenester som Spotify, Youtube, Netflix, Tunein, Google Play Music og mange andre understøttet i Google Home. Så filmelskere kan bare bede om deres favoritserie uden at skulle række ud efter smartphonen eller fjernbetjeningen.
Vi er meget tidligt i denne fase, men alt, hvad der på den ene eller anden måde er forbundet til nettet, vil i den nære fremtid kunne styres gennem kommandoer, er forventningen.
Hvor mange vil snakke med elektronik?!
At bede elektronikken om at gøre ting ligger for mange af os ikke naturligt. Det er grænseoverskridende. Især hvis man ikke er alene hjemme, men i nogle situationer giver det faktisk en lettelse. Det har taget nogle uger, hvor jeg har tvunget mig selv til at tale til elektronikken, og gevinsten ligger lige for.
”Ok, Google, turn off lights”, bruger jeg nu hver aften for at slukke lyset. Og ja. Det er faktisk hurtigere end at gå rundt til tre lamper og trykke på afbryderen. Det er også langt lettere at starte en bestemt playliste fra Spotify blot ved at sige ”Ok, Google, play music on my speaker”.
Google Home er ikke lanceret i Danmark, og derfor er mulighederne begrænsede, og sproget er engelsk. Jeg har forbundet den til Philips Hue, Spotify, Google Fotos og Youtube.
I testperioden mistede den digitale butler livet i en periode, og pludselig mærkede jeg forskellen; at jeg faktisk savnede adgangen til stemmestyret betjening.
Google: Vi skal stole på elektronikken
»For det meste ved vi ikke, hvad vi laver,« lyder det spontant fra Ryan Germick, da det bliver min tur til at møde en af de personer, som i Google-kredse betegnes som en superstar.
Ryan er ”Head of Google Doodles”, de små genreudgaver af Googles logo, der fra tid til anden ses på søgetjenesten, hvilket har gjort ham verdenskendt, men Ryan Germick arbejder sammen med sit mandskab også på personligheden i stemmen, der kommer ud af Google Assistant. Faktisk er den digitale personlighed vigtig, hvis vi skal have lyst til at tale med en digital assistent.
»Det skal være en ”person”, du er glad for at se; en, der har en ufattelig stor paratviden, men også forstår din humor og er villig til at lave sjove ting sammen med dig. Vi skal skabe en assistent, som du har lyst til at tage på en køretur med i f.eks. seks timer, en, du stoler på kan lave den bedste musikliste til turen, og en, der ville være fantastisk at have som medspiller i et brætspil,« forklarer Germick.
For Google er det stadig svært at få teknologi til at opføre sig som en rigtig person, og det er en udfordring, som kloge hoveder har arbejdet med i årtier.
Man skal kravle, før man kan gå
Talegenkendelse og digitale butlere har siden 50’erne været i kravlestadiet, men teknologien er nu så fremskreden, at der i de kommende år vil ske store landvindinger, siger Bertrand Damibda, Google. Siden 90’erne har han arbejdet med stemme- og talegenkendelse, og i dag er han produktchef for Google Search, hvor han arbejder med at få Google Assistant til at give vidensfyldte svar.
»Hvis du ser på forbedringerne i præcisionen af stemmegenkendelse over de seneste 50 år, så har der for fem år siden været et stort skifte. Det var her, vi begyndte at bruge machinelearning og algoritmer til indlæring. I nogle systemer kan maskinerne faktisk genkende og forstå, hvad du siger, på niveau med hvad jeg f.eks. kan. Vi er lige nu tæt på et gennembrud,« lyder det fra Bertrand Damibda.
Systemer som det, Google udvikler, skaffer viden om sproget og dets sammensætning fra blandt andet litteratur og bøger. Ved at analysere tilstrækkeligt med bøger kan computerne lære, hvad sandsynligheden er for, at bestemte ord efterfølger hinanden, og hvordan de optræder i sammenhænge. Ved at kombinere disse data med det, brugeren af en taleenhed siger, kan computerne med stor nøjagtighed fastslå, hvad der bliver sagt – og meningen bag det.
»Så længe du har bøger nok, kan disse fortælle dig alt, hvad du behøver at vide om et sprog. Vi er lige nu i startfasen, men jeg tror og håber, at området vil udvikle sig drastisk. Lige nu fungerer det fornuftigt, men vi kan gøre det så meget bedre. F.eks. ved at kunne stille spørgsmål tilbage til brugeren; ”Jeg forstod dette, men ikke dette osv.,”« forklarer Bertrand Damibda.
Han pointerer, at de bedste betjeningsflader er dér, hvor brugeren ikke længere tænker over, at de er der.
»Tale er det mest naturlige interface til betjening. Vores hjerne er udviklet til at udtrykke vores tanker gennem ord. Det var sværere at overbevise folk om at skulle sidde foran en skærm med tastatur og mus, end det ville have været, hvis man bare kunne tale til maskinen,« lyder det afslutningsvis fra eksperten.
Google startede i 2004 projektet, der nu hedder Google Books. Formålet er at scanne alle bøger i hele verden og gøre dem tilgængelige for offentligheden online. Projektet har mødt meget modstand undervejs, men kører stadig. Om det er fra scanningsprogrammet, at Google skaffer sig viden om sproget, er ukendt.
Mange problemer og dilemmaer
Siri fra Apple og Google Assistant genkender lige nu trigger-ordene ”Hej Siri” og ”OK, Google”. I virkeligheden er dette ikke særligt smart.
Hvis man ud i et lokale med mange iPhones samlet, f.eks. et mødelokale, siger, ”Hej Siri”, vil mere end én telefon reagere og være parat til at modtage input. Vi er endnu ikke der, hvor der bruges genkendelse af en stemmes særlige kendetegn, og systemet kan ikke nødvendigvis fastslå, om det er dig eller en anden, der siger ”Hej Siri”.
Google Assistant venter også spændt på kodeordet, og høres en optagelse af ”OK, Google”, vil den også reagere. Hvis ikke dette løses, står vi over for et privatlivsdilemma.
Hos Google kan man desuden via sin personlige Google-konto få genafspillet alle de stemmekommandoer, man har givet Google Assistant. Ligeledes kan man se, hvilke skriftlige søgninger man har lavet på Google generelt, hvor man har været, og hvilke sider man har besøgt. Såfremt uvedkommende får adgang til din konto, kan de altså ikke bare læse, men også høre, hvad du har søgt på.
Skal stemmestyring for alvor være smart, vil det kræve, at firmaerne bag får løst, at ikke alle sidder i et stille kontorlokale. Trafik, musik der spiller, børn der larmer, folk som snakker osv. osv. Der er støj overalt, og alene baggrundsstøjen fra en bil kan forvirre teknologien så meget, at resultatet er direkte ubrugeligt.
Fremtiden ser dog helt anderledes ud. I et lokale med larm og musik vil man kunne bruge taleteknologier, der i virvaret af støjen kan analysere sig frem til, hvilke ord der er relevante. Altså om du pludselig siger ”sluk lyset” eller ”skift til næste sang”. Ganske som vi mennesker godt kan føre en samtale med en person ved et selskab, selvom der sidder andre ved siden af og taler.
Perspektivet er også, at assistenterne ved, hvilken sindsstemning du er i, når du afgiver en kommando, hvorefter de giver resultater på den baggrund. De ved også, om du har travlt, fordi de har adgang til kalenderen, og vil derfor undlade at give dig lange svar på tidspunkter, hvor du ikke har tiden til det.
Konklusion: Det sker ikke i år
Selvom Apple, Google, Amazon og mange andre gerne ser et kæmpe gennembrud for talegenkendelse lige nu, fordi det også kommercielt er interessant, går der længere tid.
Teknologierne er geniale og fantastisk opløftende, når de fungerer, men når de ikke gør, fremstår de latterlige. Producenterne vil gerne tale området op f.eks. ved at sige, at gennembruddet er lige rundt om hjørnet, men i praksis vil der gå meget længere tid.
Nu skal assistenterne lige lære os at kende først, forstå, hvad vi siger, og udføre kommandoerne eller søgningerne. Dernæst skal det blive socialt acceptabelt at tale til dimserne omkring os. Det vil i virkeligheden nok vise sig, at dette bliver meget vanskeligere, end producenterne tror.
Børnene bliver fremtidens talekunder. Sæt Siri, Alexa eller Google Assistant foran et barn; så skal du bare se. De er på helt anderledes vis åbne. Tænk på, hvilket fantastisk opslagsværk ungerne vil have lige ved hånden – og de skal nok tale både til og med teknologien.
Min datter på to år ved allerede nu, hvordan man skal få Google til at sige som en ko, hest eller elefant.