Hvis computere er så smarte, hvordan kan de da ikke læse? | WIRED



Hvordan gjorde vi det? komme ind i dette rod?

Nuværende AI-systemer er stort set drevet af en statistisk teknik kaldet dyb læring, og dyb læring er meget effektiv til at lære korrelationer, såsom korrelationer mellem billeder eller lyde og etiketter. Men dyb læring kæmper, når det kommer til at forstå, hvordan genstande som sætninger relaterer til deres dele (som ord og sætninger).

Hvorfor? Det mangler, hvad sprogfolk kalder sammensætning: en måde at konstruere betydningen af ​​en kompleks sætning ud fra betydningen af ​​dens dele. For eksempel, i sætningen "Månen er 240.000 miles fra Jorden", ordet måne betyder et specifikt astronomisk objekt, jorden betyder en anden, mil betyder en enhed af afstand, 240.000 betyder et tal, og derefter, i kraft af den måde, sætninger og sætninger fungerer sammensat på engelsk, betyder 240.000 miles en bestemt længde, og sætningen "Månen er 240.000 miles fra Jorden" hævder, at afstanden mellem de to himmelske legemer er den særlige længde.

Fortsæt med at læse



Det seneste om kunstig intelligens, fra maskinlæring til computersyn og mere

Overraskende nok har dyb læring ikke nogen direkte måde at håndtere kompositionalitet på; det har bare information om masser og masser af komplekse sammenhænge uden nogen struktur. Det kan lære, at hunde har haler og ben, men det ved ikke, hvordan de forholder sig til en hunds livscyklus. Dyb læring genkender ikke en hund som et dyr sammensat af dele som et hoved, en hale og fire ben, eller endda hvad et dyr er, hvad så meget som et hoved er, og hvordan hovedkonceptet varierer mellem frøer, hunde , og mennesker, forskellige i detaljer, men alligevel har en fælles relation til kroppe. Dyb læring erkender heller ikke, at en sætning som "Månen er 240.000 miles fra Jorden" indeholder sætninger, der henviser til to himmelske kroppe og en længde.

På samme tid har dyb læring ingen god måde at inkorporere baggrundsviden på. Et system kan lære at forudsige, at ordene tegnebog og sikkert sted forekommer i lignende sætninger ("Han lagde sine penge i tegnebogen," "Han lagde sine penge på et sikkert sted"), men det har ingen måde at relatere det til, at folk kan lide at beskytte deres ejendele.

Hvad sprog kognitiv psykologi bygger på, hvad du gør, når du læser en tekst, en kognitiv model for betydningen af, hvad teksten siger. Mens du læser passagen fra Farmer Boyfor eksempel bygger du gradvist op en mental repræsentation – intern i din hjerne – af alle mennesker, genstande og hændelser i historien og forholdet mellem dem: Almanzo, tegnebogen og Mr. Thompson, og også begivenhederne i Almanzo taler til Mr. Thompson, Mr. Thompson råbte og smækkede lommen, Mr. Thompson snappet tegnebogen fra Almanzo, og så videre. Det er først, når du har læst teksten og konstrueret den kognitive model, at du gør hvad du end gør med fortællingen – besvar spørgsmål om den, oversæt den til russisk, illustrer den eller bare husk den til senere.

Lige siden 2013, da DeepMind byggede et system, der spillede Atari-spil – ofte bedre end mennesker – uden kognitive modeller og solgte sig selv til Google for mere end en halv milliard dollars, er kognitive modeller gået ud af mode. Men hvad der fungerer til spil med deres faste regler og begrænsede muligheder fungerer ikke til læsning. Den simulerede prosa for den kognitive modelfri GPT-2 er underholdende, men det er langt fra ægte læseforståelse.

Det skyldes, at statistikken i sidste ende ikke erstatter den virkelige verdens forståelse. I stedet for er der et grundlæggende misforhold mellem den slags statistiske beregninger, der driver nuværende AI-programmer og den kognitive modelkonstruktion, der ville være påkrævet for systemer til faktisk at forstå, hvad de prøver at læse.

Vi tror ikke, det er umuligt for maskiner at gøre det bedre. Men blot kvantitativ forbedring – med flere data, flere lag i vores neurale netværk og flere computere i de netværkede klynger af magtfulde maskiner, der kører disse netværk – vil ikke skære det ned.