Att träna AI för att vara riktigt smart innebär risker för klimatet

Artificiell intelligens – eller AI – är datorkoden som gör att en maskin kan göra något som normalt kräver en mänsklig hjärna. På TikTok, till exempel, sorterar AI inläggen så att de första du ser sannolikt är de du föredrar. AI ger de användbara resultaten av varje Google-sökning. När du ber Siri att spela Taylor Swift förvandlar AI ditt tal till ett kommando för att starta hennes låtar. Men innan en AI kan göra något av det måste utvecklare träna upp den. Och den träningen slukar energi. Mycket av det. Faktum är att träningens aptit på energi snart kan bli ett stort problem, oroar forskarna nu.

Energin för att utveckla AI kommer från elnätet. Och i de flesta delar av världen sprider elektricitet koldioxid (CO2) och andra växthusgaser i luften.

För att jämföra hur olika aktiviteter påverkar klimatet kombinerar forskare ofta effekterna av alla växthusgaser till vad de kallar CO2-ekvivalenter. Under 2019 beräknade forskare vid University of Massachusetts Amherst effekten av att utveckla en AI-modell med namnet Transformer. Det släppte hela 626 000 pund CO2-ekvivalenter. Det är lika med de växthusgaser som skulle sprutas ut av fem amerikanska bilar från det att de tillverkades tills de skrotades.

Bara de största, mest komplexa modellerna använder så mycket energi. Men AI-modeller växer snabbt allt större och krafthungriga. Vissa AI-experter har slagit larm om hotet som dessa energisvin utgör.

Tack vare djupinlärning kan datorer sålla bland berg av data för att fatta snabba, användbara och smarta beslut. Ingenjörer har byggt AI som kan styra självkörande bilar eller känna igen känslor i mänskliga ansikten. Andra modeller hittar cancer i medicinska bilder eller hjälper forskare att upptäcka nya läkemedel. Den här tekniken förändrar världen.

Den kostar dock.

De bästa djupinlärningsmodellerna är AI-världens giganter. Att träna dem kräver enorma mängder datorbearbetning. De tränar på en typ av datorhårdvara som kallas grafikprocessorer (GPU). Det är samma saker som driver grafiken för ett realistiskt videospel.

Det kan ta hundratals GPU:er igång i veckor eller månader för att träna en AI-modell en gång, förklarar Lasse F. Wolff Anthony . Han är student i Schweiz vid ETH Zürich, ett tekniskt universitet. “Ju längre köra”, tillägger han, ”ju mer energi använder de.”

Idag sker det mesta av AI-utveckling i datacenter. Dessa datorfyllda byggnader står endast för cirka 2 procent av USA:s elanvändning och 1 procent av den globala energianvändningen. Och AI-utveckling tar bara upp en liten del av alla datacenters arbetsbelastning.

Maskininlärning inkluderar djupinlärning och neurala nät

Men AI:s energipåverkan är redan “tillräckligt stor för att det är värt att stanna upp och tänka på det”, argumenterar Emily M. Bender. Hon är en beräkningslingvist. Hon arbetar vid University of Washington i Seattle.

Ett vanligt mått på storleken på en djupinlärningsmodell är hur många parametrar (Puh-RAM-ih-turz) den har. Det här är vad som justeras under träningen. Dessa parametrar tillåter en modell att känna igen mönster. Modeller som hittar mönster i språket, som Transformer, brukar ha mest.

Transformer innehåller 213 miljoner parametrar. En av världens största språkmodeller 2019, GPT-2, har 1,5 miljarder parametrar. 2020 års version, GPT-3, innehåller 175 miljarder parametrar. Språkmodeller tränar också på enorma mängder data, som alla böcker och artiklar och webbsidor skrivna på engelska på internet. Och kom ihåg att den information som är tillgänglig för träning växer månad för månad, år för år.

Större modeller och större uppsättningar träningsdata gör vanligtvis en modell bättre på att känna igen mönster. Men det finns en nackdel. När modeller och datauppsättningar växer tenderar de att behöva fler GPU:er eller längre träningstider. Så de slukar också mer el.

Stora språkmodeller utför imponerande bedrifter. DALL-E, en modell som introducerades 2021, innehåller 12 miljarder parametrar. Den tränade på en datauppsättning av bilder kopplade till viss text. DALL-E kan kombinera idéer för att rita sina egna kreativa bilder. Uppmaningen här var att rita “en pingvin gjord av morot.” OpenAI

Larmar

Bender hade sett denna trend med oro. Så småningom gick hon samman med en grupp experter från Google för att säga något om det.

Det här teamet skrev en artikel från mars 2021 som hävdar att AI-språkmodeller blir för stora. Istället för att skapa allt större modeller, säger uppsatsen att forskare borde fråga sig själva: Är detta nödvändigt? Om så är fallet, kan vi göra det mer effektivt?

Tidningen påpekade också att rika grupper drar mest nytta av AI-språkmodeller. Däremot lider människor som lever i fattigdom den största delen av skadan från klimatförändringsrelaterade katastrofer. Många av dessa människor talar andra språk än engelska och det kanske inte finns några stora AI-modeller som fokuserar på deras språk. “Är detta rättvist?” frågar Bender.

Redan innan den publicerades väckte hennes grupps nya tidning en kontrovers.

Google bad sina anställda att ta bort sina namn från den. En av dessa personer, Timnit Gebru, ledde Googles AI-etikteam. Etik är studiet av vad som är rätt eller fel. När hon inte ville ta bort sitt namn sparkade Google henne, rapporterade hon på Twitter.

Under tiden fortsatte företaget att arbeta med den största språkmodellen hittills. I januari 2021 tillkännagav den att denna modell hade hela 1,6 biljoner parametrar.

Slankare och grönare

Det nya dokumentet från Bender och Gebrus team tar upp “en mycket viktig diskussion”, säger Roy Schwartz. Han är datavetare vid The Hebrew University i Jerusalem, Israel. Klimatpåverkan av AI-träning är inte enorm. Åtminstone inte än. Men, tillägger han, “Jag ser en oroande trend.” Utsläppen från träning och användning av AI-modeller kommer att växa allt större — och snart misstänker han.

Sasha Luccioni håller med. Den här forskaren vid MILA, ett AI-institut i Montreal, Kanada, finner också den snabba tillväxten av dessa modeller som “oroande”.

Förklarare: Vad är en datormodell?

Vanligtvis, säger Schwartz, rapporterar AI-utvecklare bara hur väl deras modeller fungerar. De tävlar om sin noggrannhet när de utför uppgifter. Hur mycket energi de använder ignoreras nästan. Schwartz kallar detta Red AI.

Däremot fokuserar grön AI på att öka en modells effektivitet, förklarar han. Det innebär att få samma eller bättre resultat med mindre datorkraft eller energi. Du behöver inte nödvändigtvis krympa din modell för att göra detta. Eftersom datorbehandling är komplex kan ingenjörer hitta sätt att använda mindre datorkraft utan att minska antalet parametrar. Och vissa typer av datorhårdvara kan ge den kraften samtidigt som de dricker mycket mindre elektricitet än andra.

Just nu delar få utvecklare med sig av sin modells effektivitet eller energianvändningsdata. Schwartz har uppmanat AI-utvecklare att avslöja dem.

Och han är inte ensam om att fråga efter detta. En ny årlig workshop för AI-utvecklare hölls för första gången 2020. Dess mål: att uppmuntra enklare, effektivare AI-språkmodeller.

Wolff Anthony slog sig ihop med Benjamin Kanding, en student vid universitetet i Köpenhamn i Danmark, för att skapa ett nytt verktyg. Det hjälper AI-utvecklare att uppskatta miljöpåverkan av deras AI – som energi- eller CO2-användning – innan de tränar dem. Luccioni skapade ett annat verktyg. Den spårar CO2-utsläppen när en modell genomgår utbildning.

Ett annat sätt att göra modellerna grönare är att noggrant välja det datacenter där en modelltåg. “Om du tränar i Sverige”, säger Kanding, “kommer det mesta av energin från hållbara källor.” Med det menar han vind, sol eller vedeldning. Timing spelar också roll. På natten är mer el tillgänglig eftersom de flesta mänskliga användare sover. Vissa verktyg tar också ut mindre för den lågenergienergin, eller kan använda renare källor för att producera den.

Djupt lärande är en otrolig och kraftfull teknik. Men det kommer att ge de flesta fördelarna när det används klokt, rättvist och effektivt.