# Att skapa en AI-regering


## Bakgrund



Tre månader efter valet 2018 tröttnade jag och min kollega Filip Wästberg på den långa väntan på en regering. Vi funderade på om en regering baserad på Artificiell intelligens var redo att ta över.

Vi fick napp hos Aftonbladet och inledde en tisdagsmorgon med att introducera vår AI-regering, är du intresserad så kan du [se klippet här](https://www.aftonbladet.se/tv/a/272538)

![I Aftonbladet TV](https://media.licdn.com/media-proxy/ext?w=1960&h=1100&f=n,pj&hash=THcVIt4jnu8pgNw0iz3JnOJYut0%3D&ora=1%2CaFBCTXdkRmpGL2lvQUFBPQ%2CxAVta5g-0R6nlh8Tw1It6a2FowGz60oISIfYC2G8G2f1spyfNT-tdoDSeLunpEtOdS0AkAQkKeL2VmiwUcuxXemFaN4H9sOcf5KmdhItTDkDoSwdztIVESkVjZeVDq6jRGhBwO0FPGrvELjPRXELMiE8z-GZCquKJUsg7HCufemkS-9df4F28dRdjg5n8YDNIvM60K1Y3jxowWiz957jYB02z6SBCn2fMGIKOFLCB6l8moup5gWZqkDetG_D9NvdNLGBP5Nsz2D5wrTcY1WRuXRb7VJC4BMciZl4LV2EgtwM0kuzJ8oQck-ghs7uem2p36MitwwureTVBg-oW3E6qyg4Q5z84kEyGJ3i4yiE)





## Vem gjorde arbetet?

Det är tack var open source-communityn kring Python, Tensorflow och Keras som vi enkelt kunde skapa en AI-regering. Just i det här fallet är det tack vare boken [Deep learning in Python](https://www.manning.com/books/deep-learning-with-python) av Francois Chollet som det hände, då jag för tillfället läste bok denna och kom i kontakt med generativ AI genom den.

Jag vill rekommendera den här boken riktigt starkt för den intresserade, väldigt pedagogisk och intressant! Ses av många som en av topp 5 "must-reads" inom Deep learning. Jag har i väldigt stor utsträckning använt mig av Choulets exempel-kod, och enbart ändrat input och gjort några enklare optimeringar

![Google och Chollet](Google+Chollet2.png)

# Koden bakom

## Del 1: Import av libraries

Vi börjar med att importera de bibliotek vi behöver:

#### Keras 
- Ett "high-level" gränssnitt som har Tensorflow som default-backend


Tensorflow är det absolut vanligaste biblioteket för att göra beräkningar med det som kallas tensors, vilket förenklat är vad Deep learning går ut på. Att arbeta "low-level" direkt i Tensorflow kräver dock höga krav på matematik- och programmeringsförståelse. Genom att istället använda Keras slipper den mindre erfarna/lata/effektiva mata in särskilt mycket parametrar, då det mesta har vettiga förval.



In [3]:
import keras

#### Numpy & Pandas
- Används för hantering av data och generell matris och array-beräkning


Super-vanliga libraries för datamanipulering i Python

In [4]:
import numpy as np
import pandas as pd

## 2. Ladda in data

Ladda in regeringsförklaringarna (som hämtats från regeringens hemsida och sedan prydligt sammanställts av Filip)

In [5]:
df = pd.read_csv("regf.csv")
df.head(20)

Unnamed: 0,text,datum,statsminister
0,"Regeringsförklaring, 19761008, Torbjörn Fälldin",1976-10-08,Torbjörn Fälldin
1,Regeringspartierna är ense om att finansdepart...,1976-10-08,Torbjörn Fälldin
2,I anslutning till denna anmälan vill jag ge ri...,1976-10-08,Torbjörn Fälldin
3,"Enighet har alltså nåtts mellan Centerpartiet,...",1976-10-08,Torbjörn Fälldin
4,Med fasthet och ansvar skall vi föra en politi...,1976-10-08,Torbjörn Fälldin
5,Regeringen skall sträva efter att bryta tenden...,1976-10-08,Torbjörn Fälldin
6,Tryggheten för alla generationer och grupper s...,1976-10-08,Torbjörn Fälldin
7,Den sociala marknadshushållningen förstärks ge...,1976-10-08,Torbjörn Fälldin
8,Regeringen skall föra en politik för sysselsät...,1976-10-08,Torbjörn Fälldin
9,Sträng hushållning måste ske med naturtillgång...,1976-10-08,Torbjörn Fälldin


Vi är enbart intresserade av kolumnen "text", och ska inte heller arbeta i en dataframes utan vill bara ha texten.

Vi ser dock att vi måste plocka bort de rader som ser ut som den absolut översta, och tar även bort andra skräprader jag upptäckt. Man kan lägga mer tid på att tvätta data, i vårt fall är dock effekten på slutresultatet inte särskilt stor.

In [6]:
regf = ''
for row in df['text']:
    if 'Regeringsförklaring, ' not in row and 'www.' not in row :
        regf = regf+ '\n' +(row.lower())

**Sample på 500 tecken**

In [7]:
print(regf[:500])


regeringspartierna är ense om att finansdepartementet så snart som möjligt – efter samråd med berörd personal – skall delas i ett ekonomidepartement och ett budgetdepartement. chef för ekonomidepartementet blir statsrådet gösta bohman. chef för budgetdepartementet blir statsrådet ingemar mundebo.
i anslutning till denna anmälan vill jag ge riksdagen till känna följande:
enighet har alltså nåtts mellan centerpartiet, folkpartiet och moderata samlingspartiet om att bilda regering. dess politik un


**Storlek på vårt data**

In [89]:
import os
print ('Filstorlek', round(os.path.getsize("regf.csv")/1024/1024,2), 'MB' )
print('Totalt antal rader:', len(df))
print('Totalt antal tecken:', len(regf))


Filstorlek 1.03 MB
Totalt antal rader: 4283
Totalt antal tecken: 915400


## 3. Förberedelse inför Neuralt nätverk

Här börjar de intressanta delarna! Först preppar vi för att generera text på bokstavsnivå.



##### Val av maxlängd

Här säger vi hur många karaktärer vårt kommande neurala nätverk kommer få som input, i vårt fall väljer vi 200 tecken.

Nedan är första input som nätverket kommer få, där nätverkets uppgift är att räkna ut den mest sannolika bokstaven som kommer efter *'ekonomideparteme'*.



![](text_200_1.png)

In [90]:
maxlen = 200

##### Val av steps

Här väljer vi hur ofta nätverket ska predicera, i mitt fall förflyttar sig input med 3 bokstäver, så nästa input blir denna:

![](text_200_2.png)

In [92]:
step = 3 

**Vad ska man välja för maxlen och step?**

Något man ofta stöter på inom Deep learning, även vid val av värden för maxlen och steps, är att det inte finns någon konsensus eller riktlinjer för "bra" parametervärden. Än så länge handlar det ofta om "trial and error" - testa olika värden och utvärdera om resultatet blir bättre. 

I mitt fall började jag med betydligt kortare maxlen, men upplevde att jag fick mer intressanta och sammanhängande meningar med längre maxlen.

Steps har stor påverkan på hur lång tid maskininlärningen tar, eftersom kortare steps ger fler snarlika exempel att träna på. Har du för korta steps riskerar du att iterera onödigt många gånger och slösar tid, har du för långa steps riskerar du att tappa värdefull information.  

##### Hämta meningarna

Här tar vi fram de input-meningar "sentences" som bestäms av maxlen och step

Den output vi söker är den 201:a bokstaven, som även den hämtas och placeras i "next_chars"

In [93]:
# input-meningar
sentences = []

# output-nästa karaktär
next_chars = []

for i in range(0, len(regf) - maxlen, step):
    sentences.append(regf[i: i + maxlen])
    next_chars.append(regf[i + maxlen])
print('Antal sekvenser:', len(sentences),
     '\n\nExempel 1:', sentences[0], '\n\n Facit:', next_chars[0],
     '\n\nExempel 2:', sentences[1], '\n\n Facit:', next_chars[1])

Antal sekvenser: 305067 

Exempel 1: 
regeringspartierna är ense om att finansdepartementet så snart som möjligt – efter samråd med berörd personal – skall delas i ett ekonomidepartement och ett budgetdepartement. chef för ekonomideparte 

 Facit: m 

Exempel 2: geringspartierna är ense om att finansdepartementet så snart som möjligt – efter samråd med berörd personal – skall delas i ett ekonomidepartement och ett budgetdepartement. chef för ekonomidepartemen 

 Facit: t


##### One-hot encoding: Mappning av bokstäver

Neurala nätverk kan inte hantera bokstäver direkt, varför både input och output måste transformeras till tal. Ett enkelt sätt att göra detta är "one-hot"- encoding.

Vi börjar med beräkna att det finns 65 unika tecken som vi sedan indexerar.



In [94]:
# lista unika tecken
chars = sorted(list(set(regf)))
print('Antal unika tecken:', len(chars))
# Indexera desssa tecken
char_indices = dict((char, chars.index(char)) for char in chars)
print ('Indexering av tecken',char_indices)

Antal unika tecken: 66
Indexering av tecken {'\t': 0, '\n': 1, ' ': 2, '!': 3, '"': 4, '%': 5, "'": 6, '(': 7, ')': 8, '*': 9, ',': 10, '-': 11, '.': 12, '/': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, ';': 25, '?': 26, 'a': 27, 'b': 28, 'c': 29, 'd': 30, 'e': 31, 'f': 32, 'g': 33, 'h': 34, 'i': 35, 'j': 36, 'k': 37, 'l': 38, 'm': 39, 'n': 40, 'o': 41, 'p': 42, 'q': 43, 'r': 44, 's': 45, 't': 46, 'u': 47, 'v': 48, 'w': 49, 'x': 50, 'y': 51, 'z': 52, '|': 53, '§': 54, '\xad': 55, 'ä': 56, 'å': 57, 'é': 58, 'ö': 59, 'ú': 60, '–': 61, '’': 62, '”': 63, '•': 64, '\u2028': 65}


##### Skapa input och output: Vektorisering av bokstäverna

Vektoriserar ovan bokstäver, se exempel

In [95]:
#Input
x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
#Output
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
    y[i, char_indices[next_chars[i]]] = 1

### Vad är input x?


In [96]:
print( "Minsta beståndsdel är Vektorer med 66 tecken: \n\n",  x[0][0])

Minsta beståndsdel är Vektorer med 66 tecken: 

 [False  True False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False]


Texten börjar med ett mellanslag, varför index 1=True

In [97]:
print( "För varje sekvens på 200 tecken återfinns alltså vektorn med 66 tecken 200 ggr: \n \n", x[0]) 

För varje sekvens på 200 tecken återfinns alltså vektorn med 66 tecken 200 ggr: 
 
 [[False  True False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]


I den första vektorn är index 1=true (mellanslag), sedan index 44:true (r) och så vidare. Ett annat sätt att skriva mening "\nregeringspartierna är ense.."!

In [66]:
print("Vi har sedan 305 067 sekvenser som alla innehåller 200 vektorer med 66 tecken \n \n" ,x)

Vi har sedan 305 067 sekvenser som alla innehåller 200 vektorer med 66 tecken 
 
 [[[False  True False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]
  ...
  [False False False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]]

 [[False False False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]
  ...
  [False False False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]]

 [[False False False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]
  ...
  [False False False ... False False False]
  [False False False ... False False False]
  [False False False ... False False False]]

 ...

 [[False False False ... False False False]
  [False False  True ... False False False]
  [False

### Vad är output y?


In [77]:
print( "Minsta beståndsdel är Vektorer med 66 tecken: \n\n",  y[0])

Minsta beståndsdel är Vektorer med 66 tecken: 

 [False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False  True False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False]


I den första vektorn är index 39=true, då den predicerade bokstaven ska vara ett "m"

In [72]:
print("Vi har sedan 305 067 sekvenser som alla innehåller 1 vektor med de 66 tecken som är one-hot encoded \n \n" ,y)

Vi har sedan 305 067 sekvenser som alla innehåller 1 vektor med de 66 tecken som är one-hot encoded 
 
 [[False False False ... False False False]
 [False False False ... False False False]
 [False False  True ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]


## 4 Bygga själva LSTM-nätverket

För att generera text på väljer vi en nätverkstyp som heter "LSTM - Long short term memory" den vanligaste och en av de lämpligaste vid arbete med textdata. 

Vi väljer här en sequential modell, med ett LSTM-lager och därefter ett Dense-lager med Softmax-aktivering.

**LSTM-lagret skapar en beräkning med 128 noder. LSTM-nätverk är lämpliga när sekvenser, i dett fall bokstavsföljder är viktiga.**

**Dense-lagret skapar själva outputen från modellen, som beräknar "sannolikheten att respektive indexerad bokstav är nästa i meningen"**

Dessa termer är lite för avancerade att förklaras närmare här, men det går absolut att första koncepten om du läser boken "Deep Learning in Python"!


In [34]:
from keras import layers

model = keras.models.Sequential()
model.add(layers.LSTM(128, input_shape=(maxlen, len(chars))))
model.add(layers.Dense(len(chars), activation='softmax'))

##### Optimizer och loss-function

Här sätter vi en "optimizer" där RMSprop är den vanligaste.

Optimizern är det som styr själva optimeringen: när nätverket gjort en beräkning är det optimeringsalgoritmen som avgör hur hela modellen ska förändras för att få ett bättre utfall i nästa beräkning!

"lr" står för learning rate och bestämmer hur stora "kliv" modellen ska ta mot den riktning som optimizern beräknar minskar modellens loss.

Vi bestämmer även en loss-function, den beräkning som optimizern försöker minimera

In [125]:
optimizer = keras.optimizers.RMSprop(lr=0.01)
model.compile(loss='categorical_crossentropy', optimizer=optimizer)

## 5 Textgenereringen och "temperatur"

Output för den modell vi skapat är "sannolikhet för respektive tecken att vara det som kommer efter 200 givna tecken"

För att generera text behöver vi bestämma vad vi ska göra med dessa sannolikheter. Det enklaste är att helt enkelt slumpa fram nästa bokstav enligt den beräknade sannolikhetsdistributionen. Problemet med att göra så blir dock snabbt uppenbart, det blir alldeles för repetetivt :

"största stark för att största för att största starka med att stark för att största"

##### Introducera dynamik genom "Temperatur"
Ett vanligt sätt att komma till bukt med problemet är att skapa en parameter kallad "temperatur", som minskar skillnaden mellan tecken med hög och låg sannolikhet. Desto högre temperatur, desto "plattare" blir distributionen och risken för loopar minskar medans risken för konstiga meningar ökar.

Jag adderar även restriktionen att ett tecken med lägre än 2% sannolikhet i princip aldrig skrivs.

In [74]:
def sample(preds, temperature=1.0):
    preds = np.asarray(preds).astype('float64')
    preds[preds < .02] = 0.00001
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)

#### Träna modellen!

I detta steg tränar vi till slut modellen

Koden nedan ser lite speciell ut (den anger epochs på två ställen). Detta är för att efter varje epok så spottar den ut textgenerering med tre olika temperatur, för att illustrera hur modellen förbättras över tid!

Epoch = en epoch har skett när hela input-materialet har bearbetats en gång, det är vanligt att köra många epochs


Batch = Nätverket använder inte all input-data samtidigt, hur många samples nätverket tar åt gången för att träna på bestäms av batch size

Notera att LSTM-nätverk är riktigt krävande! I fallet nedan hade jag en laptop med vanlig CPU som fick stå hemma och och tugga, en Epoch tog 20-30 minuter och jag Interruptade ("Kernel" -> "Interrupt") efter 20 epochs. Modellen hade absolut blivit bättre om datorn fortsatt tugga på.


In [129]:
import random
import sys

##Modellträning
for epoch in range(1, 65):
    print('epoch', epoch)
    # Här sker själva träningen, att model fit mha av input x och output y
    model.fit(x, y,
              batch_size=128,
              epochs=1)

    
    
    ##Utvärderign efter varje Epoch
    
    # Slumpa fram ett seed från regeringsförklaringarna
    start_index = random.randint(0, len(regf) - maxlen - 1)
    generated_text = regf[start_index: start_index + maxlen]
    print('--- Generating with seed: "' + generated_text + '"')

    for temperature in [0.2, 0.4,0.6]:
        print('------ temperature:', temperature)
        sys.stdout.write(generated_text)

        # Efter seed, skapa 400 characters av text
        for i in range(400):
            sampled = np.zeros((1, maxlen, len(chars)))
            for t, char in enumerate(generated_text):
                sampled[0, t, char_indices[char]] = 1.

            preds = model.predict(sampled, verbose=0)[0]
            next_index = sample(preds, temperature)
            next_char = chars[next_index]

            generated_text += next_char
            generated_text = generated_text[1:]

            sys.stdout.write(next_char)
            sys.stdout.flush()
        print()

epoch 1
Epoch 1/1
--- Generating with seed: " över.
kommunerna skall friare kunna disponera de resurser som staten anvisar för skolan. det kommunala driftsansvaret förtydligas. skolans omfattande regelverk förenklas. ett program för uppföljning "
------ temperature: 0.2
 över.
kommunerna skall friare kunna disponera de resurser som staten anvisar för skolan. det kommunala driftsansvaret förtydligas. skolans omfattande regelverk förenklas. ett program för uppföljning av den ekonomisk företagande för att största stark för att största största stark för att förena stödet av det största stark för att största för att största starka med att stark för att största införs med att starka för att arbetsmarknaden för att största största stark för att största med arbetsmarknaden för att största stark för att största för att inte människor i samlida stark med att största lä
------ temperature: 0.4
med att starka för att arbetsmarknaden för att största största stark för att största med arbetsmarknaden

vi hot behovet av det för att väl kontanter och för att under vara en stark statsföreläggs fria med statsfinanser och land av en regionala att industrien i detta som måste inte minst att lägga vidtat som för att för att avser tillväxt och forskning. herr talman, ska stärkas. präglas med att det nya en högskolan som ett stark skatter fortsätter. med sverige. ett grundlåg ligger ett samarbetet och trygghet och forskning och när uppvänter till att föreblingt samtidigt ska värnade ska värna inte närmare med resurser i valfrihet och andra första st
epoch 5
Epoch 1/1
--- Generating with seed: "skkapitalavdrag. förslag kommer också att läggas om återställd förmånsrätt och förändrad konkurslagstiftning. den sociala tryggheten för företagare förbättras, reglerna för skattetillägg görs mer rätt"
------ temperature: 0.2
skkapitalavdrag. förslag kommer också att läggas om återställd förmånsrätt och förändrad konkurslagstiftning. den sociala tryggheten för företagare förbättras, reglerna för skatte

: vården ska finnas när du behöver den. köerna är för långa och ska kortas. primär- vården stärks genom mer resurser till vårdcentralerna. patient- kontrakten utvecklas vidare för patienter med stora samhället. det är att stärka samhället. det är det kommer att föreläggas riksdagen som ska vara ett länder med att beslutas och statsförbättras. framtiden. det är att förbättra sverige skall vara en av att stärka beslutet för fred. den svenska samhället är att stärka samhället. vi vill stärka samhället för att stärka statsbistånd och statsförstärkningar och företagen som ska vara sverige ska vara 
------ temperature: 0.4
v att stärka beslutet för fred. den svenska samhället är att stärka samhället. vi vill stärka samhället för att stärka statsbistånd och statsförstärkningar och företagen som ska vara sverige ska vara ett besluts invandrare. det är 

  This is separate from the ipykernel package so we can avoid doing imports until


en fasts stärka sig som skall skapa en kvinnor skall skapas för att stärka de kommer att stärka löner att föreläggas riksdagen för fler förstärkningar och statsbidragen skall bestämmare ska stärkas. det är att till att av människor och företagen. sverige skall vara en fred och utbildning och att försvara prioritera den svenska och fortsatta respekter och ställning av
------ temperature: 0.6
skall bestämmare ska stärkas. det är att till att av människor och företagen. sverige skall vara en fred och utbildning och att försvara prioritera den svenska och fortsatta respekter och ställning av en ny arbetsmarknadspolitiken har vården skall fler klimatpolitiken kommer att få med en vill att arbetsmarknaden. sverige är en ny statsinnorg i sverige ska vara det av miljön och den ekonomiska politiken och arbetslöshetssystemet.
skolan. stormer ska bestämmande för att bli hela sverige skall fortsatt de nya partners politik som visar mymiling och att stödja att föra en kraft för stort skall ge
epoch

ll till att ta uppgift i ansvaret med att företagande för att behåla sverige skall företagande är att fortsatt år ställas för att föreligen för att föra en internationell samarbete i sveriges behoven i samhället blir den blivitet måste ligger fasta företagande värnas och samman. en viktig förslag som som beredskap i en av och samman. ett löner till fastig beredska förbättrade produktionen ökar med all stor utveckling och det är sverige skall gränser måste fortsätter. underskottsstöden och om att avser av att läggas unier har som att större för den ekonomiska försäkringen om de fastig ansvarsfö
epoch 20
Epoch 1/1
--- Generating with seed: "d och andra växthusgaser måste mötas genom internationell samverkan.
fn:s roll i miljövårdsarbetet måste stärkas. regeringen avser att ta initiativ till en bred diskussion om internationella miljöregl"
------ temperature: 0.2
d och andra växthusgaser måste mötas genom internationell samverkan.
fn:s roll i miljövårdsarbetet måste stärkas. regeringen av

KeyboardInterrupt: 

##### Spara modellen
för att kunna köra modellen efter att notebooken stängts

In [None]:
model.save('regf_master.h5')

## Resultatet: Hemsida med regeringsförklaringar!

På http://airegeringen.pythonanywhere.com/ kan man läsa ett flertal regeringsförklaring själv!


In [8]:
from IPython.display import HTML
HTML('<iframe src=http://airegeringen.pythonanywhere.com/ width=1000 height=500></iframe>')

# Kan man göra bättre Textgenerering än såhär?

Absolut, den här övningen skrapar bara på ytan! AI-regeringen skapades på ett gäng timmar över en knapp vecka.

Ai-regeringen visar dock tydligt att vi ska skilja på mänsklig intelligens och neurala nätverk: AI-regeringen räknar enbart matematik, och kommer under lång tid framöver inte kunna "skapa egna idéer"/påvisa mänsklig förståelse för texten den genererar. Den kan dock slumpa fram intressanta politiska ny-ord så som "brottsoffentliga finanser" och "förenklingspolitik"

Några saker man tillägga är:


Köra på ord-nivå istället för bokstavsnivå: man förlorar möjligheten till spännande nyord, men kan få mer sammanhöngande meningar


Addera ordklasser och applicera grammatiskt korrekta ordföljder


Entity recognition: Att modellen förstår att "Sverige" är ett land och "Sven" en person










# State of the art för text-generering - GPT-2?

![Google och Chollet](GPT-2_.png)

In [104]:
HTML('<iframe src=https://blog.openai.com/better-language-models/ width=1000 height=800></iframe>')

# Är "AI" redo att ta över Regeringens arbete?

![Slutsats](Slutsats_AIreg_.png)