# Enkel klassifisering

Har tar vi et enkelt sett med setninger som skal havne i tre forskjellige klasser.

    <table>
        <tr>
            <th>klassse</th><th>mening/intent</th>
        </tr>
        <tr>
            <td>0</td><td>hilsen</td>
        </tr>
        <tr>
            <td>1</td><td>farvel</td>
        </tr>
        <tr>
            <td>2</td><td>spørsmål</td>
        </tr>    
    </table>

Vi starter med å laste biblioteker

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np

Så setter vi opp dataene

In [2]:
data = np.array([
    ["Hei", 0],
    ["God morgen", 0],
    ["God kveld", 0],
    ["God dag", 0],
    ["Ha det bra", 1],
    ["God natt, vi snakkes!", 1],
    ["Vi ses", 1],
    ["Snakkes!", 1],
    ["Er det morgen?", 2],
    ["Er det kveld?", 2],
    ["Er det natt?", 2]
])
sentences = data[:,0]
Y = data[:,1]

Her er setningene

In [3]:
print(sentences)

['Hei' 'God morgen' 'God kveld' 'God dag' 'Ha det bra'
 'God natt, vi snakkes!' 'Vi ses' 'Snakkes!' 'Er det morgen?'
 'Er det kveld?' 'Er det natt?']


Setningene må gjøres om til tall, så vi bruker bare en standard vectorizer. Det samme som vi gjorde tidligere i presentasjonen.

In [4]:
count_vect = CountVectorizer()
X = count_vect.fit_transform(sentences)

Her er ordene den trakk ut av dataene våre. Samme som det vi hadde i presentasjonen, bare sortert.

In [5]:
print(count_vect.get_feature_names())

['bra', 'dag', 'det', 'er', 'god', 'ha', 'hei', 'kveld', 'morgen', 'natt', 'ses', 'snakkes', 'vi']


Og setningene har da blitt til følgende matrise

In [6]:
print(X.toarray())

[[0 0 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 1 0 0 0 0]
 [0 0 0 0 1 0 0 1 0 0 0 0 0]
 [0 1 0 0 1 0 0 0 0 0 0 0 0]
 [1 0 1 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 1 0 1 1]
 [0 0 0 0 0 0 0 0 0 0 1 0 1]
 [0 0 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 1 0 0 0 0 1 0 0 0 0]
 [0 0 1 1 0 0 0 1 0 0 0 0 0]
 [0 0 1 1 0 0 0 0 0 1 0 0 0]]


Da er vi klar for klassifisering. Vi bruker en Multinominal Naive Bayes. Vi trener nå på modellen til klassifieren med
* X - arrayet over ordene i setningene
* Y - listen med klasser for hver setning

In [7]:
X.shape

(11, 13)

In [8]:
Y.shape

(11,)

In [9]:
classifyer = MultinomialNB().fit(X, Y)

Da er klassifieren ferdig trent. 
Nå må vi teste den.

Først må vi gjøre om teksten vi vil teste med til en vector.

In [10]:
test=["Hei på deg"]
testX = count_vect.transform(test)
testX.toarray()

array([[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]], dtype=int64)

Da kan vi la klassifieren prøve å finne ut hvilken klasse den skal plassere teksten i.

In [11]:
predictedY=classifyer.predict(testX);
predictedY

array(['0'],
      dtype='<U1')

Vi kan også se hva de andre klassene fikk av sannsynlighet.

In [12]:
classifyer.predict_proba(testX)

array([[ 0.56316082,  0.24485253,  0.19198664]])

Hvorfor har ikke klasse 0 fått en sannsynlighet på 1?