In [1]:
% matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

from sklearn.utils import shuffle

from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.naive_bayes import MultinomialNB
from sklearn.naive_bayes import GaussianNB

import nltk
from nltk.corpus import stopwords
import re #regular expressions
from bs4 import BeautifulSoup
from nltk.stem.snowball import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

# Sentiment analyse

Bij sentiment analyse gaan we op een geautomatiseerde manier na welk sentiment een bepaald bericht oproept. Deze berichten kunnen bijvoorbeeld afkomstig zijn van posts op sociale media, reviews, opinies en dergelijke. 

Bij deze opdracht is het de bedoeling om tekstberichten op te delen in twee sentiment categorieën, namelijk positief of negatief.
De trainingset is te vinden via het bestand *sentiment_train.csv* en de testset via het bestand *sentiment_test.csv*.

Doorloop daarbij de volgende stappen:

- Vooranalyse van de data: hoe is de dataset verdeeld? Zijn er evenveel positieve als negatieve sentimenten? Is er bijvoorbeeld een verband tussen de lengte van de tekst en het sentiment? 
-  Preprocessing van de tekst: opkuisen van de tekst (stopwoorden, niet-letters verwijderen, omzetten naar lowercase, ...)
- Toepassen van stemming.
- Omzetten naar een bag of words (test hierbij verschillende modellen) en gebruik mogelijks n-grams
- train verschillende classifiers: naive Bayes, logistic regression en SVM. 
- Test de performantie van de verschillende getrainde classifiers via de testset. Kijk daarbij naar de accuracy en f1-score. Interpreteer de resultaten. Kijk ook naar welk algoritme het snelste traint. Bekijk de teksten die verkeerd geclassificeerd werden en zoek naar de oorzaak.

Test het model ook eens met een eigen korte dataset aan sentiment bevattende zinnen.

In [24]:
data_sentiment_train = pd.read_csv('sentiment_train.csv')
data_sentiment_test = pd.read_csv('sentiment_test.csv')

data_sentiment_test.head()
data_sentiment_train.shape

(5918, 2)

In [16]:
#vooranalyse


#aantal klasses:

aantal = data_sentiment_train.sentiment.unique()
print(aantal)

#gebalanceerd?

g = data_sentiment_train.groupby('sentiment')
g.sentiment.count()

[1 0]


sentiment
0    2535
1    3383
Name: sentiment, dtype: int64

In [None]:
#redelijk gebalanceerd (niet volledig maar veel samples dus ik denk wel dat het oké is :-))

In [17]:
#verband lengte en het sentiment?
data_sentiment_train.insert(0, "lengte", data_sentiment_train['text'].apply(len) ,allow_duplicates=True)

g = data_sentiment_train.groupby('sentiment')
g.lengte.mean()



sentiment        
0          lengte    66.005917
           lengte    66.005917
           lengte    66.005917
1          lengte    58.606562
           lengte    58.606562
           lengte    58.606562
Name: lengte, dtype: float64

In [None]:
#de berichtjes met een negatief sentiment zijn een beetje langer dan de berichten met een positief sentiment

In [20]:
#opsplitsen in features & values
X_train = data_sentiment_train.text.values
y_train = data_sentiment_train.sentiment.values

X_test = data_sentiment_test.text.values 
y_test = data_sentiment_test.sentiment.values

In [21]:
 #preprocessing (= opkuisen) van de dataset
def text_preprocessing(text, language, minWordSize):
    
    # remove html
    text_no_html = BeautifulSoup(str(text),"html.parser" ).get_text()
    
    # remove non-letters
    text_alpha_chars = re.sub("[^a-zA-Z']", " ", str(text_no_html)) 
        
    # convert to lower-case
    text_lower = text_alpha_chars.lower()
    
    # remove stop words
    stops = set(stopwords.words(language)) 
    text_no_stop_words = ' '
    
    for w in text_lower.split():
        if w not in stops:  
            text_no_stop_words = text_no_stop_words + w + ' '
      
       # do stemming
    text_stemmer = ' '
    stemmer = SnowballStemmer(language)
    for w in text_no_stop_words.split():
        text_stemmer = text_stemmer + stemmer.stem(w) + ' '
         
    # remove short words
    text_no_short_words = ' '
    for w in text_stemmer.split(): 
        if len(w) >=minWordSize:
            text_no_short_words = text_no_short_words + w + ' '
 

    return text_no_short_words


language = 'english'
minWordLength = 2

for i in range(X_train.size):
    X_train[i] = text_preprocessing(X_train[i], language, minWordLength)
    
    
for i in range(X_test.size):
    X_test[i] = text_preprocessing(X_test[i], language, minWordLength)

In [30]:

#bag of words aanmaken
count_vect = CountVectorizer()
X_train_bag_of_words = count_vect.fit(X_train)
X_train_bag_of_words = count_vect.transform(X_train)
X_test_bag_of_words = count_vect.transform(X_test)

print(X_test_bag_of_words)

#tfidf transformer: dit is feite alles nog eens delen door hoeveel keer het voorkomt (?)

tfidf_transformer = TfidfTransformer()
tf_transformer = TfidfTransformer(use_idf=True).fit(X_train_bag_of_words)
X_train_tf = tf_transformer.transform(X_train_bag_of_words)
X_test_tf = tf_transformer.transform(X_test_bag_of_words)

  (0, 88)	1
  (0, 586)	1
  (0, 631)	1
  (0, 993)	1
  (0, 1080)	1
  (0, 1131)	1
  (0, 1238)	1
  (0, 1328)	1
  (0, 1338)	1
  (1, 340)	1
  (1, 631)	2
  (1, 860)	1
  (1, 993)	1
  (1, 1080)	2
  (1, 1098)	1
  (1, 1338)	1
  (2, 455)	1
  (2, 718)	1
  (2, 923)	1
  (3, 247)	1
  (3, 314)	1
  (3, 601)	1
  (3, 970)	1
  (3, 1353)	1
  (3, 1502)	1
  :	:
  (997, 365)	1
  (997, 631)	1
  (997, 1080)	1
  (997, 1207)	1
  (998, 247)	1
  (998, 314)	1
  (998, 798)	1
  (998, 860)	1
  (998, 948)	1
  (998, 1035)	1
  (998, 1502)	1
  (998, 1560)	1
  (999, 115)	1
  (999, 122)	1
  (999, 631)	1
  (999, 634)	1
  (999, 892)	1
  (999, 942)	1
  (999, 948)	1
  (999, 1008)	1
  (999, 1058)	1
  (999, 1080)	1
  (999, 1131)	1
  (999, 1346)	1
  (999, 1405)	1


In [31]:
#hoe je dit moet lezen: in rij 0, kwam woord 88 1x voor enz.

In [32]:
#naive bayes classifier

NBclassifier = MultinomialNB(alpha=0.1)

NBclassifier.fit(X_train_tf, y_train)

y_pred = NBclassifier.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100)

             precision    recall  f1-score   support

          0       0.99      0.96      0.97       440
          1       0.97      0.99      0.98       560

avg / total       0.98      0.98      0.98      1000

[[422  18]
 [  6 554]]
97.6


In [None]:
#we bekomen een accuracy van 97.6%! met een alpha waarde van 0.1 (deze alpha bepaalt hoe sterk dat niet geziene woorden zullen
#meetellen (laplacian smoothing) = (hoeveel keer het woord voorkomt + alpha) / (totaal aantal woorden + alpha* #verschillende w)

In [34]:
#logistic regression

from sklearn.model_selection import GridSearchCV


model = LogisticRegression()

paramaters = [
             {'C' : [0.001, 0.01, 0.1, 1, 10, 100, 1000,10000, 100000]}                                       
             ]
grid_search = GridSearchCV(estimator = model, 
                           param_grid = paramaters,
                           scoring = 'accuracy',
                           cv = 4,
                           n_jobs = -1)
grid_search = grid_search.fit(X_train_tf, y_train)

best_accuracy = grid_search.best_score_ 
best_parameters = grid_search.best_params_  

print('Best accuracy : ', grid_search.best_score_)
print('Best parameters :', grid_search.best_params_  )

y_pred = grid_search.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100) 

Best accuracy :  0.9961135518756337
Best parameters : {'C': 1000}
             precision    recall  f1-score   support

          0       1.00      0.99      0.99       440
          1       0.99      1.00      1.00       560

avg / total       1.00      0.99      0.99      1000

[[436   4]
 [  1 559]]
99.5


In [None]:
#we bekomen een accuracy van 99.5%! (beter dan naive bayes)
#de beste c parameter is 1000, dit is niet sterk geregulariseerd (inverse) en dus maw kans op underfitting
#ook heb ik een cross validation van 4 genomen, dit wil zeggen dat hij de training in 4 stukken opdeelt
#en op elk van deze 4 eens zal valideren (het duurt dus nog 4 keer zo lang (!))

In [35]:
#proberen met SVM

model = svm.SVC()
paramaters = [ 
        {'kernel': ['linear'], 'C': np.linspace(1,20,100)},
        {'kernel': ['rbf'], 'C': [1, 10], 'gamma': [0.0001, 0.001, 0.01, 0.1, 0.2]},
        {'kernel': ['poly'], 'C':[1, 10]} ]
grid_search = GridSearchCV(estimator = model, 
                           param_grid = paramaters,
                           scoring = 'accuracy',
                           cv = 4,
                           n_jobs = -1)
grid_search = grid_search.fit(X_train_tf, y_train)

best_accuracy = grid_search.best_score_ 
best_parameters = grid_search.best_params_  

print('Best accuracy : ', grid_search.best_score_)
print('Best parameters :', grid_search.best_params_  )

y_pred = grid_search.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100) 

Best accuracy :  0.9962825278810409
Best parameters : {'C': 10, 'gamma': 0.2, 'kernel': 'rbf'}
             precision    recall  f1-score   support

          0       1.00      0.99      0.99       440
          1       0.99      1.00      0.99       560

avg / total       0.99      0.99      0.99      1000

[[436   4]
 [  2 558]]
99.4


In [None]:
#we hebben een accuracy van 99.4% op de testset
# de beste kernel is een rbf (radial basis function = gaussiaanse kernel) met een gamme van 0.2.
#deze gamma bepaalt de breedte van de kernel, kleine gamma betekent smalle kernel, kans op overfitting
#als regularisatieparameter koos de gridsearch voor 10, hoe hoger, hoe sterker geregulariseerd
#(hoe groter de margin van de support vectors tov de scheidingslijn)

# Movie categorization

Bij deze opdracht zullen classifiers getraind worden om op basis van de beschrijving van een film **één of meerdere genres** aan de film toe te kennen.
Het bestand *Moviedata.csv* bevat van meer dan 40000 films de beschrijving samen met het genre/genres van de film.

Splits de data op in een training- en testset zodat er zeker 5000 samples in de testset zitten (bijvoorbeeld de laatste 5000 films van het Moviedata.csv bestand). De resterende films kunnen gebruikt worden om de classifier mee te trainen.

Doe een vooranalyse van de data: bekijk of de data gebalanceerd is. Komt elk genre met andere woorden evenveel voor? Hoeveel films zijn er met maar 1 genre, hoeveel met 2, etc.

Aangezien een film tot meerdere genres kan behoren is het aangewezen om voor elk genre een aparte classifier te trainen. 

Gebruik zowel logistic resgression, SVM als Naive Bayes. 

Bespreek de resultaten op de testset:
- Wat zijn de accuracy en de f1-score per genre van de verschillende classifiers (logistic regression, SVM en Naive Bayes.
- Wat is de accuracy op basis van volledig correcte classificaties van de films in de trainingset? Hierbij kijk je of een bepaalde film correct aan alle genres is toegekend.
- Welke classifier geniet jouw voorkeur? Bespreek waarom.

Zoek op IMDB.com naar een aantal recente films (die nog niet in de dataset aanwezig zijn) en laat deze classificeren en evalueer de resultaten.





In [56]:
data_movie = pd.read_csv('Moviedata.csv',';')
#hier drop ik alle waarden die niet 1.0 of 0.0 zijn (anders crasht het trainen van mijn model... )
#ik doe het enkel voor de action table omdat ik ook enkel deze zal trainen (anders té veel werk dat op hetzelfde neerkomt)
data_movie.drop(data_movie[(data_movie.Action != 1.0) & (data_movie.Action != 0.0) ].index, inplace=True)


In [57]:
data_movie.head()

Unnamed: 0,original_title,overview,Action,Adventure,Animation,Comedy,Crime,Documentary,Drama,Family,...,History,Horror,Music,Mystery,Romance,Science-Fiction,Thriller,TV Movie,War,Western
0,Killing Zoe,Zed (Eric Stoltz) is an American vault-cracker...,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
1,The Arrival,Zane Ziminski is an astrophysicist who receive...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,1.0,1.0,0.0,0.0,0.0
2,The Man in the Iron Mask,"Years have passed since the Three Musketeers, ...",1.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,The Gods Must Be Crazy II,"Xixo is back again. This time, his children ac...",1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Superman IV: The Quest for Peace,With global superpowers engaged in an increasi...,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0


In [58]:
#voor genre action (ik zal het nu niet doen voor alle genres, lijkt me wat bandwerk)

#opsplitsen in features & values
X = data_movie.overview.values
y = data_movie.Action.values


In [59]:
#opsplitsen in train & testset

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=0)

In [60]:
#preprocessing van de tekst
def text_preprocessing(text, language, minWordSize):
    
    # remove html
    text_no_html = BeautifulSoup(str(text),"html.parser" ).get_text()
    
    # remove non-letters
    text_alpha_chars = re.sub("[^a-zA-Z']", " ", str(text_no_html)) 
        
    # convert to lower-case
    text_lower = text_alpha_chars.lower()
    
    # remove stop words
    stops = set(stopwords.words(language)) 
    text_no_stop_words = ' '
    
    for w in text_lower.split():
        if w not in stops:  
            text_no_stop_words = text_no_stop_words + w + ' '
      
       # do stemming
    text_stemmer = ' '
    stemmer = SnowballStemmer(language)
    for w in text_no_stop_words.split():
        text_stemmer = text_stemmer + stemmer.stem(w) + ' '
         
    # remove short words
    text_no_short_words = ' '
    for w in text_stemmer.split(): 
        if len(w) >=minWordSize:
            text_no_short_words = text_no_short_words + w + ' '
 

    return text_no_short_words


language = 'english'
minWordLength = 2

for i in range(X_train.size):
    X_train[i] = text_preprocessing(X_train[i], language, minWordLength)
    
    
for i in range(X_test.size):
    X_test[i] = text_preprocessing(X_test[i], language, minWordLength)

  ' Beautiful Soup.' % markup)


In [61]:
#aanmaken van de bag of words + tfidf
count_vect = CountVectorizer()
X_train_bag_of_words = count_vect.fit(X_train)
X_train_bag_of_words = count_vect.transform(X_train)
X_test_bag_of_words = count_vect.transform(X_test)

print(X_test_bag_of_words)

tfidf_transformer = TfidfTransformer()
tf_transformer = TfidfTransformer(use_idf=True).fit(X_train_bag_of_words)
X_train_tf = tf_transformer.transform(X_train_bag_of_words)
X_test_tf = tf_transformer.transform(X_test_bag_of_words)µ



  (0, 1226)	1
  (0, 2145)	1
  (0, 3081)	1
  (0, 3174)	1
  (0, 5435)	1
  (0, 6290)	1
  (0, 6373)	1
  (0, 7629)	1
  (0, 7874)	1
  (0, 8620)	1
  (0, 8668)	1
  (0, 9650)	1
  (0, 10844)	1
  (0, 11663)	1
  (0, 12722)	1
  (0, 13489)	1
  (0, 13600)	1
  (0, 13647)	1
  (0, 14010)	1
  (0, 14301)	1
  (0, 14619)	1
  (0, 14992)	1
  (0, 15191)	1
  (0, 15352)	2
  (0, 15578)	1
  :	:
  (8456, 45294)	1
  (8456, 45805)	1
  (8456, 45851)	2
  (8457, 4602)	1
  (8457, 5577)	1
  (8457, 6429)	1
  (8457, 8357)	1
  (8457, 8704)	1
  (8457, 10095)	1
  (8457, 12537)	1
  (8457, 15194)	1
  (8457, 18403)	1
  (8457, 18835)	1
  (8457, 19381)	2
  (8457, 26080)	1
  (8457, 26477)	1
  (8457, 30433)	1
  (8457, 35654)	1
  (8457, 37688)	1
  (8457, 38178)	1
  (8457, 38313)	1
  (8457, 42044)	1
  (8457, 44595)	2
  (8457, 44727)	1
  (8457, 45477)	1


In [62]:
#modellen trainen

#naive bayes

NBclassifier = MultinomialNB(alpha=0.1)

NBclassifier.fit(X_train_tf, y_train)

y_pred = NBclassifier.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100)

             precision    recall  f1-score   support

        0.0       0.88      0.98      0.93      7164
        1.0       0.75      0.26      0.39      1294

avg / total       0.86      0.87      0.85      8458

[[7050  114]
 [ 955  339]]
87.36107826909435


In [None]:
#Ik bekom een accuracy van 87% dit vindt ik niet zo heel veel

In [63]:
#logistic regression

from sklearn.model_selection import GridSearchCV


model = LogisticRegression()

paramaters = [
             {'C' : [0.001, 0.01, 0.1, 1, 10, 100, 1000,10000, 100000]}                                       
             ]
grid_search = GridSearchCV(estimator = model, 
                           param_grid = paramaters,
                           scoring = 'accuracy',
                           cv = 4,
                           n_jobs = -1)
grid_search = grid_search.fit(X_train_tf, y_train)

best_accuracy = grid_search.best_score_ 
best_parameters = grid_search.best_params_  

print('Best accuracy : ', grid_search.best_score_)
print('Best parameters :', grid_search.best_params_  )

y_pred = grid_search.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100) 

Best accuracy :  0.8738176873965476
Best parameters : {'C': 10}
             precision    recall  f1-score   support

        0.0       0.91      0.96      0.93      7164
        1.0       0.65      0.44      0.53      1294

avg / total       0.87      0.88      0.87      8458

[[6851  313]
 [ 719  575]]
87.79853393237171


In [None]:
#ik bekom ook hier een accuracy van 87% (net ietsje meer dan naive bayes wel)
#de beste C parameter is een 10, dit is de regularisatie, hoe hoger hoe minder geregulariseerd (inverse)
#cross validation is 4, wat wil zeggen dat hij alles 4 keer op een (verschillende) validatieset heeft gevalideerd

In [64]:
#SVM

model = svm.SVC()
paramaters = [ 
        {'kernel': ['linear'], 'C': np.linspace(1,20,100)},
        {'kernel': ['rbf'], 'C': [1, 10], 'gamma': [0.0001, 0.001, 0.01, 0.1, 0.2]},
        {'kernel': ['poly'], 'C':[1, 10]} ]
grid_search = GridSearchCV(estimator = model, 
                           param_grid = paramaters,
                           scoring = 'accuracy',
                           cv = 4,
                           n_jobs = -1)
grid_search = grid_search.fit(X_train_tf, y_train)

best_accuracy = grid_search.best_score_ 
best_parameters = grid_search.best_params_  

print('Best accuracy : ', grid_search.best_score_)
print('Best parameters :', grid_search.best_params_  )

y_pred = grid_search.predict(X_test_tf)
print(classification_report(y_test, y_pred))

cf = confusion_matrix(y_test, y_pred)
print(cf)
print(accuracy_score(y_test, y_pred) * 100) 

Best accuracy :  0.8772463939465595
Best parameters : {'C': 1.1919191919191918, 'kernel': 'linear'}
             precision    recall  f1-score   support

        0.0       0.90      0.97      0.93      7164
        1.0       0.70      0.41      0.51      1294

avg / total       0.87      0.88      0.87      8458

[[6936  228]
 [ 769  525]]
88.21234334358005


In [None]:
#Ik bekom een accuracy van 88%! (duurde wel heel lang om het te trainen... )
#Beste parameters zijn een C van 1.9, dit is niet sterk geregulariseerd (de margin tss scheding & support vectors zal dus
#relatief groot zijn.)
#we gebruiken een lineaire kernel (dit is eigenlijk geen kernel) en we blijven dus met onze data in 2D werken.. 

In [None]:
#moest ik het voor alle genres willen doen:
# een fucnctie maken waar ik met een foreach alle genres overloop,
# de data splits en een model aanmaak voor dat genre, plus het trainen met de data
#daarna kan ik dit model simpelweg returnen.