# Suite et fin du TME6: Classification de sentiments

In [24]:
import nltk
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import sklearn
from nltk import stem
import string
import unicodedata
import re
import codecs
import nltk.corpus.reader as pt
import sklearn.naive_bayes
import sklearn.linear_model
from sklearn.metrics import f1_score
from sklearn import svm
from sklearn import cross_validation

## pre-processing


In [12]:
path1='movies1000/pos'
path2='movies1000/neg'
rdr1 = pt.CategorizedPlaintextCorpusReader(path1, r'.*\.txt', cat_pattern=r'(.*)\.txt')
rdr2 = pt.CategorizedPlaintextCorpusReader(path2, r'.*\.txt', cat_pattern=r'(.*)\.txt')

def make_training_data(rdr):
    for c in rdr.categories():
        for f in rdr.fileids(c):
            yield rdr.raw(fileids=[f])
            
            
            
#Création du corpus d'apprentissage à partir des fichiers dans movies1000            
docs1=list(make_training_data(rdr1))
y1=[1 for i in range(len(docs1))]
docs2=list(make_training_data(rdr2))
y2=[-1 for i in range(len(docs2))]
X_raw=docs1+docs2
y=y1+y2



def readAFile(nf):
    '''reads a file and extracts a list of strings 
    representing the ligns of the document.'''
    f = open(nf, 'rb')
    l = []
    txt = f.readlines()
    for i in txt:
        l.append(i.decode("utf-8"))
    f.close()
    return ' '.join(l)

stopw=readAFile('stopwords.txt')
stopw=stopw.split()


def process(txt,stopw=None):
    '''preprocessing of a string:
            * decoding and ascii encoding
            * punctuation elimination
            * letters to lowercase
            * stemming with snowball
    '''
    #txt = txt[txt.find("\n\n"):] # elimination de l'entete (on ne conserve que les caractères après la première occurence du motif
    txt = unicodedata.normalize("NFKD",txt).encode("ascii","ignore") # elimination des caractères spéciaux, accents...
    punc = string.punctuation    # recupération de la ponctuation
    punc += u'\n\r\t\\'          # ajouts de caractères à enlever
    table =string.maketrans(punc, ' '*len(punc))  # table de conversion punc -> espace
    txt = string.translate(txt,table).lower() # elimination des accents + minuscules
    
    #stemming
    txt_list=txt.split()
    snowball = stem.snowball.EnglishStemmer()
    txt_list=[snowball.stem(w) for w in txt_list]
    if(stopw):
        txt_list=[w for w in txt_list if(w not in stopw)]
    txt=' '.join(txt_list)
    
    return txt

X_str=[process(x_str) for x_str in X_raw]

### exemple

In [15]:
print('* avant pre-processing:\n')
print(X_raw[11][:300]+'\n\n')

print('* après pre-processing:\n')
print(X_str[11][:300])

* avant pre-processing:

i've noticed something lately that i've never thought of before . 
pseudo- substance - hollywood faking deep meanings in their films . 
have you ever seen a movie that you really enjoyed , then when you look back , you realize there was something missing ? 
more and more , filmmakers seem to be putt


* après pre-processing:

i ve notic someth late that i ve never thought of befor pseudo substanc hollywood fake deep mean in their film have you ever seen a movi that you realli enjoy then when you look back you realiz there was someth miss more and more filmmak seem to be put out well rehears melodramat film that evok stro


## du texte à la représentation vectorielle

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

countVe = TfidfVectorizer(max_df=0.55, min_df=1, #max_features=1000,
                    )
count = countVe.fit_transform(X_str)
X=count

## application de modèles d'apprentissage

### naive bayes multinomial

In [19]:
nb_clf=sklearn.naive_bayes.MultinomialNB()
nb_clf.fit(X,y)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

### modèle maxent

In [20]:
maxent_clf = sklearn.linear_model.LogisticRegression(max_iter=100,C=1.9)
maxent_clf.fit(X,y)

LogisticRegression(C=1.9, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

### svm avec noyau linéaire

In [28]:
C = 2.6  # SVM regularization parameter
svm_clf = svm.LinearSVC(C=C,max_iter=9000).fit(X, y)

## résultats des expériences


&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**Note**: Nous utilisons içi des données de validation pour confronter nos différents modèles et représentations vectorielles, afin d'éviter le phénomène "surapprentissage" qui pourrait apparaître lors de la modification des hyperparamètres des modèles pour se "coller" au données de test. L'utilisation de données de validation nous permet donc de vérifier si un modèle et/ou une représentation est efficace, et les données de test nous permettent d'y attester en mesurant le pouvoir de généralisation de ce modèle avec ces hyperparamètres. 

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**Note bis**: Au lieu d'utiliser le taux de bonne prédiction pour évaluer nos modèles, nous utilisons le f1-score qui est une moyenne pondérée de la précision et du rappel:


>* **rappel**: $\Large\frac{\textrm{vrais positifs}}{\textrm{vrai positifs + faux négatifs}}$


>* **précision**: $\Large\frac{\textrm{vrais positifs}}{\textrm{vrais positifs + faux positifs}}$


### naive bayes multinomial

In [25]:
nb_scores = cross_validation.cross_val_score(nb_clf, X, y, scoring='f1_weighted')
print("Accuracy: %0.2f (+/- %0.2f)" % (nb_scores.mean(), nb_scores.std() * 2))

Accuracy: 0.80 (+/- 0.02)


### modèle maxent

In [26]:
maxent_scores = cross_validation.cross_val_score(maxent_clf, X, y, scoring='f1_weighted')
print("Accuracy: %0.2f (+/- %0.2f)" % (maxent_scores.mean(), maxent_scores.std() * 2))

Accuracy: 0.83 (+/- 0.02)


### svm avec noyau linéaire

In [29]:
svm_scores = cross_validation.cross_val_score(svm_clf, X, y, scoring='f1_weighted')
print("Accuracy: %0.2f (+/- %0.2f)" % (svm_scores.mean(), svm_scores.std() * 2))

Accuracy: 0.83 (+/- 0.03)


## chargement des données test et pre-processing

In [42]:
path_test='movies1000/test/'
docs_test = readAFile(path_test+"testSentiment.txt")
docs_test = docs_test.split('\n')[0:-1]
docs_test=[process(doc_test) for doc_test in docs_test]

### représentation sous forme de sac de mots

In [46]:
count_test = countVe.transform(docs_test)
pred_labels=nb.predict(count_test)

### écriture des résultats dans un fichier

In [47]:
f = open('sentim_exemple.txt', 'w')
for i in pred_labels:
    if i == -1:
        f.write('C\n')
    else:
        f.write('M\n')
f.close()

## Observation des coefficients des variables dans la base duale

In [44]:
w=svm_clf.coef_[0].argsort()

neg=np.array(w[:10])
pos=np.array(w[-10:])
test_pos=np.zeros((len(w)))
test_pos[pos]=1
test_neg=np.zeros((len(w)))
test_neg[neg]=1

ic_pos=countVe.inverse_transform(test_pos)
ic_neg=countVe.inverse_transform(test_neg)

print '* Positive words:'
print ', '.join(ic_pos[0])
print '\n* Negative words: '
print ', '.join(ic_neg[0])

* Positive words:
enjoy, fun, great, hilari, job, matrix, perfect, perform, surpris, well

* Negative words: 
attempt, bad, bore, noth, plot, poor, suppos, unfortun, wast, worst


## Commentaires:


&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Nous avons confrontés nos résultats sur les données de validations aux données de test, pour attester du pouvoir de généralisation des modèles et des représentations en donnant le document <code>test_labels_exemple.txt</code> au serveur, accessible depuis le lien suivant:
http://webia.lip6.fr/~guigue/wikihomepage/pmwiki.php?n=Course.CourseAFDSoumission


&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Le modèle ayant le meilleur score sur les données de test est le svm (avec les paramètres définis plus haut). Nous avons utilisé une représentation sac de mots (sous forme TF-IDF cette fois-ci). Sur ces données un pre-processing des documents nous donne une meilleure classification. Nous obtenons un **score de 0.81549** sur les données de test. En observant les coefficients du svm, nous avon une idée des mots qui représentent des documents positifs ou négatifs. Ceux-ci correspondent intuivement à des mots positifs, et négatifs, respectivement.

# TME8: word2vec

In [50]:
import gensim
import os

class MySentences(object):
    def __init__(self, dirname):
        self.dirname = dirname

    def __iter__(self):
        for fname in os.listdir(self.dirname):
            for line in open(os.path.join(self.dirname, fname)):
                yield line.split()

#Chargement de toutes les données de films
path1='movies1000/all'
sentences = MySentences(path1) # a memory-friendly iterator
model = gensim.models.Word2Vec(sentences)

## Exemples

In [103]:
model.most_similar(positive=['wife','woman'], negative=['man'], topn=1)

[('husband', 0.8624480366706848)]

In [97]:
model.most_similar(positive=['man','kitchen'], negative=['woman'], topn=10)

[('plant', 0.7183860540390015),
 ('gun,', 0.710938572883606),
 ('fist', 0.709678053855896),
 ('car,', 0.7086430788040161),
 ('casino', 0.7047275900840759),
 ('lab', 0.6988829374313354),
 ('cattle', 0.6985705494880676),
 ('fires', 0.6964811086654663),
 ('uniform', 0.6962838172912598),
 ('tree', 0.6948219537734985)]