Approche : mélanger analyse lexicale et par apprentissage.

1. Analyse lexicale des tweets :
    - POS tagging, lemmisation
    - Traduction des mots en Anglais pour pouvoir utiliser Sentiwordnet et obtenir la polarité des mots

2. Application d'un modèle d'apprentissage supervisé :
    - HMM, SVM, etc...

Liste des POS tags français : http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/french-tagset.html

Etudier la possibilité d'ajout de lexiques d'opinion en Français : http://alpage.inria.fr/~sagot/wolf.html, http://sites.univ-provence.fr/wpsycle/outils_recherche/liwc/FrenchLIWCDictionary_V1_1.dic, http://sites.univ-provence.fr/~wpsycle/outils_recherche/outils_recherche.html#emotaix

Voir l'approche compositionnelle : Moilanen 2007

In [1]:
import pprint
import treetaggerwrapper
import time

import pymongo as pym
#import nltk.data
import re
import string
from nltk.corpus import stopwords
from nltk.tokenize import TreebankWordTokenizer
import stop_words
#from nltk.stem import *
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.svm import SVC, LinearSVC
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import StandardScaler

import pandas as pd
import numpy as np

In [36]:
def mongo_to_df(collection, n_last_tweets=0, retweet=False):
    tweets = collection.find(filter={'text':{'$exists':True}}, 
                             projection={'_id':False}).sort('$natural',-1).limit(n_last_tweets)
    df = pd.DataFrame()
    listTweets, listCandidats, listSentiments = [], [], []
    
    for t in tweets: 
        if not retweet: # filtrage des retweets
            if 'rt @' in t['text']:
                continue

        if t['text']: # test si liste non vide
            listTweets.append(t['text'])
            try:
                listCandidats.append(t['candidat'])
            except:
                listCandidats.append(None)
            
            try:
                listSentiments.append(t['sentiment'])
            except:
                listSentiments.append(None)
    
    df['text'], df['candidat'], df['sentiment'] = listTweets, listCandidats, listSentiments
    return df


def load_tweets(client, spellcheck=True, label_auto=True, retweet=True):
    
    if spellcheck:
        collection = client.tweet.spellchecked
        df_tweets = mongo_to_df(collection, n_last_tweets=0, retweet=retweet)
        print('Correction orthographique activée.')
        if not label_auto:
            df_tweets = df_tweets[collection.count():]
    else:
        collection = client.tweet.train
        df_tweets = mongo_to_df(collection, n_last_tweets=0, retweet=retweet)
        print('Correction orthographique desactivée.')
        if label_auto:
            # Base annotée automatiquement, sur la base des hashtags (uniquement des tweets positifs)
            collection = client.tweet.labelised
            df_tweets_auto = mongo_to_df(collection, n_last_tweets=0, retweet=retweet)
            print('Ajout des tweets labélisés automatiquement...')
            print('{} tweets ajoutés.'.format(df_tweets_auto['text'].count()))
            df_tweets = pd.concat([df_tweets, df_tweets_auto], axis=0, ignore_index=True)
        
    print('\n{} tweets au total récupérés pour entraînement, répartis comme suit :'.format(df_tweets['text'].count()))
    print(df_tweets['sentiment'].value_counts())
    print(df_tweets['candidat'].value_counts())
        
    return df_tweets


def process_texts(list_of_texts, pos_tag_list, stop_words):
    # Processing the tweets (POS tagging, lemmatization, spellchecking)
    tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')
    list_of_processed_texts = []
    
    for text in list_of_texts:
        # Etape de filtrage
        text = re.sub(r'\w*…', '', text) # mot tronqué par Twitter
        text = re.sub(r'(?:htt)\S*', '', text) # retrait des liens http
        text = re.sub(r'\n', ' ', text) # retrait des sauts de ligne
        text = re.sub(r'\xad', '-', text)
        text = re.sub(r'@\w*', '', text) # retrait des mentions @ (ne détecte pas @XXX@...)
        text = re.sub(r'\.{3,}', '...', text) # ....... => points de suspension
        text = re.sub(r'(?=\.\w)(\.)', '. ', text) # remplacer un point entre deux mots 'A.B' par 'A. B'
        #text = re.sub(r'\[a-zA-Z]*(?!\S)', '', text) # retrait de ce qui n'est pas un mot
        #text = re.sub(r'^rt.*: ', '', text) # retrait de la mention retweet
        #text = re.sub(r'\d', '', text) # retrait des chiffres
        #text = re.sub(r',;!?\/\*(){}«»', ' ', text)
        #text = re.sub('|'.join(['’', '_', '/', '-', '\'', '“', '\.']), ' ', text)
        #text = re.sub('|'.join([elem + '\'' for elem in 'cdjlmnst']), '', text) # apostrophes
        
        # TODO: (optionnel) retirer les # avant d'utiliser TreeTagger
        # puis les remettre avec le tag HASH|
        
        # TODO: correction orthographique des tweets
        
        tags = tagger.tag_text(text)
        
        try:
            tagged_text = ['{}|{}'.format(t.split('\t')[1], t.split('\t')[2]) for t in tags
                           if (t.split('\t')[2] not in stop_words
                               and t.split('\t')[1] in pos_tag_list)]
        except:
            tagged_text = ['ERREUR']
        
        # append les HASH|#...
        # TODO: (optionnel) gérer les accents sur les mots
        list_of_processed_texts.append(tagged_text)
        
    return list_of_processed_texts

In [42]:
def build_Xy(df_tweets, pos_tags_to_keep, stop_words):
    # Tweet feature extraction
    # TODO: faire des tests en ajoutant/retirant des features
    hashtag = [t.count('#') for t in df_tweets['text']]
    links = [t.count('http') for t in df_tweets['text']]
    at = [t.count('@') for t in df_tweets['text']]
    n_car = [np.log(len(t))/4 for t in df_tweets['text']]
    n_words = [np.log(len(t.split(' ')))/2 for t in df_tweets['text']]
    n_2points = [t.count(':') for t in df_tweets['text']]
    n_exc = [t.count('!') for t in df_tweets['text']]
    n_int = [t.count('?') for t in df_tweets['text']]

    # d = t['text'].count('"')
    # g = t['text'].count('»')

    print('Tagging des tweets en cours...')
    tweet_list = process_texts(df_tweets['text'], pos_tags_to_keep, stop_words)

    print('TreeTagger a renvoyé {} erreur(s).'.format(tweet_list.count('ERREUR')))

    # Building feature matrix
    print('\nCréation de la matrice de features...')
    vectorizer = TfidfVectorizer(strip_accents=None, analyzer='word', decode_error='strict',
                                use_idf=False, norm=None, binary=False, min_df=1, max_df=1.0, ngram_range=(1,1))
    tfidf = vectorizer.fit_transform([' '.join(tweet) for tweet in tweet_list])
    X = pd.DataFrame(tfidf.toarray())

    X_added_features = pd.DataFrame(data={'#': hashtag,
                                          'http': links,
                                          '@': at,
                                          'n_car': n_car,
                                          'n_words': n_words,
                                          #':': n_2points,
                                          #'!': n_exc,
                                          #'?': n_int
                                         })

    X = pd.concat([X, X_added_features], axis=1)
    print(X[:5])

    y = df_tweets['sentiment']
    
    return X, y

In [52]:
def find_best_params(X, y, model, params_to_test):
    if model not in ['logistic', 'svc', 'nb']:
        print('Il faut choisir un modèle parmi logistic, svc et nb.')
        return
    
    # Building train & test sets
    cut = 1
    X_train, X_test, y_train, y_test = train_test_split(X[:-cut], y[:-cut], test_size = 0.2)
    X_train = pd.concat([X_train, X[-cut:]], axis=0)
    y_train = pd.concat([y_train, y[-cut:]], axis=0)
    n_samples, vocabulaire = X.shape

    print("Répartition dans le dataset de train ({} tweets) : \n".format(len(y_train)),
          "\tNégatif :", np.abs(np.sum(y_train[y_train == -1])/len(y_train)),
          "%\n\tPositif :", np.abs(np.sum(y_train[y_train == 1])/len(y_train)),"%")
    print("Répartition dans le dataset de test ({} tweets) : \n".format(len(y_test)),
          "\tNégatif :", np.abs(np.sum(y_test[y_test == -1])/len(y_test)),
          "%\n\tPositif :", np.abs(np.sum(y_test[y_test == 1])/len(y_test)),"%")
    print('Tweets : ' + str(n_samples) + ' / ' + 'N-grams : ' + str(vocabulaire))

    # Choice of models
    if model == 'logistic':
        clf = LogisticRegression(max_iter=2000, class_weight='balanced', multi_class='ovr')
    if model == 'svc':
        clf = LinearSVC(class_weight='balanced')
    if model == 'nb' :
        clf = MultinomialNB()

    gcv = GridSearchCV(clf, params_to_test, verbose=9, n_jobs=-1, cv=4, refit=True)
    gcv.fit(X_train, y_train)
    print('Les meilleurs paramètres pour {} sont {}.'.format(model, gcv.best_params_))
    
    # Fit & predict
    print('Prédiction sur l\'ensemble de test avec ces paramètres...')
    y_pred = gcv.predict(X_test)

    print('Score', np.sum(y_pred == y_test) / len(y_pred))
    print('Répartition des prédictions : \n',
          '\tNégatif :', np.abs(np.sum(y_pred[y_pred == -1])/len(y_pred)),
          '%\n\tPositif :', np.abs(np.sum(y_pred[y_pred == 1])/len(y_pred)), '%')

    # matrice de confusion
    cf = confusion_matrix(y_pred, y_test)
    recall = [cf[i,i]/cf[i,:].sum() for i in range(3)]
    precision = [cf[i,i]/cf[:,i].sum() for i in range(3)]
    print('\nMatrice de confusion (ligne: classe réelle, colonne: classe prédite):')
    print(cf)
    print('Recall (négatif, neutre, positif) : {:.3f}, {:.3f}, {:.3f}'.format(recall[0], recall[1], recall[2]))
    print('Précision (négatif, neutre, positif) : {:.3f}, {:.3f}, {:.3f}'.format(precision[0], precision[1], precision[2]))
    
    return

#### Test du TreeTagger

In [6]:
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')
tags = tagger.tag_text('exemple de texte à taguer')
print('Output du tagger :', tags)
tagged_text = ['{}|{}'.format(t.split('\t')[1], t.split('\t')[2]) for t in tags]
print('Création des features :', tagged_text)

Output du tagger : ['exemple\tNOM\texemple', 'de\tPRP\tde', 'texte\tNOM\ttexte', 'à\tPRP\tà', 'taguer\tNOM\ttaguer']
Création des features : ['NOM|exemple', 'PRP|de', 'NOM|texte', 'PRP|à', 'NOM|taguer']


#### Echantillons de tweets dans la base

In [53]:
client = pym.MongoClient('localhost',27017)
df_labelised = mongo_to_df(client.tweet.labelised, retweet=True)
df_spell = mongo_to_df(client.tweet.spellchecked, retweet=True)
df_train = mongo_to_df(client.tweet.train, retweet=True)
print(df_spell.shape[0], df_train.shape[0], df_labelised.shape[0])

0 10001 1718


In [None]:
for i in range(0, 20):
    print(df_spell['text'][i])
    print(2*'-')
    print(df_train['text'][i])
    print(10*'-')

### Chargement des tweets depuis Mongo et création des features

In [54]:
# Choix de la base à utiliser
client = pym.MongoClient('localhost',27017)
df = load_tweets(client, spellcheck=False, label_auto=True, retweet=False)

Correction orthographique desactivée.
Ajout des tweets labélisés automatiquement...
1715 tweets ajoutés.

9260 tweets au total récupérés pour entraînement, répartis comme suit :
-1.0    3742
 0.0    2844
 1.0    2674
Name: sentiment, dtype: int64
macron       498
fillon       498
le pen       464
melenchon    140
hamon        115
Name: candidat, dtype: int64


In [55]:
# Choix des POS tags à conserver
all_postags = ['ABR', 'ADJ', 'ADV', 'DET:ART', 'DET:POS', 'INT', 'KON', 'NAM', 'NOM', 'NUM', 'PRO',
                   'PRO:DEM', 'PRO:IND', 'PRO:PER', 'PRO:POS', 'PRO:REL', 'PRP', 'PRP:det', 'PUN', 'PUN:cit',
                   'SENT', 'SYM', 'VER:cond', 'VER:futu', 'VER:impe', 'VER:impf', 'VER:pper', 'VER:ppre',
                   'VER:pres', 'VER:simp', 'VER:subi', 'VER:subp']

pos_tags_to_keep = ['ADJ', 'ADV', 'NOM', 'PRO:POS', 'PRO:DEM', 'VER:cond', 'VER:futu', 'VER:impe', 'VER:impf',
                'VER:pper', 'VER:ppre', 'VER:pres', 'VER:simp', 'VER:subi', 'VER:subp']

# Choix des stop words
# stops = set(['rt','ds','qd','ss','ns','vs','nn','amp','gt','gd','gds','tt','pr','ac','mm', 'qu',
#             '``', 'ca', 'mdr', 'lol', 'dsl', 'cad']
#             + list('@ن%£€‘:&;')
#             + list('abcdefghijklmnopqrstuvwxyzà')
#            + stop_words.get_stop_words(language='fr')
#            + stopwords.words('french')
#            )
stops = set(list('abcdefghijklmnopqrstuvwxyz'))
# TODO: améliorer la liste de stop words
    
X, y = build_Xy(df, pos_tags_to_keep, stops)

Tagging des tweets en cours...
TreeTagger a renvoyé 0 erreur(s).

Création de la matrice de features...
     0    1    2    3    4    5    6    7    8    9    ...     9996  9997  \
0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0    ...      0.0   0.0   
1  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0    ...      0.0   0.0   
2  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0    ...      0.0   0.0   
3  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0    ...      0.0   0.0   
4  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0    ...      0.0   0.0   

   9998  9999  10000  #  @  http     n_car   n_words  
0   0.0   0.0    0.0  1  0     1  1.228164  1.522261  
1   0.0   0.0    0.0  0  0     0  0.972955  0.972955  
2   0.0   0.0    0.0  0  0     1  1.235411  1.609438  
3   0.0   0.0    0.0  1  1     1  1.235411  1.545521  
4   0.0   0.0    0.0  0  0     1  1.170533  1.242453  

[5 rows x 10006 columns]


### Test avec la regression logistique

In [56]:
params = {'penalty':['l2'], 'dual': [True], 'C' : [.5]}
find_best_params(X, y, 'logistic', params)

Répartition dans le dataset de train (7408 tweets) : 
 	Négatif : 0.403347732181 %
	Positif : 0.287257019438 %
Répartition dans le dataset de test (1852 tweets) : 
 	Négatif : 0.407127429806 %
	Positif : 0.294816414687 %
Tweets : 9260 / N-grams : 10006
Fitting 4 folds for each of 1 candidates, totalling 4 fits


[Parallel(n_jobs=-1)]: Done   2 out of   4 | elapsed:   20.1s remaining:   20.1s
[Parallel(n_jobs=-1)]: Done   4 out of   4 | elapsed:   27.6s remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   4 out of   4 | elapsed:   27.6s finished


Les meilleurs paramètres pour logistic sont {'penalty': 'l2', 'C': 0.5, 'dual': True}.
Prédiction sur l'ensemble de test avec ces paramètres...
Score 0.686825053996
Répartition des prédictions : 
 	Négatif : 0.42494600432 %
	Positif : 0.224622030238 %

Matrice de confusion (ligne: classe réelle, colonne: classe prédite):
[[527 151 109]
 [195 381  73]
 [ 32  20 364]]
Recall (négatif, neutre, positif) : 0.670, 0.587, 0.875
Précision (négatif, neutre, positif) : 0.699, 0.690, 0.667


{'C': 0.5, 'dual': True, 'penalty': 'l2'}

### Test avec le LinearSVC

In [40]:
params = {'C' : [.02]}
find_best_params(X, y, 'svc', params)

Répartition dans le dataset de train (7751 tweets) : 
 	Négatif : 0.387433879499 %
	Positif : 0.31931363695 %
Répartition dans le dataset de test (1509 tweets) : 
 	Négatif : 0.489728296885 %
	Positif : 0.131875414182 %
Tweets : 9260 / N-grams : 10006
Fitting 4 folds for each of 1 candidates, totalling 4 fits


[Parallel(n_jobs=-1)]: Done   2 out of   4 | elapsed:   19.6s remaining:   19.6s
[Parallel(n_jobs=-1)]: Done   4 out of   4 | elapsed:   27.6s remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   4 out of   4 | elapsed:   27.6s finished


Les meilleurs paramètres pour svc sont {'C': 0.02}.

Score 0.643472498343
Répartition des prédictions : 
 	Négatif : 0.560636182903 %
	Positif : 0.037773359841 %

Matrice de confusion (ligne: classe réelle, colonne: classe prédite):
[[569 178  99]
 [150 379  77]
 [ 20  14  23]]
Recall (négatif, neutre, positif) : 0.673, 0.625, 0.404
Précision (négatif, neutre, positif) : 0.770, 0.664, 0.116


{'C': 0.02}

### Test avec Naive Bayes

In [41]:
params = {'alpha': [.5, 1., 1.5, 2.]}
find_best_params(X, y, 'nb', params)

Répartition dans le dataset de train (7751 tweets) : 
 	Négatif : 0.384337504838 %
	Positif : 0.321893949168 %
Répartition dans le dataset de test (1509 tweets) : 
 	Négatif : 0.50563286945 %
	Positif : 0.118621603711 %
Tweets : 9260 / N-grams : 10006
Fitting 4 folds for each of 4 candidates, totalling 16 fits


[Parallel(n_jobs=-1)]: Done  11 out of  16 | elapsed:   42.0s remaining:   19.0s
[Parallel(n_jobs=-1)]: Done  13 out of  16 | elapsed:   46.4s remaining:   10.6s
[Parallel(n_jobs=-1)]: Done  16 out of  16 | elapsed:   51.0s finished


Les meilleurs paramètres pour nb sont {'alpha': 1.0}.

Score 0.60901259112
Répartition des prédictions : 
 	Négatif : 0.557322730285 %
	Positif : 0.102054340623 %

Matrice de confusion (ligne: classe réelle, colonne: classe prédite):
[[549 189 103]
 [144 332  38]
 [ 70  46  38]]
Recall (négatif, neutre, positif) : 0.653, 0.646, 0.247
Précision (négatif, neutre, positif) : 0.720, 0.586, 0.212


{'alpha': 1.0}