## Importación del corpus

Utilizamos el corpus de [Canéphore](https://github.com/ressources-tal/canephore) que contiene tweets en francés anotados de opiniones de usuarios sobre el concurso de Miss France. Previamente, hemos podido descargarnos 2000 tweets (el corpus tiene 10000 pero la API de Twitter nos lo limitaba), que hemos agrupado en un mismo archivo (results.csv) junto con su polaridad (0-negativa, 1-positiva, Nan-neutra).

In [2]:
import pandas as pd
pd.set_option('max_colwidth',1000)

In [15]:
corpus_frances = pd.read_csv('results.csv', encoding='utf-8')
corpus_frances.sample(20)

Unnamed: 0,content,polarity
518,'#MissFrance Miss Lorraine : Miss Marc Dorcel!',Nan
118,'Miss Centre (donc de chez moi) est trop laide OMG #MissFrance',0
1025,"'Miss Provence ressemble à Marlène du Loft 2. Celle qui avait repris ""Avoir un seul enfant de toi"" avec Phil Barney ! #MissFrance'",Nan
958,'Je la trouve belle miss Alsace #missfrance',1
136,'#çaménèrve toutes ses sourires figés chez les #MissFrance !!! #TF1',0
460,'Pour le moment mon coup de coeur c'est Miss Languedoc elle est sublime ! #MissFrance',1
869,'C'est au moment des costumes traditionnels que tu es contente d'être Miss Réunion #MissFrance #tf1',1
965,'@LileesG Ma petite soeur et moi on est pour Alsace & Ile de France ! :D #Pronostics #MissFrance',1
961,'Bon pour finir mon anniversaire en beauté (c'est le cas de le dire :P) je veux une victoire de miss Languedoc x) #missFrance',Nan
1261,'Miss Roussillon va travailler à CSI avec Horatio ouii #missfrance',Nan


In [4]:
corpus_frances.shape

(2031, 2)

Eliminamos los que tienen polaridad neutra, ya que queremos utilizar un modelo binario.

In [16]:
corpus_frances_sinNan = corpus_frances.query('polarity != "Nan"')
corpus_frances_sinNan.shape

(956, 2)

Eliminamos las referencias a enlaces dentro del cuerpo de los tweets. (NO FUNCIONA :( )

In [17]:
#remove links
corpus_frances_sinNan = corpus_frances_sinNan[-corpus_frances_sinNan.content.str.contains('^http.*$')]
corpus_frances_sinNan.shape

(956, 2)

In [18]:
corpus_frances_sinNan

Unnamed: 0,content,polarity
0,'Ce soir c'est l'élection de #missfrance et je vais me faire un plaisir de NE PAS regarder.',0
9,'@LauryThilleman Tu es sublime et ta robe est magnifique ! :) #TF1',1
12,'Je viens de voir @MenardMalika sur #tf1 &lt_3 ! Cette femme est trop belle !',1
13,'@DenisBrogniart Vivement 20h50 pour la soirée sur Tf1 !! :) Je suis pour la Provence et la Bourgogne !! :)',1
14,'Allez Alison Cossenet : Miss France Languedoc Roussillon #Miss France 2012 TF1 http://t.co/18fhDHMV',1
16,'Yeaaah Election de Miss France ce soiir_ je vais regarder ça c'est certain ! :) #TF1.',1
18,'Mes préférées pour ce soir (en photo du moins) : Miss Tahiti et Miss Provence #MissFrance',1
20,'Soirée #MissFrance ça va être fun!! Un défilé de bombasse ou ... De thon on verra bien! #TweetBitch',1
25,'★ Miss France ★ Election et érections ce soir! Quelle morue va représenter la France en 2012 ? http://t.co/r2WW1vBB #MissFrance',0
32,'La Miss Champagne-Ardenne ... c'est toujours pas ça ! On a pourtant des belles femmes dans notre région... #MissFrance #ChampagneArdenne',0


## Tokenizing & Stemming

Obtenenemos de nltk las palabras vacías francesas. Obtenemos también una lista de caracteres que se utilizan como puntuación (no añadimos ninguno porque son los mismos que los ingleses).

In [19]:
#download french stopwords
import nltk
nltk.download("stopwords")

from nltk.corpus import stopwords
french_stopwords = stopwords.words('french')
french_stopwords

[nltk_data] Downloading package stopwords to /home/ubuntu/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'je',
 'la',
 'le',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',
 'ayants',
 'eu'

In [20]:
from string import punctuation
non_words = list(punctuation)
non_words

['!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 '{',
 '|',
 '}',
 '~']

Utilizamos el algoritmo de stemming SnowballStemmer, disponible en francés también.

In [21]:
from sklearn.feature_extraction.text import CountVectorizer       
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

# based on http://www.cs.duke.edu/courses/spring14/compsci290/assignments/lab02.html
stemmer = SnowballStemmer('french')
def stem_tokens(tokens, stemmer):
    stemmed = []
    for item in tokens:
        stemmed.append(stemmer.stem(item))
    return stemmed

def tokenize(text):
    # remove non letters
    text = ''.join([c for c in text if c not in non_words])
    # tokenize
    tokens =  word_tokenize(text)

    # stem
    try:
        stems = stem_tokens(tokens, stemmer)
    except Exception as e:
        print(e)
        print(text)
        stems = ['']
    return stems

stemmer

<nltk.stem.snowball.SnowballStemmer at 0x7f0fd35ae2e8>

## Evaluación del modelo

Utilizamos el modelo LinearSVC (Linear Support Vector Classifier).

In [22]:
from sklearn.cross_validation import cross_val_score
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline



Queremos que el modelo siga una clasificación binaria, para ello convertimos los valores de polaridad en números enteros (polarity_bin).

In [29]:
corpus_frances_sinNan['polarity_bin'] = 0
corpus_frances_sinNan.polarity_bin[corpus_frances_sinNan.polarity.isin(['1'])] = 1
corpus_frances_sinNan.dtypes

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  from ipykernel import kernelapp as app


content         object
polarity        object
polarity_bin     int64
dtype: object

El corpus posee más tweets con polaridad negativa que positiva.

In [20]:
corpus_frances_sinNan.polarity.value_counts(normalize=True)

0    0.526151
1    0.473849
Name: polarity, dtype: float64

Hacemos en GridSearch para encontrar los parámetros óptimos (esto solo es necesario hacerlo una vez).

In [27]:
from sklearn.model_selection import GridSearchCV
vectorizer = CountVectorizer(
                analyzer = 'word',
                tokenizer = tokenize,
                lowercase = True,
                stop_words = french_stopwords)

pipeline = Pipeline([
    ('vect', vectorizer),
    ('cls', LinearSVC()),
])



parameters = {
    'vect__max_df': (0.5, 1.9),
    'vect__min_df': (10, 20,50),
    'vect__max_features': (500, 1000),
    'vect__ngram_range': ((1, 1), (1, 2)),  # unigrams or bigrams
    'cls__C': (0.2, 0.5, 0.7),
    'cls__loss': ('hinge', 'squared_hinge'),
    'cls__max_iter': (500, 1000)
}


grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1 , scoring='roc_auc')
grid_search.fit(corpus_frances_sinNan.content, corpus_frances_sinNan.polarity_bin)

GridSearchCV(cv=None, error_score='raise',
       estimator=Pipeline(steps=[('vect', CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None,
        stop_words=['au', 'aux...ax_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0))]),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid={'vect__max_df': (0.5, 1.9), 'vect__min_df': (10, 20, 50), 'vect__max_features': (500, 1000), 'vect__ngram_range': ((1, 1), (1, 2)), 'cls__C': (0.2, 0.5, 0.7), 'cls__loss': ('hinge', 'squared_hinge'), 'cls__max_iter': (500, 1000)},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='roc_auc', verbose=0)

In [28]:
grid_search.best_params_

{'cls__C': 0.2,
 'cls__loss': 'hinge',
 'cls__max_iter': 1000,
 'vect__max_df': 0.5,
 'vect__max_features': 500,
 'vect__min_df': 10,
 'vect__ngram_range': (1, 2)}

**AUC**

Como se trata de una clasificación binaria, podemos calcular el AUC para conocer la eficacia del modelo. Utilizamos los parámetros óptimos que hemos encontrado.

In [31]:
model = LinearSVC(C=.2, loss='hinge',max_iter=1000,multi_class='ovr',
              random_state=None,
              penalty='l2',
              tol=0.0001
)

vectorizer = CountVectorizer(
    analyzer = 'word',
    tokenizer = tokenize,
    lowercase = True,
    stop_words = french_stopwords,
    min_df = 10,
    max_df = 0.5,
    ngram_range=(1, 2),
    max_features=500
)

corpus_data_features = vectorizer.fit_transform(corpus_frances_sinNan.content)
corpus_data_features_nd = corpus_data_features.toarray()

In [32]:
scores = cross_val_score(
    model,
    corpus_data_features_nd[0:len(corpus_frances_sinNan)],
    y=corpus_frances_sinNan.polarity_bin,
    scoring='roc_auc',
    cv=5
    )

scores.mean()

0.84433777850312508

## Predicción de polaridad

** Utilizamos el modelo entrenado para el análisis de sentimientos en los tweets descargados **

Cargamos uno de los archivos csv con los tweets de una de las regiones de Francia.

In [3]:
tweets = pd.read_csv('Ile-de-France.csv', encoding='utf-8')
tweets.head()

Unnamed: 0,time,text,user,rts,place,lon,lat
0,2017-05-06 16:02:55,"RT @Freezze: ""Excusez moi mais ... Mais .. Pourrait on évoquer le ... S'il vous plait ? Est ce que ... Oh et puis démerdez vous tiens"" #20…",Ju',7435,,,
1,2017-05-06 16:02:38,RT @Freezze: RT si t'as rien compris. #2017LeDebat https://t.co/8mT06MGiZA,Marc barbier,10654,,,
2,2017-05-06 16:02:38,RT @ErenJaeger95: Normalement #2017LeDébat aurait dû ce passé comme ça 😭😭😭😭 https://t.co/XSQEn936G7,Dany,1568,,,
3,2017-05-06 16:01:43,RT @EmmanuelMacron: Je veux présider le pays. #2017LeDébat,APPELEZ MOI ZA2👸🏻,1763,,,
4,2017-05-06 15:59:41,RT @deleteitugly: Meilleur moment du débat #2017LeDebat https://t.co/8N9Dmgl2mH,Clem's,15120,,,


Eliminamos de nuevo los enlaces de los cuerpos de los tweets. ( NO FUNCIONA D: ).

In [10]:
tweets = tweets[-tweets.text.str.contains('^http.*$')]
tweets = tweets[-tweets.text.str.contains('^https.*$')]
tweets.shape

(1000, 7)

** Detección del lenguaje **

Nos aseguramos que todos los tweets están escritos en francés.

In [11]:
import langid
from langdetect import detect
import textblob

def langid_safe(tweet):
    try:
        return langid.classify(tweet)[0]
    except Exception as e:
        pass
        
def langdetect_safe(tweet):
    try:
        return detect(tweet)
    except Exception as e:
        pass

def textblob_safe(tweet):
    try:
        return textblob.TextBlob(tweet).detect_language()
    except Exception as e:
        pass   

In [12]:
#this will take a loong time.
tweets['lang_langid'] = tweets.text.apply(langid_safe)
tweets['lang_langdetect'] = tweets.text.apply(langdetect_safe)
tweets['lang_textblob'] = tweets.text.apply(textblob_safe)

In [13]:
tweets

Unnamed: 0,time,text,user,rts,place,lon,lat,lang_langid,lang_langdetect,lang_textblob
0,2017-05-06 16:02:55,"RT @Freezze: ""Excusez moi mais ... Mais .. Pourrait on évoquer le ... S'il vous plait ? Est ce que ... Oh et puis démerdez vous tiens"" #20…",Ju',7435,,,,fr,fr,fr
1,2017-05-06 16:02:38,RT @Freezze: RT si t'as rien compris. #2017LeDebat https://t.co/8mT06MGiZA,Marc barbier,10654,,,,it,en,fr
2,2017-05-06 16:02:38,RT @ErenJaeger95: Normalement #2017LeDébat aurait dû ce passé comme ça 😭😭😭😭 https://t.co/XSQEn936G7,Dany,1568,,,,fr,fr,fr
3,2017-05-06 16:01:43,RT @EmmanuelMacron: Je veux présider le pays. #2017LeDébat,APPELEZ MOI ZA2👸🏻,1763,,,,fr,fr,fr
4,2017-05-06 15:59:41,RT @deleteitugly: Meilleur moment du débat #2017LeDebat https://t.co/8N9Dmgl2mH,Clem's,15120,,,,fr,fr,fr
5,2017-05-06 15:57:39,"RT @TeamMacron2017: Louis Aliot, du FN, avec Camel Bechikh représentant de l'UOIF. Marine Le Pen devrait balayer devant sa porte #2017LeDeb…",Dominique Baiguini,2113,,,,fr,fr,fr
6,2017-05-06 15:57:35,RT @EmmanuelMacron: #2017LeDébat en 5 minutes ! https://t.co/xAeJKpjDKu,🐑,3171,,,,fr,fr,fr
7,2017-05-06 15:57:31,"RT @EmmanuelMacron: Madame Le Pen, la France mérite mieux que vous. #2017LeDébat",twenty2,16683,,,,fr,fr,fr
8,2017-05-06 15:57:05,RT @deleteitugly: Meilleur moment du débat #2017LeDebat https://t.co/8N9Dmgl2mH,Emilie Arwidson,15120,,,,fr,fr,fr
9,2017-05-06 15:56:58,RT @Freezze: C'est bon elle a vrillé complet #2017LeDebat https://t.co/ldRd72wX7d,princesse_loulou13,12121,,,,fr,fr,fr


In [24]:
tweets = tweets.query(''' lang_langdetect == 'fr' or lang_langid == 'fr' or lang_textblob == 'fr'  ''')
tweets.shape

(956, 10)

** Predicción con los parámetros óptimos y el modelo entrenado **

In [25]:
pipeline = Pipeline([
    ('vect', CountVectorizer(
            analyzer = 'word',
            tokenizer = tokenize,
            lowercase = True,
            stop_words = french_stopwords,
            min_df = 10,
            max_df = 0.5,
            ngram_range=(1, 2),
            max_features=500
            )),
    ('cls', LinearSVC(C=.2, loss='hinge',max_iter=1000,multi_class='ovr',
             random_state=None,
             penalty='l2',
             tol=0.0001
             )),
])

In [26]:
pipeline.fit(corpus_frances_sinNan.content, corpus_frances_sinNan.polarity_bin)
tweets['polarity'] = pipeline.predict(tweets.text)

In [27]:
tweets[['text', 'polarity']].sample(20)

Unnamed: 0,text,polarity
341,"RT @fligoupier: Tu me manques, petit ange parti trop tôt... 😢 #2017LeDebat https://t.co/UTUFL693MB",0
907,RT @Sylvqin: T'as pas besoin de parler de ton programme si t'insultes l'autre candidat pendant 3h #2017LeDébat https://t.co/ocJ33xJMTd,0
882,RT @deleteitugly: Meilleur moment du débat #2017LeDebat https://t.co/8N9Dmgl2mH,0
595,"RT @EmmanuelMacron: Madame Le Pen, la France mérite mieux que vous. #2017LeDébat",0
860,RT @mkfrison: Ça marche avec toutes les chansons !!! #2017LeDébat https://t.co/wVNpaVwjxu,0
568,RT @deleteitugly: Meilleur moment du débat #2017LeDebat https://t.co/8N9Dmgl2mH,0
872,"RT @gmaujean: Ce soir, les fact-checkers en burn-out avec MLP #2017LeDébat https://t.co/amSUCwwPtl",1
616,"RT @Neacko83: En 2002, Chirac disait : ""on ne débat pas avec l'extreme droite"".\n15 ans après, en voyant #LePen, on comprend mieux pourquoi.…",0
458,"RT @TheClownOfParis: ""non mais a un moment donné ... LA FEMME A BOOBA !"" #2017LeDebat https://t.co/8K8lYgs4SQ",0
491,RT @NasNacera: Le FN promeut le « Made in France » mais fabrique ses tee-shirts en Asie. Patriote tu dis ? #2017LeDebat https://t.co/SBd28…,0


Vemos que la mayoría de tweets se detectan con polaridad negativa (en nuestro modelo eliminamos la polaridad neutra). El modelo falla de forma considerable, sobre todo porque muchos tweets están escritos de forma sarcástica. 

Guardamos los tweets con su polaridad y coordenadas para situarlos en el mapa.

In [28]:
tweets[['text', 'lat', 'lon', 'polarity']].to_csv('tweets_polarity_latlon.csv', encoding='utf-8')