# Jeu de données 1 : Tweets

In [44]:
# 0 indique que le tweet est négatif
# 1 indique qu'il est positif

## Lecture du jeu de données et comptes

In [45]:
import pandas as pd
data_tweet = pd.read_csv("Tweets/french_tweets.csv")

In [46]:
texte = data_tweet["text"]
print("Il y a", len(texte), "tweets dans le jeu de données.")
#for i in texte:
    #print(len(i))

Il y a 1526724 tweets dans le jeu de données.


In [47]:
import nltk
from nltk.tokenize import word_tokenize

In [48]:
tokenizer = nltk.RegexpTokenizer("([A-Z]\.[A-Z]?\.?[0-9]?|[0-9]+[,.][0-9]+|[cdjls]'|qu'|[\w'-]+|\S)")
# tokenizer comprenant les mots avec une apostrophe (l', qu') et les ponctuations séparément
# une telle tokenization nous permet d'avoir une bonne idée du nombre de token

In [49]:
nb_instances= 0
for i in texte:
    l=len(tokenizer.tokenize(i))
    nb_instances+=l
print("Il y a", nb_instances, "tokens en tout.") # nombre de tokens avec ponctuation

Il y a 25979719 tokens en tout.


In [50]:
import re

In [51]:
nb_instances2= 0
for i in texte:
    j = re.sub(",|;|\.", " ", i)
    l2=len(tokenizer.tokenize(j))
    nb_instances2 += l2
print("Il y a", nb_instances2, "tokens sans compter la ponctuation.") # nombre de tokens sans ponctuation

Il y a 23145150 tokens sans compter la ponctuation.


In [52]:
from nltk.tokenize import sent_tokenize

In [53]:
nb_instances3= 0
for i in texte:
    longueur_text=len(sent_tokenize(i))
    nb_instances3 += longueur_text
print("Il y a", nb_instances3, "phrases dans l'ensemble du jeu de données.")

Il y a 2580261 phrases dans l'ensemble du jeu de données.


In [54]:

 nb_carac = 0
for i in texte:
    longueur_carac = len(i)
    nb_carac += longueur_carac
print("Il y a", nb_carac, "caractères dans le jeu de données.")

Il y a 119159266 caractères dans le jeu de données.


In [55]:
#771605 tweets négatifs
positif = 1526724 - 771605
print("Il y a 771605 tweets négatifs au total et", positif, "tweets positifs.")

Il y a 771605 tweets négatifs au total et 755119 tweets positifs.


## Vectorisation du jeu de données

In [56]:
import numpy as np

In [57]:
import nltk
from nltk.tokenize import word_tokenize

In [58]:
class_tweets = data_tweet["label"]
texte = data_tweet["text"]

In [59]:
# on récupère les instances (X) et les classes (y) et on les vectorise

In [60]:
y = data_tweet["label"]

from sklearn.feature_extraction.text import CountVectorizer
V = CountVectorizer(ngram_range = (1,2) )
X = V.fit_transform(data_tweet["text"])

## séparer train test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [61]:
taille = 1526724 * 0.3
print("La taille du test est de", taille, "items.")

La taille du test est de 458017.2 items.


## Evaluations

### Première évaluation : le perceptron, réseau de neurones simple, classifieur linéaire

In [62]:
#classifier
from sklearn.linear_model import Perceptron

ppn = Perceptron(eta0=0.1, random_state=0)
ppn.fit(X_train, y_train)
y_pred = ppn.predict(X_test)

# On fait la somme de tous les cas où la valeur dans y_test est bien trouvée dans y_pred
print('Bons résultats %d' % (y_test == y_pred).sum())
print('Erreurs: %d' % (y_test != y_pred).sum())

Bons résultats 347500
Erreurs: 110518


In [63]:
# bon à première vue, les résultats ne sont pas concluants. On a 30% d'erreur...

In [64]:
ppn = Perceptron(eta0=0.2, random_state=0)
ppn.fit(X_train, y_train)
y_pred = ppn.predict(X_test)

# On fait la somme de tous les cas où la valeur dans y_test est bien trouvée dans y_pred
print('Bons résultats %d' % (y_test == y_pred).sum())
print('Erreurs: %d' % (y_test != y_pred).sum())

Bons résultats 348287
Erreurs: 109731


In [65]:
# peu d'amélioration

In [66]:
for i in range (1, 28):
    ppn = Perceptron(eta0=i, random_state=0)
    ppn.fit(X_train, y_train)
    y_pred = ppn.predict(X_test)

# On fait la somme de tous les cas où la valeur dans y_test est bien trouvée dans y_pred
    print("Avec un eta0 =", i)
    print('Bons résultats %d' % (y_test == y_pred).sum())
    print('Erreurs: %d' % (y_test != y_pred).sum())

Avec un eta0 = 1
Bons résultats 343496
Erreurs: 114522
Avec un eta0 = 2
Bons résultats 343859
Erreurs: 114159
Avec un eta0 = 3
Bons résultats 344421
Erreurs: 113597
Avec un eta0 = 4
Bons résultats 344082
Erreurs: 113936
Avec un eta0 = 5
Bons résultats 343915
Erreurs: 114103
Avec un eta0 = 6
Bons résultats 344421
Erreurs: 113597
Avec un eta0 = 7
Bons résultats 343954
Erreurs: 114064
Avec un eta0 = 8
Bons résultats 344082
Erreurs: 113936
Avec un eta0 = 9
Bons résultats 343053
Erreurs: 114965
Avec un eta0 = 10
Bons résultats 343915
Erreurs: 114103
Avec un eta0 = 11
Bons résultats 342417
Erreurs: 115601
Avec un eta0 = 12
Bons résultats 344421
Erreurs: 113597
Avec un eta0 = 13
Bons résultats 344826
Erreurs: 113192
Avec un eta0 = 14
Bons résultats 343954
Erreurs: 114064
Avec un eta0 = 15
Bons résultats 343680
Erreurs: 114338
Avec un eta0 = 16
Bons résultats 344814
Erreurs: 113204
Avec un eta0 = 17
Bons résultats 346343
Erreurs: 111675
Avec un eta0 = 18
Bons résultats 343053
Erreurs: 114965
A

**Les données de classification : elles permettent d'évaluer la qualité de la classification**

In [67]:
from sklearn.metrics import classification_report

report = classification_report(y_test, y_pred)
print(report)

nom_classes = ["Positif", "Négatif"]
report = classification_report(y_test, y_pred, target_names=nom_classes)
print(report)

              precision    recall  f1-score   support

           0       0.77      0.72      0.75    231214
           1       0.73      0.78      0.76    226804

    accuracy                           0.75    458018
   macro avg       0.75      0.75      0.75    458018
weighted avg       0.75      0.75      0.75    458018

              precision    recall  f1-score   support

     Positif       0.77      0.72      0.75    231214
     Négatif       0.73      0.78      0.76    226804

    accuracy                           0.75    458018
   macro avg       0.75      0.75      0.75    458018
weighted avg       0.75      0.75      0.75    458018



In [68]:
# la précision est la proportion des items pertinents parmi l'ensemble des items proposés 

# le rappel est la proportion des items pertinents proposés parmi l'ensemble des items pertinents. 

# Vrai négatif : absent, absent
# Vrai positif : présent, présent
# Faux négatif : présent(dans la référence), absent(dans l'hypothèse)
# Faux positif : absent, présent

# support : nombre d'instances concernées

# micro f-mesure : moyenne des F-mesure pondérée (une classe compte en fonction de sa taille)

# macro f-mesure : moyenne des F-mesure de chaque classe (indépendamment de leur taille)

In [69]:
##On peut avoir la même chose sous forme de liste python :
from sklearn.metrics import precision_recall_fscore_support
stats = precision_recall_fscore_support(y_test, y_pred)
print(stats)
##dans l'ordre les précisions pour chaque classe, puis les rappels ...

(array([0.77222251, 0.73391133]), array([0.7215134 , 0.78304175]), array([0.74600722, 0.75768093]), array([231214, 226804]))


In [70]:
from sklearn.metrics import confusion_matrix

matrice_confusion = confusion_matrix(y_test, y_pred)
print(matrice_confusion)

[[166824  64390]
 [ 49207 177597]]


### Deuxième évaluation : Un arbre de décision

In [71]:
from sklearn import tree
DT = tree.DecisionTreeClassifier()
DT = DT.fit(X_train, y_train)
y_pred = DT.predict(X_test)

# encore une matrice de confusion
matrice_confusion = confusion_matrix(y_test, y_pred)
print(matrice_confusion)

print('Bons résultats %d' % (y_test == y_pred).sum())
print('Erreurs: %d' % (y_test != y_pred).sum())

[[168697  62517]
 [ 63546 163258]]
Bons résultats 331955
Erreurs: 126063


In [73]:
from sklearn.metrics import classification_report
#Classification report permet de msurer l'exactitude d'une clissification selon plusieurs paramètres

report = classification_report(y_test, y_pred)
print(report)

nom_classes = ["ham", "spam"]
report = classification_report(y_test, y_pred, target_names=nom_classes)
print(report)

              precision    recall  f1-score   support

           0       0.73      0.73      0.73    231214
           1       0.72      0.72      0.72    226804

    accuracy                           0.72    458018
   macro avg       0.72      0.72      0.72    458018
weighted avg       0.72      0.72      0.72    458018

              precision    recall  f1-score   support

         ham       0.73      0.73      0.73    231214
        spam       0.72      0.72      0.72    226804

    accuracy                           0.72    458018
   macro avg       0.72      0.72      0.72    458018
weighted avg       0.72      0.72      0.72    458018



**Les paramètres random_state, max_depth, min_samples_split, min_samples_leaf, max_features**

In [None]:
import numpy as np
from sklearn.metrics import precision_recall_fscore_support

print("Avec la valeur par défaut de random state")
for i in range(3):
  DT = tree.DecisionTreeClassifier()
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())
  print("--"*10)

print("En fixant random state")
for i in range(3):
  DT = tree.DecisionTreeClassifier(random_state=0)
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())


Avec la valeur par défaut de random state
[[168794  62420]
 [ 63478 163326]]
(array([0.72670834, 0.72349455]), array([0.73003365, 0.72011957]), array([0.7283672 , 0.72180312]), array([231214, 226804]))
Bons résultats 332120
Erreurs: 125898
--------------------


In [None]:
###### print("On teste max_depth")
for i in range(1, 3):
  DT = tree.DecisionTreeClassifier(max_depth=i)
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print("Avec max_depth=", i)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())

print("On teste min_samples_split:")
for i in range(1, 3):
  DT = tree.DecisionTreeClassifier(max_depth=i)
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print("Avec max_depth=", i)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())

print("On teste min_samples_leaf:")
for i in range(1, 3):
  DT = tree.DecisionTreeClassifier(max_depth=i)
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print("Avec max_depth=", i)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())
    
print("On teste max_features:")
for i in range(1, 3):
  DT = tree.DecisionTreeClassifier(max_depth=i)
  DT = DT.fit(X_train, y_train)
  y_pred = DT.predict(X_test)
  matrice_confusion = confusion_matrix(y_test, y_pred)
  print("Avec max_depth=", i)
  print(matrice_confusion)
  stats = precision_recall_fscore_support(y_test, y_pred)
  print(stats)
  print('Bons résultats %d' % (y_test == y_pred).sum())
  print('Erreurs: %d' % (y_test != y_pred).sum())

In [None]:
print("C'est ok")