In [1]:
import os
import pandas as pd
import matplotlib as plt

#chargement des stopwords
from nltk.corpus import stopwords

#fonction de normalisation
import re

#stemmatisation
from nltk.stem.snowball import SnowballStemmer

#lemmatization
from nltk.stem import WordNetLemmatizer

#jeux d'apprentissageet de test
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# desactivation du nombres de colonnes
pd.set_option('display.max_columns',None)

# recuperation des fichiers

listDeFichiers = os.listdir("data")

#quel est les noms des fichiers

for fichier in listDeFichiers:
    print(fichier)

rechauffementClimatique.csv
tweet.csv
tweet1.csv
modele_twitter.mod
rechauffementClimatique_non_preparees.csv


In [2]:
messagesTwitter = pd.read_csv('data/rechauffementClimatique.csv', sep=';')

### informations sur le nombres d'observations et leur contenu

In [3]:
messagesTwitter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4225 entries, 0 to 4224
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   TWEET      4225 non-null   object 
 1   CROYANCE   4225 non-null   object 
 2   CONFIENCE  4225 non-null   float64
dtypes: float64(1), object(2)
memory usage: 99.1+ KB


In [5]:
messagesTwitter.head(3)

Unnamed: 0,TWEET,CROYANCE,CONFIENCE
0,Global warming report urges governments to act...,Yes,1.0
1,Fighting poverty and global warming in Africa ...,Yes,1.0
2,Carbon offsets: How a Vatican forest failed to...,Yes,0.8786


In [6]:
messagesTwitter.CROYANCE= (messagesTwitter['CROYANCE']=='Yes').astype("int64")
messagesTwitter

Unnamed: 0,TWEET,CROYANCE,CONFIENCE
0,Global warming report urges governments to act...,1,1.0000
1,Fighting poverty and global warming in Africa ...,1,1.0000
2,Carbon offsets: How a Vatican forest failed to...,1,0.8786
3,Carbon offsets: How a Vatican forest failed to...,1,1.0000
4,URUGUAY: Tools Needed for Those Most Vulnerabl...,1,0.8087
...,...,...,...
4220,It's 83•_Á and climbing in NYC. August weather...,1,1.0000
4221,"@bloodless_coup ""The phrase 'global warming' s...",1,1.0000
4222,Global warming you tube parody you will enjoy ...,0,0.6411
4223,One-Eyed Golfer: Don't dare tell me about glob...,0,1.0000


# Normalisation
<h1> Module Re (Regular expression)</h1>

In [7]:
def normalisation(message):
    message = re.sub('((www\.[^\s]+)|(https?://[^\s]+))','URL', message)
    message = re.sub('@[^\s]+','USER', message)
    message = message.lower().replace("ё", "е")
    message = re.sub('[^a-zA-Zа-яА-Я1-9]+', ' ', message)
    message = re.sub(' +',' ', message)
    return message.strip()

## Réaliser la normalisation

In [9]:
messagesTwitter.TWEET= messagesTwitter.TWEET.apply(normalisation)
messagesTwitter.head(3)

Unnamed: 0,TWEET,CROYANCE,CONFIENCE
0,global warming report urges governments to act...,1,1.0
1,fighting poverty and global warming in africa ...,1,1.0
2,carbon offsets how a vatican forest failed to ...,1,0.8786


<h2>Étape 2 : suppression des stops words</h2>

Pour supprimer les stop words de nos messages en anglais, nous allons utiliser ceux connus par le module nltk.corpus : 

In [10]:
stopword = stopwords.words('english')

In [11]:
# import nltk
# nltk.download('stopwords')

In [13]:
type(stopword)

list

In [14]:
messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([mot for mot in x.split() if mot not in (stopword)]))
print(messagesTwitter)

                                                  TWEET  CROYANCE  CONFIENCE
0     global warming report urges governments act br...         1     1.0000
1           fighting poverty global warming africa link         1     1.0000
2     carbon offsets vatican forest failed reduce gl...         1     0.8786
3     carbon offsets vatican forest failed reduce gl...         1     1.0000
4     uruguay tools needed vulnerable climate change...         1     0.8087
...                                                 ...       ...        ...
4220  83 climbing nyc august weather first day may u...         1     1.0000
4221  user phrase global warming abandoned favor cli...         1     1.0000
4222     global warming tube parody enjoy ipcc ocra url         0     0.6411
4223  one eyed golfer dare tell global warming twent...         0     1.0000
4224  man made global warming hair brained theory 4 ...         0     1.0000

[4225 rows x 3 columns]


<h2>Étape 3 : le stemming</h2>
<p>La stemmisation des messages se fait à l'aide du module nltk et de la classe <b>SnowballStemmer</b>.</p>

In [15]:
stemmer = SnowballStemmer('english')
messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([stemmer.stem(mot) for mot in x.split() if mot not in (stopword)]))
messagesTwitter

Unnamed: 0,TWEET,CROYANCE,CONFIENCE
0,global warm report urg govern act brussel belg...,1,1.0000
1,fight poverti global warm africa link,1,1.0000
2,carbon offset vatican forest fail reduc global...,1,0.8786
3,carbon offset vatican forest fail reduc global...,1,1.0000
4,uruguay tool need vulner climat chang link,1,0.8087
...,...,...,...
4220,83 climb nyc august weather first day may unbe...,1,1.0000
4221,user phrase global warm abandon favor climat c...,1,1.0000
4222,global warm tube parodi enjoy ipcc ocra url,0,0.6411
4223,one eye golfer dare tell global warm twenti fi...,0,1.0000


<h2> Étape 4 : la lemmatisation</h2>

In [16]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/ubuntu/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [17]:
lemmatizer = WordNetLemmatizer()
messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([lemmatizer.lemmatize(mot) for mot in x.split(' ')]))
messagesTwitter

Unnamed: 0,TWEET,CROYANCE,CONFIENCE
0,global warm report urg govern act brussel belg...,1,1.0000
1,fight poverti global warm africa link,1,1.0000
2,carbon offset vatican forest fail reduc global...,1,0.8786
3,carbon offset vatican forest fail reduc global...,1,1.0000
4,uruguay tool need vulner climat chang link,1,0.8087
...,...,...,...
4220,83 climb nyc august weather first day may unbe...,1,1.0000
4221,user phrase global warm abandon favor climat c...,1,1.0000
4222,global warm tube parodi enjoy ipcc ocra url,0,0.6411
4223,one eye golfer dare tell global warm twenti fi...,0,1.0000


# phases d'apprentissage et de prédiction


In [18]:

# #Creation des datas d'apprentissage/validation
X_train, X_test, y_train, y_test = train_test_split(messagesTwitter['TWEET'].values, messagesTwitter['CROYANCE'].values, test_size= 0.2)

<h2>2. Création d’un pipeline d’apprentissage</h2>

La première action ajoutée au pipeline va consister, à l’aide de la fonction <b>CountVectorizer(),</b> à créer la matrice des occurrences des différents mots dans les différentes phrases comme nous avons appris à le faire manuellement.

<b>(Terme Frequency )</b>, et à leur nombre d’apparitions dans l’ensemble des messages <b>(Inverse document frequency).</b>

Ce poids appelé <b>TF-IDF </b>sert également à exprimer la rareté du mot dans l’ensemble des messages.

le TF-IDF décroît quand un mot est présent dans beaucoup de messages ;<br>

le TF-IDF décroît également quand il est peu présent dans un message ;<br>

le TF-IDF est maximal pour les mots peu fréquents apparaissant beaucoup dans l’ensemble des messages que nous avons à analyser.<br>

Le mot "chien" apparaît plusieurs fois dans les phrases, son TF-IDF sera faible.<br><br>

Les mots "bleue" et "rouge" apparaissent peu de fois, leur TF-IDF sera faible également.<br><br>

Le mot "balle" apparaît certes peu de fois dans les deux phrases, mais au moins une fois dans les deux. Sa fréquence (TF) est donc faible, mais il apparaît dans deux phrases (IDF). Son TF-IDF sera donc élevé.<br>

Ex: <br>
Le chien joue dehors avec d’autres chiens avec une balle bleue.<br>
Le chien et les autres chiens jouent dehors avec une balle rouge.<br>

Le mot "chien" apparaît plusieurs fois dans les phrases, son TF-IDF sera faible.<br><br>

Les mots "bleue" et "rouge" apparaissent peu de fois, leur TF-IDF sera faible également.<br><br>

Le mot "balle" apparaît certes peu de fois dans les deux phrases, mais au moins une fois dans les deux. Sa fréquence (TF) est donc faible, mais il apparaît dans deux phrases (IDF). Son TF-IDF sera donc élevé.<br>

<h1>L e TF_IDF est calculé à l'aide de la fonction TdiTransformer()du module Scikit-Learn</h1>

In [19]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB # l'algorithme Naive Byes

etapes_apprentissage = Pipeline([('frequence',CountVectorizer()),('tfidf', TfidfTransformer()),('algorithme',MultinomialNB())])

# 3. Apprentissage et analyse de resultat

In [20]:
modele = etapes_apprentissage.fit(X_train, y_train)

In [21]:
from sklearn.metrics import classification_report
print(classification_report(y_test, modele.predict(X_test), digits=4))

              precision    recall  f1-score   support

           0     0.8118    0.3180    0.4570       217
           1     0.8053    0.9745    0.8818       628

    accuracy                         0.8059       845
   macro avg     0.8085    0.6462    0.6694       845
weighted avg     0.8069    0.8059    0.7727       845



# 4. Classification d'un nouveau message

In [22]:
import sklearn.externals 
import joblib
fichier = 'data/modele-tw.mod'
joblib.dump(modele, fichier)

['data/modele_twitter.mod']

In [None]:
# input
message = input("veuillez rentrer votre message  ")
messagesTwitter = pd.DataFrame(data=message, index=[0], columns=['TWEET'])


# normalisation

def normalisation(message):
    message = re.sub('((www\.[^\s]+)|(https?://[^\s]+))','URL', message)
    message = re.sub('@[^\s]+','USER', message)
    message = message.lower().replace("ё", "е")
    message = re.sub('[^a-zA-Zа-яА-Я1-9]+', ' ', message)
    message = re.sub(' +',' ', message)
    return message.strip()

messagesTwitter.TWEET= messagesTwitter.TWEET.apply(normalisation)
messagesTwitter.head(3)

# stopword 
stopword = stopwords.words('english')

messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([word for word in x.split() if word not in (stopword)]))
print(messagesTwitter)

# stemmer
stemmer = SnowballStemmer('english')

messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([stemmer.stem(word) for word in x.split() if word not in (stopword)]))
messagesTwitter

# lemmatizer
import nltk
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
messagesTwitter['TWEET'] = messagesTwitter['TWEET'].apply(lambda x: ' '.join([lemmatizer.lemmatize(word) for word in x.split(' ')]))
messagesTwitter

# prediction

prediction = modele.predict(messagesTwitter['TWEET'])

if(prediction[0]==0):

     print(">> Ne croit pas au rechauffement climatique…")

else:

     print(">> Croit au rechauffement climatique...")
        
        
#message : Why should trust scientists with global warming if they didnt know Pluto wasnt a planet

In [None]:
Twitter = pd.read_csv('data/tweet.csv', sep=',')
Twitter