# TP - Détection de bad buzz sur les réseaux sociaux


<img src='https://metier-outsourcer.com/wp-content/uploads/2019/04/gestion-bad-buzz-2.png'>


A partir du jeu de données fourni, vous devez construire un modèle de classification supervisée permettant de détecter les bad buzz sur les réseaux sociaux.

Le jeu de données est composé du fichier [`data.csv`](https://drive.google.com/file/d/10DoCuqttlxqDlsc1NUptMVqMCIqZqcSv/view?usp=sharing) qui contient les tweets d'internautes labellisés "positif" ou "negatif" en fonction de leur sentiment.

1. Dans une première partie, vous observerez les données et vous vous familiariserez avec le jeu de données.

2. Dans une seconde partie, vous nétoyrez le jeu de données en supprimant les données manquantes, en transformant les données textuelles en données numériques (**TF-IDF** pour les tweetes et 1 ou 0 pour les labels) puis en séparant les données en un jeu d'entraînement et un jeu de test.

3. Dans une troisième partie, vous construirez un modèle de classification supervisée et vous l'entrainerez sur le jeu d'entraînement, vous évaluerez la performance de votre modèle sur le jeu de test et vous afficherez les résultats.

4. Dans une quatrième partie, vous connecterez votre modèle à l'api openai pour répondre aux tweets négatifs détectés par votre moèle via le module ChatCompletion.

5. Identifiez les sujets les plus abordés dans les tweets négatifs grâce aux méthode de Topic Modeling.


---
**[Ressources utiles](https://drive.google.com/file/d/12sKr9R0A8lq2hcWUJDIx3SuyOOl_4hiA/view?usp=sharing)**

Data analyse: 
- [TP1 : Gestion des matrices avec Numpy](https://drive.google.com/file/d/1snqYVzZcfxvKjr1zwB_l2oCk8HYmZUgM/view?usp=sharing)
- [TP2 : Gestion des jeux de données avec Pandas](https://drive.google.com/file/d/15nsJksMowqjrEgBQd8RXv3O_ITKUsjUF/view?usp=sharing)
- [TP3 : Affichage de données avec Matplotlib](https://drive.google.com/file/d/11NQxpVv_iw_5PoFgMP-imNbDibAi9yDd/view?usp=sharing)
- [TP4 : Modèles de classification avec Scikit-learn](https://drive.google.com/file/d/1_8VVw1-tHQwJPIVoC_5sldu8h_HfpAxa/view?usp=sharing)
- [TP5 : Entraînement de différents modèles de classification supervisée](https://drive.google.com/file/d/1BnfCMuZDqHXZBzzXaYwI9fXxNi7jSL3V/view?usp=sharing)

Natural Language Processing:
- [TP3 : Traitement du langage naturel](https://drive.google.com/file/d/1GI9_wTJlb3_38kK_S2MTv8jttmos6ysd/view?usp=sharing)
- [TP4 : TFIDF & Text similarity](https://drive.google.com/file/d/1zRsc3h8-h_PKG4qnl-T7XdhtwC9bvzki/view?usp=sharing)
- [TP5 : Topic Modeling](https://drive.google.com/file/d/1SdLt2Xbiz20kca1bJtD8T27TEeDPFT1a/view?usp=sharing)

---

## 1. Observation des données

Observons les données en utilisant la librairie pandas.

Exécutez certaines des commandes suivantes pour vous familiariser avec le jeu de données, puis notez vos observations.

- `import pandas as pd`

- `df = pd.read_csv('data.csv')`

- `df.head()`

- `df.info()`

- `df.describe()`

- `df['label'].value_counts()`

- `df['label'].value_counts().plot(kind='bar')`

- `df['text'].value_counts()`

- `df['text'].value_counts().plot(kind='bar')`

- `df['text'].value_counts().plot(kind='hist')`

- `df['text'].value_counts().plot(kind='box') `

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
path = "/content/drive/MyDrive/Data/twitter.csv"
df = pd.read_csv(path)

In [None]:
df

Unnamed: 0,id,game,label,text
0,2401,Borderlands,Positive,im getting on borderlands and i will murder yo...
1,2401,Borderlands,Positive,I am coming to the borders and I will kill you...
2,2401,Borderlands,Positive,im getting on borderlands and i will kill you ...
3,2401,Borderlands,Positive,im coming on borderlands and i will murder you...
4,2401,Borderlands,Positive,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,Positive,Just realized that the Windows partition of my...
74678,9200,Nvidia,Positive,Just realized that my Mac window partition is ...
74679,9200,Nvidia,Positive,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,Positive,Just realized between the windows partition of...


## 2. Nettoyage des données

Nettoyons les données en supprimant les données manquantes, en transformant les données textuelles en données numériques (TF-IDF pour les tweetes et 1 ou 0 pour les labels) puis en séparant les données en un jeu d'entraînement et un jeu de test.

- Supprimez les données manquantes.

- Utilisez la fonction catégorical pour transformer les labels en 1 ou 0.

- Utilisez la fonction TfidfVectorizer pour transformer les tweets en vecteurs TF-IDF.

- Séparez les données en un jeu d'entraînement et un jeu de test.


**Séparation des données en jeu d'entraînement et jeu de test :**

`from sklearn.model_selection import train_test_split`

`X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)`

In [None]:
print(df['text'])

0        im getting on borderlands and i will murder yo...
1        I am coming to the borders and I will kill you...
2        im getting on borderlands and i will kill you ...
3        im coming on borderlands and i will murder you...
4        im getting on borderlands 2 and i will murder ...
                               ...                        
74677    Just realized that the Windows partition of my...
74678    Just realized that my Mac window partition is ...
74679    Just realized the windows partition of my Mac ...
74680    Just realized between the windows partition of...
74681    Just like the windows partition of my Mac is l...
Name: text, Length: 74682, dtype: object


In [None]:
print(df['text'].isnull())


0        False
1        False
2        False
3        False
4        False
         ...  
74677    False
74678    False
74679    False
74680    False
74681    False
Name: text, Length: 74682, dtype: bool


In [None]:
df.dropna(axis=0)

Unnamed: 0,id,game,label,text
0,2401,Borderlands,Positive,im getting on borderlands and i will murder yo...
1,2401,Borderlands,Positive,I am coming to the borders and I will kill you...
2,2401,Borderlands,Positive,im getting on borderlands and i will kill you ...
3,2401,Borderlands,Positive,im coming on borderlands and i will murder you...
4,2401,Borderlands,Positive,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,Positive,Just realized that the Windows partition of my...
74678,9200,Nvidia,Positive,Just realized that my Mac window partition is ...
74679,9200,Nvidia,Positive,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,Positive,Just realized between the windows partition of...


In [None]:
#Pour supprimer les lignes contenant des valeurs manquantes dans un jeu de données df.

#Pour concerver les modifications il faudra réassigner la variable df ==> df = df.dropna()
#df.dropna()


#Pour sélectionner une variable 
#df['nom_de_la_colone']
    

#Pour supprimer une colonne du jeu de données df. 
#Pour concerver les modifications il faudra réassigner la variable df.
#df.drop(['nom_de la_colone'], axis=1)


#Pour afficher la répartion des valeurs de la varialbe mentionnée entre crochet.
#df['nom_de_la_colone'].value_counts()


# Fonction permettant de remplacer les valeurs qualitatives par des valeurs quantitatives
#def catégorical(df, column):


#Pour concerver les modifications il faudra réassigner la variable :
#df ==> df = catégorical(df, 'nom_de_la_colonne').
#catégorical(df, 'nom_de_la_colonne')


In [None]:
def catégorical(df, label):
    liste_ = list(df[label].value_counts().index)
    df[label] = df[label].apply(lambda x: liste_.index(x))
    return df

In [None]:
catégorical(df, 'label')

Unnamed: 0,id,game,label,text
0,2401,Borderlands,1,im getting on borderlands and i will murder yo...
1,2401,Borderlands,1,I am coming to the borders and I will kill you...
2,2401,Borderlands,1,im getting on borderlands and i will kill you ...
3,2401,Borderlands,1,im coming on borderlands and i will murder you...
4,2401,Borderlands,1,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,1,Just realized that the Windows partition of my...
74678,9200,Nvidia,1,Just realized that my Mac window partition is ...
74679,9200,Nvidia,1,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,1,Just realized between the windows partition of...


In [None]:
df.label


0        1
1        1
2        1
3        1
4        1
        ..
74677    1
74678    1
74679    1
74680    1
74681    1
Name: label, Length: 74682, dtype: int64

In [None]:
df.label.value_counts()

0    22542
1    20832
2    18318
3    12990
Name: label, dtype: int64

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
vectorizer = TfidfVectorizer()
tfidf_vectors = vectorizer.fit_transform(df['text'].values.astype('str'))

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
tfidf_vectors.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(tfidf_vectors, df['label'], test_size=0.2, random_state=42)

## 3. Construction du modèle de classification supervisée

Construisons un modèle de classification supervisée et entraînons-le sur le jeu d'entraînement, évaluons la performance de notre modèle sur le jeu de test et affichons les résultats.

- Utilisez les modèles de classification supervisée suivants:

    - [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
    - [KNeighborsClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)
    - [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
    - [SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
    - [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)
    - (Bonus)[GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)
    


- Entraînez le modèle sur le jeu d'entraînement.

- Évaluez la performance du modèle sur le jeu de test.

- Affichez les résultats.

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
clf = LogisticRegression(random_state=0).fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
y_pred = clf.predict(X_test)

In [None]:
clf.predict(X_test)

array([3, 1, 0, ..., 1, 0, 2])

In [None]:
X_test

<14937x31063 sparse matrix of type '<class 'numpy.float64'>'
	with 242409 stored elements in Compressed Sparse Row format>

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.7798085291557877

In [None]:
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X_train, y_train)

In [None]:
#Plus de 5 minutes d'exécution
y_pred = neigh.predict(X_test)
neigh.predict(X_test)
X_test

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
model = DecisionTreeClassifier()
model.fit(X_train , y_train)
y_pred = model.predict(X_test)
y_pred

array([3, 1, 0, ..., 1, 2, 2])

In [None]:
accuracy_score(y_test, y_pred)

0.7571801566579635

In [None]:
from sklearn.svm import SVC

In [None]:
model = SVC()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_pred

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
from sklearn

In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
clf = GaussianNB().fit(X_train, y_train)
y_pred = clf.predict(X_test)
X_test

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
#Création d'une classe de prétraitement
#Import de la fonction word_tokenize depuis la bibliothèque nltk.tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

class Processing():
    def tokenization(self, document, stem:bool=False, lemm:bool=False):
        # Instanciation des objet stemm et lemm
        stemmer = PorterStemmer()
        lemmatizer = WordNetLemmatizer()

        # Tokenization avec la fonction word_tokenize sur le document
        document = document.lower()
        tokens = word_tokenize(document)

        # instanciation de la liste stop_words à partir du module words (english)
        stop_words = stopwords.words('english') + [',', '.', '!', '(', ')']

        # Suppression des stop words avec une liste compréhension
        tokens = [token for token in tokens if token not in stop_words]

        # Stemming
        if stem:
            tokens = [stemmer.stem(token) for token in tokens]

        # Lemmatization
        if lemm:
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        return tokens
    
    def tfidf(self, corpus):
        # Bag of words
        vectorizer = CountVectorizer(stop_words='english')

        BOW = vectorizer.fit_transform(corpus).toarray()
        BOW = pd.DataFrame(data=BOW, columns=vectorizer.get_feature_names())

        # TF
        TF = BOW.divide(BOW.sum(axis=1), axis=0)

        # IDF
        BOW[BOW >= 1] = 1
        IDF = np.log(len(BOW)/BOW.sum(axis=0) +1)

        # return TF*IDF
        return TF*IDF
    
    def tfidf_sklearn(self, corpus):
        vectorizer_sk = TfidfVectorizer(stop_words='english')
        return vectorizer_sk.fit_transform(corpus).toarray()
        

## 4. Connexion à l'api `openai`

Connectons notre modèle à l'api `openai` pour répondre aux tweets négatifs détectés par notre modèle via le module `ChatCompletion`.

- API Key: `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`

In [None]:
!pip install openai

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting openai
  Downloading openai-0.27.2-py3-none-any.whl (70 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.1/70.1 KB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
Collecting aiohttp
  Downloading aiohttp-3.8.4-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m14.1 MB/s[0m eta [36m0:00:00[0m
Collecting charset-normalizer<4.0,>=2.0
  Downloading charset_normalizer-3.1.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (199 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.2/199.2 KB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting yarl<2.0,>=1.0
  Downloading yarl-1.8.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (264 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m264.6/264.6 KB[0m [31m21.

In [None]:
import openai

In [None]:
openai.api_key = "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"

In [None]:
def tweet(n):
  print(df.text.values[n])
  pred = model.predict([TFIDF.iloc[n]])
  if pred == 1:
    print("Positif")
  if pred == 0:
    print("Négatif")
    reponse = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Je suis là pour répondre à vos questions :)"}
            {"role": "user", "content": "For the biggest male dissapoinment in my life came hanging out a year."}
            {"role": "assistant", "content": "Pas satisfait ?"}
            {"role": "user", "content":df.text.values[n]}
        ]
    )
    return reponse

In [None]:
chat(10)

In [None]:
# Traduction de langue

def traduction(texte):
    reponse = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
            {"role": "system", "content": "Je suis traducteur pro qui traduit du français vers l'anglais."},
            
            {"role": "user", "content": "Le chat est rouge"},
            
            {"role": "assistant", "content": "The cat is red"},
    
            {"role": "user", "content": texte}
        ],
        max_tokens=100,
    )

    return reponse.choices[0]["message"]['content']

In [None]:
reponse = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
        {"role": "system", "content": "Je suis un rédacteur web qui propose des synthèses d'actualité."},
        
        {"role": "user", "content": """Contre la Chine, Biden lance un projet spectaculaire de sous-marins,
        Faillite de la Silicon Valley Bank : Joe Biden promet d’éteindre l’incendie et de punir les responsables,
        Projet pétrolier Willow en Alaska : les écologistes dénoncent "l’effroyable trahison" de Joe Biden,
        """},
        
        {"role": "system", "content": """
        Cette annonce s’inscrit dans le cadre du partenariat AUKUS entre États-Unis, Australie et Royaume-Uni, qui avait provoqué une crise diplomatique avec la France en 2021.
        Joe Biden avait, lundi 13 mars au matin, des accents qui rappelait Mario Draghi, l’ex-président de la Banque centrale européenne, lequel, à l’été 2012, promettait de sauver l’euro « quoi qu’il en coûte ».
        Alors qu’il avait promis de ne pas autoriser de nouveaux forages pétroliers sur les terres fédérales, le président américain, Joe Biden, a donné, lundi, son accord à un projet d’extraction controversé dans le nord de l’Alaska, malgré l’intense mobilisation des écologistes."""},
  
        {"role": "user", "content": """
         Orban chez Macron, von der Leyen et la Chine, sous-marins australiens : les 3 infos de la nuit,
         Macron, ses étonnantes ambitions : "Son avenir c'est d'être Jésus-Christ, Bill Gates ou Barack Obama",
         Thomas Piketty : « Emmanuel Macron ne cherche même plus à faire semblant et à jouer au modernisateur de l’Etat social »"""}
    ],
    max_tokens=100,
)

In [None]:
reponse.choices[0]["message"]['content']

'Les trois informations de la nuit concernent respectivement la rencontre entre le Premier ministre hongrois Viktor Orban et le président Emanuel Macron, une rencontre entre la présidente de la Commission européenne, Ursula von der Leyen, et le président chinois Xi Jinping et enfin, le projet de sous-marins australiens impliquant les États-Unis et le Royaume-Uni. \n\nEn ce qui concerne les déclarations sur Emmanuel Macron,'

## 5. Bonus: Topic Modeling

Identifiez les sujets les plus abordés dans les tweets négatifs grâce aux méthode de Topic Modeling.

In [None]:
import os.path
from gensim import corpora
from gensim.models import LsiModel
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from gensim.models.coherencemodel import CoherenceModel
import matplotlib.pyplot as plt

In [None]:
def prepare_corpus(doc_clean):
    dictionary = corpora.Dictionary(doc_clean)
    doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]
    return dictionary,doc_term_matrix

In [None]:
def create_gensim_lsa_model(doc_clean,number_of_topics,words):
    dictionary,doc_term_matrix=prepare_corpus(doc_clean)
    lsamodel = LsiModel(doc_term_matrix, num_topics=number_of_topics, id2word = dictionary)
    print(lsamodel.print_topics(num_topics=number_of_topics, num_words=words))
    return lsamodel

In [None]:
def compute_coherence_values(dictionary, doc_term_matrix, doc_clean, stop, start=2, step=3):
    coherence_values = []
    model_list = []
    for num_topics in range(start, stop, step):
        model = LsiModel(doc_term_matrix, num_topics=number_of_topics, id2word = dictionary)  # train model
        model_list.append(model)
        coherencemodel = CoherenceModel(model=model, texts=doc_clean, dictionary=dictionary, coherence='c_v')
        coherence_values.append(coherencemodel.get_coherence())
    return model_list, coherence_values

In [None]:
def plot_graph(doc_clean,start, stop, step):
    dictionary,doc_term_matrix=prepare_corpus(doc_clean)
    model_list, coherence_values = compute_coherence_values(dictionary, doc_term_matrix,doc_clean,
                                                            stop, start, step)
    x = range(start, stop, step)
    plt.plot(x, coherence_values)
    plt.xlabel("Number of Topics")
    plt.ylabel("Coherence score")
    plt.legend(("coherence_values"), loc='best')
    plt.show()

start,stop,step=2,12,1
plot_graph(clean_text,start,stop,step)

In [None]:
number_of_topics=7
words=10
document_list,titles=load_data("","articles.txt")
clean_text=preprocess_data(document_list)
model=create_gensim_lsa_model(clean_text,number_of_topics,words)

In [None]:
Total Number of Documents: 4551