# TP - Détection de bad buzz sur les réseaux sociaux


<img src='https://metier-outsourcer.com/wp-content/uploads/2019/04/gestion-bad-buzz-2.png'>


A partir du jeu de données fourni, vous devez construire un modèle de classification supervisée permettant de détecter les bad buzz sur les réseaux sociaux.

Le jeu de données est composé du fichier [`data.csv`](https://drive.google.com/file/d/10DoCuqttlxqDlsc1NUptMVqMCIqZqcSv/view?usp=sharing) qui contient les tweets d'internautes labellisés "positif" ou "negatif" en fonction de leur sentiment.

1. Dans une première partie, vous observerez les données et vous vous familiariserez avec le jeu de données.

2. Dans une seconde partie, vous nétoyrez le jeu de données en supprimant les données manquantes, en transformant les données textuelles en données numériques (**TF-IDF** pour les tweetes et 1 ou 0 pour les labels) puis en séparant les données en un jeu d'entraînement et un jeu de test.

3. Dans une troisième partie, vous construirez un modèle de classification supervisée et vous l'entrainerez sur le jeu d'entraînement, vous évaluerez la performance de votre modèle sur le jeu de test et vous afficherez les résultats.

4. Dans une quatrième partie, vous connecterez votre modèle à l'api openai pour répondre aux tweets négatifs détectés par votre moèle via le module ChatCompletion.

5. Identifiez les sujets les plus abordés dans les tweets négatifs grâce aux méthode de Topic Modeling.


---
**[Ressources utiles](https://drive.google.com/file/d/12sKr9R0A8lq2hcWUJDIx3SuyOOl_4hiA/view?usp=sharing)**

Data analyse: 
- [TP1 : Gestion des matrices avec Numpy](https://drive.google.com/file/d/1snqYVzZcfxvKjr1zwB_l2oCk8HYmZUgM/view?usp=sharing)
- [TP2 : Gestion des jeux de données avec Pandas](https://drive.google.com/file/d/15nsJksMowqjrEgBQd8RXv3O_ITKUsjUF/view?usp=sharing)
- [TP3 : Affichage de données avec Matplotlib](https://drive.google.com/file/d/11NQxpVv_iw_5PoFgMP-imNbDibAi9yDd/view?usp=sharing)
- [TP4 : Modèles de classification avec Scikit-learn](https://drive.google.com/file/d/1_8VVw1-tHQwJPIVoC_5sldu8h_HfpAxa/view?usp=sharing)
- [TP5 : Entraînement de différents modèles de classification supervisée](https://drive.google.com/file/d/1BnfCMuZDqHXZBzzXaYwI9fXxNi7jSL3V/view?usp=sharing)

Natural Language Processing:
- [TP3 : Traitement du langage naturel](https://drive.google.com/file/d/1GI9_wTJlb3_38kK_S2MTv8jttmos6ysd/view?usp=sharing)
- [TP4 : TFIDF & Text similarity](https://drive.google.com/file/d/1zRsc3h8-h_PKG4qnl-T7XdhtwC9bvzki/view?usp=sharing)
- [TP5 : Topic Modeling](https://drive.google.com/file/d/1SdLt2Xbiz20kca1bJtD8T27TEeDPFT1a/view?usp=sharing)

---

## 1. Observation des données

Observons les données en utilisant la librairie pandas.

Exécutez certaines des commandes suivantes pour vous familiariser avec le jeu de données, puis notez vos observations.

- `import pandas as pd`

- `df = pd.read_csv('data.csv')`

- `df.head()`

- `df.info()`

- `df.describe()`

- `df['label'].value_counts()`

- `df['label'].value_counts().plot(kind='bar')`

- `df['text'].value_counts()`

- `df['text'].value_counts().plot(kind='bar')`

- `df['text'].value_counts().plot(kind='hist')`

- `df['text'].value_counts().plot(kind='box') `

In [3]:
import pandas as pd

In [4]:
df = pd.read_csv('twitter.csv')

In [5]:
df

Unnamed: 0,id,game,label,text
0,2401,Borderlands,Positive,im getting on borderlands and i will murder yo...
1,2401,Borderlands,Positive,I am coming to the borders and I will kill you...
2,2401,Borderlands,Positive,im getting on borderlands and i will kill you ...
3,2401,Borderlands,Positive,im coming on borderlands and i will murder you...
4,2401,Borderlands,Positive,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,Positive,Just realized that the Windows partition of my...
74678,9200,Nvidia,Positive,Just realized that my Mac window partition is ...
74679,9200,Nvidia,Positive,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,Positive,Just realized between the windows partition of...


In [6]:
len(df)

74682

In [7]:
df.describe()

Unnamed: 0,id
count,74682.0
mean,6432.586165
std,3740.42787
min,1.0
25%,3195.0
50%,6422.0
75%,9601.0
max,13200.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74682 entries, 0 to 74681
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      74682 non-null  int64 
 1   game    74682 non-null  object
 2   label   74682 non-null  object
 3   text    73996 non-null  object
dtypes: int64(1), object(3)
memory usage: 2.3+ MB


In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)

## 2. Nettoyage des données

Nettoyons les données en supprimant les données manquantes, en transformant les données textuelles en données numériques (TF-IDF pour les tweetes et 1 ou 0 pour les labels) puis en séparant les données en un jeu d'entraînement et un jeu de test.

- Supprimez les données manquantes.

- Utilisez la fonction catégorical pour transformer les labels en 1 ou 0.

- Utilisez la fonction TfidfVectorizer pour transformer les tweets en vecteurs TF-IDF.

- Séparez les données en un jeu d'entraînement et un jeu de test.


**Séparation des données en jeu d'entraînement et jeu de test :**

`from sklearn.model_selection import train_test_split`

`X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], test_size=0.2, random_state=42)`

In [10]:
df.columns

Index(['id', 'game', 'label', 'text'], dtype='object')

In [11]:
#Pour supprimer les lignes contenant des valeurs manquantes dans un jeu de données df. 
#Pour concerver les modifications il faudra réassigner la variable df ==> df = df.dropna()
df.dropna()


# #Pour sélectionner une variable 
# df['nom_de_la_colone']
    

# #Pour supprimer une colonne du jeu de données df. 
# #Pour concerver les modifications il faudra réassigner la variable df.
# df.drop(['nom_de la_colone'], axis=1)


# #Pour afficher la répartion des valeurs de la varialbe mentionnée entre crochet.
# df['nom_de_la_colone'].value_counts()


# Fonction permettant de remplacer les valeurs qualitatives par des valeurs quantitatives
from sklearn.model_selection import train_test_split

def categorical(df, column):
    liste_ = list(df[column].value_counts().index)
    df[column] = df[column].apply(lambda x: liste_.index(x))
    return df

#Pour concerver les modifications il faudra réassigner la variable :
#df ==> df = catégorical(df, 'nom_de_la_colonne').
# categorical(df, 'nom_de_la_colonne')


In [12]:
df = df.dropna()

In [13]:
df

Unnamed: 0,id,game,label,text
0,2401,Borderlands,Positive,im getting on borderlands and i will murder yo...
1,2401,Borderlands,Positive,I am coming to the borders and I will kill you...
2,2401,Borderlands,Positive,im getting on borderlands and i will kill you ...
3,2401,Borderlands,Positive,im coming on borderlands and i will murder you...
4,2401,Borderlands,Positive,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,Positive,Just realized that the Windows partition of my...
74678,9200,Nvidia,Positive,Just realized that my Mac window partition is ...
74679,9200,Nvidia,Positive,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,Positive,Just realized between the windows partition of...


In [14]:
df = categorical(df, 'label')


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[column] = df[column].apply(lambda x: liste_.index(x))


In [15]:
df

Unnamed: 0,id,game,label,text
0,2401,Borderlands,1,im getting on borderlands and i will murder yo...
1,2401,Borderlands,1,I am coming to the borders and I will kill you...
2,2401,Borderlands,1,im getting on borderlands and i will kill you ...
3,2401,Borderlands,1,im coming on borderlands and i will murder you...
4,2401,Borderlands,1,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,1,Just realized that the Windows partition of my...
74678,9200,Nvidia,1,Just realized that my Mac window partition is ...
74679,9200,Nvidia,1,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,1,Just realized between the windows partition of...


In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

vectorizer = TfidfVectorizer()

tfidf_vectors = vectorizer.fit_transform(df['text'])


In [17]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(tfidf_vectors, df['label'], test_size=0.2, random_state=42)

In [18]:
df[:1000]

Unnamed: 0,id,game,label,text
0,2401,Borderlands,1,im getting on borderlands and i will murder yo...
1,2401,Borderlands,1,I am coming to the borders and I will kill you...
2,2401,Borderlands,1,im getting on borderlands and i will kill you ...
3,2401,Borderlands,1,im coming on borderlands and i will murder you...
4,2401,Borderlands,1,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
999,2577,Borderlands,1,Who's down with some @Borderlands on
1000,2577,Borderlands,1,Who't s someone down for some @Borderlands on
1001,2577,Borderlands,1,Who's down for the @Borderlands on
1002,2578,Borderlands,0,@EpicGames @2K @Steam why add crossplay for @B...


In [19]:
df

Unnamed: 0,id,game,label,text
0,2401,Borderlands,1,im getting on borderlands and i will murder yo...
1,2401,Borderlands,1,I am coming to the borders and I will kill you...
2,2401,Borderlands,1,im getting on borderlands and i will kill you ...
3,2401,Borderlands,1,im coming on borderlands and i will murder you...
4,2401,Borderlands,1,im getting on borderlands 2 and i will murder ...
...,...,...,...,...
74677,9200,Nvidia,1,Just realized that the Windows partition of my...
74678,9200,Nvidia,1,Just realized that my Mac window partition is ...
74679,9200,Nvidia,1,Just realized the windows partition of my Mac ...
74680,9200,Nvidia,1,Just realized between the windows partition of...


## 3. Construction du modèle de classification supervisée

Construisons un modèle de classification supervisée et entraînons-le sur le jeu d'entraînement, évaluons la performance de notre modèle sur le jeu de test et affichons les résultats.

- Utilisez les modèles de classification supervisée suivants:

    - [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
    - [KNeighborsClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)
    - [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
    - [SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
    - [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html)
    - (Bonus)[GradientBoostingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html)
    


- Entraînez le modèle sur le jeu d'entraînement.

- Évaluez la performance du modèle sur le jeu de test.

- Affichez les résultats.

In [None]:
from sklearn.metrics import accuracy_score

In [58]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(random_state=0).fit(X_train[:30000], y_train[:30000])

  clf = LogisticRegression(random_state=0).fit(X_train[:30000], y_train[:30000])
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [59]:
y_pred = clf.predict(X_test)

accuracy_score(y_test, y_pred)

0.7211486486486487

In [60]:
from sklearn.neighbors import KNeighborsClassifier
neigh = KNeighborsClassifier(n_neighbors=3)
neigh.fit(X_train[:30000], y_train[:30000])

  neigh.fit(X_train[:30000], y_train[:30000])


In [84]:
y_pred = neigh.predict(X_test)

accuracy_score(y_test, y_pred)

0.7529054054054054

In [62]:
y_pred = clf.predict(X_test)

accuracy_score(y_test, y_pred)

0.7211486486486487

In [None]:
from sklearn.svm import SVC
model = SVC()
model.fit(X_train[:100], y_train[:100])

In [None]:
y_pred = clf.predict(X_test)
accuracy_score(y_test, y_pred)


In [None]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(X_train[200], y_train[:200])

In [None]:
y_pred = clf.predict(X_test)

accuracy_score(y_test, y_pred)

In [130]:
#Création d'une classe de prétraitement
#Import de la fonction word_tokenize depuis la bibliothèque nltk.tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
import numpy as np

class Processing():
    def tokenization(self, document, stem:bool=False, lemm:bool=False):
        # Instanciation des objet stemm et lemm
        stemmer = PorterStemmer()
        lemmatizer = WordNetLemmatizer()

        # Tokenization avec la fonction word_tokenize sur le document
        document = document.lower()
        tokens = word_tokenize(document)

        # instanciation de la liste stop_words à partir du module words (english)
        stop_words = stopwords.words('english') + [',', '.', '!', '(', ')']

        # Suppression des stop words avec une liste compréhension
        tokens = [token for token in tokens if token not in stop_words]

        # Stemming
        if stem:
            tokens = [stemmer.stem(token) for token in tokens]

        # Lemmatization
        if lemm:
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        return tokens
    
    def tfidf(self, corpus):
        # Bag of words
        vectorizer = CountVectorizer(stop_words='english')

        BOW = vectorizer.fit_transform(corpus).toarray()
        BOW = pd.DataFrame(data=BOW, columns=vectorizer.get_feature_names())

        # TF
        TF = BOW.divide(BOW.sum(axis=1), axis=0)

        # IDF
        BOW[BOW >= 1] = 1
        IDF = np.log(len(BOW)/BOW.sum(axis=0) +1)

        # return TF*IDF
        return TF*IDF
    
    def tfidf_sklearn(self, corpus):
        vectorizer_sk = TfidfVectorizer(stop_words='english')
        return vectorizer_sk.fit_transform(corpus).toarray()
        

## 4. Connexion à l'api `openai`

Connectons notre modèle à l'api `openai` pour répondre aux tweets négatifs détectés par notre modèle via le module `ChatCompletion`.

- API Key: `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`

In [100]:
!pip install openai

import openai
    
openai.api_key = "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"

Defaulting to user installation because normal site-packages is not writeable


In [136]:
def chat(i):
    print(df.text.values[i])
    pred = model.predict([tfidf.iloc[i]])
    if pred == 1:
        print("Le tweet est positif.")
    if pred == 0:
        print("Le tweet est négatif.")
        reponse = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
        {"role": "system", "content": "Je suis à votre écoute."},
        
        {"role": "user", "content": "Man Gearbox really needs to fix this disssapointing drops in the new Borderlands 3 DLC cant be fine to farm bosses on Mayhem 10 to get 1 legendary drop while elsewhere i get 6-10 drops... Really sucks alot"},
        
        {"role": "system", "content": "Je suis votre conseiller Alexandre"},
  
        {"role": "user", "content":df.text.values[i]}
    ])
        return reponse
        

In [137]:
chat(21)

that was the first borderlands session in a long time where i actually enjoyed a really satisfying combat experience. i got some rather good kills


NameError: name 'tfidf' is not defined

## 5. Bonus: Topic Modeling

Identifiez les sujets les plus abordés dans les tweets négatifs grâce aux méthode de Topic Modeling.