# Indentifying spam in YouTube video comments using RNNs

Tout les jours des centaines de milliers de commentaires sont déposés sur YouTube, certains sont de réels commentaires et d'autres sont des publicités déposés par des bots. 

Il n'est pas réaliste de penser que des humains puissent modérer autant de commentaires.

Des modèles de machines learning sont entraîner pour modérer automatiquement ces commentaires. 

Dans ce notebook, vous allez devoir entraîner un modèle de classificaiton de spam pour résoudre ce problème.

# Importation des packages

In [None]:
import tensorflow as tf
import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn import metrics
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.layers import GRU, Dense, Embedding
from tensorflow.keras import Sequential
from tensorflow.keras.losses import BinaryCrossentropy
from tensorflow.keras.optimizers import Adam

# Importation des données

Ajoutez un raccourci de ce dossier à votre google drive :

https://drive.google.com/drive/folders/1RwEnJX3JHL1-VGvKTuZKAQWMlZ9EbR5o?usp=sharing

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

In [None]:
comments_df_list = []
comments_file = ['drive/MyDrive/Data_YouTube/Youtube01-Psy.csv',
                 'drive/MyDrive/Data_YouTube/Youtube02-KatyPerry.csv',
                 'drive/MyDrive/Data_YouTube/Youtube03-LMFAO.csv',
                 'drive/MyDrive/Data_YouTube/Youtube04-Eminem.csv',
                 'drive/MyDrive/Data_YouTube/Youtube05-Shakira.csv']
for f in comments_file:
    df = pd.read_csv(f,header=0)
    comments_df_list.append(df)
comments_df = pd.concat(comments_df_list)
comments_df = comments_df.sample(frac=1.0, random_state=123)
print(comments_df.shape)
comments_df = comments_df.reset_index(drop=True)
comments_df.head(5)

In [None]:
comments_df['CONTENT'] = comments_df['CONTENT'].apply(lambda x : x.replace('\ufeff', ''))
comments_df['CONTENT'] = comments_df['CONTENT'].apply(lambda x : x.replace('\xa0', ''))
comments_df['CONTENT'] = comments_df['CONTENT'].apply(lambda x : x.replace('&#39;', ' '))

In [None]:
comments_df.loc[1, 'CONTENT']

# Exploration du jeu de données

Visualiser le nombre de spam et le nombre de commentaire réel avec un barplot.

N'hésitez pas à vous aider de la [documentation](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html#examples-using-matplotlib-pyplot-bar).

In [None]:
### Your code ###

Calculez le nombre de mots maximum dans un commentaire.

In [None]:
max_length = None
print("Taille du commentaire le plus long : {}".format(max_length))

Calculez le nombre de mots moyen dans un commentaire.

In [None]:
average_size = None
print("Taille Moyenne d'un commentaire : {} ".format(average_size))

# Prétraitement des données 

Hyperparamètres

In [None]:
oov_token = "<UNK>"
truncating = 'post'
padding = 'post'

Initialiser le tokenizer. 

Utilisez en paramètre *oov_token=oovtoken*

N'hésitez pas à checker la [doc](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer). 

N'hésitez pas à lire cette [réponse](https://stackoverflow.com/questions/51956000/what-does-keras-tokenizer-method-exactly-do) de stack overflow pour comprendre ce que fait réellement *Tokenizer*.

In [None]:
tokenizer = None

Entraîner le texte sur le texte en utilisant la fonction *fit_on_texts*.

N'hésitez pas à lire la [doc](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer#fit_on_texts).

In [None]:
None

Visualiser le dictionnaire de mapping d'un mots à sont identifiant créer durant l'entraînement.

Utilisez l'attribut *word_index*.

In [None]:
word_index = None

Calculer le nombre maximum de mots dans notre corpus.

In [None]:
vocab_size = None
print(vocab_size)

Appliquer la transformation sur nos données en utilisant la fonction *texts_to_sequences*.

N'hésitez pas à lire la [doc](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer#texts_to_sequences).

In [None]:
x = None

Comme vous pouvez le voir ci-dessous, toutes les séquences n'ont pas les mêmes longueurs. 

In [None]:
print("Longueur du premier commentaire : {}".format(len(x[0])))
print("Longueur du deuxième commentaire : {}".format(len(x[1])))

Pourtant votre réseau de neurone à besoin d'une taille de séquences fixe pour s'entraîner. 

Il va falloir ajouter des caractères à la fin des plus petits commentaires pour obtenir une même taille pour tous. 

Ce procédé ce nomme padding. 

Utilisez la fonction *pad_sequences* sur vos données.

Dans les hyperparamètres utiliser :
- *padding = padding*
- *truncating=truncating*

N'hésitez pas à lire la [documentation](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences).

In [None]:
x = None

Visualiser la dimension de la mtrice que vosu avez obtenu.

In [None]:
x.shape

Visualisons l'exemple 1 après les pré traitements.

In [None]:
x[1]

Visualisons l'exemple 1 avant l'entraînement.

In [None]:
comments_df.loc[1, 'CONTENT']

Vérifions la correspondance entre le mot et son indice.

In [None]:
word_index['awesome']

A quelle classe appartient cette phrase ?

In [None]:
comments_df.loc[1, 'CLASS']

# Initialisation du modèle 

Hyperparamètres

In [None]:
embedding_dim = 100

tf.keras.utils.set_random_seed(123)

En utilisant le séquentiel ([doc](https://keras.io/guides/sequential_model/)), initialiser un modèle d'apprentissage profond avec :
- une couche d'embdedding ([doc](https://keras.io/api/layers/core_layers/embedding/)) (input_dim=vocab_size+1, output_dim=embedding_dim, input_length=max_length)
- GRU ([doc](https://www.tensorflow.org/api_docs/python/tf/keras/layers/GRU)) (unités=64)
- Dense avec pour fonction d'activation la sigmoid ([doc](https://keras.io/api/layers/core_layers/dense/)) (unités=1)

In [None]:
model = None

Compile 

In [None]:
None

Summary

In [None]:
None

# Entraînez votre modèle 

Hyperparamètres 

In [None]:
num_epochs = 200

Séparer vos données en deux jeux, l'entraînement et le test. 

Utilise zla fonction *train_test_split* de Sklearn.

N'hésitez pas à consulter la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

In [None]:
x_train, x_test, y_train, y_test = None

Paramètrage des *callbacks*.

In [None]:
def scheduler(epoch, lr):
  if epoch < 100 :
    return lr
  elif epoch == 100 :
    return lr * 0.1
  else :
    return lr * np.power(0.99,(epoch / 400))

In [None]:
callback = tf.keras.callbacks.LearningRateScheduler(scheduler)

Entraîner votre modèle sur les données x_train et y_test. 

Utiliser :
- données x_test et y_test en validation. 
- un batch_size de 256
- un nombre d'epochs égale à num_epochs



In [None]:
history = None
  
print("Training Complete")

In [None]:
import matplotlib.image  as mpimg
import matplotlib.pyplot as plt

#-----------------------------------------------------------
# Retrieve a list of list results on training and test data
# sets for each training epoch
#-----------------------------------------------------------
acc=model.history.history['accuracy']
val_acc=model.history.history['val_accuracy']
loss=model.history.history['loss']
val_loss=model.history.history['val_loss']

epochs=range(len(acc)) # Get number of epochs

#------------------------------------------------
# Plot training and validation accuracy per epoch
#------------------------------------------------
plt.plot(epochs, acc, 'r')
plt.plot(epochs, val_acc, 'b')
plt.title('Training and validation accuracy')
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.legend(["Accuracy", "Validation Accuracy"])

plt.show()

#------------------------------------------------
# Plot training and validation loss per epoch
#------------------------------------------------
plt.plot(epochs, loss, 'r')
plt.plot(epochs, val_loss, 'b')
plt.title('Training and validation loss')
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend(["Loss", "Validation Loss"])

plt.show()

# Entraînement en utilisant un pré-entraînement glove

## Initialisation du modèle

Hyperparamètres 

In [None]:
num_epochs = 200
embedding_dim = 100

Création de la matrice d'embedding 

In [None]:
embeddings_index = {};

with open('/content/drive/MyDrive/RNN_sentiment_dataset/glove.6B.100d.txt') as f:
    for line in f:
        values = line.split();
        word = values[0];
        coefs = np.asarray(values[1:], dtype='float32');
        embeddings_index[word] = coefs;

embeddings_matrix = np.zeros((vocab_size+1, embedding_dim));
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word);
    if embedding_vector is not None:
        embeddings_matrix[i] = embedding_vector;

Initialisation du modèle

In [None]:
tf.keras.utils.set_random_seed(123)
model_emb = None

Compilation du modèle 

In [None]:
None

Summary du modèle

In [None]:
None

Entraînement du modèle

In [None]:
history = None
  
print("Training Complete")

Visualisation des courbes d'entraînements

In [None]:
import matplotlib.image  as mpimg
import matplotlib.pyplot as plt

#-----------------------------------------------------------
# Retrieve a list of list results on training and test data
# sets for each training epoch
#-----------------------------------------------------------
acc_emb=model_emb.history.history['accuracy']
val_acc_emb=model_emb.history.history['val_accuracy']
loss_emb=model_emb.history.history['loss']
val_loss_emb=model_emb.history.history['val_loss']

epochs=range(len(acc)) # Get number of epochs

#------------------------------------------------
# Plot training and validation accuracy per epoch
#------------------------------------------------
plt.plot(epochs, acc_emb, 'r')
plt.plot(epochs, val_acc_emb, 'b')
plt.title('Training and validation accuracy')
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.legend(["Accuracy", "Validation Accuracy"])

plt.show()

#------------------------------------------------
# Plot training and validation loss per epoch
#------------------------------------------------
plt.plot(epochs, loss_emb, 'r')
plt.plot(epochs, val_loss_emb, 'b')
plt.title('Training and validation loss')
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend(["Loss", "Validation Loss"])

plt.show()

# Comparaison des deux modèles

In [None]:
#------------------------------------------------
# Plot training and validation accuracy per epoch
#------------------------------------------------
plt.plot(epochs, val_acc_emb, 'r', label='Pretrain')
plt.plot(epochs, val_acc, 'b', label='Train')
plt.title('Validation accuracy')
plt.xlabel("Epochs")
plt.ylabel("Accuracy")
plt.legend()

plt.show()

#------------------------------------------------
# Plot training and validation loss per epoch
#------------------------------------------------
plt.plot(epochs, val_loss_emb, 'r', label='Pretrain')
plt.plot(epochs, val_loss, 'b', label='Train')
plt.title('Validation loss')
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()

plt.show()