# Librairie pour scorer les contenus de Reddit

* __Description__: Librairie pour scorer les contenus de Reddit
* __Auteur__: Corentin TIMAL et Amin ALI ABDILLAHI
* __Source__: Table comment (BigQuery)
* __Output__: Table comment (BigQuery) 
* __Date de création__: 15/09/2022
* __Date de mise à jour__: 16/09/2022

## Import des bibliothèques

In [51]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from google.cloud import bigquery
from nltk.stem import SnowballStemmer, WordNetLemmatizer
import re
from nltk.corpus import stopwords
import nltk
import pickle
# import pandas_gbq
import os

## Création du client pour la connexion BigQuery

In [2]:
client = bigquery.Client()

## Téléchargement des listes de mots

In [3]:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
# Récupération des données pour le nettoyage
stemmer = SnowballStemmer('english')
lemmatizer = WordNetLemmatizer()
all_stopwords = stopwords.words('english')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

## Nettoyage des contenus

In [4]:
def clean(comment):
    """
    Fonction pour préparer le commentaire à l'analyse
    On enlève la ponctuation, les majuscules, les mots non pertinents
    """
    comment = re.sub('[^a-zA-Z]', ' ', comment)
    comment = comment.lower()
    comment = comment.split()
    comment = [stemmer.stem(word) for word in comment if not word in set(all_stopwords)]
    comment = [lemmatizer.lemmatize(word) for word in comment]
    comment = ' '.join(comment)
    return comment

## Existence du model

In [None]:
def model_exist(path):
    """
    Fonction qui vérifie si le chemin d'accès existe
    """
    return os.path.exists(path)


## Entraînement du modèle

In [47]:
def df_type_model(type_model, path_train_data):
    # Création du dataframe contenant les données d'entraînement notées selon le type d'insultes
    df = pd.read_csv(path_train_data)
    # Choix de la colonne à analyser
    if type_model == 'toxic':
        df['y'] = df['toxic'].astype(int)
    elif type_model == 'severe_toxic':
        df['y'] = df['severe_toxic'].astype(int)
    elif type_model == 'obscene':
        df['y'] = df['obscene'].astype(int)
    elif type_model == 'threat':
        df['y'] = df['threat'].astype(int)
    elif type_model == 'insult':
        df['y'] = df['insult'].astype(int)
    elif type_model == 'identity_hate':
        df['y'] = df['identity_hate'].astype(int)
    else:
        df['y'] = (df[['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']].sum(axis=1)>0).astype(int)
            
    return df


In [5]:
def df_train_model(df):
    """
    Fonction pour créer le dataframe d'entraînement
    """
    # Suppression des colonnes inutiles
    df = df[['comment_text', 'y']].rename(columns={'comment_text': 'text'})
    # Normalisation des insultes
    df['y'].value_counts(normalize=True)
    # Nombre de lignes avec un score à 1
    min_len = (df['y'] == 1).sum()
    # Création de l'échantillon avec un score à 0
    df_y0_undersample = df[df['y'] == 0].sample(n=min_len, random_state=201)
    # Création du dataframe d'entraînement
    df = pd.concat([df[df['y'] == 1], df_y0_undersample])
    
    return df


In [71]:
def train_model(df, path_validation_data, path_vec):
    """
    Fonction qui entraine le modele à partir du dataframe
    """
    print("Training model")
    vec = TfidfVectorizer()
    # Nettoyage du dataframe
    df['text'] = df['text'].apply(clean)
    # Vectorisation du dataframe
    X = vec.fit_transform(df['text'])
    # Création du modèle
    model = MultinomialNB()
    model.fit(X, df['y'])
    
    # Création du dataframe de validation du modèle
    df_val = pd.read_csv(path_validation_data)
    # Vectorisation du dataframe
    X_less_toxic = vec.transform(df_val['less_toxic'].apply(clean))
    X_more_toxic = vec.transform(df_val['more_toxic'].apply(clean))
    # Prédiction
    p1 = model.predict_proba(X_less_toxic)
    p2 = model.predict_proba(X_more_toxic)
    # Validation
    mean = (p1[:, 1] < p2[:, 1]).mean()
    
    print("Sauvegarde du vec", path_vec)
    save_model(vec, path_vec)
    
    return model
    

In [72]:
def save_model(model, file_name):
    """
    Fonction qui sauvegarde le modele 
    """
    print("Save model at:", file_name)
    with open(file_name,"wb") as file:
        pickle.dump(model, file)
    

In [None]:
def load_model(file_model):
    """
    Fonction qui recupere un modele sauvegardé
    """
    with open(file_model,"rb") as file:
        model = pickle.load(file)
    return model
    

In [70]:
def model_ML(type_model, path_train_data, path_validation_data, file_name_model, path_vec):
    """
    Fonction qui entraine, sauvegarde et valide le modele de machine learning
    """
    print("Training...", type_model)
    # Choix du type de modèle
    df = df_type_model(type_model, path_train_data)
    # Création du dataframe d'entraînement
    df = df_train_model(df)
    # Entrainement du modèle
    model = train_model(df, path_validation_data, path_vec)
    # Sauvegarde du modèle
    save_model(model, file_name_model)
    

In [1]:
def apply_model(df_param, model, vec, table):
    """
    Fonction qui applique le modele sur nos données
    """
    df = df_param.copy()
    # Nettoyage des données
    df['content'] = df['content'].apply(clean)
    # Vectorisation
    X_test = vec.transform(df['content'])
    # Application du modèle
    p3 = model.predict_proba(X_test)
    # Enregistrement des résultats dans le dataframe
    df['score_jigsaw'] = p3[:,1]
    del df['content']
    df['score_jigsaw'] = df['score_jigsaw'].apply(lambda x:1-x)
    return df
    