# Projet IA : Vérification de la véracité des informations concernant COVID19. 

## Importation des dépendances 

In [None]:

#Importation des librairies

import numpy as np
import pandas as pd
# Visualisation
from bokeh.plotting import figure
from bokeh.io import output_notebook, show
from tqdm import tqdm, tqdm_notebook # show progress bar
import seaborn as sns
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Natural Language Toolkit
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer


import re
import string
import random

from sklearn.model_selection import train_test_split


# PyTorch modules
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch import optim
from torch.optim.lr_scheduler import CosineAnnealingLR
from torch.utils.data import Dataset, DataLoader
from torch.utils.data.dataset import random_split


from sklearn.metrics import classification_report


In [None]:
# importation du dataset
df = pd.read_excel("Data-FakeRealCOVID.xlsx", header=0)

## Exploration du Dataset

In [None]:
df.head()

In [None]:
df.columns

In [None]:
print("lenght : ",len(df))
print("size :",df.size)
print("shape : ",df.shape)

In [None]:
df.info(verbose  = False)

In [None]:
df.dtypes

In [None]:
#Vérification des données manquantes
df.columns[df.isnull().any()]

On a pas de données manquantes

In [None]:
# voir les valeurs possible de la collone label
df['label'].unique()

In [None]:
df['label'].nunique()


In [None]:
output_notebook()

In [None]:
# Visualisation 

label = df.groupby('label').count()
idx = label.index.tolist()
values= label['tweet'].tolist()

In [None]:
p = figure(x_range=idx, title="Distribution of data",
           toolbar_location=None, tools="")

p.vbar(x=idx, top=values, width=0.9)

p.xgrid.grid_line_color = None


show(p)

## Prétraitement des données

In [None]:
data=df[['tweet','label']]


In [None]:
# On remplace les labels par des données binaire
data['label'] = data['label'].replace('real',1)
data['label'] = data['label'].replace('fake',0)


In [None]:
data['label'].unique()

In [None]:
# on crée un dataset tel que les données sont bien séparés
data_real = data[data['label'] == 1]
data_fake = data[data['label'] == 0]
dataset = pd.concat([data_real, data_fake])

In [None]:
dataset['tweetsave']=dataset['tweet']

In [None]:
# Fonctions pour nettoyage des données

## supprimer les emojis 
def deEmojify(text):
    return text.encode("ascii", "ignore").decode()
## séparer les hashtags en des mots 
def clean_hash(text):
    s = ""
    for word in str(text).split():
        if word.startswith("#"):
            word=  " ".join([a for a in re.split('([A-Z][a-z]+)', word) if a])
        s+= word+' '
    return s
## supprimer les mentions 
def remove_mentions(text):
    return re.sub("@[A-Za-z0-9_]+","", text)
## supprimer les urls 
def clean_url(text):
    return re.sub(r'''(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))''', " ", text)
## supprimer la ponctuation 
punctuations = string.punctuation
def clean_punctuation(text):
    trs = str.maketrans('', '', punctuations)
    return text.translate(trs)
## supprimer les nombres 
def clean_numbers(text):
    return re.sub('[0-9]+', '', text)

In [None]:
## supprimer les stop words 
# géneration de la liste des "mots vide"(stopwords) avec nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords= stopwords.words('english')


In [None]:
print(*stopwords)

In [None]:
STOPWORDS= set(stopwords)

In [None]:
## supprimer les stopwords 
def clean_stopword(text):
    s = ""
    for word in str(text).split():
        if word not in STOPWORDS:
             s+=word+" "
    return s

In [None]:
# on supprime les mots contenant une seule lettre
def clean_shortwords(text):
    s=""
    for word in str(text).split():
        if len(word) > 1:
            s+=word+" "
    return s

In [None]:
dataset['tweet'] = dataset['tweet'].apply(lambda text: deEmojify(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_hash(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: remove_mentions(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_url(text))
dataset['tweet'] = dataset['tweet'].str.lower()
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_stopword(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_punctuation(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_numbers(text))
dataset['tweet'] = dataset['tweet'].apply(lambda text: clean_shortwords(text))
dataset


### Tokenisation des tweets avec NLTK

In [None]:
nltk.download('punkt')
nltk.download('wordnet')

In [None]:
dataset['tweet_tokenized'] = dataset['tweet'].apply(nltk.word_tokenize)
dataset['tweet_tokenized'].head()

### Stemming avec nltk
 processus de réduction d'un mot à un ou plusieurs racines.

In [None]:
ps = PorterStemmer()

def stemming(token):
    l=[]
    for e in token:
        l.append(ps.stem(e))
    return l
dataset['tweet_tokenized']= dataset['tweet_tokenized'].apply(lambda t: stemming(t))
dataset['tweet_tokenized'].head()

### Lemmatization avec NLTK
processus consistant à regrouper les différentes formes infléchies d'un mot afin qu'elles puissent être analysées comme un seul élément

In [None]:
lm = WordNetLemmatizer()

def lemmatizing(token):
    l=[]
    for e in token:
        l.append(lm.lemmatize(e))
    return l
dataset['tweet_tokenized'] = dataset['tweet_tokenized'].apply(lambda t: lemmatizing(t))
dataset['tweet_tokenized'].head()

In [None]:

dataset['tweet']= [' '.join(map(str, l)) for l in dataset['tweet_tokenized']]


In [None]:
dataset.head()

In [None]:
storedDf= dataset[['tweet','label']]
storedDf.head()

In [None]:
storedDf.to_csv("dataCleaned.csv",index=False,header=True)


In [None]:
plt.figure(figsize = (20,20))
wc = WordCloud(max_words = 1000 , width = 1600 , height = 800,
               collocations=False).generate(" ".join(dataset[:3360].tweet))
plt.imshow(wc)

In [None]:
plt.figure(figsize = (20,20))
wc = WordCloud(max_words = 1000 , width = 1600 , height = 800,
               collocations=False).generate(" ".join(dataset[3360:].tweet))
plt.imshow(wc)

## Méthode Bag of words:

In [None]:
#rom gensim import corpora, models, similarities


In [None]:
target=pd.DataFrame()
target['tweet'] = dataset['tweet_tokenized'].apply(lambda x: " ".join(x))


In [None]:
# on supprimme les mots dont l'occurence est inférieur à 2
coun_vect = CountVectorizer(min_df=2)

In [None]:
# on vectorise tout les tweets de notre dataset par la methode bag of words 
count_matrix = coun_vect.fit_transform(target.tweet)
count_array = count_matrix.toarray()
# on enregistre les données dans une matrice puis sous format csv 
matrice = pd.DataFrame(data=count_array,columns = coun_vect.get_feature_names())
matrice.to_csv("matrice.csv",index=True,header=True)
matrice.head()

In [None]:
#bow_vectors=matrice.values.tolist()

In [None]:
# on ajoute les vecteurs des tweets au dataset

#dataset['bow_vectors']=bow_vectors


In [None]:
#dataset.drop(columns=['bow_vectors'])

In [None]:
dataset.head()

In [None]:
# la longueur de notre vocabulaire
vocab_size=len(coun_vect.vocabulary_)
vocab_size

In [None]:
# on enregistre le vocabulaire dans une lite
vocab = list(coun_vect.vocabulary_.keys())


In [None]:
def vectorizetweet(text,vocab):
    d = dict()
    for word in vocab:
        d[word]=0
    for word in str(text).split():
        if word  in vocab:
            d[word]+=1
    return list(d.values())
dataset['bow_vectors']= dataset['tweet'].apply(lambda t: vectorizetweet(t,vocab))

In [None]:
dataset.to_csv("datasetfinal.csv",index=True,header=True)


## Division du dataset en données d'apprentissage, de test et de validation

 les données d'apprentissage représentent 80%

In [None]:
dataTrain, data_remaining, labelsTrain, label_remaining = train_test_split(dataset.bow_vectors,dataset.label,train_size=0.7)

on divise les données restantes en données test et données de validation

In [None]:
dataValid, dataTest, labelsValid, labelsTest = train_test_split(data_remaining, 
                                                                         label_remaining , 
                                                                         test_size=0.5)

In [None]:
print(dataTrain.shape,labelsTrain.shape)
print(dataValid.shape,labelsValid.shape)
print(dataTest.shape,labelsTest.shape)

## Réseau de neurones

### Création de Pytorch Dataset

In [None]:
# Variable utiles 
BATCH_SIZE=32  #taille du batch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') #definition de la machine
device

In [None]:
# Création d'une classe qui hérite de Dataset et redéfinit les méthodes comme susmentionné

class MyDataset(Dataset):
    def __init__(self, data,label):
        self.bow = data.tolist()
        self.targets = label.tolist()
    def __getitem__(self, i):
        return (
            self.bow[i],
            self.targets[i]
        )
    def __len__(self):
        return len(self.targets)

In [None]:
#Instanciation de 3 objets pour les données et labels de l'apprentissage, test et validation
train = MyDataset(dataTrain,labelsTrain)
test = MyDataset(dataTest,labelsTest)
valid = MyDataset(dataValid,labelsValid)

In [None]:
#réer les objets DataLoader pour les datasets d'apprentissage, test et validation en lui donner la taille du batch convenue
# la fonction collate permet de parcourir la listes des vecteurs
def collate(batch):
    bow = [item[0] for item in batch]
    target = torch.LongTensor([item[1] for item in batch])
    return  bow, target

trainDL = DataLoader(train,batch_size=BATCH_SIZE,shuffle = True,collate_fn=collate)
testDL = DataLoader(test,batch_size=BATCH_SIZE,shuffle = False,collate_fn=collate)
validDL = DataLoader(valid,batch_size=BATCH_SIZE,shuffle = False,collate_fn=collate)

### Création du réseau de neurones

- Input Layer : le vecteur bag of words
- Fonction d'activation  : ReLu
- Hidden layer  : applique une transformation linéaire sur les données en input, et réduit leur dimension en 50
- Fonction d'activation: Sigmoid
- Output Layer: applique une transformation linéaire sur les données en input, et réduit leur dimension en 2 
              2 résultats possibles : positif ou négatif
              probabilité que le document d'entrée soit classé comme l'étiquette

In [None]:
# taille des hidden layers 

HIDDEN1 = 50
#HIDDEN2 = 100





In [None]:
# Création d'une classe qui hérite de nn.Module et redéfinit le constructeur et la méthode forward
class MyNetwork(nn.Module):
    def __init__(self, device, vocab_size, hidden1, num_labels, batch_size):
        super(MyNetwork, self).__init__()
        self.device = device
        self.batch_size = batch_size
        self.fc1 = nn.Linear(vocab_size, hidden1)
      #  self.fc2 = nn.Linear(hidden1, hidden2)
        self.fc3 = nn.Linear(hidden1, num_labels)
    
    def forward(self, x):
        batch_size = len(x)
        if batch_size != self.batch_size:
            self.batch_size = batch_size
        x = torch.FloatTensor(x)
        x = F.relu(self.fc1(x))
      #  x = F.relu(self.fc2(x))

        return torch.sigmoid(self.fc3(x))

In [None]:
# instanciation de notre modele 
my_model = MyNetwork(
    vocab_size= vocab_size,
    hidden1=HIDDEN1,
   #     hidden2=HIDDEN2,

    num_labels=2,
    device=device,
    batch_size=BATCH_SIZE,
)


### Entraîner le réseau de neuronne

In [None]:
# TAUX D'APPRENTISSAGE
LEARNING_RATE = 0.001

In [None]:
#  la fonction du coût choisit est :  CrossEntropyLoss
criterion = nn.CrossEntropyLoss()
# la fonction d'optimisation choisit est : Adam
optimizer= optim.Adam(my_model.parameters(),lr=LEARNING_RATE)
# fct de changement du learning rate lors de chaque epoch 
scheduler = CosineAnnealingLR(optimizer, 1)

In [None]:
# fonction d'apprentissage
def train_epoch(model, optimizer, train_loader):
        model.train()
        total_loss, total = 0, 0
        for dt in train_loader:
            inputs,target = dt
 # Réinitialiser le gradient
            optimizer.zero_grad()
# Passe en avant

            output = model(torch.Tensor(inputs))
# Calculer le coût en comparant les labels prédits aux targets du minibatch
            loss = criterion(output, target)
# Faire la backpropagation
            loss.backward()
 # Effectuer un pas d'optimisation
            optimizer.step()
            #scheduler.step()
# Mettre à jour votre coût d'apprentissage en lui ajoutant le coût du data batch
            total_loss += loss.item()
            total += len(target)
#  la sortie est le coût moyen pour toutes les données training
        return total_loss / total
        
    
# fonction de validation
def validate_epoch(model, valid_loader):
    model.eval()
    total_loss, total = 0, 0
# Spécifier qu'on est sur le mode d'évaluation
    with torch.no_grad():
        for dt in valid_loader:
            inputs,target = dt

            # Forward pass
            output = model(torch.Tensor(inputs))

            # Calculer le coût en comparant les labels prédits aux targets du minibatch
            loss = criterion(output, target)

            # Mettre à jour votre coût d'apprentissage en lui ajoutant le coût du data batch
            total_loss += loss.item()
            total += len(target)

    return total_loss / total

In [None]:
import time
n_epochs = 10 # le nombre d'epochs est petit vu la taille du dataset.
# boucle sur les epochs:
start = time.time()
for i in range(n_epochs):
    train_loss = train_epoch(my_model, optimizer, trainDL)
    valid_loss = validate_epoch(my_model, validDL)
    
    tqdm.write(
        f'epoch #{i + 1:3d}\ttrain_loss: {train_loss:.2}\tvalid_loss: {valid_loss:.2}\n',
    )
stop = time.time()
print(f"Training time: {stop - start}s")
    
    

### Test du modèle

In [None]:
# Initilisation du  coût de test à 0

test_loss = 0

# Initialisation du  nombre de prévisions correctes à 0
correct = 0

y_true, y_pred = [], []

with torch.no_grad():
    
    for dt in testDL:
        inputs,target = dt
       # Forward pass
        output = my_model(torch.Tensor(inputs))
        probs= output
       # Calcul du  coût en comparant les labels prédits aux targets du minibatch
        loss = criterion(output, target)
        test_loss += loss.item()
        # On  compare le label prédit avec le labels du minibatch et on met à jour le nbre de prévisions correctes
        correct += torch.sum(torch.argmax(output, dim=1) == target).item()
        probs = probs.detach().cpu().numpy()
        predictions = np.argmax(probs, axis=1)
        target = target.cpu().numpy()
        y_true.extend(predictions)
        y_pred.extend(target)
        
        

    test_loss /= len(testDL)
# Calculer la précision: la moyenne des prévisions correctes sur l'ensemble des observations dans le dataset test
    correct /= len(testDL.dataset) #10.000  
print(f"Test loss {test_loss*100:.2f}%")

print(f"Accuracy {correct*100:.2f}%")
print(classification_report(y_true, y_pred))  

## Déploiement du modele

In [None]:
l = list()
from IPython.core.display import display, HTML
def print_random_prediction(Testdataset,model, n=5):
    to_value = lambda x: 'True' if x else 'False'
    model.eval()
    rows = []
    for i in range(n):
        with torch.no_grad():
            random_idx = random.randint(0,len(Testdataset)-1)
            print(random_idx)
            text, target, bow,tweet_tokenized =Testdataset.iloc[int(random_idx)]
            
            inputs = bow
            l=bow
            probs = model(torch.Tensor(inputs))
            probs = probs.detach().cpu().numpy()
            prediction = np.argmax(probs)
            print(probs)
            predicted = to_value(prediction)
            actual = to_value(target)
            
            row = f"""
            <tr>
            <td>{i+1}&nbsp;</td>
            <td>{text}&nbsp;</td>
            <td>{predicted}&nbsp;</td>
            <td>{actual}&nbsp;</td>
            </tr>
            """
            rows.append(row)
    
    rows_joined = '\n'.join(rows)
    table = f"""
    <table>
    <tbody>
    <tr>
    <td><b>Tweet</b>&nbsp;</td>
    <td><b>Predicted</b>&nbsp;</td>
    <td><b>Actual</b>&nbsp;</td>
    </tr>{rows_joined}
    </tbody>
    </table>
    """
    display(HTML(table))
Testdataset=dataset[['tweetsave','label','bow_vectors','tweet_tokenized']].sample(100)
print_random_prediction(Testdataset,my_model, n=5)

### Exemple de prediction

In [None]:
## probleme ici 
def cleantweet(text):
    text = deEmojify(text)
    text = clean_hash(text)
    text = remove_mentions(text)
    text =  clean_url(text)
    text = text.lower()
    text = clean_stopword(text)
    text = clean_punctuation(text)
    text = clean_numbers(text)
    text = stemming(text)
    text = lemmatizing(text)
    return ''.join(map(str, text)) 


def vectorizetweet(text,vocab):
    d = dict()
    for word in vocab:
        d[word]=0
    for word in str(text).split():
        if word  in vocab:
            d[word]+=1
    return list(d.values())


def makeprediction(tweet_vector,model):
    model.eval()
    with torch.no_grad():
            probs = model(torch.Tensor(tweet_vector))
            probs = probs.detach().cpu().numpy()
            prediction = np.argmax(probs)
            print(probs)
            print(prediction)
    return prediction

In [None]:
text="RT @HHSGov: Looking for information about #COVID19 testing? Find the latest – including how to get a test in your community – on our update… 	"
tweet = cleantweet(text)
l2=vectorizetweet(tweet,vocab)
if makeprediction(l2,my_model)==0:
    print("false")
else: print("true")


### Enregistrement du model avec pickle

In [None]:
torch.save(my_model, "fakenews")