# Les naufrag√©s

Cher naufrag√©s, vous voici embarqu√©s pour une nouvelle aventure : d√©couvrir la datascience.  M√™me si dans la vraie vie, la page de d√©part est vierge, ici vous avez une trame qui vous guidera (et un mentor qui peut vous aider si vous √™tes perdus...)
Le client est un utilisateurs Whatsapp qui a perdu ses contacts et veux r√©attribuer chaque message √† son auteur. On va donc utiliser la datasience pour pr√©dire l'auteur d'un message, en nous basant sur l'historique de la conversation des naufrag√©s.  
**Au boulot !**

## Premi√®re partie : ne pas r√©inventer la roue

Beaucoup de gens dans le monde ont d√©j√† travaill√© sur ces sujets et le grand principe en informatique, c'est d'√™tre flemmard et de r√©utiliser ce qui a d√©j√† √©t√© bien fait. Je commence donc par importer tous les outils, packages et autres bouts de codes qui nous serviront par la suite.

In [None]:
# Processing
import pandas as pd
import numpy as np
import os
import re
# Model
from transformers import CamembertTokenizer
from sklearn import preprocessing
from sklearn.svm import SVC
# Viualisation
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

import matplotlib.pyplot as plt
% matplotlib inline

## Deuxi√®me partie :  Text preprocessing

Ici, on va aller r√©cup√©rer les donn√©es et les standardiser.

**En entr√©e :**  
La conversation whatsapp en format texte (ficher .txt) qui contient les messages √† analyser.  
Par exemple : _Message du 12 mars 9h53 de @0685294172 √† @06047412 : On se retrouve o√π ?_

**En sortie :**  
Un ensemble de vecteur math√©matiques -> chaque vecteur est un ensemble de nombre.
Par exemple : 

- **message1**
    - message1_nombre1
    - message1_nombre2
    ...
    - message1_nombreN
- **message2**
    - message2_nombre1
    - message2_nombre2
    ...
    - message2_nombreN
    
On va y aller pas √† pas...

#### 2.1 : Lire le fichier

In [None]:
# La ligne suivante lis le fichier et le stocke dans une variable.
full_text = open('../data/Discussion WhatsApp avec Les naufrag√©s üê†üèÑ_‚ôÄÔ∏èüèù.txt', "r", encoding='utf8').read()

In [None]:
# Petit extrait juste pour voir √† quoi ca ressemble
full_text[0:300]

#### 2.2 Extraire les info importantes du fichier

On veut r√©cup√©rer le message et l'auteur du message. On va faire √ßa bien et r√©cup√©rer aussi l'heure et la date m√™me si on ne s'en servira pas. 

On utilise des REGEX (Regular Expression). Il s'agit d'une syntaxe informatique particuli√®re qui sert √† faire des recherche dans du texte.  
C'est affreux mais c'est tr√®s puissant.  
L'exemple le plus connu c'est "." qui signifie "n'importe quel caract√®re". Un exemple plus utile : "\[a-z\]" qui veut dire "n'importe quelle lettre en minuscule".

In [None]:
# REGEX
pattern = r'^([\d]{2}\/[\d]{2}\/[\d]{4}) √† ([\d]{2}:[\d]{2}) - ([^:]+)\: (.*)$'
tech_pattern = r'^([\d]{2}\/[\d]{2}\/[\d]{4}) √† ([\d]{2}:[\d]{2}) -'

On cr√©e un "DataFrame" que l'on apelle _conversation_. C'est un objet informatique qui contient un tableau. On va y ranger nos donn√©es.

In [None]:
conversation = pd.DataFrame(columns=['date', 'hour', 'author', 'message'])

On execute un _boucle for_ :  
L'ordinateur va r√©p√©ter une instruction en boucle sur un ensemble d'√©l√©ments.  
Dans chaque execution de la boucle, on d√©tecte la date, heure, auteur et message de la ligne.

In [None]:
i = 0

for msg in full_text.split('\n'):
    s = re.search(pattern, msg)
    # petite astuce pour les plus perspicace : on ne range pas dans le tableau les messages qui ne "collent" pas au REGEX
    if s is not None:
        if i>0:
            conversation.loc[i-1] = [date, hour, author, txt]
        i += 1
        date = s.group(1)
        hour = s.group(2)
        author = s.group(3)
        txt = s.group(4)
    # A la place on vient v√©rifier si c'est un message technique de whatsapp (changement d'icone, de nom de groupe)
    else:
        tech_s = re.search(tech_pattern, msg)
        if tech_s is None: # Si ce n'est pas le cas, alors le message pr√©c√©dent √©tait sur plusieurs ligne
            txt = txt + "\n" + msg # On colle la nouvelle ligne √† l'ancienne

conversation.loc[i-1] = [date, hour, author, txt]

On va voir √† quoi ressemble notre tableau :

In [None]:
conversation

#### 2.3 Standardiser les donn√©es

A ce moment l√†, on utilise un projet de l'INRIA : CamemBERT. C'est un projet qui a analys√© des centaines de Gb de textes fran√ßais pour fournir une mani√®re intelligente de transformer les mots en vecteurs. Ils ont obtenus de bons r√©sultats, et on en profite.

In [None]:
tokenizer = CamembertTokenizer.from_pretrained('camembert-base') # tokenizer est le convertisseur mot <-> vecteurs
# Juste pour avoir un exemple...
print(tokenizer.encode("J'aime le camembert"))
print(tokenizer.encode("Vraiment j'aime le fromage"))

Pour info, les d√©but et fin de messages sont toujours encod√© "5" et "6".  
On fait le m√™me travail avec les noms des auteurs, qui doivent √™tre transform√©s en chiffres. L√† aussi un outil existe d√©j√†.

In [None]:
le = preprocessing.LabelEncoder() # le (pour label encoder) est le convertisseur etiquette <-> nom d'auteur
le.fit(conversation.author) # Il faut lui fournir la liste des √©tiquettes pour qu'il sache comment convertir...

On cr√©√© la fonction qu'on va appliquer au tableau.  
**Entr√©e :** message au format texte  
**Sortie :** Vecteur (ensemble de nombre)  

In [None]:
def transform_sentence(msg):
    l = len(tokenizer) # l est la taille du dictionnaire CamemBERT
    # On transforme le msg en chiffres
    sparse_vectors = tokenizer.encode(msg) 
    # On passe de '3' √† [0,0,1,0,0...]
    vec = np.zeros(l)
    for sparse_vec in sparse_vectors:        
        vec[sparse_vec] = vec[sparse_vec] + 1
    return vec

On a maintenant tous les outils pour cr√©er notre X, qui contiendra l'ensemble de nos donn√©es standardis√©es

In [None]:
X = np.array(len(conversation)) # Cr√©ation de X vide
l = list()
for i, row in conversation.iterrows():
     # On applique la fonction √† chaque ligne et on stocke le r√©sultat dans une liste
    l.append(transform_sentence(row['message']))
X = np.array(l) # On place la liste dans X 

On cr√©e aussi le Y avec les √©tiquettes : les auteurs de chaque message.

In [None]:
Y = le.transform(conversation.author)

Fin de la transformation de donn√©es. On a maintenant X et Y, parfaitement structur√©s pour rentrer dans les algorithmes classiques de datascience.

### Troisi√®me partie : modelisation de donn√©es

Cette partie sera rapide.  
J'ai choisi un algorithme assez classique qui s'appelle SVC (Support Vector  Clustering). Il n'y a pas besoin de le r√©√©crire : tout est pr√™t √† l'emploi.  

Le choix de l'algorithme est une question passionnante mais pas imm√©diate. C'est complexe et on commence g√©n√©ralement par faire quelque chose de simple mais qui marche, avant de se poser cette question.  

En avant pour la version "simple" donc.

In [None]:
clf = SVC(gamma=0.15)
clf.fit(X, Y) # Et hop, un simple ligne et l'apprentissage est fini.

Observons le r√©sultat :

In [None]:
le.inverse_transform(clf.predict([transform_sentence("C'est pas faux")]))

### Quatri√®me partie : visualisation de donn√©es

On va essayer de visualiser le top 20 des mots les plus utilis√©s par notre fan de Kaamelott.  
Pour √ßa, on commence par pr√©dire l'ensemble de nos donn√©es :

In [None]:
predictions = clf.predict(X)

Nouvelle _boucle for_ :  
Pour chaque auteur, on s√©lectionne les message qui ont √©t√© predits comme √©tant de lui.  

Ensuite on additionne tous les mots et on stocke le tout dans une variable "atavisme".

In [None]:
atavism = {} # vide pour l'instant
for i in np.unique(predictions): # pour chaque auteur
    words_dict = {}
    personal_words = X[predictions == i] # personal_words contient l'ensemble des mots utilis√©s par l'auteur
    bag_of_words = personal_words.sum(axis=0) # on somme les vecteurs : mot 1 + mot 1 + mot 3 = [2, 0, 1]
    
    for token in bag_of_words.argsort()[-20:][::-1]: # On fait le top 20
        word = tokenizer.decode(int(token), skip_special_tokens=True)
        words_dict[word] = bag_of_words[token]
    del words_dict['<s>'] # on supprime les d√©but de message -> code 5
    del words_dict['</s>']# on supprime les fin de message -> code 6
    atavism[str(le.inverse_transform([i])[0])] = words_dict # On ajoute le r√©sultat √† la variable atavism

Moment tant attendu : on visualise le tout !  

On fait un "nuage de mots". Ce format est tr√®s utilis√© pour les textes.

In [None]:
author = 'Marion Cadart'
wc = WordCloud(background_color="black",width=1000,height=1000, max_words=20,relative_scaling=0.5,normalize_plurals=False).generate_from_frequencies(atavism[author])
plt.imshow(wc)

### Cinqui√®me partie : √† vous de jouer

On observe que c'est tout nul. Devinez-vous pourquoi ? Comment corriger ? 
R√©ponse en cliquant sur les 3 petit points.

On a laiss√© beaucoup de "parasites" : 
- la ponctuation
- les "m√©dias omis" quand on envoie une photo sur whatsapp. 
- ...  
On va corriger √ßa en ajoutant  
```conversation = conversation[conversation['message'] != '<M√©dias omis>'].reset_index()```  
```conversation['message'] = conversation['message'].map(lambda x: re.sub(r'[\W^\s]+', ' ', x))```  
au preprocessing des donn√©es.
Que font ces lignes ? O√π les mettre ?

Et si vous √©chouez, rappelez vous que c'est dans le th√®me.