*Disclaimer: This tutorial is in **FRENCH** only.*

# Tutoriel Jules Vernes


<img src="images/jules_verne_1.png" style='float: left; width: 30%; margin:10%; margin-top:0%; margin-bottom:0%'><img src="images/jules_verne_2.png" style='float: left; width: 30%; margin:10%; margin-top:0%; margin-bottom:0%'>


**Pr√©-requis :**

- Ce notebook doit avoir √©t√© g√©n√©r√© avec le template NLP du projet Gabarit.


- T√©l√©charger le fichier `texts.csv` se trouvant ici (https://github.com/OSS-Pole-Emploi/AI_frameworks/tree/main/gabarit/template_nlp/nlp_data) et le placer dans le r√©pertoire `{{package_name}}-data` du package que vous avez g√©n√©r√©.


- **Lancer ce notebook avec un kernel utilisant l'environnement virtuel de votre projet**. Pour ce faire, il suffit de faire : `python -m ipykernel install --user --name=your_venv_name` (une fois votre environnement virtuel activ√©). Evidemment, le projet g√©n√©r√© doit √™tre install√© sur cet environnement virtuel. Il peut √™tre n√©cessaire de rafra√Æchir votre navigateur pour voir le kernel appara√Ætre.

---
---
---

## Table des mati√®res :

<br>  
<br>  


* [1. Objectifs](#objectifs)


* [2. Principes](#principes)


* [3. Entrainement d'un mod√®le de d√©tection d'auteurs 'out of the box'](#entrainement)


>  * [3.1 Imports et fonctions utilitaires](#imports)

>  * [3.2 Chargement des donn√©es](#data)

>  * [3.3 Analyse rapide](#analyse)

>  * [3.4 D√©coupage du jeu de donn√©es en train / test](#decoupage)

>  * [3.5 Preprocessing sur les textes](#preprocessing)

>  * [3.6. Entrainement d'un premier mod√®le](#model1)

>  * [3.7. Pr√©dictions avec notre premier mod√®le](#predictions)

>  * [3.8. Cr√©ation d'un second mod√®le "maison"](#maison)
>>  * [3.8.1.  D√©coupage en phrases](#phrases)
>>  * [3.8.2.  Cr√©ation d'une nouvelle classe de mod√®le](#new_class)
>>  * [3.8.3.  Packaging de notre nouvelle classe mod√®le](#packaging)
>>  * [3.8.4.  R√©utilisation de notre classe avec les scripts du projet](#scripting)

* [4. It's showtime ](#showtime)


* [5. Conclusion](#conclusion)


---
---
---

## 1. Objectifs <a class="anchor" id="objectifs"></a>




- L'objectif principal de ce tutoriel est de vous introduire au projet Open Source `Gabarit`, d√©velopp√© par l‚Äô√©quipe IA de P√¥le Emploi.


- Nous allons traiter un cas d'usage "jouet" : la d√©tection automatique de l'auteur d'un texte du XIX√®me si√®cle.


- A la fin de ce tutoriel, nous esp√©rons vous donner tous les outils n√©cessaires pour d√©marrer rapidement un nouveau projet d'IA, propre et pr√™t √† √™tre industrialis√©.

---
---
---



## 2. Principes <a class="anchor" id="principes"></a>


- Ce projet a √©t√© developp√© dans une logique d'acc√©l√©ration des d√©veloppements de nos projets IA, et dans l'objectif de fournir une base de code commune facilitant le passage en industrialisation de nos mod√®les.


- Pour ce faire, nous proposons diff√©rents **templates** de projets IA :  
<br>  
<br>  
    - Template NLP : classification de donn√©es textuelles  
<br>  
<br>  
    
    - Template NUM : classification et r√©gression sur des donn√©es num√©riques  
<br>  
<br>  
    
    - Template VISION : classification d'images et d√©tection d'objets  
<br>  
<br>  
    
    
- L'id√©e n'est pas de cr√©er un outil cl√© en main 'low-code', mais bien de fournir une base de code que chaque Data Scientist pourra adapter √† son projet. Il aura ainsi le contr√¥le de tout ce qu'il s'y passe.


- Les templates sont tr√®s similaires entre eux, m√™me s'ils ont √©videmment chacun leur sp√©cificit√©.  


- Les projets g√©n√©r√©s sont compos√©s d'une partie 'package' et d'une partie 'scripts' qui permettent notamment de lancer les entrainements.  


- Le projet est construit de mani√®re √† ce que tous les mod√®les soient '**agnostic**'. De cette mani√®re, on appelera un mod√®le toujours de la m√™me fa√ßon (e.g. model.predict(...)) peu importe qu'il s'agisse d'un mod√®le Sklearn ou TensorFlow.


- Des d√©monstrateurs Streamlit sont int√©gr√©s aux projets pour pouvoir rapidement faire des pr√©sentations √† votre m√©tier !

---
---
---

## 3. Entrainement d'un mod√®le de d√©tection d'auteurs 'out of the box' <a class="anchor" id="entrainement"></a>

On va partir de textes de diff√©rents auteurs du XIX√®me si√®cle et fabriquer un mod√®le permettant **d'identifier automatiquement son auteur**.

---

### 3.1 Imports et fonctions utilitaires <a class="anchor" id="imports"></a>

In [None]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
from typing import List
import matplotlib.pyplot as plt
from collections import Counter
from IPython.display import display

from {{package_name}} import utils
from {{package_name}}.preprocessing import preprocess
from {{package_name}}.models_training import utils_models
from {{package_name}}.models_training.model_tfidf_svm import ModelTfidfSvm

---
### 3.2 Chargement des donn√©es <a class="anchor" id="data"></a>

In [None]:
# Certaines fonctions contenues dans utils permettent d'obtenir les chemins vers les r√©pertoires cl√©s du projet
# Ici, on r√©cup√®re le chemin vers le dossier {{package_name}}-data
data_path = utils.get_data_path()
# On charge les textes pour regarder leur contenu
df = pd.read_csv(os.path.join(data_path, 'texts.csv'), sep=';')

---
### 3.3 Analyse rapide <a class="anchor" id="analyse"></a>

In [None]:
# Affichage du nombre de lignes / colonnes
n_rows = df.shape[0]
n_columns = df.shape[1]
print(f"Nombre de lignes : {n_rows}")
print(f"Nombre de colonnes : {n_columns}")

In [None]:
# Affichage de 10 lignes al√©atoires
df.sample(10).head(10)

In [None]:
# Valeurs manquantes
for col in df.columns:
    nb_missing = df[col].isna().sum()
    print(f"Valeurs manquantes pour la colonne \033[1m{col}\033[0m : {nb_missing} -> {round(nb_missing / n_rows * 100, 2)} %")

In [None]:
# Analyse de la cible
ax = sns.countplot(x=df['author'])
plt.xticks(rotation=45)
plt.show(block=False)

---

### 3.4 D√©coupage du jeu de donn√©es en train / test <a class="anchor" id="decoupage"></a>

Nous allons tout d'abord **d√©couper notre dataset en deux parties**, un ensemble d'entrainement et un ensemble de test afin de pouvoir entra√Æner et tester notre mod√®le (nous ne fabriquons pas d'ensemble de validation pour simplifier la pr√©sentation). 

Pour cela, nous allons utiliser les scripts contenus dans le package. Les scripts sont des aides pour effectuer les op√©rations courantes de Data Science. Rien ne vous emp√™che de cr√©er vos propres scripts !  

<br>  
<br>  

Pour couper en deux le dataset, proc√©dez de la mani√®re suivante :


- Lancez un terminal et naviguez dans le r√©pertoire de votre projet  


- Activez votre environnement virtuel  

    (e.g. sur unix : `source venv_{{package_name}}/bin/activate`)


- Naviguez dans le r√©pertoire `{{package_name}}-scripts/utils`

    ```bash
    cd {{package_name}}-scripts/utils
    ```


- Appelez le script de d√©coupe du dataset pour r√©aliser une s√©paration "stratified" : 

    ```bash
    python 0_split_train_valid_test.py -f texts.csv --perc_train 0.6 --perc_valid 0.0 --perc_test 0.4
    ```
    
    Note : les scripts vont automatiquement chercher √† charger les fichiers de donn√©es, mod√®les, etc. directement depuis les r√©pertoires du projet pr√©vus √† cet effet (e.g. `{{package_name}}-data`, `{{package_name}}-models`, ...)

<br>  
<br>  

Vous pouvez alors voir que deux fichiers, `texts_train.csv` et `texts_test.csv` ont √©t√© cr√©√©s dans `{{package_name}}-data`. 

<br>  
<br>  

On peut regarder √† quoi ressemble ce nouveau jeu de donn√©es :

In [None]:
# Comme nous allons le voir, certains jeux de donn√©es peuvent √™tre accompagn√©s d'une premi√®re ligne de metadata.
# On conseille donc d'utiliser la fonction utils.read_csv qui va simplement v√©rifier la pr√©sence de cette ligne
df_train, metadata_train = utils.read_csv(os.path.join(data_path, 'texts_train.csv'))
df_test, metadata_test = utils.read_csv(os.path.join(data_path, 'texts_test.csv'))

print('---------------------')
print('------- TRAIN -------')
print('---------------------')
print(f"M√©tadonn√©es train : {metadata_train}")
print('Echantillon :')
display(df_train.sample(5).head(5))
print('---------------------')
print('------- TEST -------')
print('---------------------')
print(f"M√©tadonn√©es test : {metadata_test}")
print('Echantillon :')
display(df_test.sample(5).head(5))

Si par hasard, vous avez fait une fausse manipulation et que vous devez reg√©n√©rer les fichiers de train / test, vous pouvez tout simplement ajouter l'option `--overwrite` pour √©craser les fichiers erron√©s.

---

### 3.5 Preprocessing sur les textes <a class="anchor" id="preprocessing"></a>

Nous allons maintenant faire une √©tape de pr√©processing sur les textes afin de les normaliser et de simplifier l'entrainement de nos mod√®les. Pour cela, nous allons utiliser le script `1_preprocess_data.py` situ√© dans `{{package_name}}-scripts`.

<br>  
<br>  


Pour pr√©processer nos donn√©es textuelles :


- Lancez un terminal et naviguez dans le r√©pertoire de votre projet  


- Activez votre environnement virtuel  

    (e.g. sur unix : `source venv_{{package_name}}/bin/activate`)


- Naviguez dans le r√©pertoire `{{package_name}}-scripts`

    ```bash
    cd {{package_name}}-scripts
    ```


- Appelez le script de pr√©processing : 

    ```bash
    python 1_preprocess_data.py -f texts_train.csv --input_col text
    ```
    Notes :
    - `--input_col` permet de pr√©ciser sur quelle colonne appliquer le preprocessing.
    - On applique le preprocessing uniquement sur le jeu d'entrainement (et le jeu de validation si on en avait un)

<br>  
<br>  

Un nouveau fichier est donc cr√©√© dans le r√©pertoire `{{package_name}}-data` : `texts_train_preprocess_P1.csv`.  
Ce fichier est identique au fichier de base, sauf qu'il poss√®de une colonne suppl√©mentaire ('preprocessed_text') qui contient le texte modifi√©, et une ligne de metadata qui pr√©cise quel preprocessing a √©t√© appliqu√© (e.g. `#preprocess_P1`).

Cette m√©tadonn√©e sera r√©utilis√©e par nos mod√®les pour savoir quel preprocessing doit √™tre appliqu√©e sur une nouvelle entr√©e en amont de la pr√©diction.

<br>  
<br>  

On peut regarder √† quoi ressemble ce nouveau jeu de donn√©es :

In [None]:
df_train_preprocessed, metadata_train_preprocessed = utils.read_csv(os.path.join(data_path, 'texts_train_preprocess_P1.csv'))
print('------------------------------------')
print('------- TRAIN - PREPROCESSED -------')
print('------------------------------------')
print(f"M√©tadonn√©es train - preprocessed : {metadata_train_preprocessed}")
print('Echantillon :')
display(df_train_preprocessed.head(5))

Le pr√©processing appliqu√© est celui fourni de base par le package mais il est tr√®s facile d'ajouter ses propres pipelines de preprocessing.

Pour cela :

- Ouvrez le fichier : `{{package_name}}/preprocessing/preprocess.py`.  


- Dans ce module, vous voyez que l'ensemble des pipelines de preprocessing sont renseign√©es dans la fonction `get_preprocessors_dict`. C'est ici que vous pouvez rajouter vos pipelines personnalis√©es.  


- On peut √©galement jeter un coup d'oeil √† la fonction `preprocess_sentence_P1` qui indique les diff√©rentes √©tapes de pr√©processing (pour plus d'informations, il suffit de lire la documentation du package words_n_fun, une librairie facilitant tout le travail de manipulation de texte).

- Si vous avez l'oeil, vous pouvez remarquer que certains accents n'ont pas √©t√© trait√©s correctement par la pipeline `preprocess_sentence_P1`. On va donc corriger cela. Pour ce faire, il suffit de rajouter `'remove_accents'` en premi√®re √©tape dans la pipeline de la fonction `preprocess_sentence_P1`. Puis relancez :

    ```bash
    python 1_preprocess_data.py -f texts_train.csv --input_col text
    ```
    Note : Par d√©faut, ce script √©crase les anciennes versions (comportement susceptible de changer dans le futur).

<br>  
<br>  


Les accents sont maintenant correctement trait√©s comme vous pouvez le v√©rifiez en utilisant la cellule ci-dessous.  


In [None]:
df_train_preprocessed, metadata_train_preprocessed = utils.read_csv(os.path.join(data_path, 'texts_train_preprocess_P1.csv'))
print('------------------------------------')
print('------- TRAIN - PREPROCESSED -------')
print('------------------------------------')
print(f"M√©tadonn√©es train - preprocessed : {metadata_train_preprocessed}")
print('Echantillon :')
display(df_train_preprocessed.head(5))

Notez que, de mani√®re g√©n√©rale, il est **fortement conseill√© de cr√©er une nouvelle pipeline de pr√©processing plut√¥t que d'en modifier une existante**.  
En effet, si un de vos anciens mod√®les utilisait cette pipeline, ses performances vont changer car il utilisera maintenant la nouvelle (qui a le m√™me nom!).  
Comme nous sommes ici au d√©but d'un projet et que nous n'avons pas encore entra√Æn√© de mod√®les, nous pouvons modifier la pipeline de pr√©processing.

N.B. : Ce comportement sera certainement am√©lior√© dans les prochaines mises √† jour

---

### 3.6. Entrainement d'un premier mod√®le <a class="anchor" id="model1"></a>

Nous allons maintenant entra√Æner un premier mod√®le en utilisant le script `2_training.py`

Pour cela :


- Lancez un terminal et naviguez dans le r√©pertoire de votre projet  


- Activez votre environnement virtuel  

    (e.g. sur unix : `source venv_{{package_name}}/bin/activate`)


- Naviguez dans le r√©pertoire `{{package_name}}-scripts`

    ```bash
    cd {{package_name}}-scripts
    ```


- Appelez le script d'entrainement : 

    ```bash
    python 2_training.py -f texts_train_preprocess_P1.csv --x_col preprocessed_text --y_col author
    ```
    Note :
    - Par d√©faut, le mod√®le entrain√© sera un simple TF-IDF + SVM sur les donn√©es (attention, √ßa overfit !)
    - Plusieurs autres mod√®les sont propos√©s, il suffit d'aller commenter / d√©commenter les lignes correspondantes dans le fichier d'entrainement `2_training.py`.

<br>  
<br>  

Si vous allez dans `{{package_name}}-models/model_tfidf_svm` vous allez voir un dossier du type `model_tfidf_svm_{YYYY_MM_DD-hh_mm_ss}`. Il s'agit du dossier de sauvegarde du mod√®le que nous venons d'entrainer, cr√©√© automatiquement par le script d'entra√Ænement.  

Vous pouvez par exemple voir le f1_score sur l'ensemble d'entrainement, la matrice de confusion sur l'ensemble d'entra√Ænement etc. Notez que nous aurions pu sp√©cifier un dataset de validation, on aurait ainsi eu acc√®s √† des m√©triques sur ce dataset. 

Ce dossier contient notamment des fichiers .pkl qui vont nous permettre de recharger notre mod√®le, soit directement par notre package (en mode 'model agnostic'), soit par la librairie du mod√®le (en mode 'standalone', e.g. Sklearn, TensorFlow, etc.).

---

### 3.7. Pr√©dictions avec notre premier mod√®le <a class="anchor" id="predictions"></a>

Maintenant que nous avons entrain√© un premier mod√®le, nous voulons le r√©utiliser pour faire des pr√©dictions sur notre jeu de test !
Nous pourrions utiliser le script `3_predict.py` qui permet de faire des pr√©dictions sur un jeu de test, mais nous allons le faire directement dans ce notebook dans le cadre de la formation.

In [None]:
# Chargement du mod√®le entrain√©
# TODO : changer {YYYY_MM_DD-hh_mm_ss} pour correspondre au nom de votre mod√®le ! (cf {{package_name}}-models/model_tfidf_svm)
model, model_conf = utils_models.load_model('model_tfidf_svm_{YYYY_MM_DD-hh_mm_ss}')

Voil√†, le mod√®le est charg√©, pr√™t √† √™tre utilis√©. Ce que nous allons directement faire sur l'ensemble de test :

In [None]:
# On commence par charg√© le jeu de donn√©e de test
df_test, _ = utils.read_csv(os.path.join(data_path, 'texts_test.csv'))

# On r√©cup√®re le preprocessing √† partir des configurations du mod√®le ...
preprocess_str = model_conf['preprocess_str']
preprocessor = preprocess.get_preprocessor(preprocess_str)
# ... et on l'applique √† notre jeu de test
df_test['preprocessed_text'] = preprocessor(df['text'])

# On calcul nos pr√©dictions
y_pred = model.predict(df_test['preprocessed_text'], return_proba=False)

# On utilise la fonction inverse_transform pour r√©cup√©rer un format 'lisible' des pr√©dictions
# Note: ici, dans un cas mono-label, la fonction ne fait rien de particulier
df_test['predictions_1'] = list(model.inverse_transform(np.array(y_pred)))

# Affichage
display(df_test.head(5))

Maintenant qu'on a nos pr√©dictions (qui n'ont pas l'air super ...), on peut √©valuer les performances sur notre jeu de test !

In [None]:
print(f"Accuracy sur le jeu de test : {round((df_test['author'] == df_test['predictions_1']).sum() / df.shape[0] * 100, 2)} %")

Mais, il est tout nul ce mod√®le !!!

---

### 3.8. Cr√©ation d'un second mod√®le "maison" <a class="anchor" id="maison"></a>

Pour rem√©dier √† nos mauvais r√©sultats, on pourrait essayer d'autres mod√®les propos√©s par notre package dans le script d'entrainement, mais √† la place nous allons utiliser une autre mani√®re de faire afin d'illustrer la puissance des frameworks.  
Nous allons **cr√©er notre propre classe de mod√®le**, qui incorporera tous les fonctionnalit√©s du package que nous avons d√©j√† vu (sauvegarde automatique du mod√®le, chargement du mod√®le, calcul des m√©triques, etc.). 

<br>  
<br>  

La logique que nous allons appliquer est simple. Au lieu d'appliquer un TF-IDF + SVM √† des livres entiers, nous allons d√©couper les livres en 'phrases' et faire apprendre le mod√®le sur ces 'phrases'.  
Pour pr√©dire l'auteur d'un livre, nous allons donc d√©couper en 'phrases', pr√©dire pour chaque 'phrase' un auteur et prendre pour pr√©diction finale l'auteur qui a le plus de 'phrases' lui correspondant.  

<br>  
<br>  




#### 3.8.1.  D√©coupage en phrases <a class="anchor" id="phrases"></a>

On doit donc d'abord cr√©er une fonction qui prend un texte et qui le d√©coupe en phrase.  
Comme V0, on va tout simplement enlever quelques ponctuations et d√©couper le texte tous les `nb_word_sentence` mots.  
Un exemple est donn√© dans le fichier `utils_tutorial_fr.py` (situ√© au m√™me endroit que ce notebook), mais vous pouvez d√©finir votre propre fonction si vous le souhaitez :

In [None]:
import utils_tutorial_fr

In [None]:
def text_to_sentences(text: str, nb_word_sentence: int = 10) -> List[str]:
    '''Transforms a text in sentences.

    Args:
        text (str) : The text to cut in sentences
    Kwargs:
        nb_word_sentence (int) : The number of words in a sentence
    Returns:
        list : A list of sentences
    '''
    return utils_tutorial_fr.text_to_sentences(text, nb_word_sentence)  # A MODIFIER SI VOUS SOUHAITEZ

Testons son fonctionnement :

In [None]:
text = '''Quelques musiciens accordaient leurs hautbois et leurs deÃÅchirants violons, des groupes se formaient
 autour de la tente, et des yeux de paysans se fixaient avec eÃÅtonnement et volupteÃÅ sur la grande enseigne ouÃÄ eÃÅtaient
 eÃÅcrits en lettres rouges et noires ces mots gigantesques : troupe acrobatique du sieur Pedrillo.
 Plus loin sur un carreÃÅ de toile peinte l‚Äôon distinguait facilement un homme aux formes athleÃÅtiques nu comme un sauvage
 et levant sur son dos une quantiteÃÅ eÃÅnorme de poids. Une banderole tricolore lui sortait de la bouche sur laquelle
 eÃÅtait eÃÅcrit : Je suis l‚ÄôHercule du Nord. Vous dire ce que le pierrot hurla sur son estrade, vous le savez aussi
 bien que moi, certes dans votre enfance vous vous eÃÇtes plus d‚Äôune fois arreÃÇteÃÅ devant cette sceÃÄne grotesque
 et vous avez ri comme les autres des coups de poing et des coups de pied qui viennent aÃÄ chaque instant
 interrompre l‚ÄôOrateur au milieu de son discours ou de sa narration. Dans la tente c‚ÄôeÃÅtait un spectacle
 diffeÃÅrent : trois enfants dont le plus jeune avait aÃÄ peine sept ans, sautaient sur la balustrade inteÃÅrieure
 de l‚Äôescalier, ou bien s‚ÄôexercÃßaient sur la corde aÃÄ la RepreÃÅsentation.'''
text_to_sentences(text, nb_word_sentence=8)



<br>  
<br>  



#### 3.8.2.  Cr√©ation d'une nouvelle classe de mod√®le <a class="anchor" id="new_class"></a>

Nous allons cr√©er la classe `ModelAuthor` qui va impl√©menter notre id√©e de mod√®le.  
Pour rappel, on veut toujours faire un mod√®le TF-IDF + SVM, mais on veut l'appliquer √† des phrases et non pas √† des textes entiers.
Notre classe va donc descendre de la classe `ModelTfidfSvm`, et on va surcharger certaines fonctions :
- `fit` : avant d'entrainer notre mod√®le, on veut split le texte en phrases
- `predict` : avant de faire une pr√©diction, on veut aussi split notre texte en phrases
- `predict_proba` : pareil que predict (√† noter qu'ici on a un cas particulier car le SVM ne retourne pas de pr√©diction)
- `save` : on va rajouter un param√®tre √† notre mod√®le, il faut penser le sauvegarder
- `reload_from_standalone` : pareil, quand on veut recharger un mod√®le 'standalone', il faut rajouter ce nouveau param√®tre

<br>  
<br>  

A vous de compl√©ter la classe suivante :

In [None]:
# INFO : La fonction utils_tutorial_fr.df_texts_to_df_sentences permet de split les textes en phrases
#        et de retourner une dataframe avec toutes les phrases et les auteurs associ√©s.


class ModelAuthor(?????):

    _default_name = 'model_author'  # Utilis√© pour le dossier de sauvegarde

    
    def __init__(self, ?????, **kwargs) -> None:
        super().__init__(**kwargs)
        self.????? = ?????  # Param√®tre √† rajouter : nombre de mots par phrase
        # Dans ce tutoriel, on ne g√®re pas les cas multilabel
        if self.multi_label:
            raise ValueError("On ne g√®re pas les cas multilabel")


    def fit(self, x_train, y_train, **kwargs) -> None:
        '''Entrainement du mod√®le'''
        df_train_sentences = ?????  # Split des textes en phrases avec couples phrases / auteurs
        new_x_train = df_train_sentences['sentence']
        new_y_train = df_train_sentences['author']
        super().fit(new_x_train, new_y_train)

        
    def predict(self, x_test, return_proba: bool = False, **kwargs) -> np.ndarray:
        '''Prediction du mod√®le'''
        # On process texte par texte
        list_predictions = []
        for text in x_test:
            # On r√©cup√®re la pr√©diction sur chaque phrase du texte
            sentences = text_to_sentences(text, nb_word_sentence=?????)
            predictions = super().predict(sentences)
            # On compte le nombre d'occurrences
            counter_author_predictions = dict(Counter(list(predictions)))

            # Si on ne retourne pas de probabilit√©s, on incr√©mente juste la liste de pr√©dictions
            if not return_proba:
                predicted_author = max(counter_author_predictions, key=counter_author_predictions.get)
                ??????  # On ajoute l'auteur predit √† la liste
            else:
                # On va consid√©rer les probabilit√©s comme le pourcentage de phrases attribu√©es √† chaque auteur
                nb_sentences = len(sentences)
                list_probas = [counter_author_predictions.get(author, 0) / nb_sentences for author in self.list_classes]
                list_predictions.append(list_probas)
        
        # Return
        return np.array(list_predictions)

    
    def predict_proba(self, x_test, **kwargs) -> np.ndarray:
        return self.predict(x_test, return_proba=?????, **kwargs)
    
    
    def save(self, json_data=None) -> None:
        '''Sauvegarde du mod√®le'''
        if json_data is None:
            json_data = {}
        json_data['?????'] = self.?????
        # Save
        super().save(json_data=json_data)
        
    
    def reload_from_standalone(self, **kwargs) -> None:
        '''Recharge un mod√®le √† partir de sa sauvegarde standalone et de son fichier de conf'''
        super().reload_from_standalone(**kwargs)
        configuration_path = kwargs.get('configuration_path', None)
        with open(configuration_path, 'r', encoding='{{default_encoding}}') as f:
            configs = json.load(f)
        self.????? = configs.get('trained', self.?????)


Testons cette nouvelle classe !

In [None]:
# Entrainement
df_train_preprocessed, metadata_train_preprocessed = utils.read_csv(os.path.join(data_path, 'texts_train_preprocess_P1.csv'))
model = ModelAuthor(nb_word_sentence=100)
x_train, y_train = df_train_preprocessed['preprocessed_text'], df_train_preprocessed['author']
model.fit(x_train, y_train)

# Sauvegarde
preprocess_str = metadata_train_preprocessed.replace('#', '')
model.save({'preprocess_str': preprocess_str})

# Pr√©dictions sur tests
df_test, _ = utils.read_csv(os.path.join(data_path, 'texts_test.csv'))
preprocessor = preprocess.get_preprocessor(preprocess_str)
x_test = preprocessor(df_test['text'])
predictions = model.predict(x_test)
probas = model.predict_proba(x_test)
df_results = pd.DataFrame({
    'text': df_test['text'],
    'true_author': df_test['author'],
    'predicted_author': predictions,
    'proba': probas.max(axis=1)
})
display(df_results)

# Evaluations
y_pred_train = model.predict(x_train, return_proba=False)
model.get_and_save_metrics(y_train, y_pred_train, type_data='train')
model.get_and_save_metrics(df_test['author'], predictions, type_data='test')

On voit qu'on est bien meilleur qu'avant sur notre jeu de test ! Super !

Si vous voulez, vous pouvez v√©rifier dans votre r√©pertoire de mod√®les que le nouveau mod√®le apparait bien (dans un sous dossier `model_author`).


<br>  
<br>  

Ainsi en moins d'une centaine de ligne de code, nous avons **d√©velopp√© une nouvelle classe de mod√®le** qui va pouvoir utiliser tous les outils du projet.

<br>  
<br>  



#### 3.8.3.  Packaging de notre nouvelle classe mod√®le <a class="anchor" id="packaging"></a>

Maintenant qu'on a notre nouvelle classe de mod√®le, on a envie de **l'int√©grer √† notre package**.  
Cela va nous permettre d'utiliser tous les scripts mis √† disposition, d'ajouter des tests unitaires pour v√©rifier le bon fonctionnement de notre classe, et de simplifier l'industrialisation de nos futurs mod√®les.


<br>  
<br>  

Pour ce faire, il va falloir encapsuler notre classe dans un fichier python.  
Pour acc√©l√©rer la pr√©sentation, nous l'avons d√©j√† effectu√© pour vous dans le fichier `model_author.py` situ√© dans le m√™me dossier que ce notebook. Libre √† vous de l'√©diter si vous voulez ajouter vos sp√©cificit√©s (notamment sur le split en phrases).


<br>  
<br>  


Pour incorporer notre nouvelle classe, il faut :

- Copier le fichier `model_author.py` √† l'endroit o√π se trouve tous les autres classes de mod√®les : `{{package_name}}/models_training/`


- Modifier les imports du script `2_training.py` pour rajouter notre classe de mod√®le :

    ```python
    from {{package_name}}.models_training.model_author import ModelAuthor
    ```

- Ajouter un exemple d'instanciation dans le script `2_training.py` (cf. tous les exemples comment√©s au milieu du script) :

    ```python
    model = ModelAuthor(x_col=x_col, y_col=y_col, 
                        level_save=level_save,
                        multi_label=multi_label,
                        nb_word_sentence=100)
    ```

- (NE PAS FAIRE POUR LE TUTO) : Ajouter l'import dans 0_reload_model.py et mettre √† jour le dictionnaire `model_type_dicts`


- (NE PAS FAIRE POUR LE TUTO) : D√©velopper les TUs associ√©s √† notre classe (√† grand coups de copier-collers !)



<br>  
<br>  



#### 3.8.4.  R√©utilisation de notre classe avec les scripts du projet <a class="anchor" id="scripting"></a>

On va r√©entrainer notre nouveau mod√®le directement avec les scripts du projet.  


Pour ce faire, il vous suffit de commenter le mod√®le TF-IDF + SVM et de d√©commenter le mod√®le 'Author' dans `2_training.py` (le bout de code que vous venez de rajouter), et de relancer les m√™mes commandes que pr√©cedemment :

- Entrainement : `python 2_training.py -f texts_train_preprocess_P1.csv --x_col preprocessed_text --y_col author`  


- Pr√©dictions : `python 3_predict.py -f texts_test.csv --x_col text --y_col author -m model_author_{YYYY_MM_DD-hh_mm_ss}`  

    Note : il faut changer le nom du mod√®le par le v√¥tre.


<br>  
<br>  


Maintenant vous pouvez vous amusez √† changer les param√®tres de notre nouveau mod√®le (nombre de mots par phrases, param√®tres tfidf (cf. classe `ModelTfidfSvm`), etc.) pour essayer d'obtenir le meilleur score possible sur le jeu de test !

Attention de ne pas overfitter dessus ! üòÖ

---
---
---

## 4. It's showtime ! <a class="anchor" id="showtime"></a>

Nous allons finalement utiliser un autre outil incorpor√© dans les frameworks : le d√©monstrateur.  

Il est souvent n√©cessaire de montrer le fonctionnement d'un mod√®le IA √† votre m√©tier, mais aussi √† vos pairs.  
Nous avons donc inclus un d√©monstrateur Streamlit √† nos projets pour vous permettre de d√©montrer tr√®s rapidement les performances de vos meilleurs mod√®les !

Pour le lancer, il vous suffit de :


- Lancez un terminal et naviguez dans le r√©pertoire de votre projet  


- Activez votre environnement virtuel  

    (e.g. sur unix : `source venv_{{package_name}}/bin/activate`)


- Naviguez dans le r√©pertoire `{{package_name}}-scripts`

    ```bash
    cd {{package_name}}-scripts
    ```


- Appelez le d√©monstrateur streamlit : 

    ```bash
    streamlit run 4_demonstrator.py
    ```
    Note : par d√©faut streamlit se lance sur le port 8501 de votre localhost : http://localhost:8501

<br>  
<br>  


Dans le menu de gauche, vous pouvez s√©lectionner le mod√®le que vous voulez utiliser, soit le premier mod√®le TF-IDF + SVM que nous avons entrain√©, soit un de nos nouveaux mod√®les bas√© sur le d√©coupage en phrases.  
Il suffit ensuite d'entrer le texte que vous voulez tester et appuyer sur predict pour acc√©der √† la pr√©diction du mod√®le (bon id√©alement il faudrait copier un livre entier üôÑ vous pouvez cocher 'Multiple lines').


Note : vous pouvez √©videmment adapter ce d√©monstrateur √† vos besoin en √©ditant le fichier `4_demonstrator.py`.



---
---
---

## 5. Conclusion <a class="anchor" id="conclusion"></a>


Ce petit exemple illustre la mani√®re d'utiliser les frameworks :

- On part d'un projet contenant tous les outils pour d√©velopper rapidement un mod√®le.  


- On teste quelques mod√®les inclus pour voir si un correspond √† notre cas d'usage.  


- Si besoin, on d√©veloppe son propre mod√®le en h√©ritant des classes d√©finies dans le projet pour profiter de toutes les fonctions incluses dedans.


<br>  
<br>  



Pour la partie industrialisation, nous vous invitons √† consulter notre Github.  

L'id√©e globale est : 
- Uploader les mod√®les sur un syst√®me de stockages d'artefacts  


- Build votre package et l'uploader (e.g. sur PyPI)  


- Cr√©er un autre projet API qui import votre package  


- T√©l√©charger votre mod√®le √† l'initialisation du service API et exposer une fonction `predict`