# Analyse des textes et des personnages

## Contexte

Vous disposez de deux types de fichiers issus de 10 romans différents :
- **10 fichiers `.txt`** : Chaque fichier contient le texte complet d'un roman.
- **10 fichiers `.book`** : Ces fichiers sont des json qui contiennent des informations sur les personnages détectés dans les romans, incluant leur genre, le nombre de mentions, ainsi que les verbes associés ("agent", "patients", "mod"). Pour cet exercice, vous vous limiterez aux **5 personnages les plus importants** de chaque roman.

## Objectifs

L’exercice se décompose en plusieurs étapes :
1. **Extraction des 100 mots les plus fréquents**
    - Créer une fonction qui parcourt l’ensemble des fichiers `.book` et construit une liste des **100 mots les plus fréquents** associés aux personnages, tous romans confondus (vous pouvez vous limiter aux 5 personnages les plus importants par roman). Dans cet examen, les mots des personnages sont l’ensemble des lemmes présents dans les champs `agent`, `patient`, `mod`, `poss` du dictionnaire. Chaque .book est à ouvrir comme un fichier json, qui comporte une liste de dictionnaires de personnages, listé du premier personnage au dernier.

2. **Extraction d’un Bag of Words (BoW) pour chaque roman et chaque genre**
   - Extraire la fréquence des **100 mots les plus fréquents** récupérés en étape #1. Pour chaque roman, divisez la fréquence brute par la somme totale des 100 mots les plus fréquents. 
   - Construire un DataFrame représentant le BoW pour tous les romans.
   - Sauvegarder ce DataFrame sous le nom `BoW_100_romans.csv`.
   - Calculez le vecteur moyen pour chacun des deux genres romanesques, convertissez cela sous la forme d'un dataframe avec deux lignes, `policier` et `sentimental` (les labels sont à charger avec le fichier `genre_labels.json`).
   - Sauvegarder ce DataFrame sous le nom `BoW_100_genres.csv`.


3. **Extraction d’un Bag of Words pour les personnages**
   - Pour chaque roman, extraire le BoW (basé sur les mêmes 100 mots) pour chacun des 5 personnages les plus importants. Pour chaque personnage, divisez la fréquence brute par la somme totale des 100 mots les plus fréquents. 
   - Construire un DataFrame regroupant ces informations.
   - Sauvegarder ce DataFrame sous le nom `BoW_100_personnages.csv`.


4. **Calcul des distances entre les BoW**
   - Calculer la **distance cosinus** entre le BoW du roman et celui de chacun de ses 5 personnages.
   - Pour chaque roman donné, calculez la **distance cosinus** entre le BoW moyen du genre romanesque associé et celui de chacun de ses personnages.
   - Sauvegardez les deux matrices de distances résultantes `distances_personnages_romans.csv` et `distances_personnages_genres.csv`.

   
5. **Visualisation**
   - Créer une **heatmap** (à l’aide de seaborn ou matplotlib) pour visualiser les deux matrices de distances.
   - Pour chaque roman, identifier le personnage dont le BoW est le plus proche de celui du roman, puis du genre (c’est-à-dire, le personnage le plus représentatif). Commenter brièvement ce résultat : que signifie “être proche” ici ? que mesure réellement cette distance ?
   - **Bonus**: Proposez une autre manière de visualiser votre résultat.


6. **Module**

- **Créer un module Python** nommé `examen.py` qui utilise les fonctions précédemment définies et sauvegarde les fichiers résultants.
- **Exécuter la ligne de commande suivante** pour vérifier le bon fonctionnement du module :

```bash
python3 examen.py -ia chemin_dossier_txt -ib chemin_dossier_book -oa BoW_100_romans.csv -ob BoW_100_genres.csv -oc BoW_100_personnages.csv -od distances_personnages_romans.csv -oe distances_personnages_genres.csv
```

## Consignes supplémentaires

- **Rendu** Vous enverrez votre examen par mail sous la forme d'un unique fichier zip. Il devra contenir les données de fournies, les données produites, le notebook ainsi que le script Python.
- **Langue** : Tous les codes, commentaires et explications doivent être rédigés en français.
- **Cellules spécialisées** : Chaque cellule doit servir un but précis :
  - **Importation des bibliothèques** : Une cellule dédiée.
  - **Définition des fonctions** : Une ou plusieurs cellules pour définir les fonctions.
  - **Tests des fonctions** : Chaque fonction doit être testée séparément, éventuellement sur un fichier spécifique et non un dossier entier.
- **Documentation** : Chaque fonction doit être documentée par des commentaires ou des docstrings expliquant son rôle et ses paramètres.
- **Aide** : Si vous bloquez sur une étape en particulier, et que vous avez besoin de la liste ou du csv pour continuer l'examen, vous pouvez le demander, mais vous n'aurez pas tous les points à cette question.

Bonne chance et n’hésitez pas à commenter votre notebook pour faciliter la compréhension de votre démarche !
