# L'observatoire du mot

à faire :

- ~~créer un sous-dossier pour les fichiers csv ?~~
- créer la vérification synonymes.py et mettre à jour le rapport
- ajout d'un readme

questions :

- Le rapport Excel dynamique doit contenir le plus de filtres possibles ?


Liens importants : 

- cours : https://github.com/surybang/Reporting_openpyxl
- template structure projet : https://github.com/surybang/template_usid0f
- lien du repository : https://github.com/Aminata-Dev/L-observatoire-du-mot

# Introduction – L’Observatoire du mot

Qu’est-ce qu’un mot ? On croit souvent que comprendre un mot, c’est être capable de le définir. Pourtant, dans le langage ordinaire, les mots ne sont pas d’abord des objets de définition : ce sont des outils d’usage.

Prenons pour exemple le mot « seum ». Se trouve-t-il dans le dictionnaire ? Peut-être. Mais même lorsqu’il y figure, la définition n’en fait que documenter un usage préexistant. Ce mot, comme tant d’autres, est d’abord appris par immersion, en l’entendant dans des situations précises puis en l’utilisant soi-même. On comprend un mot parce qu’on sait quand et comment l’utiliser – non parce qu’on est capable d’en réciter une définition. Les mots que l’on connait ne sont pas forcément des mots que l’on sait définir mais plutôt des mots que l’on sait utiliser. Comme l’écrivait Wittgenstein dans *Le Cahier Bleu* à ce sujet : « Nous sommes incapables de circonscrire clairement les concepts que nous utilisons ; non parce que nous ne connaissons pas leur vraie définition, mais parce qu'ils n'ont pas de vraie "définition". Supposer qu'il y en a nécessairement serait comme supposer que, à chaque fois que des enfants jouent avec un ballon, ils jouent en respectant des règles strictes.» (Wittgenstein, *Le Cahier bleu*, [25-26], trad. M. Goldberg et J. Sackur, Gallimard, p. 67-69).

*L’Observatoire du mot* naît de ce constat : un mot est bien plus qu’une entrée dans un dictionnaire. Comprendre un mot, c’est plonger dans son usage vivant, ses contextes, ses résonances culturelles et sociales. L’utilisateur ne reçoit pas un portrait figé du mot de son choix, mais une matière vivante de l’explorer. L’Observatoire du mot est un outil hybride entre **dictionnaire augmenté** et cartographie culturelle pour toute personne curieuse de comprendre non seulement ce que signifie un mot mais également de connaître sa place dans le monde.


# Objectifs et ambitions de *l'Observatoire du mot*

Notre objectif est de créer un programme Python permettant à l’utilisateur de saisir un mot, puis de générer un fichier Excel structuré, interactif et partageable. Ce fichier sera produit à l’aide de la librairie openpyxl. Voici la forme du ficher Excel que nous souhaitons produire :

![Schéma](docs\schema_dashboard_observatoire_du_mot.png)

Cette maquette de **tableau de bord** est inférée de la liste suivante présentant les « dimensions » d’un mot que nous aimerions explorer et visualiser :

- **Dimension sémantique** : définitions / étymologie / synonymes / antonymes / citations célèbres / traductions.
- **Dimension culturelle** : apparition du mot dans les titres d’œuvres d’art
- **Dimension sociale** via les réseaux sociaux
  - Récupérer les tops tweet/threads/commentaires/titres de vidéos/hashtags contenant le mot
  - Co-occurrences : avec quels autres mots notre mot se retrouve-t-il le plus ? 
  - **Dimension statistique** : 
    - évolution de la fréquence d’apparition du mot
	- Donner un score de popularité (étoiles)
- **Dimension médiatique** via médias.
  - Retrouver les articles de l'actualité contenant ce mot.


# Réflexions techniques

Pour rendre l’expérience utilisateur fluide, nous envisageons d’ajouter une interface Streamlit dans laquelle l’utilisateur pourra entrer le mot à explorer.
Le programme se chargera ensuite de lancer l’ensemble de la pipeline, sans nécessiter de modifications manuelles dans le code.

## Les données du projet

Mais cela soulève une question centrale : comment structurer la récupération des données pour que tout fonctionne dans un ensemble cohérent ? En effet, nous devons collecter des données provenant de nombreuses **sources hétérogènes** pour donner vie à L’Observatoire du mot. Nous avons identifié quatre méthodes principales pour les collecter :

- Le flux RSS qui est une manière standardisée de recevoir les derniers contenus publiés sur un site comme un fil d’actualité. Par exemple les flux RSS de journaux comme Le Monde ou Mediapart peuvent nous informer en temps réel des nouveaux articles contenant un mot. Le flux RSS permet de satisfaire la dimension médiatique et statistique.
- L’utilisation d’API (Application Programming Interface), interfaces propres aux développeurs qui permettent de demander à des plateformes leurs données via un programme. Exemples : API de Genius, Spotify, IMDB, Reddit, YouTube, Twitter, forums… On demande par exemple "tous les posts contenant le mot X" et la plateforme renvoie une réponse structurée en JSON. L’utilisation d’API permet de satisfaire la dimension sociale, culturelle et statistique. L’utilisation d’API de grandes plateformes telles que citées ci-dessus donne également plus de crédibilité au projet car cette approche offre un comparatif qui suscitera l’intérêt de l’utilisateur et rend la dimension statistique plus fiable car ce sont des plateformes utilisées par des milliards d’utilisateurs.
- Le scraping est une technique consistant à extraire automatiquement du contenu visible sur une page web. Nous pensons réaliser du scraping sur des pages web statiques comme Wikitionary, CNRTL, Gallica ou CRISCO pour satisfaire la dimension sémantique. Le scraping est un processus simple qui ne demande pas d’identifiants et de création d’applications comme le nécessite l’utilisation d’une API. 
- Nous pourrons également récupérer et exploiter des jeux de données existants récupérés sur internet (notamment Kaggle ou Projet Gutenberg), pour explorer la dimension culturelle (par exemple jeu de données référençant les titres d’œuvres les plus connus ou récupération de corpus littéraire) et sociale (par exemple top tweets ou forums archivés).

Une fois les données collectées, un autre enjeu est de les structurer de manière cohérente malgré leur diversité. Chaque dimension identifiée (sémantique, culturelle, sociale, médiatique) devra respecter un schéma commun afin d’être aisément manipulable en Python et visualisable dans le fichier Excel final.

Pour sécuriser notre projet et pouvoir tester l’observatoire sans être dépendants des aléas du scraping ou des limites d’API, nous prévoyons de **constituer un jeu de données de secours**. Ce fichier contiendra un échantillon représentatif pour chaque dimension (tweets les plus connus, titres d’œuvres célèbres, quelques articles de presse, …). Notre projet pourra donc être utilisé en mode déconnecté, ou en cas de saturation de services.


## Interface streamlit

Nous devons de passer par une interface Streamlit pour donner le choix de mot à l'utilisateur. Les questions qui se posent sont :

- l'utilisateur doit il donner un mot existant (implique un fichier txt avec les mots français possibles)
- faut il normaliser (oui),
- gérer les bas de casse

# Dimensions lexicale

## Choix du mot

```python
mot_entree = input("\nEntre un mot de ton choix\n@> ")
```

## Synonymes

NP Louis : Pourquoi et comment le choix de ce site 
Ce site est simple à scraper, seule l'information essentielle y est affichée.

Pour preuve, il suffit d'ajouter le mot du choix à l'url (et pas un code-index compliqué) pour accéder à la bonne page
```python
url = 'https://crisco4.unicaen.fr/des/synonymes/' + mot_entree
```
et commencer à parser le contenu html de la page
```python
page = requests.get(url)

#bs4 permet de parser le contenu html d'une page 
soupe = BeautifulSoup(page.text, features="html.parser")
```

Nous souhaitons obtenir chaque synonyme associé au mot d'entrée et le score de popularité associé au synonyme. Ces éléments se présentent sous la forme suivante :

![Tableau à scraper](docs/synonymes/tableau_synonymes_alambique.png)

![HTML derrière le tableau à scraper](docs/synonymes/inspection_tableau_synonymes_alambique.png)


Le tableau contient toutes les informations dont nous avons besoin pour commencer à scraper. Nous ciblons d'abord la balise `<table>` et nous recherchons le contenu des balises `<a href>` qui contiennent les synonymes. Une simple recherche du contenu des balises `<a href>` ira chercher tous les synonymes à l'ecran ailleurs que dans le tableau d'intérêt identifié plus haut et la somme des synonmymes sera supérieur au nombre de lignes du tableau. Nous avons donc adapté notre code de la manière suivante.

```python
synonymes = []

#modèle : <a href="/des/synonymes/balle">balle</a>
for balise_a in soupe.find('table').find_all('a', href=True):
    if "/des/synonymes/" in balise_a['href']:
        synonyme = (balise_a.text).replace('\xa0', '')
        #print(synonyme)
        synonymes.append(synonyme)
#print(synonymes)
```

Pour éviter ce problème d'obtenir plus de synonymes et être certains de notrescraping (certains mots peuvent avoir une cinquantaine de synonymes recensés), nous effectuons une assertion pour vérifier que le nombre de synonymes trouvés et stockés dans la variable `synonymes` est bien le même que celui affiché sur site.

```python
NP
```

Ensuite nous observons que bl'indication de taille de la barre affichée `width` nous permet d'obtenir l'indicateur de score de proximité. Voici le modèle d'une balise contenant l'information de taille de la barre : `<hr style="height:6px;width:14px;color:#4040C0;background-color:#4040C0;text-align:left;margin-left:0">`. Nous utilisons donc une expression régulière afin de récupérer cette information et l'utiliser dans notre diagramme en bâtons.
`r'width:(\d+)px'`

(\d+): Les parenthèses () sont utilisées pour capturer un groupe. \d correspond à n'importe quel chiffre (0-9), et le + signifie "un ou plusieurs". Donc, \d+ correspond à une séquence d'un ou plusieurs chiffres. Cette partie de l'expression régulière capture la valeur numérique de la largeur.

```python
#modèle : <hr style="height:6px;width:14px;color:#4040C0;background-color:#4040C0;text-align:left;margin-left:0">

import re
tailles_barre = []

for hr in soupe.find_all('hr', style=True):
    #print(hr["style"])
    
    #extraction du nombre après "width:"
    match = re.search(r'width:(\d+)px', hr["style"])

    if match:
        width = int(match.group(1))
        #print(width)
    
    tailles_barre.append(width)
```

Enfin, nous nous assurons que le nombre de score de proximité est bien le même que le nombre de synonyme trouvé grâce à l'instruction `assert len(tailles_barre) == len(synonymes)`.

Nous avons besoin de sauvegarder nos résultats afin de l'exploiter avec opepyxl. Nous décidons que chaque ficher tel que `synonymes.py` doit générer un fichier csv prêt à l'emploi pour l'utilisation par openpyxl.



## Exportation CSV

### Questions d'optimisations
La question qui se pose est la suivante : vaut-il mieux utiliser **la librairie pandas ou la librarie csv** ? L'utilisation de la librarie csv disponible par défaut dans python permet de garder le programme ultra léger et plus rapide. En effet, la librarie pandas est plus lourde car elle inclut tout un écosystème data (ce qui implique des dépendances externes). Ces quelques milisecondes gagnées en utilisant une librarire ou une autre peuvent être cruciales si notre programme principal de génération du tableau de bord fait appel à plusieurs modules de scraping, requête API et flux RSS à la fois. Nous retenons tout de même la librairie pandas pour éviter de devoir inspecter le document à la main lorsque nous aurons à travailler avec données volumineuses comme les titres d'oeuvres d'art.

### Demonstration
Nous créons donc un ficher exportations_csv chargé d'exporter un dictionnaire python quelconque contenant les données de la manière suivante

```python
import pandas as pd
import os

def exporter_donnees_csv(donnees: dict[str, list], nom_fichier: str, index=False) -> None:
    """
    Exporte un dictionnaire de données en fichier CSV.
    
    - donnees : dictionnaire {nom_colonne: liste_valeurs}
    - nom_fichier : nom du fichier csv à créer (ex: "synonymes.csv")
    """

    #création du chemin où sont stockés les données...
    chemin_dossier = 'data'
    chemin_complet = os.path.join(chemin_dossier, nom_fichier)
    #... et création du sous-dossier data s'il n'existe pas
    os.makedirs(chemin_dossier, exist_ok=True)

    df = pd.DataFrame(donnees)
    df.to_csv(chemin_complet, index=index)
```

Voici un exemple d'exportation de données dans un format csv prêt à l'emploi pour openpyxl

```python
from exportation_csv import exporter_donnees_csv

synonymes_csv = {
    "mot": [mot_entree] *len(synonymes),
    "synonyme": synonymes,
    "score_proximite_mot": tailles_barre
}

exporter_donnees_csv(synonymes_csv, "synonymes.csv")
```