# L'observatoire du mot

[Lien du repository Github](https://github.com/Aminata-Dev/L-observatoire-du-mot)

# Introduction – L'Observatoire du mot

Qu'est-ce qu'un mot ? On croit souvent que comprendre un mot, c'est être capable de le définir. Pourtant, dans le langage ordinaire, les mots ne sont pas d'abord des objets de définition : ce sont des outils d'usage.

Prenons pour exemple le mot « seum ». Se trouve-t-il dans le dictionnaire ? Peut-être. Mais même lorsqu'il y figure, la définition n'en fait que documenter un usage préexistant. Ce mot, comme tant d'autres, est d'abord appris par immersion, en l'entendant dans des situations précises puis en l'utilisant soi-même. On comprend un mot parce qu'on sait quand et comment l'utiliser – non parce qu'on est capable d'en réciter une définition. Les mots que l'on connait ne sont pas forcément des mots que l'on sait définir mais plutôt des mots que l'on sait utiliser. Comme l'écrivait Wittgenstein dans *Le Cahier Bleu* à ce sujet : « Nous sommes incapables de circonscrire clairement les concepts que nous utilisons ; non parce que nous ne connaissons pas leur vraie définition, mais parce qu'ils n'ont pas de vraie "définition". Supposer qu'il y en a nécessairement serait comme supposer que, à chaque fois que des enfants jouent avec un ballon, ils jouent en respectant des règles strictes.» (Wittgenstein, *Le Cahier bleu*, [25-26], trad. M. Goldberg et J. Sackur, Gallimard, p. 67-69).

*L'Observatoire du mot* naît de ce constat : un mot est bien plus qu'une entrée dans un dictionnaire. Comprendre un mot, c'est plonger dans son usage vivant, ses contextes, ses résonances culturelles et sociales. L'utilisateur ne reçoit pas un portrait figé du mot de son choix, mais une matière vivante de l'explorer. L'Observatoire du mot est un outil hybride entre **dictionnaire augmenté** et cartographie culturelle pour toute personne curieuse de comprendre non seulement ce que signifie un mot mais également de connaître sa place dans le monde.


# Objectifs et ambitions de *l'Observatoire du mot*

Notre objectif est de créer un programme Python permettant à l'utilisateur de saisir un mot, puis de générer un fichier Excel structuré, interactif et partageable. Ce fichier sera produit à l'aide de la librairie openpyxl. Voici la forme du ficher Excel que nous souhaitons produire :

![Schéma](docs/schema_dashboard_observatoire_du_mot.png)

Cette maquette de **tableau de bord** est inférée de la liste suivante présentant les « dimensions » d'un mot que nous aimerions explorer et visualiser :

- **Dimension sémantique** : définitions / étymologie / synonymes / antonymes / citations célèbres / traductions.
- **Dimension culturelle** : apparition du mot dans les titres d'œuvres d'art
- **Dimension sociale** via les réseaux sociaux
  - Récupérer les tops tweet/threads/commentaires/titres de vidéos/hashtags contenant le mot
  - Co-occurrences : avec quels autres mots notre mot se retrouve-t-il le plus ? 
  - **Dimension statistique** : 
    - évolution de la fréquence d'apparition du mot
	- Donner un score de popularité (étoiles)
- **Dimension médiatique** via médias.
  - Retrouver les articles de l'actualité contenant ce mot.


# Réflexions techniques

Pour rendre l'expérience utilisateur fluide, nous envisageons d'ajouter une interface Streamlit dans laquelle l'utilisateur pourra entrer le mot à explorer.
Le programme se chargera ensuite de lancer l'ensemble de la pipeline, sans nécessiter de modifications manuelles dans le code.

## Les données du projet

Mais cela soulève une question centrale : comment structurer la récupération des données pour que tout fonctionne dans un ensemble cohérent ? En effet, nous devons collecter des données provenant de nombreuses **sources hétérogènes** pour donner vie à L'Observatoire du mot. Nous avons identifié quatre méthodes principales pour les collecter :

- Le flux RSS qui est une manière standardisée de recevoir les derniers contenus publiés sur un site comme un fil d'actualité. Par exemple les flux RSS de journaux comme Le Monde ou Mediapart peuvent nous informer en temps réel des nouveaux articles contenant un mot. Le flux RSS permet de satisfaire la dimension médiatique et statistique.
- L'utilisation d'API (Application Programming Interface), interfaces propres aux développeurs qui permettent de demander à des plateformes leurs données via un programme. Exemples : API de Genius, Spotify, IMDB, Reddit, YouTube, Twitter, forums… On demande par exemple "tous les posts contenant le mot X" et la plateforme renvoie une réponse structurée en JSON. L'utilisation d'API permet de satisfaire la dimension sociale, culturelle et statistique. L'utilisation d'API de grandes plateformes telles que citées ci-dessus donne également plus de crédibilité au projet car cette approche offre un comparatif qui suscitera l'intérêt de l'utilisateur et rend la dimension statistique plus fiable car ce sont des plateformes utilisées par des milliards d'utilisateurs.
- Le scraping est une technique consistant à extraire automatiquement du contenu visible sur une page web. Nous pensons réaliser du scraping sur des pages web statiques comme Wikitionary, CNRTL, Gallica ou CRISCO pour satisfaire la dimension sémantique. Le scraping est un processus simple qui ne demande pas d'identifiants et de création d'applications comme le nécessite l'utilisation d'une API. 
- Nous pourrons également récupérer et exploiter des jeux de données existants récupérés sur internet (notamment Kaggle ou Projet Gutenberg), pour explorer la dimension culturelle (par exemple jeu de données référençant les titres d'œuvres les plus connus ou récupération de corpus littéraire) et sociale (par exemple top tweets ou forums archivés).

Une fois les données collectées, un autre enjeu est de les structurer de manière cohérente malgré leur diversité. Chaque dimension identifiée (sémantique, culturelle, sociale, médiatique) devra respecter un schéma commun afin d'être aisément manipulable en Python et visualisable dans le fichier Excel final.

Pour sécuriser notre projet et pouvoir tester l'observatoire sans être dépendants des aléas du scraping ou des limites d'API, nous prévoyons de **constituer un jeu de données de secours**. Ce fichier contiendra un échantillon représentatif pour chaque dimension (tweets les plus connus, titres d'œuvres célèbres, quelques articles de presse, …). Notre projet pourra donc être utilisé en mode déconnecté, ou en cas de saturation de services.


# Programmation du projet

## Structure du programme

Exemple :
Nous créons un fichier Python par données. Le fichier main sera chargé de faire appel au module d'importation des données et ...

## Choix du mot

Nous choisissons pour mot-test le mot suivant :

In [1]:
#mot = input("\nEntre un mot de ton choix\n@> ")
mot = "droite"

Le traitement du mot en entrée est géré au niveau de l'[interface Streamlit](#Interface-web-via-Streamlit) (cf section _Gestion du mot en entrée_).

## Dimensions sémantique

### Synonymes

Le choix du site CRISCO (Centre de Recherche Inter-langues sur la Signification en Contexte) s'est imposé naturellement pour notre projet. Ce dictionnaire en ligne de synonymes maintenu par l’Université de Caen présente l'avantage d'être un site statique sans JavaScript ni contenu chargé dynamiquement, ce qui le rend simple à scraper avec des bibliothèques comme requests et BeautifulSoup. De plus, l'URL est directe et intelligible : il suffit d’y ajouter le mot voulu à la fin, sans passer par des identifiants numériques. Pour preuve, il suffit d'ajouter le mot du choix à l'url (et pas un code-index compliqué) pour accéder à la bonne page...

In [2]:
url = 'https://crisco4.unicaen.fr/des/synonymes/' + mot

...et commencer à parser le contenu html de la page. Le code permettant de récupérer les synonymes a été passé en markdown car le site est down depuis quelques jours. Les données sont toujours disponibles sur Github.

In [3]:
%%capture
pip install beautifulsoup4

```python
from bs4 import BeautifulSoup
import requests

page = requests.get(url)

#bs4 permet de parser le contenu html d'une page 
soupe = BeautifulSoup(page.text, features="html.parser")
```

Nous souhaitons obtenir chaque synonyme associé au mot d'entrée et le score de popularité associé au synonyme. Ces éléments se présentent sous la forme suivante :

![Tableau à scraper](docs/synonymes/tableau_synonymes_alambique.png)

![HTML derrière le tableau à scraper](docs/synonymes/inspection_tableau_synonymes_alambique.png)

[Code source de la page](view-source:https://crisco4.unicaen.fr/des/synonymes/alambiqu%C3%A9)

Ce tableau contient toutes les informations que nous avons besoin de scraper. Nous ciblons d'abord la balise `<table>` et nous recherchons le contenu des balises `<a href>` qui contiennent les synonymes.

Il faut veiller à cibler la basise `<table>`, sans cela nos premiers scraping du contenu des balises `<a href>` allait chercher tous les synonymes à l'ecran ailleurs que dans le tableau d'intérêt identifié plus haut et la somme des synonmymes était supérieure au nombre de lignes du tableau. Nous avons donc adapté notre code de la manière suivante.

```python
synonymes = []

#modèle : <a href="/des/synonymes/balle">balle</a>
for balise_a in soupe.find('table').find_all('a', href=True):
    if "/des/synonymes/" in balise_a['href']:
        synonyme = (balise_a.text).replace('\xa0', '')
        #print(synonyme)
        synonymes.append(synonyme)
        
print(synonymes)
```

Ensuite nous observons que la taille de la barre affichée grâce à `width` nous permet d'obtenir l'indicateur de score de proximité. Voici le modèle d'une balise contenant l'information de taille de la barre : `<hr style="height:6px;width:14px;color:#4040C0;background-color:#4040C0;text-align:left;margin-left:0">`. Nous utilisons donc une expression régulière afin de récupérer cette information et de l'utiliser dans notre diagramme en bâtons. L'expression régulière est la suivante : `r'width:(\d+)px'`

(\d+): Les parenthèses () sont utilisées pour capturer un groupe. \d correspond à n'importe quel chiffre (0-9), et le + signifie "un ou plusieurs". Donc, \d+ correspond à une séquence d'un ou plusieurs chiffres. Cette partie de l'expression régulière capture la valeur numérique de la largeur.

```python
#modèle : <hr style="height:6px;width:14px;color:#4040C0;background-color:#4040C0;text-align:left;margin-left:0">

import re
tailles_barre = []

for hr in soupe.find_all('hr', style=True):
    #print(hr["style"])
    
    #extraction du nombre après "width:"
    match = re.search(r'width:(\d+)px', hr["style"])

    if match:
        width = int(match.group(1))
        #print(width)
    
    tailles_barre.append(width)

print(tailles_barre)
```

### Vérification de la fiabilité du scraping

Enfin, nous nous assurons que le nombre de score de proximité est bien le même que le nombre de synonyme trouvé grâce à l'instruction `assert len(tailles_barre) == len(synonymes)`.

```python
assert len(tailles_barre) == len(synonymes)
```

Enfin, nous avons besoin de sauvegarder nos résultats afin de l'exploiter avec openpyxl. Nous décidons que chaque fichier comme `synonymes.py` doit générer un fichier csv pour le stockage et prêt à l'emploi pour l'utilisation par openpyxl.

## Exportation CSV

### Questions d'optimisations

La question qui se pose est la suivante : vaut-il mieux utiliser la librairie pandas ou la librarie csv pour le projet pour travailler et exporter les données? L'utilisation de la librarie csv disponible par défaut dans python permet de garder le programme ultra léger et plus rapide. En effet, la librarie pandas est plus lourde car elle inclut tout un écosystème data (ce qui implique des dépendances externes). Ces quelques milisecondes gagnées en utilisant une librarire ou une autre peuvent être cruciales si notre programme principal de génération du tableau de bord fait appel à plusieurs modules de scraping, requête API et flux RSS à la fois. Nous retenons tout de même la librairie pandas pour éviter de devoir inspecter les données à la main lorsque nous aurons à travailler avec données volumineuses comme les titres d'oeuvres d'art.

### Demonstration
Nous créons donc un ficher exportations_csv chargé d'exporter un dictionnaire python quelconque contenant les données de la manière suivante :

In [4]:
import pandas as pd
import os

def exporter_donnees_csv(donnees: dict[str, list], nom_fichier: str, index=False) -> None:
    """
    Exporte un dictionnaire de données en fichier CSV.
    
    - donnees : dictionnaire {nom_colonne: liste_valeurs}
    - nom_fichier : nom du fichier csv à créer (ex: "synonymes.csv")
    """

    #création du chemin où sont stockés les données...
    chemin_dossier = 'data'
    chemin_complet = os.path.join(chemin_dossier, nom_fichier)
    #... et création du sous-dossier data s'il n'existe pas
    os.makedirs(chemin_dossier, exist_ok=True)

    df = pd.DataFrame(donnees)
    df.to_csv(chemin_complet, index=index)

Voici un exemple d'exportation de données dans un format csv prêt à l'emploi pour openpyxl :

```python
synonymes_csv = {
    "mot": [mot] *len(synonymes),
    "synonyme": synonymes,
    "score_proximite_mot": tailles_barre
}

exporter_donnees_csv(synonymes_csv, "synonymes.csv")
```

Chaque fichier python manipulant et traitant des données doit terminer par une instruction faisant appel à la fonction d'exportation. nous créons un module d'exportation et l'appelons dans les différents programmes de la manière suivante : 
```python 
from exportation_csv import exporter_donnees_csv
```

Le code python permettant de récupérer les synonymes se trouve dans le fichier python `./synonymes.py`. Ce code possède en plus la gestion des erreurs grâce au try - except blocks.
> The try block lets you test a block of code for errors.
> The except block lets you handle the error.

La gestion des erreurs sera utilisée tout au long de nos codes, principalement en cas de soucis de réponse du site sur lequel nous scrapons (ce qui arrive généralement lorsque le site ne reconnait pas le mot entré).

Notre fonction genère également le fichier CSV de synonymes dans le dossier `./data/` et retourner `False` si le site CRISCO est down ou si le mot n'est pas trouvé ou tout autre erreur qui empêcherait la génération du fichier CSV associé. 

Le code python permettant d'exporter un dictionnaire python en fichier csv se trouve dans le fichier `./exportation_csv.py`

Il ne nous reste plus qu'à récupérer la fiche lexicale du mot. Ces éléments sont sa définition, sa prononciation et son étymologie.

## Digression : l'Open Data

Beaucoup de sites possédant des cookies wall [(exemple)](https://www.larousse.fr/dictionnaires/francais/alambiqu%C3%A9/2015) sont bannis de notre recherche. En effet, certaines plateformes, bien que riches en contenus, imposent des barrières à l'entrée (cookies wall, abonnements, API payantes, restrictions commerciales), limitant la possibilité d'exploration automatisée, de réutilisation ou de visualisation ouverte. Par exemple, des dictionnaires numériques grand public comme Larousse ou Le Robert verrouillent l'accès aux définitions via des dispositifs qui compliquent l'extraction de données à des fins de recherche ou d'analyse.

En contraste, des ressources comme Wikidata, les flux RSS de la presse, ou encore des portails institutionnels comme le CNRTL (Centre National de Ressources Textuelles et Lexicales) incarnent l'esprit de l'open data. Ces plateformes favorisent la transparence de leurs structures de données, encouragent la réutilisation via des API ouvertes ou des formats interopérables et participent à la démocratisation de l'accès au savoir.

Des plateformes comme le Centre National de Ressources Textuelles et Lexicales (CNRTL), issues de la recherche publique, offrent un accès libre à des définitions riches, étymologies, synonymes et exemples, sans publicité ni pistage. Dans la même optique, nous utiliserons Wikidata, une base de connaissances sémantique libre et collaborative, pour interroger dynamiquement nos œuvres à partir de mots en entrée. De la même façon, les flux RSS permettent de collecter légalement et en temps réel des titres et résumés d'articles d'actualité issus de médias variés, sans dépendre d'algorithmes opaques ou de systèmes de monétisation intrusifs.

Ce type de ressource est essentiel pour bâtir des outils linguistiques, culturels ou éducatifs à destination du grand public.

Ce choix de l'open data est donc à la fois une nécessité technique (ne pas dépendre d'écosystèmes fermés comme Twitter, dont les API sont devenues depuis peu inaccessibles) et une opportunité méthodologique (simplicité d'utilisation des données et formats standards) et un engagement politique pour une culture des communs.

## Fiche lexicale

Nous utilisons pour base de la création de fichiers csv constituant notre fiche lexicale pour leurs définitions complètes, leurs multiples exemples et leurs simplicité d'interface sans publicité les sites
- [Centre National de Ressources Textuelles et Lexicales (CNRTL)](https://www.cnrtl.fr/definition/incandescent).
- [Wikitionary](https://fr.wiktionary.org/wiki/incandescent)

Nous créons un fichier python dédié à la génération d'une fiche lexicale nommé `fiche_lexicale.py`. Pour se faire, nous extrayons les données des deux sites cités précédemment pour obtenir une fiche lexicale complète.

Voici notre code de scraping, qui suit la même logique que la récupération des synonymes, en gardant en tête qu'un bon scraping ne se fait pas avant d'avoir étudié le code source de la page en profondeur et avant d'avoir effectué les tests sur plusieurs cas pour repérer les erreurs de scraping.

In [5]:
from bs4 import BeautifulSoup
import requests

#CNRTL
url = f"https://www.cnrtl.fr/definition/{mot}"
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

##### Définitions
definitions = []
for span in soup.find_all("span", class_="tlf_cdefinition"):
    definitions.append(span.text)
    
print("\nDéfinition :")
for d in definitions:
    print("-", d)

exporter_donnees_csv(
    {"mot": [mot] * len(definitions),
    "définition":definitions},
    "definitions.csv"
)

##### Étymologie
etymologies = []
for span in soup.find_all("span", class_="tlf_ety"):
    etymologies.append(span.text)
#print(etymologies)

exporter_donnees_csv(
    {"mot": [mot] * len(etymologies),
    "etymologie":etymologies},
    "etymologies.csv"
)


Définition :
- Situé du côté opposé à celui du cœur.
- À droite (infra II D 1).
- fais le bien avec discrétion :
- Qui concerne le côté droit du corps.
- Poing droit.
- Qui correspond au côté droit de l'observateur.
- Main droite.
- Poing droit (supra I A 4 a).
- Côté de la main droite.
- Emprunter le côté droit de la chaussée :
- Côté droit de l'hémicycle d'une assemblée parlementaire.
- L'ensemble des parlementaires qui y siègent; les idées, les partis (traditionnellement conservateurs ou réactionnaires) qu'ils représentent, l'opinion publique qui les soutient.
- Du côté de la main droite.
- Mouvement vers la droite.
- De tous côtés.


In [6]:
#Wikitionary
url = f"https://fr.wiktionary.org/wiki/{mot}"
r = requests.get(url)
soup = BeautifulSoup(r.text, "html.parser")

##### Citations
#modèle : <bdi lang="fr" class="lang-fr"><i>Le lendemain, ils ne se voyaient pas. Les couples restaient enfermés chez eux, à la diète, écœurés, abusant de cafés noirs et de cachets <b>effervescents</b>.</i></bdi>
citations = []
for bdi in soup.find_all("bdi", lang="fr", class_="lang-fr"):
    if bdi.get("about", "") != "#mwt10": #sinon prends des choses autres que des défintions dans la page
        try:
            citation = bdi.find("i").text
            #print(citation)
            citations.append(citation)
        except:pass #si pas de citations

print("\nCitations :")
for c in citations:
    print("-", c)

exporter_donnees_csv(
    {"mot": [mot] * len(citations),
    "citation":citations},
    "citations.csv"
)

##### Prononciation API
#modèle prononciation : <span class="API" title="Prononciation API">\e.fɛʁ.ve.sɑ̃\</span></a>

try:
    for span in soup.find("span", class_="API",title="Prononciation API"): #le premier est le français, les autres concernent les traductions
        #print(span)
        prononciation = span.text
except: #pour les mots qui n'existent pas
    prononciation=""
print("\nPrononciation : ", prononciation)

exporter_donnees_csv(
    {"mot": [mot],
    "prononciation":[prononciation]},
    "prononciation.csv"
)


Citations :
- À sa gauche et à sa droite, deux minuscules galeries dessinaient les bras de croix d’un petit transept.
- Nous envoyons les dragons en éclaireurs, mais rien à droite, rien à gauche, et, devant nous, à cinq cents mètres, la colline et la forêt.
- Céder la droite.
- Tenir la droite.
- Il se cala contre le rocher, tendit ses bras dans son dos, et commença à frotter la corde contre la pierre coupante. Le chanvre céda peu à peu, relâchant la pression qu’il exerçait sur ses veines. Puis ses mains s’écartèrent d’un coup, la droite allant heurter violemment la roche.
- Tais-toi avant que je te mette une droite !
- Il avait ramassé notamment deux droites assez violentes, un uppercut qui l'avait fait vaciller.
- J'dis pas que Louis était toujours très social, non, il avait l'esprit de droite. Quand tu parlais augmentation ou vacances, il sortait son flingue avant que t'aies fini.
- On diagnostiquera à juste titre ce que Besnier-Thomas nomment « une maladie de la volonté ». Mais ce

Le code entier se trouve dans le fichier `./fiche_lexicale.py`. Pour extraire la fiche lexicale d'un mot, il faut appeler le fonction `recup_fiche_lexicale()` du fichier qui prend pour seul argument le mot d'entrée.

## Dimension culturelle

Le but est d'obtenir la distribution du mot d'entrée dans les titres d'oeuvres d'art afin d'en observer la répartition au sein du monde artistique. Nous souhaitons ensuite en faire un camembert (diagramme en secteurs).

J'ai eu à travailler avec Wikidata au sein de mon entreprise dans le cadre de la fiabilisation d'une base de données interne. Naturellement l'idée d'obtenir des informations de titre d'oeuvres d'art de manière rapide et structurée ne pouvait pas se passer de Wikidata.
 
Voici une description de l'outil que nous allons utiliser :
 
> Wikidata est une base de connaissances libre, collaborative et multilingue créée par la Wikimedia Foundation. Elle centralise des données structurées sur une grande variété de sujets : personnes, œuvres d'art, lieux, concepts, événements, etc. Contrairement à Wikipédia, qui s'adresse aux humains sous forme d'articles encyclopédiques, Wikidata organise l'information de manière à être facilement lisible et interrogeable par des machines. Elle constitue une pierre angulaire du Web sémantique.

> Chaque élément dans Wikidata possède un identifiant unique (par exemple Q42 pour Douglas Adams) et est décrit à l'aide d'énoncés structurés : propriétés (P31 pour "instance de", P1476 pour "titre", etc.) et valeurs (autres entités ou chaînes de caractères). Ces données sont interconnectées, multilingues et peuvent être exploitées à grande échelle.

> Pour interroger Wikidata, on utilise le langage SPARQL (SPARQL Protocol and RDF Query Language), un langage standard conçu pour extraire des informations de bases de données RDF (Resource Description Framework). SPARQL fonctionne comme un équivalent de SQL pour les données du Web sémantique.

Voici un exemple de requête SPARQL similaire à notre objectif et trouvée dans la documentation de Wikidata. Cette requête permet de [trouver tous les artistes dont le genre artistique contient le mot 'rock'](https://query.wikidata.org/#%23Artistes%20dont%20le%20genre%20artistique%20contient%20le%20mot%20%27rock%27%0ASELECT%20DISTINCT%20%3Fhuman%20%3FhumanLabel%0AWHERE%0A%7B%0A%20%20%20%20VALUES%20%3Fprofessions%20%7Bwd%3AQ177220%20wd%3AQ639669%7D%0A%20%20%20%20%3Fhuman%20wdt%3AP31%20wd%3AQ5%20.%0A%20%20%20%20%3Fhuman%20wdt%3AP106%20%3Fprofessions%20.%0A%20%20%20%20%3Fhuman%20wdt%3AP136%20%3Fgenre%20.%0A%20%20%20%20%3Fhuman%20wikibase%3Astatements%20%3Fstatementcount%20.%0A%20%20%20%20%3Fgenre%20rdfs%3Alabel%20%3FgenreLabel%20.%0A%20%20%20%20FILTER%20CONTAINS%28%3FgenreLabel%2C%20%22rock%22%29%20.%0A%20%20%20%20FILTER%20%28%3Fstatementcount%20%3E%2050%20%29%20.%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22en%22%20%7D%0A%7D%0AORDER%20BY%20%3FhumanLabel%0ALIMIT%2050)

```sparql
#Artistes dont le genre artistique contient le mot 'rock'
SELECT DISTINCT ?human ?humanLabel
WHERE
{
    VALUES ?professions {wd:Q177220 wd:Q639669}
    ?human wdt:P31 wd:Q5 .
    ?human wdt:P106 ?professions .
    ?human wdt:P136 ?genre .
    ?human wikibase:statements ?statementcount .
    ?genre rdfs:label ?genreLabel .
    FILTER CONTAINS(?genreLabel, "rock") .
    FILTER (?statementcount > 50 ) .
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
}
ORDER BY ?humanLabel
LIMIT 50
```

Voici le site que j'utilise lors de mon travail en entreprise : [Wikidata Query Service](https://query.wikidata.org/). En effet Wididata met à disposition une interface simple en ligne permettant

- d'écrire des requêtes SPARQL (plusieurs requêtes d'exemple sont disponibles sur le site);
- de visualiser les données scraper dans une table et de faire des recherches de valeurs dedans;
- d'exporter les données en JSON ou CSV.

De plus, Wikidata propose un [tutoriel simple](https://www.wikidata.org/wiki/Wikidata:SPARQL_tutorial/fr) pour comprendre comment créer une requête pour obtenir les informations souhaitées grâce à la base de données Wikidata. Fait marrant, Wikidata commence son tutoriel par l'exemple d'une requête pour la recherche de toutes les oeuvres d'art pour expliquer un concept fondamental du schéma sujet - verbe - complément utilisé par la base de données Wikidata.

![Tutoriel Wikidata : Classes et Instances](docs/tutoriel_wikidata.png)

> Lorsque j'ai écrit ceci (octobre 2016), cette requête retournait 2615 résultats.

Le nombre d'éléments ayant pour classe ["oeuvre d'art"](https://www.wikidata.org/wiki/Q838948) répertorié est maintenant de 34 319 le 4 juin et 34 320 le 5 juin 2025 !

Cependant et comme spécifié dans le tutoriel, requêter les oeuvres d'art n'est pas suffisant. Il faut également considérer les classes qui héritent de l'élément "oeuvre d'art", qu'ils soient enfants, petits-enfants ou petits petits enfants de l'élement oeuvre d'art. 
> Lorsque j'ai écrit ceci (octobre 2016), cette requête retrouvait 2615 résultats - évidemment, il y a plus d'œuvres d'art que cela ! Le problème est qu'il manque des éléments comme "Autant en emporte le vent", qui est seulement une instance de "film" et non de "œuvre d'art". "film" est une sous-classe d'"œuvre d'art", mais nous devons dire à SPARQL de prendre cela en compte lors de la recherche.

La requête associée est la suivante :
```sparql
WHERE
{
  ?oeuvre wdt:P31/wdt:P279* wd:Q838948. # >* instance de n'importe quelle sous-classe d'une œuvre d'art : mais trop d'oeuvres -> la requête ne se termine pas
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE]". }
}
```

Mais cette requête pose problème. L'auteur de l'article exemple ecrit :
> Je ne recommande pas d'exécuter cette requête. WDQS peut la gérer (tout juste), mais il est possible que votre navigateur se plante lors de l'affichage des résultats car ils sont très nombreux.

C'est exactement ce qu'il se passe de notre côté.

![Limite du temps de requête atteinte](docs/wikidata_limite_temps_atteinte.png)


En utilisant les requêtes montrées pécedemment (artistes dont le groupe contient le mot "rock" et la récupération de tous éléments instances d'oeuvre d'art), nous avons été capables de produire la requête suivante. Nous avons du pour cela procéder à une analyse des éléments que nous souhaitions recupérer afin de créer la requête qui nous convient. Cette analyse est expliquée longuement après cette requête.

```sparql
SELECT ?typeLabel (COUNT(?oeuvre) AS ?nbr)
WHERE {
  VALUES ?type { wd:Q3305213 } #peinture, oeuvres littéraires, film, album musical /// wd:Q3305213 wd:Q7725634 wd:Q11424 wd:Q482994

  ?oeuvre wdt:P31 ?type. #instance de l'ensemble de classe selectionné ci-dessus

  ?oeuvre rdfs:label ?oeuvreLabel. #Nous obtenons l'ensemble des libellés de nos oeuvres dans ?oeuvreLabel,
  FILTER(LANG(?oeuvreLabel) = "fr"). #nous restreignons les libellés aux libéllés français
  FILTER(CONTAINS(LCASE(?oeuvreLabel), "nuit")). #...puis nous vérifions que les libéllés contiennent le mot en questions

  #?oeuvre wdt:P166 ?prix.  #uniquement les œuvres primées pour éviter un trop grand nombre de résultats

  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr". } #Nous créons les libéllés des variables

}
GROUP BY ?typeLabel
LIMIT 450
```

Voici le cheminement de pensée qui nous as améné à trouver la requête ci dessus :

Par exemple, je veux obtenir [_Le Livre de Sable_ de Jorge Luis Borges](https://www.wikidata.org/wiki/Q20761845) dans mes résultats lorsque je lance la requête avec le mot "sable", mais j'observe que chercher tous les éléments de Wikidata dont la classe est ou est sous-classe d'oeuvres d'art n'est pas suffisante.

Je prends donc la classe [**œuvre littéraire**](https://www.wikidata.org/wiki/Q7725634) à laquelle ce livre appartient et l'ajoute à la liste des classes pour laquelle je cherche des éléments.
Pour le mot "nuit", je souhaite obtenir _La nuit étoilée de Van Gogh_, [_Le Songe d'une nuit d'été de William Shakespeare_](https://www.wikidata.org/wiki/Q104871) et [_Voyage au bout de la nuit de Louis-Ferdinand Céline_](https://www.wikidata.org/wiki/Q105102304) dans le même résultat. Ces oeuvres qui ont des types d'oeuvres différents. J'observe que le premier est une instance de peinture qui elle-même est sous-classe d'oeuvre d'art. Notre requête réussira donc à récupérer cette oeuvre. Le deuxième est une instance d'oeuvre dramatique qui elle-même est sous-classe de d'[oeuvre littéraire](https://www.wikidata.org/wiki/Q7725634) qui n'est pas sous-classe d'[oeuvre](https://www.wikidata.org/wiki/Q386724) mais d'autres dérives : 

![Sous classe "oeuvre litteraire"](docs/wikidata_sous_classe_oeuvre_litteraire.png)

Nous ajoutons donc aux côtés de la classe _oeuvre_ la classe [oeuvre littéraire](https://www.wikidata.org/wiki/Q7725634) dans notre recherche d'éléments. Cette méthode permet de récupérer [_Voyage au bout de la nuit de Louis-Ferdinand Céline_](https://www.wikidata.org/wiki/Q105102304) qui est une instance d'oeuvre littéraire. 

Ensuite, nous constatons qu'il n'y a aucun [film](https://www.wikidata.org/wiki/Q11424) dans la répartition de nos données. Nous ajoutons donc la [classe film](https://www.wikidata.org/wiki/Q11424) dans notre recherche. Il en va de même pour oeuvres musicales : nous cherchons une musique dans Wikidata, nous observons à quelle classe cet élément appartient et nous l'ajoutons à l'ensemble des classes cibles. Cependant, il n'y a pas beaucoup de chansons répértoriées. Pas autant que les albums de musique. Nous optons donc de choisir la classe "album" musical plutôt qu'oeuvres musicales.

Ainsi, en inspectant nos données petit à petit, nous sommes capables de créer une requête équilibré et complète.

Durant les première tentatives de cette requête, nous nous attendions à voir _La nuit étoilée (Cyprès et Villages)_ de Van Gogh. Or nous ne trouvions pas le tableau dans la liste des résultats, élément qui nous a mis sur la piste que nous devions faire attention à la **sensibilité à la casse** et nous avons rectifons ce problème en remplaçant `sparql FILTER CONTAINS(?peintureLabel, "nuit").` par `sparql FILTER(CONTAINS(LCASE(?peintureLabel), "nuit")).`

Il ne reste plus qu'à voir si les résultats ne seront pas trop désequilibré d'un art à l'autre : on peut par exemple supposer que la littérature sera surreprésenté par rapport à la musique par exemple.

Nous passons donc par python. En effet, nous sommes capables grâce à la librairie requests d'obtenir les résultats d'une requête SPARQL sur Wikidata. Nous déléguons donc la requête au programme python puis nous récupérons le resultat dans un dictionnaire afin d'observer la répartition des classes d'éléments trouvés selon différents paramètres. En effet, beaucoup de combinaisons et de classes différents sont possibles (: récupération des eléménts de classe X, instance et sous-classe de X, sous-classe et sous-sous-classe de la classe Y,...).

- L'utilisation de python permet de rendre la requête modulable grâce à l'utilisation de f-string. Un f-string en Python est une manière simple de créer des chaînes de caractères qui incluent des variables ou des expressions en les plaçant entre accolades dans une chaîne préfixée par f. Par exemple, f"WHERE = {mot}!" insère la valeur de la variable mot directement dans la chaîne.

In [7]:
import requests
import pandas as pd

# Types d'œuvres : peinture, œuvre littéraire, film, album musical
types_oeuvres = {
    "peinture": "wd:Q3305213",
    "oeuvre_litteraire": "wd:Q7725634",
    "film": "wd:Q11424",
    "album_musical": "wd:Q482994"
}

def requete_sparql_par_type(mot, type_wikidata):
    """
    Recherche les titres d'œuvres contenant un mot via Wikidata (SPARQL).
    Retourne une liste de titres.
    """
    
    # Requête SPARQL : cherche des titres d'œuvres contenant le mot
    #Nous rendons notre requête la plus modulable possible grâce à l'ajout de f-string
    query = f"""
    SELECT ?typeLabel (COUNT(?oeuvre) AS ?nbr)
    WHERE {{
      VALUES ?type {{ {type_wikidata} }} #peinture, oeuvres littéraires, film, album musical /// wd:Q3305213 wd:Q7725634 wd:Q11424 wd:Q482994

      ?oeuvre wdt:P31 ?type. #instance de l'ensemble de classe selectionné ci-dessus
      
      ?oeuvre rdfs:label ?oeuvreLabel. #Nous obtenons l'ensemble des libellés de nos oeuvres dans ?oeuvreLabel,
      FILTER(LANG(?oeuvreLabel) = "fr"). #nous restreignons les libellés aux libéllés français
      FILTER(CONTAINS(LCASE(?oeuvreLabel), "{mot.lower()}")). #...puis nous vérifions que les libéllés contiennent le mot en questions
      
      #?oeuvre wdt:P166 ?prix.  #uniquement les œuvres primées pour éviter un trop grand nombre de résultats

      SERVICE wikibase:label {{ bd:serviceParam wikibase:language "fr". }} #Nous créons les libéllés des variables

    }}
    GROUP BY ?typeLabel
    LIMIT 450
    """
    #Un f-string est une manière simple de créer des chaînes de caractères qui incluent des variables ou des expressions en les plaçant entre accolades dans une chaîne préfixée par f.

    #envoie de la requête et récupération du résultat en json
    url = "https://query.wikidata.org/sparql"
    headers = {"Accept": "application/sparql-results+json"}
    response = requests.get(url, params={"query": query}, headers=headers)
    if response.status_code != 200:
        print(f"Erreur lors de la requête SPARQL : {response.status_code}")
        return False #Limit time exceeded
    return response.json()

#lancement de la requête pour chaque type
resultats = []
for label, qid in types_oeuvres.items():
    json_data = requete_sparql_par_type(mot, qid)
    if json_data: #False si pas de données trouvées
        bindings = json_data["results"]["bindings"]
        for res in bindings:
            nbr_type = {
                "type": res["typeLabel"]["value"],
                "nombre": int(res["nbr"]["value"])
            }
            resultats.append(nbr_type)

#et fusion des résultats dans un DataFrame
df_resultats = pd.DataFrame(resultats)
df_resultats.to_csv("data/repartition_types_oeuvres_art.csv")
df_resultats

Erreur lors de la requête SPARQL : 504


Unnamed: 0,type,nombre
0,peinture,86
1,œuvre littéraire,21
2,film,12


- L'utilisation de python et de la structure de données dictionnaire nous permet également de vérifier les résultats rapidement en effectuant la même opération : afficher la répartition des classes des éléments trouvés grâce à la requête. Lorsque nous ne récupérions pas uniquement le nombre d'éléments dans une catégorie avec le mot clé SQL `COUNT(), nous utilisions ce code python afin d'analyser nos résultats.


```python
donnees = rechercher_oeuvres_wikidata("nuit") #mot-test choisi = nuit

table_requete = donnees["results"]["bindings"]

#voici à quoi ressemble une observation de notre table résultat :
print(table_requete[0])

noms_oeuvres = []
#Observons la répartition du type d'oeuvre
repartition = {}
for item in table_requete:
    type_oeuvre = item["typeLabel"]["value"]
    repartition[type_oeuvre] = repartition.get(type_oeuvre, 0) + 1
    noms_oeuvres.append(item['oeuvreLabel']['value'])
    if 'http://www.wikidata.org/entity/' + item["oeuvre"]["value"] == "http://www.wikidata.org/entity/Q45585":
        print(item['oeuvreLabel']['value'])

print(repartition)
#print(repartition.items())
top_5 = dict(sorted(repartition.items(), key=lambda x: x[1], reverse=True)[0:5])
print(top_5)
#print(sorted(repartition.items(), key=lambda x: x[1], reverse=True))
print("Voyage au bout de la nuit" in noms_oeuvres)
print("La Nuit étoilée" in noms_oeuvres)
print("Le Songe d'une nuit d'été" in noms_oeuvres)
```

## Dimensions sociale

En commençant nos recherches, nous nous rendons compte que dans beaucoup de cas, le scraping n'est pas légal et l'utilisation d'API restreinte sur de nombreuses plateformes tels que Twitter. Avoir la possibilité de récupérer des données depuis [Reddit](https://www.reddit.com/dev/api/) serait déjà beaucoup.

Voilà notre modèle 
[Google Books Ngram Viewer](https://books.google.com/ngrams/graph?content=incandescent&year_start=1800&year_end=2022&corpus=fr&smoothing=3)
qui présente l'évolution dans le temps de l'usage d'un mot.

![Google Books Ngram Viewer : mot "incandescent"](docs/google_books_ngram_viewer_incandescent.png)
Nous souhaitons faire la même figure avec des réseaux sociaux.

## Données Reddit

Voici les étapes que nous avons suivi pour utiliser l'API de Reddit

- Créer une application : [Créer une application Reddit pour développeur](https://www.reddit.com/prefs/apps/)
- Créer un fichier .env qui contient :
```bash
CLIENT_ID={identifiant de l application}
CLIENT_SECRET={secret de l application}
USER_AGENT=script:{nom de l application}:v1.0 (by u/{nom du profil reddit})
```
Cela évitera à Git de versionner notre fichier .env dans GitHub et de dévoiler nos codes d'application
- installer la libraririe python
> PRAW, an acronym for "Python Reddit API Wrapper", is a Python package that allows for simple access to Reddit's API. PRAW aims to be easy to use and internally follows all of Reddit's API rules. 

In [8]:
%%capture
pip install praw

- [Page Github de la librarire PRAW](https://github.com/praw-dev/praw)
- [Documentation d'utilisation de l'API Reddit](https://praw.readthedocs.io/en/stable/code_overview/models/subreddit.html) 

![Reddit documentation : fonctionnement de la fonction search](docs/reddit_documentation_search.png)

L'utilisation de l'API Reddit fonctionne et est la méthode la plus efficace pour récupérer les tops posts contenant le mot d'entrée et l'exporter en csv

```python
import praw
import pandas as pd
import os
from dotenv import load_dotenv

load_dotenv()  # Charge les variables depuis .env

#https://www.reddit.com/prefs/apps/
reddit = praw.Reddit(
    client_id=os.getenv("CLIENT_ID"),
    client_secret=os.getenv("CLIENT_SECRET"),
    user_agent=os.getenv("USER_AGENT")
)

#documentation : https://praw.readthedocs.io/en/stable/code_overview/models/subreddit.html

#rechercher des posts Reddit contenant le mot
# mot = "créativité"
submissions = reddit.subreddit("all").search(mot, sort="hot", limit=100) #voir image documentation

#...et récupération des données dans un dataframe pandas
donnees = []
for post in submissions:
    donnees.append({
        "titre": post.title,
        "texte": post.selftext,
        "subreddit": post.subreddit.display_name,
        "score": post.score,
        "date": pd.to_datetime(post.created_utc, unit="s")
    })

df = pd.DataFrame(donnees)
df.to_csv(f"data/reddit_top_posts_avec_mot.csv")
```

(voir `reddit_via_api.py`, qui ne sera pas utilisé dans la génération du excel mais dispnible dans le repository github)

Cependant, nous préférons, et ce pour des raisons de simplicité d'usage, de reproductibilité et d'autonomie vis-à-vis des services propriétaires, opter pour une solution ne nécessitant aucun identifiant d'API. En effet, l'utilisation de l'API Reddit officielle fonctionne bien, mais implique la création d'une application, la gestion de clés secrètes, et parfois des limites de requêtes ou des erreurs d'authentification (403, 429).

Une alternative efficace consiste à utiliser un jeu de données librement accessible, tel que le fichier CSV hébergé sur GitHub : [reddit-top-2.5-million / france.csv](https://raw.githubusercontent.com/umbrae/reddit-top-2.5-million/master/data/france.csv). Ce fichier contient les publications les plus populaires du subreddit r/france, ce qui permet de mener les mêmes opérations d'analyse : recherche d'occurrence d'un mot, calcul de fréquence tout cela sans faire appel à une API ou à une authentification tierce.

Le compromis réside dans la restriction thématique et temporelle : nous limitons nos analyses au seul subreddit r/france et aux publications populaires entre 2008 et 2015, ce qui peut biaiser l'étude de phénomènes récents. Néanmoins, cette approche a l'avantage de fonctionner de manière rapide, stable, et entièrement en local.

Mais rien n'empêche d'ailleurs d'actualiser ce jeu de données : il est possible de créer soi-même un corpus Reddit via l'API ou de combiner plusieurs subreddits pertinents pour enrichir l'analyse. L'architecture du script est conçue pour rester modulaire, et permettre de remplacer facilement la source des données.

In [9]:
import pandas as pd

# URL du fichier CSV sur GitHub
url = "https://raw.githubusercontent.com/umbrae/reddit-top-2.5-million/master/data/france.csv"

# Lire le fichier CSV directement depuis l'URL
df = pd.read_csv(url)

df["annee"] = pd.to_datetime(df["created_utc"], unit="s", utc=True, errors='coerce').dt.year #conversion objet temps puis extraction de l'année

#suppression des colonnes inutiles
#df.columns
df = df[['created_utc', 'id', 'title', 'ups', 'downs', 'permalink', 'selftext', 'annee']]

df

Unnamed: 0,created_utc,id,title,ups,downs,permalink,selftext,annee
0,1.374528e+09,1iu8lq,France fuck ouais !,395,60,http://www.reddit.com/r/france/comments/1iu8lq...,,2013
1,1.345977e+09,yuk2o,Je ne peux pas m'empêcher...,347,80,http://www.reddit.com/r/france/comments/yuk2o/...,,2012
2,1.366299e+09,1clzj7,Une petite différence assez importante...,287,36,http://www.reddit.com/r/france/comments/1clzj7...,,2013
3,1.352949e+09,137wp4,Mon ami à New York,267,41,http://www.reddit.com/r/france/comments/137wp4...,,2012
4,1.360585e+09,18b02o,À table !,253,35,http://www.reddit.com/r/france/comments/18b02o...,,2013
...,...,...,...,...,...,...,...,...
995,1.357166e+09,15unaf,Public Cervix Announcement pour les redditrice...,26,4,http://www.reddit.com/r/france/comments/15unaf...,,2013
996,1.354720e+09,14bot3,L'hiver sera rude à l'UMP,38,14,http://www.reddit.com/r/france/comments/14bot3...,,2012
997,1.354651e+09,14a0oc,"""Le travail disparait, et c'est ce qu'on voula...",27,5,http://www.reddit.com/r/france/comments/14a0oc...,,2012
998,1.352474e+09,12wykz,Joseph Gordon Levitt qui chante du Brel,28,5,http://www.reddit.com/r/france/comments/12wykz...,,2012


In [10]:
#filtrer les lignes où 'selftext' ou 'title' contenant le mot
reddit_posts_avec_mot = df[
    df['selftext'].dropna().str.contains(mot.lower(), na=False) |
    df['title'].str.contains(mot.lower(), na=False)
] #rq : selftext contient des navalues qui empêchent le calcul si ces lignes ne sont pas exclus de la recherche sur le contenu des posts

reddit_posts_avec_mot

Unnamed: 0,created_utc,id,title,ups,downs,permalink,selftext,annee
110,1366224000.0,1cjslk,[Piqûre de rappel pour /r/France],92,9,http://www.reddit.com/r/france/comments/1cjslk...,"Chères grenouilles,\n\ndernièrement quelques v...",2013
117,1370253000.0,1fkmau,Témoignage : ma gynécomastie,103,22,http://www.reddit.com/r/france/comments/1fkmau...,Bonjour à tous.\n\nCeci est mon premier post s...,2013
146,1355826000.0,151op7,"Alors Gérard, t'as les boules?",98,26,http://www.reddit.com/r/france/comments/151op7...,(Je poste parce que j'ai eu du mal a trouver l...,2012
174,1364244000.0,1azuk8,C'est quoi le problème avec le mariage pour to...,83,19,http://www.reddit.com/r/france/comments/1azuk8...,D'abord je dois vous dire que je suis Québécoi...,2013
205,1349919000.0,11aafd,"Subreddits : lemonde, rue89 et lefigaro",69,10,http://www.reddit.com/r/france/comments/11aafd...,"Bonjour,\n\n\nsuite à une énième discussion su...",2012
306,1334575000.0,sc8f9,Easter Egg sur le site de François Bayrou,55,6,http://www.reddit.com/r/france/comments/sc8f9/...,* Allez sur [le site de François Bayrou](http:...,2012


In [11]:
#exportation csv
reddit_posts_avec_mot.to_csv(f"data/reddit_posts_avec_mot.csv")

voir `reddit.py` fonction `reddit_posts_avec_mot()` pour le code complet

### Twitter / X

L'API v2 de Twitter propose une recherche sur mots-clés. Cependant l'accès nécessite un compte développeur validé et l'accès complet est payant, bien qu'un accès académique peut être demandé pour de la recherche. Nous optons donc pour une option plus simple et ouverte ([cf partie Open Data](#Digression-:-l'Open-Data)), nous optons pour la récupération d'un jeu de données en ligne.
Voici le jeu de données avec lequel nous travaillons : [French Tweets For Sentiment Analysis - 1.5 million tweets in French and their sentiment - Kaggle](https://www.kaggle.com/datasets/hbaflast/french-twitter-sentiment-analysis)

Nous souhaitons obtenir de ce jeu de données les indicateurs suivants :
- Fréquence du mot dans les tweets et
- Score de popularité, dont le caclul se fera dans la sous-partie [Score de popularité](#Score-de-popularite) ci-dessous

Au moment du premier commit, nous nous rendons compte que nous ne pouvons pas travailler avec le dataset et le poster tel quel sur Github. En effet, **GitHub refuse tout fichier > 100 Mo** et déconseille les dépôts contenant plusieurs fichiers > 50 Mo. Une prémière opération consiste donc à créer une version diminuée du jeu de données de quelques Mo, passant de 1.5 millions de tweets à 50 000 tweets. Voici le code associé :

```python
import pandas as pd
from unidecode import unidecode

# Lire le fichier CSV
df = pd.read_csv('data/french_tweets.csv')

# renommer avec un nom de colonne plus clair
df.rename(columns={"text": "tweets"}, inplace=True)

# Sélectionner la colonne 'tweets' et prendre un echantillon de 50 000 tweets, choisi aléatoirement pour éviter les biais
tweets = df['tweets'].apply(unidecode).sample(50000)

# Convertir le texte en minuscules
tweets = tweets.str.lower()

# Exporter en CSV
tweets.to_csv('data/french_tweets_mini.csv', index=False)
```

Après observation du dataset, nous observons que beaucoup de personnes écrivent sans accent dans les tweets. Cela peut impacter la fréquence de mot et le score calculé selon la sensibilité à la casse ou le choix de l'encodage. Nous souhaitons donc normaliser (translittération) le mot en entrée et le texte des tweets également avec la librarie unidecode.

> Unidecode transliterates any unicode string into the closest possible representation in ascii text

En prenant en compte ce facteur, nous pouvons calculer nos indicateurs correctement.

In [12]:
pip install unicode

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [13]:
import pandas as pd
from unidecode import unidecode

df = pd.read_csv('data/french_tweets_mini.csv') #le fichier csv a été réduit à 50000 observations pour permettre le stockage sur Github
mot_normalise = unidecode(mot.lower()) #Les tweets du fichier csv ont subit les mêmes opérations (unicode + lower)

nbr_tweets = df.shape[0]
tweets_avec_mot = df[df["tweets"].str.contains(mot_normalise)] 

tweets_avec_mot.to_csv("data/tweets_avec_mot.csv")

### Score de popularite

Le calcul du score de popularité se calcule de la manière suivante pour Twitter :

Notre premier essai était la règle suivante : si le mot choisi apparaît autant de fois dans les tweets que le nombre de tweets de notre jeu de données, on considère qu'il mérite le score maximum et son score de popularité est alors de 100%. Ensuite, nous avons décidés de réechelonner car nous obtenions des scores trop faibles pour les mots les plus populaires tels que le mot "**je**". Puisqu'il est trop coûteux de calculer l'occurence maximale de chaque mot des nombreux tweets différents pour faire des règles relatives, nous décidons d'utiliser la règle suivante :

$$
\text{score de popularite}_{\text{Twitter}} = \left(\frac{\text{fréquence\_mot\_tweets}}{\frac{\text{nombre\_tweets}}{2}}\right) \times 100
$$

In [14]:
frequence_mot_tweets = tweets_avec_mot.shape[0]
#print(nbr_tweets, frequence_mot)

#Si le mot choisi apparaît autant de fois dans les tweets que la moitié du nombre de tweets de notre dataset, on considère qu'il mérite le score maximum et son score de popularité est de 100%.
score_popularite_twitter = (
    (frequence_mot_tweets/ (nbr_tweets/2) )
    *100
)

print(f"Popularité du mot '{mot}' : {round(score_popularite_twitter, 2)} %")
#exemple : Popularité du mot 'je' : 79.04 %

Popularité du mot 'droite' : 0.27 %


Plutôt que de nous contenter d’un simple taux d'apparition du mot (nombre de posts contenant le mot divisé par le nombre total de posts), nous avons opté pour une approche plus qualitative, fondée sur l’engagement réel des utilisateurs. Sur Reddit, chaque post peut recevoir des upvotes (votes positifs) ou des downvotes (votes négatifs), ce qui permet d’évaluer non seulement la fréquence du mot mais aussi la réception sociale des publications qui le mentionnent.

Nous avons donc défini un score de popularité comme le ratio entre le nombre total de upvotes et de downvotes sur l'ensemble des posts contenant le mot :

$$
\text{score de popularite}_{\text{Reddit}} = \frac{\sum \text{ups}}{\sum \text{downs}}
$$

Si le taux d'apparition brut (méthode utilisée pour les tweets) ne tient compte ni du contexte, ni de l'impact des publications, notre score basé sur les votes pondère chaque post selon sa réception par la communauté : un mot qui génère peu de publications mais fortement appréciées peut avoir un score élevé. Cela permet de détecter des mots **socialement valorisés**, et non simplement des mots fréquents ou neutres.

In [15]:
ups_sum = reddit_posts_avec_mot["ups"].sum()
downs_sum = reddit_posts_avec_mot["downs"].sum()

if downs_sum != 0: score_popularite_reddit = round(ups_sum / downs_sum, 2)
else: score_popularite_reddit = 0.00

Nos deux scores de popularité n'ont pas la même échelle. Puisque nous ne pouvons pas générer de jauge Excel comme nous le souhaitions dans notre schéma d'origine, nous utiliserons seulement un code couleur

### Exportation du score de popularité

La fonction `recherche_twitter()` du fichier python `twitter.py` permet ensuite d'exporter le dataframe de la manière suivante

In [16]:
from exportation_csv import exporter_donnees_csv

exporter_donnees_csv(
    {
        "mot":[mot],
        "score_de_popularite_twitter":[score_popularite_twitter],
        "score_de_popularite_reddit":[score_popularite_reddit]
    },
    "score_de_popularite.csv"
)

## Conclusion dimension sociale

Les top tweets et reddit posts enregistrés sous format csv plus haut nous seront utiles pour le verbatim, où nous afficherons des posts choisis au hasard parmi ces deux réseaux sociaux.

Voici comment nous appellerons obtiendrons ces données dans le code de notre interface web :

In [17]:
from twitter import recherche_twitter
recherche_twitter(mot)[0] #l'index 1 permet renvoie le nombre d'observations de dataframe original. Cette donnée est utile pour la fonction du score de popularité pour le calcul du score de popularité

Unnamed: 0,tweets
1782,"oh a droite, je n'avais pas l'indice d'espoir ..."
3152,melanie votre arrivee a la riviere a droite?
3342,pauvre doyen! ne semble pas trop bien la ... d...
3780,j'ai ete frappe sur mon velo. je traversais pa...
3801,"uh oh a l'air de minuit etait a droite encore,..."
...,...
46163,a le noir et le blues a sa main droite
49497,j'ai eu mes maillots de bain et mes disques fl...
49553,"oh a droite, j'allais au lit. bonne nuit a tous"
49640,"a droite ... allons-y ... un autre jour, encor..."


In [18]:
from reddit import posts_reddit_r_france
posts_reddit_r_france(mot)

Unnamed: 0,created_utc,id,title,ups,downs,permalink,selftext,annee
110,1366224000.0,1cjslk,[Piqûre de rappel pour /r/France],92,9,http://www.reddit.com/r/france/comments/1cjslk...,"Chères grenouilles,\n\ndernièrement quelques v...",2013
117,1370253000.0,1fkmau,Témoignage : ma gynécomastie,103,22,http://www.reddit.com/r/france/comments/1fkmau...,Bonjour à tous.\n\nCeci est mon premier post s...,2013
146,1355826000.0,151op7,"Alors Gérard, t'as les boules?",98,26,http://www.reddit.com/r/france/comments/151op7...,(Je poste parce que j'ai eu du mal a trouver l...,2012
174,1364244000.0,1azuk8,C'est quoi le problème avec le mariage pour to...,83,19,http://www.reddit.com/r/france/comments/1azuk8...,D'abord je dois vous dire que je suis Québécoi...,2013
205,1349919000.0,11aafd,"Subreddits : lemonde, rue89 et lefigaro",69,10,http://www.reddit.com/r/france/comments/11aafd...,"Bonjour,\n\n\nsuite à une énième discussion su...",2012
306,1334575000.0,sc8f9,Easter Egg sur le site de François Bayrou,55,6,http://www.reddit.com/r/france/comments/sc8f9/...,* Allez sur [le site de François Bayrou](http:...,2012


In [19]:
from score_de_popularite import calcul_score_de_popularite
calcul_score_de_popularite(mot)

Popularité du mot 'droite' sur Twitter : 0.27 %
Popularité du mot 'droite' sur Reddit : 5.43 %


## Dimension médiatique

Les flux RSS offrent une alternative libre et ouverte pour recueillir des contenus médiatiques, tout en respectant l’architecture publique des sites d’actualités. Ils sont particulièrement adaptés à une veille continue et structurée autour de mots-clés ou thématiques spécifiques.

Il est écrit sur Wikipedia :

> Un flux RSS est créé à partir d'une page Web statique ou d'une base de données convertie en fichier XML à l'aide d'un script approprié.

> Généralement, un flux RSS contient un titre (souvent celui d'un article), une description de l'article, et un lien vers le site concerné.

La portée temporelle d’un flux RSS est en général limitée aux derniers articles publiés, souvent entre 20 et 50 entrées selon le média. Cela signifie que les flux permettent d’interroger une actualité immédiate, plutôt qu’un historique profond. Ceci nous fait dire que notre dernier graphique n'est pas très pertinent parce que un mot en général n'apparaît pas souvent dans les articles du jour, même pour les sujets chauds.

Voici un [atlas des flux RSS français](https://atlasflux.saynete.net/atlas_des_flux_rss_fra_media.htm) dans lequel nous piochons. Les flux RSS possèdent tous la même structure. Il est donc simple de récupérer les informations souhaitées provenant de plusieurs sources différentes sans ne créer d'exceptions

In [20]:
%%capture
pip install feedparser

In [21]:
import feedparser
import pandas as pd

def filtrer_articles_rss(url_flux, mot):
    # Lecture du flux
    flux = feedparser.parse(url_flux)
    
    # Liste pour stocker les articles filtrés
    articles = []

    # Parcours des articles
    
    #Les flux RSS possèdent tous la même structure
    #Il est donc simple de récupérer les informations souhaitées provenant de plusieurs sources différentes sans ne créer d'exception
    for entree in flux.entries:
        #documentation W3C > The get() method returns the value of the item with the specified key + Optional : a value to return if the specified key does not exist.
        titre = entree.get("title", "")
        description = entree.get("description", "")
        if (mot.lower() in titre.lower()) or (mot.lower() in description.lower()):
            articles.append({
                "titre": titre,
                "date": entree.get("published", ""),
                "description": description,
                "lien": entree.get("link", "")
            })

    return pd.DataFrame(articles)

flux_list = [    
    #depuis la liste initiale
    "https://www.lemonde.fr/actualite-medias/rss_full.xml", #Le Monde #validé "france"
    "https://www.lemonde.fr/culture/rss_full.xml", #Le Monde 
    "https://www.liberation.fr/arc/outboundfeeds/rss/category/economie/medias/?outputType=xml", #Libération #validé "france"
    "https://www.lefigaro.fr/rss/figaro_medias.xml", #Le Figaro #validé "france"
    "https://bsky.app/profile/did:plc:2egpzsea27fru2vkrjgdw2ob/rss", #MediaPart
    #Le monde diplomatique
    "https://www.courrierinternational.com/feed/rubrique/ecrans/rss.xml", #Courrier international #validé "france"
    #Huffington Post
    #Canard Enchaîné
    "https://www.humanite.fr/sections/medias/feed", #L'humanité #validé "france"
    "https://www.nouvelobs.com/rss.xml",  #L'obs #validé "ukraine"

    #Autres
    "https://www.afp.com/fr/rss.xml", #AFP #validé "le"

    #Nous demandons ensuite à un LLM d'en générer le maximum sans ne regarder un par un la validité des liens
    # Culture, musique, littérature
    "https://actualitte.com/feed",                          # ActuaLitté (littérature)
    "https://www.lesinrocks.com/musique/feed/",             # Les Inrocks Musique
    "https://www.rollingstone.fr/feed/",                    # Rolling Stone France
    "https://www.telerama.fr/rss.xml",                      # Télérama
    "https://www.franceculture.fr/rss.xml",                 # France Culture

    # Sciences humaines et philo
    "https://www.philomag.com/rss.xml",                     # Philosophie Magazine
    "https://www.scienceshumaines.com/rss.xml",             # Sciences Humaines

    # Autres journaux généralistes
    "https://www.francetvinfo.fr/titres.rss",               # France Info
    "https://www.radiofrance.fr/podcasts",                  # Radio France
    "https://www.ouest-france.fr/rss-en-continu.xml",       # Ouest-France
    "https://www.sudouest.fr/rss.xml",                      # Sud-Ouest
    "https://www.ladepeche.fr/rss.xml",                     # La Dépêche
    "https://www.midilibre.fr/rss.xml",                     # Midi Libre
    "https://www.lavoixdunord.fr/rss.xml",                  # La Voix du Nord
    "https://www.nicematin.com/rss",                        # Nice Matin
    "https://www.20minutes.fr/rss/actu-france.xml",         # 20 Minutes
    "https://www.france24.com/fr/rss",                      # France 24

    # Médias alternatifs et indépendants
    "https://www.bastamag.net/spip.php?page=backend",       # Basta!
    "https://www.arretsurimages.net/rss/articles",          # Arrêt sur Images
    "https://www.acrimed.org/spip.php?page=backend",        # Acrimed

    # Médias francophones internationaux
    "https://ici.radio-canada.ca/rss/4159",                 # Radio-Canada
    "https://www.rfi.fr/fr/rss",                            # RFI
    "https://www.tv5monde.com/rss/actualites",              # TV5Monde

    # Humour et satire
    "https://www.legorafi.fr/feed/",                        # Le Gorafi

    # Podcasts (audio)
    "https://feeds.acast.com/public/shows/61e6d2548e88e00012e13d0d",  # Programme B (Binge)
    "https://rss.art19.com/le-code-a-change"              # Le code a changé (Slate)
    
]

df_total = pd.DataFrame()

for flux in flux_list:
    df_flux = filtrer_articles_rss(flux, mot)

    #fusion du df obtenu avec le df total (concaténation ligne par ligne)
    df_total = pd.concat([df_total, df_flux], ignore_index=True)

if not df_total.empty: #indexer une colonne qui n'existe pas provoque une erreur : nous vérifions donc que nous avons les colonnes initialisées
    df_total["annee"] = pd.to_datetime(df_total["date"], errors='coerce', utc=True).dt.year #conversion objet temps puis extraction de l'année

df_total.head()

Unnamed: 0,titre,date,description,lien,annee
0,L’hebdomadaire antisémite « Rivarol » au bord ...,"Fri, 13 Jun 2025 15:00:00 +0200",Titre historique de l’extrême droite d’après-g...,https://www.lemonde.fr/politique/article/2025/...,2025.0
1,"En Espagne, une constellation poreuse d’influe...","Thu, 12 Jun 2025 05:00:03 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
2,"Aux Pays-Bas, la chaîne ON ! est soutenue par ...","Wed, 11 Jun 2025 14:30:03 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
3,"En Pologne, une galaxie de médias ultraconserv...","Tue, 10 Jun 2025 16:30:08 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
4,"Louis Sarkozy, Napo baby","Tue, 13 May 2025 13:35:00 +0000","Admirateur de Napoléon, le fils de l’ancien pr...",https://www.liberation.fr/portraits/louis-sark...,2025.0


Nous souhaitons supprimer le formattage html grâce à bs4 pour la lisibilité et l'intégration au verbatim

In [22]:
from bs4 import BeautifulSoup

if not df_total.empty: #indexer une colonne qui n'existe pas provoque une erreur : nous vérifions donc que nous avons les colonnes initialisées
    avant_apres, textes_propres = [], []
    for description_html in df_total["description"].values:
        soup = BeautifulSoup(description_html, "html.parser")
        texte_propre = soup.text.strip()
        textes_propres.append(texte_propre)
        avant_apres.append((description_html, texte_propre))

Ce n'est pas parfait, mais c'est beaucoup mieux

In [23]:
import random

try:
    avant_apres_x = random.choice(avant_apres)
    print(avant_apres_x[0], '\n=\n', avant_apres_x[1])
except:
    print("aucun exemple disponible car pas d'articles trouvés")

<span class="field field--name-title field--type-string field--label-hidden">Qu’est-ce que le catholicisme social&nbsp;?</span>
<span class="field field--name-uid field--type-entity-reference field--label-hidden"><span>hschlegel</span></span>
<span class="field field--name-created field--type-created field--label-hidden"><time class="datetime" datetime="2025-06-15T12:00:00+02:00" title="Dimanche 15 juin 2025">dim 15/06/2025 - 12:00</time>
</span>


  <div class="inline__links"><nav class="links inline nav links-inline"><span class="node-readmore nav-link"><a href="https://www.philomag.com/articles/quest-ce-que-le-catholicisme-social" hreflang="fr" rel="tag" title="Qu’est-ce que le catholicisme social&nbsp;?">En savoir plus<span class="visually-hidden"> sur Qu’est-ce que le catholicisme social&nbsp;?</span></a></span></nav>
  </div>

            <div class="clearfix text-formatted field field--name-field-content field--type-text-long field--label-hidden field__item"><p class="p1"><stron

Exemple :
![Exemple](docs/flux_rss_formattage_bs4.png)

In [24]:
if not df_total.empty:
    df_total["description"] = textes_propres
    df_total.to_csv("data/actualite_avec_mot.csv", index=False)

df_total.head()

Unnamed: 0,titre,date,description,lien,annee
0,L’hebdomadaire antisémite « Rivarol » au bord ...,"Fri, 13 Jun 2025 15:00:00 +0200",Titre historique de l’extrême droite d’après-g...,https://www.lemonde.fr/politique/article/2025/...,2025.0
1,"En Espagne, une constellation poreuse d’influe...","Thu, 12 Jun 2025 05:00:03 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
2,"Aux Pays-Bas, la chaîne ON ! est soutenue par ...","Wed, 11 Jun 2025 14:30:03 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
3,"En Pologne, une galaxie de médias ultraconserv...","Tue, 10 Jun 2025 16:30:08 +0200",« L’essor des médias réactionnaires en Europe ...,https://www.lemonde.fr/economie/article/2025/0...,2025.0
4,"Louis Sarkozy, Napo baby","Tue, 13 May 2025 13:35:00 +0000","Admirateur de Napoléon, le fils de l’ancien pr...",https://www.liberation.fr/portraits/louis-sark...,2025.0


Le code total du flux rss doit être appelé de la manière suivante :
```python
from flux_rss import recup_articles
```

# Interface web via Streamlit

## Gestion du mot en entrée

Nous souhaitons passer par une web app grâce à [Streamlit](https://streamlit.io/) pour donner le choix du mot à l'utilisateur.

Nous souhaitons n'autoriser que des mots existants pour pouvoir générer la fiche lexicale ou chercher les synonymes associés au mot sans ne générer d'erreur car le mot n'existe pas. Pour se faire, nous utilisons [une liste des mots du dictionnaire français](https://github.com/drogbadvc/wiktionaire-fr/blob/main/dict.txt).

In [25]:
import requests
import random

url = 'https://raw.githubusercontent.com/drogbadvc/wiktionaire-fr/refs/heads/main/dict.txt'
response = requests.get(url)

if response.status_code == 200:
    dictionnaire = response.text
    print("Le mot ", mot, " se trouve t-il dans notre dictionnaire ? ", mot in dictionnaire)
    mot_hasard = random.choice(dictionnaire.splitlines())
    print("Mot au hasard pris dans le dictionnaire : ", mot_hasard)

Le mot  droite  se trouve t-il dans notre dictionnaire ?  True
Mot au hasard pris dans le dictionnaire :  lithologie


La normalisation se fait à des niveaux locaux comme [la recherche dans les tweets](#Twitter-/-X) ou le nom de titre d'oeuvres mais n'a pas été généralisée car l'application de la fonction lower() sur des millions d'observations est souvent longue et peu utile dans notre cas.

## Utilisation des modules python

Ensuite, nous regardons [ce simple tutoriel streamlit](https://www.youtube.com/watch?v=D0D4Pa22iG0) afin de réaliser une interface web minimale pour permettre de choisir le mot, afficher les données récupérées en ligne, faire les calculs, générer les fichiers csv et générer le fichier Excel final.

In [26]:
%%capture
pip install streamlit

```bash
python -m streamlit run main_interface_web.py
```

voir `main_interface_web.py`, fait office de programme principal dans notre projet car il appelle tous les programmes crées précedemment afin de créer le tableau de bord final. Il appelle également le fichier `main_excel.py` qui permet la génération du tableau de bord Excel.