In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!python3 -m spacy download fr_core_news_lg


Collecting fr-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_lg-3.8.0/fr_core_news_lg-3.8.0-py3-none-any.whl (571.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m571.8/571.8 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-lg
Successfully installed fr-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
import os
import json
import spacy
from tqdm import tqdm


nlp = spacy.load('fr_core_news_lg')

base_path = "/content/drive/MyDrive/Poemes/"
dic = {}

entites_par_auteur = {}
tokens_par_auteur = {}

for auteur in tqdm(os.listdir(base_path), desc="Auteurs", unit="auteur"):
    auteur_path = os.path.join(base_path, auteur)

    if os.path.isdir(auteur_path):
        entites_par_auteur[auteur] = 0
        tokens_par_auteur[auteur] = 0

        for poeme in tqdm(os.listdir(auteur_path), desc=f"Poèmes de {auteur}", unit="poème", leave=False):
            if poeme.endswith(".txt"):
                file_path = os.path.join(auteur_path, poeme)

                with open(file_path, "r", encoding="utf-8") as f:
                    contenu = f.read()

                doc = nlp(contenu)

                nb_tokens = len([token for token in doc if not token.is_space])
                nb_entites = len(doc.ents)

                tokens_par_auteur[auteur] += nb_tokens
                entites_par_auteur[auteur] += nb_entites

                dic[poeme] = {
                    "auteur": auteur,
                    "nombre de tokens": nb_tokens,
                    "nombre d'entités nommées": nb_entites,
                    "entités nommées": [{"texte": ent.text, "type": ent.label_} for ent in doc.ents],
                }

json_file_path = "/content/drive/MyDrive/resultat_lg_spacy.json"
with open(json_file_path, "w", encoding="utf-8") as json_file:
    json.dump(dic, json_file, ensure_ascii=False, indent=4)

print("\nNombre total de tokens par auteur :")
for auteur, nb_tokens in tokens_par_auteur.items():
    print(f"- {auteur}: {nb_tokens} tokens")

print("\nNombre total d'entités nommées par auteur :")
for auteur, nb_entites in entites_par_auteur.items():
    print(f"- {auteur}: {nb_entites} entités nommées")

total_tokens = sum(tokens_par_auteur.values())
total_entites = sum(entites_par_auteur.values())

print(f"\nNombre total de tokens dans tous les poèmes : {total_tokens}")
print(f"Nombre total d'entités nommées dans tous les poèmes : {total_entites}")

print(f"\nAnalyse terminée. Résultats enregistrés dans {json_file_path}.")

Auteurs:   0%|          | 0/10 [00:00<?, ?auteur/s]
Poèmes de Appolinaire:   0%|          | 0/1 [00:00<?, ?poème/s][A
Poèmes de Appolinaire: 100%|██████████| 1/1 [00:05<00:00,  5.60s/poème][A
Auteurs:  10%|█         | 1/10 [00:05<00:53,  5.97s/auteur]
Poèmes de Darbourville:   0%|          | 0/1 [00:00<?, ?poème/s][A
Poèmes de Darbourville: 100%|██████████| 1/1 [00:13<00:00, 13.05s/poème][A
Auteurs:  20%|██        | 2/10 [00:19<01:21, 10.14s/auteur]
Poèmes de Desbordes:   0%|          | 0/1 [00:00<?, ?poème/s][A
Poèmes de Desbordes: 100%|██████████| 1/1 [00:05<00:00,  5.66s/poème][A
Auteurs:  30%|███       | 3/10 [00:24<00:56,  8.10s/auteur]
Poèmes de Hugo:   0%|          | 0/1 [00:00<?, ?poème/s][A
Poèmes de Hugo: 100%|██████████| 1/1 [00:15<00:00, 15.48s/poème][A
Auteurs:  40%|████      | 4/10 [00:40<01:06, 11.02s/auteur]
Poèmes de Loiseau:   0%|          | 0/1 [00:00<?, ?poème/s][A
Poèmes de Loiseau: 100%|██████████| 1/1 [00:04<00:00,  4.43s/poème][A
Auteurs:  50%|█████   


Nombre total de tokens par auteur :
- Appolinaire: 16834 tokens
- Darbourville: 55910 tokens
- Desbordes: 31130 tokens
- Hugo: 66426 tokens
- Loiseau: 20742 tokens
- Noialles: 12901 tokens
- Rimbaud: 20809 tokens
- Sauvage: 20854 tokens
- Verlaine: 14257 tokens
- Vivien: 39110 tokens

Nombre total d'entités nommées par auteur :
- Appolinaire: 1171 entités nommées
- Darbourville: 2712 entités nommées
- Desbordes: 1936 entités nommées
- Hugo: 3746 entités nommées
- Loiseau: 1251 entités nommées
- Noialles: 874 entités nommées
- Rimbaud: 670 entités nommées
- Sauvage: 1353 entités nommées
- Verlaine: 1067 entités nommées
- Vivien: 3382 entités nommées

Nombre total de tokens dans tous les poèmes : 298973
Nombre total d'entités nommées dans tous les poèmes : 18162

Analyse terminée. Résultats enregistrés dans /content/drive/MyDrive/resultat_lg_spacy.json.
