In [None]:
polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 
                    'octobre', 'novembre', 'decembre', 'xbre', 'jour', 'jours', 'lundi', 'mardi', 'mercredi', 
                    'jeudi', 'vendredi', 'samedi', 'dimanche', 'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',                    
                    'mr', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de',
                    'crutz', 'batz', 'livres']

# Transcriptions diplomatiques

In [None]:
import glob
import json
import spacy

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_json/transcr_*.json')

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            entities = [(ent.label_, ent.text) for ent in doc.ents]
            print(entities)

### Entités qui apparaisent au moins trois fois

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser un dictionnaire pour stocker les entités et leur fréquence
entity_freq = {}

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            entities = [(ent.label_, ent.text) for ent in doc.ents]
            
            # Ajouter chaque entité au dictionnaire et incrémenter sa fréquence
            for entity in entities:
                if entity in entity_freq:
                    entity_freq[entity] += 1
                else:
                    entity_freq[entity] = 1

# Filtrer les entités pour ne conserver que celles qui apparaissent au moins trois fois
filtered_entities = [entity for entity, freq in entity_freq.items() if freq >= 3]

# Trier les entités filtrées par ordre alphabétique
filtered_entities.sort()

# Afficher les entités filtrées avec un retour à la ligne après chaque entité
for entity in filtered_entities:
    print(entity[1])

# Nettoyage des données

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer
import glob
import json
from re import findall
import spacy
from collections import Counter

In [None]:
# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/polier_json/transcr_*.json')

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            # Convertir le texte en minuscules
            text = document['transcription'].lower()
            document['transcription'] = text.replace("  ", " ")

    # Enregistrer le document avec les entités dans le fichier JSON
    with open(file, 'w') as f:
        json.dump(data, f, indent=4)


In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser un dictionnaire pour stocker les entités et leur fréquence
entity_freq = {}

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    try:
        with open(file, 'r') as f:
            data = json.load(f)
            for document in data:
                doc = nlp_fr(document['transcription'])
                entities = [(ent.label_, ent.text) for ent in doc.ents]

                # Ajouter chaque entité au dictionnaire et incrémenter sa fréquence
                for entity in entities:
                    if entity in entity_freq:
                        entity_freq[entity] += 1
                    else:
                        entity_freq[entity] = 1
    except json.JSONDecodeError as e:
        print(f"Erreur de décodage JSON dans le fichier {file}: {e}")
        continue

# Filtrer les entités pour ne conserver que celles qui apparaissent au moins deux fois
filtered_entities = [(entity, freq) for entity, freq in entity_freq.items() if freq >= 5]

# Trier les entités filtrées par ordre alphabétique
filtered_entities.sort()

# Afficher les entités filtrées avec leur fréquence, avec un retour à la ligne après chaque entité
for entity, freq in filtered_entities:
    print(f"{entity[1]} ({freq})")


# spaCy et entité nommées

## Analyse de fréquence des entités nommées

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer
import glob
import json
from re import findall
import spacy
from collections import Counter
import matplotlib.pyplot as plt
from collections import Counter

In [60]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_*.json')

# Initialiser un dictionnaire pour stocker les entités et leur fréquence
entity_freq = {}

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            for ent in doc.ents:
                if ent.text not in entity_freq:
                    entity_freq[ent.text] = 1
                else:
                    entity_freq[ent.text] += 1

# Afficher les 50 entités les plus fréquentes
sorted_entities = sorted(entity_freq.items(), key=lambda x: x[1], reverse=True)[:150]
for entity, freq in sorted_entities:
    print(entity, freq)


mr 14919
lausanne 4288
ete 2471
fl 2294
pr 2239
vernand 1632
mr le bailli 1546
crutz 1504
meme 1364
paris 1279
louis 1256
lutry 1124
st 1044
bise 1034
temoin 905
geneve 887
supreme 733
francois 705
mrs 700
tavel 670
mde 668
la haye 566
france 538
bottens 514
batz 508
morges 462
vour 440
messel 440
hollande 415
londres 389
dito 386
vevey 366
rosset 363
crousaz 362
soleil 362
lavanchy 332
polier 314
vullyamoz 312
baud 304
ler 293
pully 287
mr de vernand 284
blanchard 269
ven 267
pre 264
ent 260
suisse 259
chateau 253
bonte 251
tissot 249
iseli 245
blondel 240
crissier 234
mr de tavel 233
saphorin 227
cassat 224
moitie 220
mle 219
chapuis 213
moudon 213
besson 213
tete 212
belmont 209
jean 208
berne 203
ue 188
bergier 184
jeanne 183
marie 182
pl 180
martin 179
mlle 179
alle 179
girouette 178
aupres 177
ecrit 177
ave 176
francillon 176
illegitime 173
echus 173
beaud 170
ter 170
secretan 169
bl 164
barbaz 163
angleterre 163
ecu 162
ilne 161
vi 158
chavannes 157
curtat 157
gratif 155
tou 154

In [57]:
# Initialiser des listes vides pour stocker les entités nommées de chaque catégorie
personnes = []
lieux = []
miscellaneous_entities = []
organisation = []

# Créer une liste d'arrêts en français
french_stopwords = ["le", "la" ,'l', "les", "de", "du", "des", "un", "une", "et", "ou", "car", "par", "pour", "avec", "sur", "meme"]

# Ajouter des mots spécifiques à la variable 'polier'
polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 
                    'octobre', 'novembre', 'decembre', 'xbre', 'jour', 'jours', 'lundi', 'mardi', 'mercredi', 
                    'jeudi', 'vendredi', 'samedi', 'dimanche', 'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',                    
                    'mr', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle',                     
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',                    
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',                    
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',                    
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',                    
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',                    
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla', 'doi', 'coe', 
                    'cre', 'ill', 'abe', 'det', 'detre', 'naz', 'ony', 'ili', 'ant', 'hor', 'ate', 'lce', 'vou', 'gif',
                    'pr 2', 'qul', 's1', 'nt', 'dune', 'exa', 'oin', 'cele', 'boi', 'nr', 'cop', 'oit', 'pa', 'voi', 'noe',
                    'oin', 'mons', 'rof', 'pout', 'memes', 'ts', 'aui', 'fle', 'uit', 'porle', 'mlr', 'ell', 'pr mr', 'ede', 
                    'nle', 'mit', 'ons', 'cer', 'm4', 'damse', 'v1', 'vo', 'ms', 'ani', 'm1', 'faie', 'els', 'aru',
                    'ecus', 'ecu', 'batz', 'livres', 'louis']

per_stopwords = ['bise', 'ecrit', 'expedier', 'accouchee', 'bise tres', 'lutry', 'st', 'gratif', 'bise', 'bonte', 'saphorin', 'francois']

loc_stopwords = ['fl', 'crutz', 'bise', 'tavel', 'batz', 'messel', 'vour', 'dito', 'crousaz', 'lavanchy', 'bergier', 'ecrire', 'viret', 
                 'gelee', 'fl', 'temoin', 'tete', 'alle', 'dela', 'temoin', 'tete', 'ille', 'secretan', 'st', 'soleil', 
                 'veau', 'fiaux', 'girouette', 'repondre', 'solvit', 'aumone', 'surete', 'mons', 'yon', 'fievre', 'freron', 'conge']

org_stopwords = ['ete', 'ter', 'pre', 'cassat', 'cordey', '& &', 'etiez', 'int', 'arive', 'faie']

misc_stopwords = ['iseli', 'hertig', 'cassat', 'moudon', 'tolozan', 'etablit', 'courlat', 'abert', 'vullyamoz', 'porchet', 'fl']


# Concaténer les deux listes pour créer la liste complète des mots à supprimer
stopwords = french_stopwords + polier_stopwords


# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_*.json')

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            for ent in doc.ents:
                # Ajouter l'entité nommée à la liste appropriée en fonction de sa catégorie
                if ent.label_ == 'PER' and (ent.text.lower() not in stopwords) and (ent.text.lower() not in per_stopwords):
                    personnes.append(ent.text)
                elif ent.label_ == 'LOC' and (ent.text.lower() not in stopwords) and (ent.text.lower() not in loc_stopwords):
                    lieux.append(ent.text)
                elif ent.label_ == 'MISC' and (ent.text.lower() not in stopwords) and (ent.text.lower() not in misc_stopwords):
                    miscellaneous_entities.append(ent.text)
                elif ent.label_ == 'ORG' and (ent.text.lower() not in stopwords) and (ent.text.lower() not in org_stopwords):
                    organisation.append(ent.text)

# Afficher les 10 entités nommées les plus fréquentes dans chaque catégorie
print('Entités nommées les plus fréquentes:\n')
print('\nPersonnes:\n', "\n".join([f"{entity}: {count}" for entity, count in Counter(personnes).most_common(20)]))
print('\nLieux:\n', "\n".join([f"{entity}: {count}" for entity, count in Counter(lieux).most_common(20)]))
print('\nOrganisation:\n', "\n".join([f"{entity}: {count}" for entity, count in Counter(organisation).most_common(20)]))
print('\nDivers:\n', "\n".join([f"{entity}: {count}" for entity, count in Counter(miscellaneous_entities).most_common(20)]))

print('\n')

Entités nommées les plus fréquentes:


Personnes:
 mr le bailli: 1546
temoin: 702
supreme: 621
rosset: 315
vullyamoz: 284
mr de vernand: 284
polier: 270
blanchard: 266
baud: 255
tissot: 246
blondel: 240
mr de tavel: 233
besson: 212
chapuis: 199
jean: 185
jeanne: 183
marie: 178
francillon: 176
beaud: 170
martin: 166

Lieux:
 lausanne: 4288
vernand: 1618
paris: 1279
geneve: 887
la haye: 546
france: 535
bottens: 508
morges: 447
hollande: 412
londres: 389
vevey: 365
pully: 287
suisse: 259
chateau: 252
crissier: 224
belmont: 169
angleterre: 162
berne: 150
vaud: 149
neuchatel: 141

Organisation:
 crutz: 265
echus: 150
baillive: 122
marechaussee: 66
platel: 62
supreme: 50
legitime: 40
benefice: 34
extreme: 34
chambre: 30
present: 29
dupuis: 28
gratification: 28
domiciliee: 28
la poste: 27
deja: 27
servagnin: 26
lausanne &: 23
batz &: 22
tt: 22

Divers:
 michoud: 97
reserve: 77
ble: 73
delit: 68
idees: 60
pre: 51
supreme: 43
bugnion: 40
mezery: 38
preter serment: 36
fermete: 34
repete: 34
sure

# TextBlob

TextBlob peut identifier les sentiments suivants :

La polarité du sentiment, qui indique si le texte est plutôt positif, négatif ou neutre. La polarité est une valeur comprise entre -1 (très négatif) et 1 (très positif).

La subjectivité du texte, qui mesure dans quelle mesure le texte est objectif ou subjectif. La subjectivité est une valeur comprise entre 0 (très objectif) et 1 (très subjectif).

Par exemple, si la polarité est de 0.5, cela signifie que le texte est plutôt positif, tandis qu'une polarité de -0.5 indique que le texte est plutôt négatif. De même, une subjectivité de 0.2 signifie que le texte est plutôt objectif, tandis qu'une subjectivité de 0.8 indique que le texte est plutôt subjectif.


En termes généraux, "polarisé" se réfère à une forte tendance ou orientation vers un point de vue, tandis que "subjectif" se réfère à quelque chose qui est influencé par les opinions personnelles ou les sentiments d'un individu.

Dans le contexte de ce code, "les entités les plus polarisées" font référence aux entités qui ont les sentiments les plus positifs ou négatifs, c'est-à-dire les entités pour lesquelles le sentiment moyen est le plus éloigné de 0.

"Les entités les plus subjectives", quant à elles, se réfèrent aux entités pour lesquelles les sentiments varient le plus, c'est-à-dire celles pour lesquelles il y a une grande variation dans les opinions personnelles ou les sentiments exprimés dans les transcriptions. En d'autres termes, ces entités ont tendance à susciter des réactions fortes ou contrastées chez les auditeurs ou les transcripteurs, ce qui se traduit par une grande variation dans les sentiments exprimés à leur égard.

In [None]:
from textblob import TextBlob

## Polarité

#### Personnes

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ["le", "la" ,'l', "les", "de", "du", "des", "un", "une", "et", "ou", "car", "par", "pour", "avec", "sur", "meme"]

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 
                    'octobre', 'novembre', 'decembre', 'xbre', 'jour', 'jours', 'lundi', 'mardi', 'mercredi', 
                    'jeudi', 'vendredi', 'samedi', 'dimanche', 'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',                    
                    'mr', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle',                     
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',                    
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',                    
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',                    
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',                    
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',                    
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla', 'doi', 'coe', 
                    'cre', 'ill', 'abe', 'det', 'detre', 'naz', 'ony', 'ili', 'ant', 'hor', 'ate', 'lce', 'vou', 'gif',
                    'pr 2', 'qul', 's1', 'nt', 'dune', 'exa', 'oin', 'cele', 'boi', 'nr', 'cop', 'oit', 'pa', 'voi', 'noe',
                    'oin', 'mons', 'rof', 'pout', 'memes', 'ts', 'aui', 'fle', 'uit', 'porle', 'mlr', 'ell', 'pr mr', 'ede', 
                    'nle', 'mit', 'ons', 'cer', 'm4', 'damse', 'v1', 'vo', 'ms', 'ani', 'm1', 'faie', 'els', 'aru']

per_stopwords = ['bise', 'ecrit', 'expedier', 'accouchee', 'bise tres', 'lutry', 'st', 'gratif', 'bise', 'bonte', 'saphorin',
                 'mton', 'blig', 'as mr', 'michel 1778', 'ausset', 'mandoit', 'noisset']

stopwords = stop_words + per_stopwords + polier_stopwords

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les polarités par entité nommée
entity_frequencies = {}
entity_polarities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les polarités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'PER': 
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_polarities[entity] = 0
                    if entity in entity_frequencies:
                        entity_frequencies[entity] += 1
                        entity_polarities[entity] += blob.sentiment.polarity


# Calculer la moyenne des polarités pour chaque entité nommée avec au moins 5 occurrences
entity_polarities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_polarities_avg[entity] = entity_polarities[entity] / frequency


# Récupérer les entités avec leur moyenne de polarité triées par ordre décroissant
sorted_entities = sorted(entity_polarities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus polarisées
print("Les entités de personnes les plus polarisées :")
for entity, polarity in sorted_entities[:10]:
    print(entity, polarity)
    
print('\n')  

# Imprimer les 10 entités les moins polarisées
print("Les entités de personnes les moins polarisées :")
for entity, polarity in sorted_entities[-10:]:
    print(entity, polarity)

#### Lieux

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'mr', 'mrs', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle', 
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla']

loc_stopwords = ['fl', 'crutz', 'bise', 'tavel', 'batz', 'messel', 'vour', 'dito', 'crousaz', 'lavanchy', 'bergier', 'ecrire', 'viret', 
                 'gelee', 'fl', 'temoin', 'tete', 'alle', 'dela', 'temoin', 'tete', 'ille', 'secretan', 'st', 'soleil']

stopwords = stop_words + loc_stopwords + polier_stopwords

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les polarités par entité nommée
entity_frequencies = {}
entity_polarities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les polarités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'LOC': 
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_polarities[entity] = 0
                    if entity in entity_frequencies:  # vérifier si l'entité existe déjà dans le dictionnaire
                        entity_frequencies[entity] += 1  # incrémenter la fréquence de l'entité d'une unité
                        entity_polarities[entity] += blob.sentiment.polarity

# Calculer la moyenne des polarités pour chaque entité nommée avec au moins 5 occurrences
entity_polarities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_polarities_avg[entity] = entity_polarities[entity] / frequency


# Récupérer les entités avec leur moyenne de polarité triées par ordre décroissant
sorted_entities = sorted(entity_polarities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus polarisées
print("Les entités de lieux les plus polarisées :")
for entity, polarity in sorted_entities[:10]:
    print(entity, polarity)
    
print('\n')  

# Imprimer les 10 entités les moins polarisées
print("Les entités de lieux les moins polarisées :")
for entity, polarity in sorted_entities[-10:]:
    print(entity, polarity)


#### organisation

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

org_stopwords = ['ete', 'ter', 'pre', 'cassat', 'cordey']

stopwords = stop_words + org_stopwords

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les polarités par entité nommée
entity_frequencies = {}
entity_polarities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les polarités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'ORG': 
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_polarities[entity] = 0
                    if entity in entity_frequencies:  # vérifier si l'entité existe déjà dans le dictionnaire
                        entity_frequencies[entity] += 1  # incrémenter la fréquence de l'entité d'une unité
                        entity_polarities[entity] += blob.sentiment.polarity


# Calculer la moyenne des polarités pour chaque entité nommée avec au moins 5 occurrences
entity_polarities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_polarities_avg[entity] = entity_polarities[entity] / frequency


# Récupérer les entités avec leur moyenne de polarité triées par ordre décroissant
sorted_entities = sorted(entity_polarities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus polarisées
print("Les entités d'organisations les plus polarisées :")
for entity, polarity in sorted_entities[:10]:
    print(entity, polarity)
    
print('\n')  

# Imprimer les 10 entités les moins polarisées
print("Les entités d'organisations les moins polarisées :")
for entity, polarity in sorted_entities[-10:]:
    print(entity, polarity)

#### divers

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

misc_stopwords = ['iseli', 'hertig', 'cassat', 'moudon', 'tolozan', 'etablit', 'courlat', 'abert', 'vullyamoz', 'porchet']

stopwords = stop_words + misc_stopwords

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les polarités par entité nommée
entity_frequencies = {}
entity_polarities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les polarités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'MISC': 
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_polarities[entity] = 0
                    if entity in entity_frequencies:  # vérifier si l'entité existe déjà dans le dictionnaire
                        entity_frequencies[entity] += 1  # incrémenter la fréquence de l'entité d'une unité
                        entity_polarities[entity] += blob.sentiment.polarity


# Calculer la moyenne des polarités pour chaque entité nommée avec au moins 5 occurrences
entity_polarities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_polarities_avg[entity] = entity_polarities[entity] / frequency


# Récupérer les entités avec leur moyenne de polarité triées par ordre décroissant
sorted_entities = sorted(entity_polarities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus polarisées
print("Les entités diverses les plus polarisées :")
for entity, polarity in sorted_entities[:10]:
    print(entity, polarity)
    
print('\n')  

# Imprimer les 10 entités les moins polarisées
print("Les entités diverses les moins polarisées :")
for entity, polarity in sorted_entities[-10:]:
    print(entity, polarity)

## Subjectivité

#### personnes

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'mr', 'mrs', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle', 
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla']

per_stopwords = ['bise', 'ecrit', 'expedier', 'accouchee', 'bise tres', 'lutry', 'st', 'gratif', 'bise', 'bonte', 'saphorin']

stopwords = stop_words + per_stopwords + polier_stopwords


# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les subjectivités par entité nommée
entity_frequencies = {}
entity_subjectivities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les subjectivités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'PER':
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_subjectivities[entity] = 0
                    entity_frequencies[entity] += 1
                    entity_subjectivities[entity] += blob.sentiment.subjectivity

# Calculer la moyenne des subjectivités pour chaque entité nommée avec au moins 5 occurrences
entity_subjectivities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_subjectivities_avg[entity] = entity_subjectivities[entity] / frequency

# Récupérer les entités avec leur moyenne de subjectivité triées par ordre décroissant
sorted_entities = sorted(entity_subjectivities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus subjectives
print("Les entités de personnes les plus subjectives :")
for entity, subjectivity in sorted_entities[:10]:
    print(entity, subjectivity)

print('\n')  

# Imprimer les 10 entités les moins subjectives
print("Les entités de personnes les moins subjectives :")
for entity, subjectivity in sorted_entities[-10:]:
    print(entity, subjectivity)

#### Lieux

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'mr', 'mrs', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle', 
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla']

loc_stopwords = ['fl', 'crutz', 'bise', 'tavel', 'batz', 'messel', 'vour', 'dito', 'crousaz', 'lavanchy', 'bergier', 'ecrire', 'viret', 
                 'gelee', 'fl', 'temoin', 'tete', 'alle', 'dela', 'temoin', 'tete', 'ille', 'secretan', 'st', 'soleil']

stopwords = stop_words + loc_stopwords + polier_stopwords


# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les subjectivités par entité nommée
entity_frequencies = {}
entity_subjectivities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les subjectivités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'LOC':
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_subjectivities[entity] = 0
                    entity_frequencies[entity] += 1
                    entity_subjectivities[entity] += blob.sentiment.subjectivity

# Calculer la moyenne des subjectivités pour chaque entité nommée avec au moins 5 occurrences
entity_subjectivities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_subjectivities_avg[entity] = entity_subjectivities[entity] / frequency

# Récupérer les entités avec leur moyenne de subjectivité triées par ordre décroissant
sorted_entities = sorted(entity_subjectivities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus subjectives
print("Les entités de lieux les plus subjectives :")
for entity, subjectivity in sorted_entities[:10]:
    print(entity, subjectivity)

print('\n')  

# Imprimer les 10 entités les moins subjectives
print("Les entités de lieux les moins subjectives :")
for entity, subjectivity in sorted_entities[-10:]:
    print(entity, subjectivity)

#### organisations

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'mr', 'mrs', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle', 
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla']

org_stopwords = ['ete', 'ter', 'pre', 'cassat', 'cordey']

stopwords = stop_words + org_stopwords + polier_stopwords


# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les subjectivités par entité nommée
entity_frequencies = {}
entity_subjectivities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les subjectivités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'ORG':
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_subjectivities[entity] = 0
                    entity_frequencies[entity] += 1
                    entity_subjectivities[entity] += blob.sentiment.subjectivity

# Calculer la moyenne des subjectivités pour chaque entité nommée avec au moins 5 occurrences
entity_subjectivities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_subjectivities_avg[entity] = entity_subjectivities[entity] / frequency

# Récupérer les entités avec leur moyenne de subjectivité triées par ordre décroissant
sorted_entities = sorted(entity_subjectivities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus subjectives
print("Les entités de lieux les plus subjectives :")
for entity, subjectivity in sorted_entities[:10]:
    print(entity, subjectivity)

print('\n')  

# Imprimer les 10 entités les moins subjectives
print("Les entités de lieux les moins subjectives :")
for entity, subjectivity in sorted_entities[-10:]:
    print(entity, subjectivity)

#### divers

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Liste de stop words
stop_words = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'à', 'en', 'pour']

polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'mr', 'mrs', 'mrs', 'mde', 'mle', 'mlle', 'monsieur', 'mr de', 'lle', 
                    'pr', 'ent' ,'ue', 'aver', 'ume', 'quil', 'j.', 'ler', 'trei', 'moitie', 'alle', 'aupres', 'dela', 'l.',
                    'ave', 'pl', 'vi', 'pes', 'ls', 'gen', 'ilne', 'sen', 'ine', 'cen', 'ter', 'bl', 'por',
                    'rep', 'iel', 'aue', 'ac', 'sl', 'sr', 'oue', 'lod', 'jer', 'vez', 'avc', "il'", 'lan',
                    'sep', 'mos', 'pri', 'ds', 'sun', 'lan', 'pai', 'tl', 'gre', 'dre', 'pt', 'oir', 'sup',
                    'apras', 'ps', 'vl', 'sgn', 'chz', 'bt', 'tou', 'lour', 'rom', 'sonr', 'ca', 'mad', 'ux', 'mout',
                    'jur', 'sg', 'avi', 'lel', 'dat', 'oue', 'ace', 'gl', 'voux', 'ort', 'ther', 'quime', 'coy', 'mo',
                    'cla', 'dev', 'ily', '& mr', 'pui', 'men', 'mid', 'jou', 'mame', 'doit', 'mo', 'cla']

misc_stopwords = ['iseli', 'hertig', 'cassat', 'moudon', 'tolozan', 'etablit', 'courlat', 'abert', 'vullyamoz', 'porchet']

stopwords = stop_words + org_stopwords + polier_stopwords


# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/polier_data/transcr_*.json')

# Initialiser des dictionnaires pour stocker les fréquences des entités nommées et les subjectivités par entité nommée
entity_frequencies = {}
entity_subjectivities = {}

# Boucler sur chaque fichier et extraire les entités nommées et les subjectivités de chaque document pour analyse avec Spacy et TextBlob
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            blob = TextBlob(document['transcription'])
            for ent in doc.ents:
                if ent.label_ == 'MISC':
                    entity = ent.text.lower()
                    if entity not in entity_frequencies and entity not in stopwords:
                        entity_frequencies[entity] = 0
                        entity_subjectivities[entity] = 0
                    entity_frequencies[entity] += 1
                    entity_subjectivities[entity] += blob.sentiment.subjectivity

# Calculer la moyenne des subjectivités pour chaque entité nommée avec au moins 5 occurrences
entity_subjectivities_avg = {}
for entity, frequency in entity_frequencies.items():
    if frequency >= 5:
        entity_subjectivities_avg[entity] = entity_subjectivities[entity] / frequency

# Récupérer les entités avec leur moyenne de subjectivité triées par ordre décroissant
sorted_entities = sorted(entity_subjectivities_avg.items(), key=lambda x: x[1], reverse=True)

# Imprimer les 10 entités les plus subjectives
print("Les entités diverses les plus subjectives :")
for entity, subjectivity in sorted_entities[:10]:
    print(entity, subjectivity)

print('\n')  

# Imprimer les 10 entités les moins subjectives
print("Les entités diverses les moins subjectives :")
for entity, subjectivity in sorted_entities[-10:]:
    print(entity, subjectivity)

# LDA  

Le code 2.2. sélectionne les 20 mots les plus fréquents dans l'ensemble des documents, puis utilise ces mots pour créer la matrice termes-document.

Le deuxième code LDA est un algorithme LDA amélioré qui utilise une méthode de régularisation pour améliorer la précision de la modélisation des thèmes. Cette méthode de régularisation consiste à ajouter une pénalité pour les paramètres qui varient trop par rapport à leur valeur moyenne. Cela permet de réduire le surajustement et d'améliorer la capacité de généralisation du modèle.

Dans le code 2.2., seuls les mots qui apparaissent au moins trois fois dans les documents et qui ne sont pas dans les 20 mots les plus fréquents sont sélectionnés pour la modélisation LDA. Cette étape de sélection permet de réduire la dimensionnalité de la représentation vectorielle des documents, ce qui peut améliorer les performances de la modélisation LDA. 

En outre, le deuxième code utilise des vecteurs one-hot pour représenter chaque document, tandis que le premier code (2.1.) utilise des vecteurs de fréquence de termes (TF). Les vecteurs one-hot sont utiles pour des modèles d'apprentissage automatique comme LDA qui n'ont pas besoin de la fréquence des termes, mais seulement de leur présence ou de leur absence dans un document.

In [3]:
import spacy
import glob
import json
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [73]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_*.json')

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
documents, tokens = [], []

for i, file in enumerate(files):
    print(f"Traitement du fichier {i+1}/{len(files)}: {file}")
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            words = [token.lemma_ for token in doc if not token.is_stop and token.is_alpha and len(token.lemma_) > 2]
            tokens += words
            documents.append(words)

# Créer une liste d'arrêts en français
french_stopwords = ["le", "la" ,'l', "les", "de", "du", "des", "un", "une", "et", "ou", "car", "par", "pour", "avec", "sur", "meme"]

# Ajouter des mots spécifiques à la variable 'polier'
polier_stopwords = ['mois', 'janvier', 'fevrier', 'mars', 'avril', 'mai', 'juin', 'juillet', 'aout', 'septembre', 'octobre', 'novembre', 'decembre', 'xbre',
                    'jour', 'jours', 'lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche',
                    'lun', 'mar', 'mer', 'jeu', 'ven', 'sam', 'dim',
                    'jeanne', 'pierre', 'mrs', 'mrs', 'monsieur', 'michoud', 'andre', 'sieur', 'aud'
                    'non', 'trop', 'petit', 'voir', 'boul', 'juat', 'con', 'voir', 'vour', 'ment', 'ent', 
                    'hela', 'quide', 'allol', 'anog', 'ivine', 'oblet', 'queli', 'lco', 'dlul', 'flir', 'brod',
                    'teal', 'etuv', 'itit', 'dito', 'tit', 'heure', 'char', 'iseli', 'din', 'seli', 'non', 'tion', 'party',
                    'bout', 'ous', 'tavel', 'neuf', 'mlle', 'tem', 'rien', 'muid', 'bout', 'sout']

# Concaténer les deux listes pour créer la liste complète des mots à supprimer
stopwords = french_stopwords + polier_stopwords

# Sélectionner le vocabulaire à utiliser pour LDA
vocabulaire = pd.Series(tokens).value_counts()[10:]
vocabulaire = vocabulaire[vocabulaire >= 5].sort_index().keys()

# Convertir les données en vecteurs pour LDA
count_vectorizer = CountVectorizer(stop_words=stopwords, vocabulary=vocabulaire)
X = count_vectorizer.fit_transform([' '.join(doc) for doc in documents])


# Exécuter LDA sur les données
lda_model = LatentDirichletAllocation(n_components=10, max_iter=20, random_state=42)
lda_model.fit(X)


Traitement du fichier 1/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_177.json
Traitement du fichier 2/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_032.json
Traitement du fichier 3/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_120.json
Traitement du fichier 4/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_065.json
Traitement du fichier 5/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_136.json
Traitement du fichier 6/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_073.json
Traitement du fichier 7/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_161.json
Traitement du fichier 8/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_024.json
Traitement du fichier 9/185: /Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_008.json
Traitement du fichier 10/185: /Users/tita/Desktop/Memoi



## Affichage des résultats

Dans ce code, la différence entre "mots les plus fréquents" et "mots les plus caractéristiques" est la suivante :

"Mots les plus fréquents" correspond aux mots les plus souvent utilisés dans le cluster considéré, c'est-à-dire le nombre de fois que chaque mot apparaît dans le cluster. Cette mesure permet de donner une idée générale des sujets abordés dans le cluster.

"Mots les plus caractéristiques", quant à eux, correspondent aux mots qui permettent de distinguer le plus le cluster considéré des autres clusters. Ces mots sont donc les plus spécifiques au cluster en question. Cette mesure permet de mieux comprendre le sujet principal du cluster, en se concentrant sur les mots qui le caractérisent le mieux.

En résumé, les "mots les plus fréquents" donnent une idée générale des sujets abordés dans le cluster, tandis que les "mots les plus caractéristiques" permettent de mieux comprendre le sujet principal du cluster en se concentrant sur les mots qui le distinguent le plus des autres clusters.

In [74]:
# Afficher les mots les plus représentatifs de chaque cluster
feature_names = np.array(list(count_vectorizer.vocabulary_.keys()))
for topic_idx, topic in enumerate(lda_model.components_):
    top_words = [feature_names[i] for i in topic.argsort()[:-21:-1]]
    #print(f"Topic #{topic_idx}: {' '.join(top_words)}")
    print(f"Les mots les plus représentatifs du topic #{topic_idx} sont : {' '.join(top_words)}")

print('\n')

# Afficher les mots les plus fréquents et caractéristiques pour chaque cluster
vocabulaire = np.array(list(count_vectorizer.vocabulary_.keys()))
for topic_idx, topic in enumerate(lda_model.components_):
    # Mots les plus fréquents
    top_freq_words = [vocabulaire[i] for i in np.flip(np.argsort(topic))[:20]]
    print(f"Les mots les plus fréquents du topic #{topic_idx} sont : {' '.join(top_freq_words)}")

print('\n')  

# Mots les plus caractéristiques
type_attribution = lda_model.transform(np.identity(len(vocabulaire)))
for topic_idx, topic in enumerate(lda_model.components_):
    top_charac_words = [(vocabulaire[i], int(np.sum(X[:, i]))) for i in np.flip(np.argsort(type_attribution[:,topic_idx]))[:20]]
    print(f"Les mots les plus caractéristiques du topic #{topic_idx} sont : {' '.join([word[0] for word in top_charac_words])} (fréquence : {[word[1] for word in top_charac_words]})")


print('\n') 

Les mots les plus représentatifs du topic #0 sont : sol soleil livre bar beau quittance girouette crutz recu payer thermometre batz demi therm bise vent pluie paye grand barometre
Les mots les plus représentatifs du topic #1 sont : bailli bar chateau venir fort thermometre calme demande soleil bise vouloir matin soir conseil billet girouette vent porter beau pied
Les mots les plus représentatifs du topic #2 sont : pot vin lausanne septier rouge mont signe allaman blanc vigneron vigne fuste brantee vernand romand partisseur bon prix recu vendange
Les mots les plus représentatifs du topic #3 sont : fol interet tuteur debiteur int solde somme quittance porte gramme payer lieu echu capital rente sol jusque the billet article
Les mots les plus représentatifs du topic #4 sont : lausanne ville seigneur donne date bailli honneur berne chambre conseil enfant donner seigneurie avoir consistoire signe bon ordre contre sujet
Les mots les plus représentatifs du topic #5 sont : contre femme fille en

# Nuage de mots 

In [1]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

In [4]:
# Définir la fonction pour créer un nuage de mots
def create_wordcloud(text):
    wordcloud = WordCloud(width = 800, height = 800, 
                background_color ='white', 
                min_font_size = 10).generate(text) 
    return wordcloud

# Afficher les mots les plus représentatifs de chaque cluster
feature_names = np.array(list(count_vectorizer.vocabulary_.keys()))
for topic_idx, topic in enumerate(lda_model.components_):
    top_words = [feature_names[i] for i in topic.argsort()[:-51:-1]]
    
    # Créer un nuage de mots pour les mots les plus représentatifs
    wordcloud = create_wordcloud(' '.join(top_words))
    plt.figure(figsize = (8, 8), facecolor = None) 
    plt.imshow(wordcloud) 
    plt.axis("off") 
    plt.tight_layout(pad = 0) 
    
    # Enregistrer le nuage de mots
    plt.savefig(f"nuage_de_mots_topic_{topic_idx}.png")
    plt.show()

NameError: name 'np' is not defined

## Consistoire

In [None]:
# Charger le modèle de traitement du langage naturel pour le français
nlp_fr = spacy.load('fr_core_news_lg')

# Ajouter une liste de stopwords personnalisée
custom_stop_words = ['mr', 'pr', 'ete']
for w in custom_stop_words:
    nlp_fr.vocab[w].is_stop = True

# Ajouter la liste de stopwords par défaut de Spacy pour le français
nlp_fr.Defaults.stop_words |= {'mot4', 'mot5', 'mot6'}

# Définir l'entité à rechercher
search_entity = "consistoire"

# Initialiser un dictionnaire pour stocker les co-occurrences et leur fréquence
co_occurrences = {}

# Récupérer tous les fichiers commençant par "transcr_" dans le répertoire donné
files = glob.glob('/Users/tita/Desktop/Memoire_local/analyse/data/polier_data/transcr_*.json')

# Boucler sur chaque fichier et extraire le texte de chaque document pour analyse avec Spacy
for file in files:
    with open(file, 'r') as f:
        data = json.load(f)
        for document in data:
            doc = nlp_fr(document['transcription'])
            for token in doc:
                if token.text == search_entity:
                    for word in doc:
                        if word.is_alpha and not word.is_stop and word.text != search_entity:
                            if word.text in co_occurrences:
                                co_occurrences[word.text] += 1
                            else:
                                co_occurrences[word.text] = 1

# Trier les co-occurrences par fréquence décroissante
sorted_co_occurrences = sorted(co_occurrences.items(), key=lambda x: x[1], reverse=True)

# Afficher les 10 co-occurrences les plus significatives
for word, frequency in sorted_co_occurrences[:20]:
    print(word, frequency)
