# Réaliser quelques traitements avec Python

Dans ce notebook, on explore différents "outils" permettant de faire des traitements simples comme "pseudonymiser" les entretiens, compter les occurrences d'un mot ou faire ressortir les termes spécifiques d'un entretien.

Certains de ces traitements peuvent être réalisés avec les modules de base de Python, d'autres font appel à des modules spécialisés dans le traitement automatique des langues comme les modules `Spacy` ou `Scikit Learn`.

In [1]:
!pip install pypandoc

Collecting pypandoc
  Downloading pypandoc-1.16.2-py3-none-any.whl.metadata (16 kB)
Downloading pypandoc-1.16.2-py3-none-any.whl (19 kB)
Installing collected packages: pypandoc
Successfully installed pypandoc-1.16.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m26.0[0m[39;49m -> [0m[32;49m26.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:

import re # Module pour utiliser les "regex", i.e. les expressions régulières

import pandas as pd # module pour manipuler des "dataframes". 
import csv # Outil pour lire et écrire des fichiers csv

import pypandoc

import fileinput

## Chargement des données

On ouvre les fichiers csv contenant les retranscriptions avec `pandas`. Pour cela nous avons besoin de connaitre l'adress (ou chemin) du fichier et d'utiliser la fonction pd.read_csv(adresse du fichier, sep =","). L'argument "sep" correspond au séparateur utiliser pour marquer les colonnes.

In [3]:
gb_transcript = "../records/grazia_borrini_07-06-18.csv" # Adresse du fichier csv
gb = pd.read_csv(gb_transcript, sep=",")



**Exercice**

Ouvrez le fichier "Marie_Roue_29-03-18.csv" avec pandas. Vous utiliserez "mr" (pour Marie Roué) pour nommer l'objet contenant le dataframe (c'est-à-dire les données du fichier csv).

In [4]:
mr_transcript = "../records/Marie_Roue_29-03-18.csv"
mr = pd.read_csv(mr_transcript, sep=",")

# Regrouper les segments en blocs

Whisper découpe l'entretient en segment de plus ou moins 10 secondes. Pour lire l'entretien, il peut toutefois être plus facile de regrouper les segments liés à une même question par exemple. Le regroupement facilitera également le calcul du "TF-IDF" que l'on verra plus loin.


In [5]:
def get_bloc(data, column, new_dataframe = False) : #fonction pour regrouper les segments d'un même bloc (prise de parole d'un locuteur)
    """Groupe les segments d'une retranscription whisper en bloc.

    ------
    data : le dataframe contenant la retranscription. Le dataframe doit avoir à minima une colonne "segment"
    column : la colonne à partir de laquelle  le regroupement est effectué.
    new_dataframe : Si faux (argument par défaut), la fonction crée une nouvelle colonne au dataframe (dans lequel une ligne est égal à un segment). Si vrai, la fonction retourne un nouveau dataframe dans lequel une ligne est égal un bloc
    """
    
    dict_bloc_id = {}
    for n, speaker in enumerate(data[column]):
        if n == 0:
            bloc_id = n
        else :
            if speaker == data[column].iloc[n-1]:
                bloc_id = int(dict_bloc_id[n-1].replace("bloc_",""))
            else:
                bloc_id = int(dict_bloc_id[n-1].replace("bloc_",""))+1
        dict_bloc_id[n] = "bloc_"+str(bloc_id)
    data["bloc_id"] = data.index.map(dict_bloc_id.get)
    data["bloc_text"] = data.groupby(['bloc_id'])['text'].transform(lambda x : ' '.join(x))
    data["start_bloc"] = data.groupby(['bloc_id'])['start'].transform("min")
    data["end_bloc"] = data.groupby(['bloc_id'])['end'].transform("min")
    data["start_bloc_ms"] = data.groupby(['bloc_id'])['start_in_ms'].transform("min")
    data["end_bloc_ms"] = data.groupby(['bloc_id'])['end_in_ms'].transform("min")
    if new_dataframe==True:
        data = data.drop(columns=["text", "id","start", "end", "start_in_ms", "end_in_ms"]).drop_duplicates()
    return dict_bloc_id, data


def write_bloc_in_list(data, column_of_text = "text", segment_tag=False, segment_id=None):
    """
    Ecrit les blocs obtenu avec la fonction "get_bloc" dans une liste.

    ------
    data: le dataframe contenant la retranscription avec les segments regroupés par bloc.
    column_of_text : le nom de la colonne contenant le text.
    segment_tag : Boolean (Faux par défaut). Si vrai et que le dataframe contient une colonne segment, la fonction ajout un tag sous la forme "<seg_id>segment</seg_id>" pour marquer le début et la fin de chaque segment d'un même bloc.
    segment_id : non de la colonne contenant les idenfitifiants des segments

    Retourne une liste des blocs (utile pour le calcul du tf-idf ensuite)
    """
    
    list_bloc_text = []
    #dict_speaker = {}
    for n, b in enumerate(data.bloc_id.unique()):
        data_tmp = data.loc[data.bloc_id == b]
        if segment_tag == True:
            new_text = ""
            try:
                for m, seg in enumerate(data_tmp[segment_id]):
                    new_text = new_text + "<" + seg + ">" + data_tmp[column_of_text].iloc[m]  + "</" + seg + ">" #décommenter la ligne ci-dessous si on souhaite mettre des balises indiquant le début et la fin des segments que l'on concatène
            except:
                raise
        else:
            new_text = data_tmp[column_of_text].iloc[0] 
        list_bloc_text.append({"bloc_id":b, "speaker": data_tmp.speaker.unique()[0], "bloc_text" : new_text, "start_bloc": data_tmp.start_bloc.iloc[0], "end_bloc": data_tmp.end_bloc.iloc[0]})
    return list_bloc_text
    

In [6]:
dict_bloc_id, gb1 = get_bloc(data=gb, column="speaker", new_dataframe=False)
gb1

Unnamed: 0,id,start,end,speaker,text,start_in_ms,end_in_ms,bloc_id,bloc_text,start_bloc,end_bloc,start_bloc_ms,end_bloc_ms
0,seg_1,"00:00:01,820","00:00:09,259",Speaker 1,Je suis arrivé en post-doctorat au Muséum Nati...,1.820,9.259,bloc_0,Je suis arrivé en post-doctorat au Muséum Nati...,"00:00:01,820","00:00:09,259",1.820,9.259
1,seg_2,"00:00:09,299","00:00:19,930",Speaker 1,C'est un projet porté par à la fois Stéphanie ...,9.299,19.930,bloc_0,Je suis arrivé en post-doctorat au Muséum Nati...,"00:00:01,820","00:00:09,259",1.820,9.259
2,seg_3,"00:00:20,441","00:00:22,143",Speaker 0,"Oh, Citizen Science, ok.",20.441,22.143,bloc_1,"Oh, Citizen Science, ok.","00:00:20,441","00:00:22,143",20.441,22.143
3,seg_4,"00:00:22,183","00:00:32,453",Speaker 1,Avec l'idée de faire participer le public à la...,22.183,32.453,bloc_2,Avec l'idée de faire participer le public à la...,"00:00:22,183","00:00:32,453",22.183,32.453
4,seg_5,"00:00:32,493","00:00:35,517",Speaker 0,"Peut-être direction de recherche aussi, n'est-...",32.493,35.517,bloc_3,"Peut-être direction de recherche aussi, n'est-...","00:00:32,493","00:00:35,517",32.493,35.517
...,...,...,...,...,...,...,...,...,...,...,...,...,...
929,seg_930,"02:13:20,896","02:13:24,978",Speaker 0,"Bon, il y a plus de responsabilités.",8000.896,8004.978,bloc_109,"La France est particulière, ce sens, n'est-ce ...","02:11:45,664","02:11:48,406",7905.664,7908.406
930,seg_931,"02:13:25,018","02:13:48,798",Speaker 0,"C'est un peu... Évidemment, il y a plus de res...",8005.018,8028.798,bloc_109,"La France est particulière, ce sens, n'est-ce ...","02:11:45,664","02:11:48,406",7905.664,7908.406
931,seg_932,"02:13:48,818","02:13:49,499",Speaker 0,Ça fiche de tout.,8028.818,8029.499,bloc_109,"La France est particulière, ce sens, n'est-ce ...","02:11:45,664","02:11:48,406",7905.664,7908.406
932,seg_933,"02:13:59,889","02:14:03,773",Speaker 1,"Bon, on va essayer.",8039.889,8043.773,bloc_110,"Bon, on va essayer. Merci en tout cas pour...","02:13:59,889","02:14:03,773",8039.889,8043.773


In [7]:
write_bloc_in_list(data=gb1, column_of_text = "bloc_text", segment_tag=False, segment_id="id")


[{'bloc_id': 'bloc_0',
  'speaker': 'Speaker 1',
  'bloc_text': "Je suis arrivé en post-doctorat au Muséum National d'Historie Naturelle l'année dernière, en septembre. C'est un projet porté par à la fois Stéphanie Duvaille et les écologues qui ont mis au point ce qu'on appelle les sciences participatives ou en anglais les citizen science.",
  'start_bloc': '00:00:01,820',
  'end_bloc': '00:00:09,259'},
 {'bloc_id': 'bloc_1',
  'speaker': 'Speaker 0',
  'bloc_text': 'Oh, Citizen Science, ok.',
  'start_bloc': '00:00:20,441',
  'end_bloc': '00:00:22,143'},
 {'bloc_id': 'bloc_2',
  'speaker': 'Speaker 1',
  'bloc_text': "Avec l'idée de faire participer le public à la récolte de données, etc.",
  'start_bloc': '00:00:22,183',
  'end_bloc': '00:00:32,453'},
 {'bloc_id': 'bloc_3',
  'speaker': 'Speaker 0',
  'bloc_text': "Peut-être direction de recherche aussi, n'est-ce pas?",
  'start_bloc': '00:00:32,493',
  'end_bloc': '00:00:35,517'},
 {'bloc_id': 'bloc_4',
  'speaker': 'Speaker 1',
  '

In [8]:
dict_bloc_id, gb1 = get_bloc(data=gb, column="speaker", new_dataframe=False)
list_bloc_text = write_bloc_in_list(data=gb1, column_of_text = "bloc_text", segment_tag=True, segment_id="id")
with open("../records/2026-02-05_grazia_borrini_in_block.txt" , 'w', newline='') as txt:
    for row in list_bloc_text:
        start = row["start_bloc"]
        end = row["end_bloc"]
        speaker = row["speaker"]
        bloc_text = row["bloc_text"]
        txt.write(f"{row["bloc_id"]}\n")
        txt.write(f"{start} --> {end}\n")
        txt.write(f"{speaker} : {bloc_text}\n\n")
            

        

In [9]:
list_of_dataframe = [gb, mr]
list_of_path = [gb_transcript, mr_transcript]
for n, df in enumerate([gb, mr]):
    dict_bloc_id, df1 = get_bloc(data=df, column="speaker", new_dataframe=False)
    list_bloc_text = write_bloc_in_list(data=df1, column_of_text = "bloc_text", segment_tag=False, segment_id=None)
    with open(f"{list_of_path[n]}_in_bloc.txt" , 'w', newline='') as txt:
        for row in list_bloc_text:
            start = row["start_bloc"]
            end = row["end_bloc"]
            speaker = row["speaker"]
            bloc_text = row["bloc_text"]
            txt.write(f"{row["bloc_id"]}\n")
            txt.write(f"{start} --> {end}\n")
            txt.write(f"{speaker} : {bloc_text}\n\n")
    

# Pseudonomyser et anonymiser les locuteurs

Quand on travaille avec des entretiens, il est souvent nécessaire de les pseudonomyser. On peut pour cela utiliser l'outil "find and replace" de son loogiciel de traitement de texte. On peut également le faire avec python, notamment lorsqu'on a de nombreux noms de personnes ou de lieux à remplacer.

C'est ce que propose de faire la fonction ci-dessous. 

In [10]:
def pseudonymiser(original_name, new_name, file, column = None, replace_file=False):
    """
    Pseudonymise un fichier
    ---------------

    original_name : 'string'.
    new_name : 'string'. The pseudonym
    file : path of file to pseudonymise. It could be a csv, srt or txt file.
    column : only if "file" is a csv. Name of the column to pseudonymise
    replace_file: boolean. If false, it create a new file. Else it erases the given file.
    """
    
    if file.split(".")[-1] == "csv":
        with open(file, "r") as csvf:
            reader2 = csv.DictReader(csvf)
            old_row = []
            line_to_override={}
            for n, r in enumerate(reader2):
                old_row.append(r)
                pseudo = r[column].replace(original_name, new_name)
                r[f"pseudo_{column}"] = pseudo
                line_to_override[n] = r
        if replace_file == False:
            new_file = file.replace(".csv", "pseudonymise.csv")
            with open(new_file, 'w', newline='') as csvfile:
                fieldnames = [key for key, value in line_to_override[0].items()]
                writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                writer.writeheader()
                for line, row in enumerate(old_row):
                    data = line_to_override.get(line, row)
                    #print(data)
                    writer.writerow(data)
            return new_file
        else:
            with open(file, 'w', newline='') as csvfile:
                fieldnames = [key for key, value in line_to_override[0].items()]
                writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                writer.writeheader()
                for line, row in enumerate(old_row):
                    data = line_to_override.get(line, row)
                    #print(data)
                    writer.writerow(data)
            return file
    else:
        if replace_file == False:
            find_ext = file.split(".")[-1]
            new_file = file.replace(f".{find_ext}", f"pseudonymise.{find_ext}")
            with open(file, 'r', encoding='utf-8-sig') as txt:
                with open(new_file, 'w', encoding='utf-8') as txt2:
                    for line in txt:
                        new_line = re.sub(original_name, new_name, line)
                        txt2.write(new_line)
            return new_file
        else:
            for line in fileinput.input(file, inplace = 1): 
                print(line.replace(original_name, new_name))
            return file
            
                            
        

In [11]:
name_to_replace= {"Speaker 1": "Chercheur", "Speaker 0": "Enquêtée"}

n = 0
for nom, new_name in name_to_replace.items():
    n +=1
    if n == 1:
        nom_fichier = pseudonymiser(nom, new_name, file = "../records/2026-02-05_grazia_borrini_in_block.txt", column= "speaker", replace_file=False)
    else:
        pseudonymiser(nom, new_name, file = nom_fichier, column= "pseudo_speaker", replace_file=True)

# Compter un ou plusieurs mots

Nous créons maintenant un compteur de mots (équivalent à la fonction "find" dans word). On utiliser pour cela des expressions régulières (Regex). Les regex permettent par exemple de retrouver tous les mots contenant une même racine (ou terminaisons). Dans l'exemple ci-dessous, nous allons rechercher tout les mots qui contiennent la racine "participat" : participation, participatif, participative, participatory, etc.

Nous allons faire la recherche sur deux types de fichier : un fichier texte (.txt) et un fichier csv.

## Trouver les occurences de l'adjectif "particiaptive" dans l'entretien de Grazia Borrini

Nous commençons par explorer l'entretien de Grazia Borrini en utilisant le fichier texte obtenu après avoir regroupés les segments en bloc. Ce fichier s'appelle `2026-02-05_grazia_borrini_in_block.txt`.

Pour cela, j'ouvre le fichier et je "mets" son contenu dans l'objet "texte". 

In [12]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt","r") as f:
    texte = f.read()

len(texte)

3834932

Une fois l'objet `texte` créé, on peut effectuer différents décomptes :

* Si je veux connaître le nombre de caractères, j'exécute la commande `len(texte)` (len pour length).
* Si je veux connaître le nombre de mots/chaînes de caractères : `len(texte.split())`. La fonction `.split()` découpe le texte à chaque fois qu'elle trouve une espace.
* Si je veux connaître le nombre d'occurrence d'un mot quelconque : `texte.count("le mot que je cherche")`.

Essayez ces différentes commandes dans la cellule ci-dessous


In [13]:
texte.count("participative")

170

Bien sûr, il est possible d'inscrire les résultats dans des objets.

In [14]:
nb_caractere = len(texte)
nb_string = len(texte.split())
occ_participat = texte.count("participative")

print("Nombre de caractères ",nb_caractere) # affiche le nombre de chaînes de caractère
print("Longueur du texte ", nb_string) # affiche le nombre de chaînes de caractère
print("Occurence du terme 'participative' ", occ_participat) # compte le nombre de fois que participative apparaît

Nombre de caractères  3834932
Longueur du texte  662412
Occurence du terme 'participative'  170


Combien de fois le terme "participative" apparaît dans l'entretien de Grazia Borrini ? Quel est le problème avec cette clé de recherche ?

C'est en ce sens que les regex sont utiles, que ce soit dans le cadre des traitements que nous faisons, mais aussi dans tous les cas où vous faites une recherche sur word, le web, etc. Elles permettent de préciser la recherche en l'élargissant ou en la spécifiant. Par exemple `texte.count()` compte les formes singulières et plurielles. Mais parfois, il peut intéressant de compter le nombre de fois qu'un mot est mis au singulier ou mis au pluriel.


In [15]:
test = "Il a une fois participative dans sciences participatives."

test.count("participative")

2

In [16]:
re.findall(r"participative\b", test)

['participative']

In [17]:
re.findall(r"participative.\b", test)

['participative ', 'participatives']

In [18]:
re.findall(r"participative\w\b", test)

['participatives']

Dans la cellule ci-dessous, on recherche cette fois toutes les fois qu'apparaît la racine "participat" quelque soit la terminaison (participation, participatif, participatory, etc.)

In [19]:
words_with_participat = re.findall(r"participat\w+", texte.lower()) 
print("Le nombre de mots contenant la racine 'participat' est : ", len(words_with_participat))
print("Voici la liste des différentes formes retrouvées : ", set(words_with_participat))

Le nombre de mots contenant la racine 'participat' est :  1166
Voici la liste des différentes formes retrouvées :  {'participatives', 'participative', 'participatory', 'participation'}


En fait, la fonction `re.findall()` "retourne" la liste de toutes les occurrences des termes commençant par "participat". Si on veut la liste des différentes formes sans les doublons, on écrit l'objet contenant la liste à l'intérieur de la fonction `set()`.

In [20]:
print("La liste des occurrences de 'participat' : ", words_with_participat[0:10])
print("Voici la liste des différentes formes retrouvées sans les doublons : ", set(words_with_participat))

La liste des occurrences de 'participat' :  ['participatives', 'participatives', 'participative', 'participation', 'participative', 'participation', 'participative', 'participation', 'participative', 'participation']
Voici la liste des différentes formes retrouvées sans les doublons :  {'participatives', 'participative', 'participatory', 'participation'}


**Exercice**

Pour chaque terme contenu dans la liste `words_with_participat`, comptez le nombre d'occurrences dans les entretiens de Grazia Borrini, puis dans celui de Marie Roué.

### Mettre en gras les mots recherchés

Maintenant que nous avons identifiés les termes commençant par "participat", il peut être intéressant des les "taguer" dans le texte pour les repérer plus facilement à la lecture des entretiens. Ici, on choisit de les signaler en les encadrant de deux astérisques, ais on peut aussi utiliser des balises html, xml, etc.

In [21]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt","r") as f:
    texte = f.readlines()

for s in texte:
    if re.search(r'participat\w+', s.lower()):
        for w in set(re.findall(r'participat\w+', s.lower())):
            s = re.sub(w, f'**{w}**', s.lower())
        print(s)


speaker 1 : <seg_1>je suis arrivé en post-doctorat au muséum national d'historie naturelle l'année dernière, en septembre. c'est un projet porté par à la fois stéphanie duvaille et les écologues qui ont mis au point ce qu'on appelle les sciences **participatives** ou en anglais les citizen science.</seg_1><seg_2>je suis arrivé en post-doctorat au muséum national d'historie naturelle l'année dernière, en septembre. c'est un projet porté par à la fois stéphanie duvaille et les écologues qui ont mis au point ce qu'on appelle les sciences **participatives** ou en anglais les citizen science.</seg_2>

speaker 1 : <seg_6>? et puis stéphanie duval et son labo qui est plutôt... qu'on pourrait appeler recherche **participative**. là aussi, il y a beaucoup de termes très proches, mais qui mettent des méthodes différentes. et c'est dans ce cadre-là qu'elle m'a indiqué qu'à la fois vos travaux et peut-être l'environnement, la communauté dans laquelle vous étiez, ont nourri cette idée de **particip

Si on veut enregistrer le résultat dans un fichier .txt

In [22]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt" , 'w', newline='') as txt:
    for s in texte: 
        txt.write(s)

In [None]:
pypandoc.convert_file("../records/2026-02-05_grazia_borrini_in_block.txt", 'odt', format='md', outputfile="../records/2026-02-05_grazia_borrini_in_block_odt.odt)
    #write_f = pandoc.write(doc=read_f, file=f"/home/aymeric/Nextcloud/ADD_SSD/formation/catalogue_formation/template_latex/{f_latex}", format= 'latex', options=["--template=templatepandoc.latex"])


In [None]:
import numpy as np

In [None]:
dict_n_word = {}
dict_word = {}
for n, seg in enumerate(gb.id):
    row = gb.iloc[n]
    n_word = len(re.findall(r'participat\w+', row["text"].lower()))
    word = [x for x in set(re.findall(r'participat\w+', row["text"].lower()))]
    if n_word > 0:
        
        dict_word[seg]= "|".join(word)
        dict_n_word[seg] = n_word

dict_word
gb["partipat"] = gb.id.map(dict_word.get)
gb["nb_partipat"] = gb.id.map(dict_n_word.get)
gb.loc[gb.nb_partipat>0]



Le problème de cette méthode est qu'il faut connaître a priori les termes que l'on souhaite rechercher. Nous allonrs maintenant voir comment faire ressortir les termes spécifiques de l'entretien.

In [None]:
import spacy
from nltk.corpus import stopwords


In [None]:
from spacy.lang.fr.stop_words import STOP_WORDS as fr_stop

In [None]:
len(list(fr_stop))

## Les stopwords proposés par Spacy

In [None]:
nlp = spacy.load('fr_core_news_md')
nlp.Defaults.stop_words

## Les stopwords proposés par ntlk

In [None]:
stopwords.words("french")


In [None]:

def cleaner(text,remove_stopword=None):
    text = re.sub(r"http\S+", "", text) # remove urls
    text = re.sub("’", "'",text) #replace "’" by "'"
    text = re.sub("'", "' ",text) #replace "’" by "'"
    text = " ".join(re.sub("[^'a-zA-Zàâäéèêëïîôöùûüÿçß\\-]+", " ", text).split()) #remove hashtag, arobase, HTML character
    if remove_stopword == None:
        split_text = text.split() # 
    else:
        split_text = [x for x in text.split() if x not in remove_stopword]
    
    return text, split_text



dict_token = {}
dict_text = {}
for n, seg in enumerate(gb.id):
    row = gb.iloc[n]
    text = row['text'].lower()
    clean_text, split_text = cleaner(text, remove_stopword=list(fr_stop))
    dict_token[seg]="|".join(split_text)
    dict_text[seg]= clean_text

gb["cleaned_text"] = gb.id.map(dict_text.get)
gb["tokens"] = gb.id.map(dict_token.get)

gb["tokens"]= gb.tokens.str.split("|")
gb_explode = gb[["id","bloc_id","speaker","tokens"]].explode("tokens")
gb_explode.tokens.value_counts()

In [None]:
token_freq = gb_explode.groupby(["id","tokens"]).agg(term_freq=("id","size")).reset_index()
size_seg = gb_explode.groupby(["id"]).agg(nb_tokens=("tokens","size")).reset_index()
nb_of_seg = gb_explode.id.nunique()
nb_seg_with_freq = gb_explode[["id","tokens"]].drop_duplicates().groupby("tokens").agg(nb_doc=("id","size")).reset_index()

dict_tfidf={}
for n, seg in enumerate(token_freq.id):
    tf = token_freq.term_freq.iloc[n]
    nb_token = [x for x in size_seg.nb_tokens.loc[size_seg.id == seg]]
    term_frequency = tf/nb_token[0]
    tok = token_freq.tokens.iloc[n]
    doc_with_tok= [x for x in nb_seg_with_freq.nb_doc.loc[nb_seg_with_freq.tokens==tok]]
    idf = np.log((nb_of_seg+1)/doc_with_tok[0])+1
    tfidf =  term_frequency*idf
    dict_tfidf[n] = tfidf

token_freq

In [None]:
token_freq = gb_explode.groupby(["speaker","tokens"]).agg(term_freq=("speaker","size")).reset_index()
size_seg = gb_explode.groupby(["speaker"]).agg(nb_tokens=("tokens","size")).reset_index()
nb_of_seg = gb_explode.speaker.nunique()
nb_seg_with_freq = gb_explode[["speaker","tokens"]].drop_duplicates().groupby("tokens").agg(nb_doc=("speaker","size")).reset_index()

df_tf = token_freq.merge(size_seg, on = ["speaker"], how = "left").merge(nb_seg_with_freq, on = ["tokens"], how = "left")
df_tf["tf"]= df_tf.term_freq/df_tf.nb_tokens
df_tf["idf"]= np.log((nb_of_seg+1)/df_tf.nb_doc)+1
df_tf["tfidf"]= df_tf.tf*df_tf.idf
df_tf.loc[df_tf.speaker == "Speaker 0"].sort_values(by="tfidf", ascending = False)

In [None]:
def compute_tfidf(data, group_by):
    token_freq = data.groupby([group_by,"tokens"]).agg(term_freq=(group_by,"size")).reset_index()
    size_seg = data.groupby([group_by]).agg(nb_tokens=("tokens","size")).reset_index()
    nb_of_seg = data.speaker.nunique()
    nb_seg_with_freq = data[[group_by,"tokens"]].drop_duplicates().groupby("tokens").agg(nb_doc=(group_by,"size")).reset_index()
    
    df_tf = token_freq.merge(size_seg, on = [group_by], how = "left").merge(nb_seg_with_freq, on = ["tokens"], how = "left")
    df_tf["tf"]= df_tf.term_freq/df_tf.nb_tokens
    df_tf["idf"]= np.log((nb_of_seg+1)/df_tf.nb_doc)+1
    df_tf["tfidf"]= df_tf.tf*df_tf.idf
    return df_tf

In [None]:
gb_explode

In [None]:
df = compute_tfidf(data=gb_explode, group_by="bloc_id")
#dict_tfidf
df["id_bloc"] = df.bloc_id.astype(int)
df = df.merge(gb_explode[["bloc_id", "speaker"]].drop_duplicates(), on = ["bloc_id"], how ="left")
df = df.loc[df.speaker == "Speaker 0"].sort_values("id_bloc", ascending=True)

for bloc in df.id_bloc.unique():
    df_bloc = df.loc[df.id_bloc == bloc].sort_values("tfidf", ascending=False)
    specific_term = [x for x in df_bloc.tokens.head(5)]
    print(f"Les 5 termes les plus spécifique du bloc {bloc} sont : ", specific_term)


In [None]:
df.sort_values("id_bloc", ascending=True)

## TF-IDF avec scikit learn

In [None]:
# importer le vectoriseur TfidfVectorizer de Scikit-Learn.  
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# Chargement du modèle français de SpaCy
nlp = spacy.load('fr_core_news_md')  # ou 'en_core_web_sm' pour l'anglais
# Récupération et extension des stopwords par défaut de SpaCy
spacy_stopwords = set(nlp.Defaults.stop_words)



# Application de la lemmatisation et de la suppression des stopwords sur chaque document


In [None]:
# Fonction pour lemmatiser le texte et retirer les stopwords
def lemmatize_and_remove_stopwords(text, nlp, stopwords, lemmatiser = True):
    doc = nlp(text)
    if lemmatiser == True:
        cleaned_text = " ".join([token.lemma_ for token in doc if token.text.lower() not in stopwords and not token.is_punct])
    else:
        cleaned_text = " ".join([str(token) for token in doc if token.text.lower() not in stopwords and not token.is_punct])
    return cleaned_text

In [None]:
print(list_bloc_text[0]["bloc_text"])
print(lemmatize_and_remove_stopwords(list_bloc_text[0]["bloc_text"], nlp, spacy_stopwords))

In [None]:
tous_documents = []
for bloc in list_bloc_text:
    lemmatized_an_cleaned_text = lemmatize_and_remove_stopwords(bloc["bloc_text"], nlp, spacy_stopwords, lemmatiser = True)
    tous_documents.append(lemmatized_an_cleaned_text)

vectoriseur = TfidfVectorizer(max_df=.65, min_df=1, use_idf=True)
documents_transformes = vectoriseur.fit_transform(tous_documents)

In [None]:
documents_transformes_tableau = documents_transformes.toarray()
len(documents_transformes_tableau)

In [None]:
i = -1
for compteur, document in enumerate(documents_transformes_tableau):
    i+=1
    #print("#####\n",document)
    # construire un objet de la classe DataFrame
    tf_idf_tuples = list(zip(vectoriseur.get_feature_names_out(), document))
    df0 = pd.DataFrame.from_records(tf_idf_tuples, columns=['terme', 'pointage']).sort_values(by='pointage', ascending=False).reset_index(drop=True)
    df0 = df0.loc[df0.pointage > 0]
    df0['bloc_id'] = str(compteur)
    if i == 0:
        df = df0.copy()
    else:
        df = pd.concat([df, df0])

for bloc in df.bloc_id.unique():
    df_bloc = df.loc[df.bloc_id == bloc].sort_values("pointage", ascending=False)
    specific_term = [x for x in df_bloc.terme.head(5)]
    print(f"Les 5 termes les plus spécifique du bloc {bloc} sont : ", specific_term)
