# Réaliser quelques traitements avec Python

Dans ce notebook, on explore différents "outils" permettant de faire des traitements simples comme "pseudonymiser" les entretiens, compter les occurrences d'un mot ou faire ressortir les termes spécifiques d'un entretien.

Certains de ces traitements peuvent être réalisés avec les modules de base de Python, d'autres font appel à des modules spécialisés dans le traitement automatique des langues comme les modules `Spacy` ou `Scikit Learn`.

In [None]:
#!pip install pypandoc

In [None]:
import re # Module pour utiliser les "regex", i.e. les expressions régulières

import pandas as pd # module pour manipuler des "dataframes". 
import csv # Outil pour lire et écrire des fichiers csv
import numpy as nmp


import pypandoc

import fileinput


## Chargement des données

On ouvre les fichiers csv contenant les retranscriptions avec `pandas`. Pour cela nous avons besoin de connaitre l'adress (ou chemin) du fichier et d'utiliser la fonction pd.read_csv(adresse du fichier, sep =","). L'argument "sep" correspond au séparateur utiliser pour marquer les colonnes.

In [None]:
gb_transcript = "../records/grazia_borrini_07-06-18.csv" # Adresse du fichier csv
gb = pd.read_csv(gb_transcript, sep=",") #je lis le fichier avec pandas et je "stocke" les données dans un objet



**Exercice**

Ouvrez le fichier "Marie_Roue_29-03-18.csv" avec pandas. Vous utiliserez "mr" (pour Marie Roué) pour nommer l'objet contenant le dataframe (c'est-à-dire les données du fichier csv).

In [None]:
mr_transcript = "../records/Marie_Roue_29-03-18.csv"
#Ci-dessous lisez le fichier avec pandas et stockez le dans un objet


# Regrouper les segments en blocs

Whisper découpe l'entretient en segment de plus ou moins 10 secondes. Pour lire l'entretien, il peut toutefois être plus facile de regrouper les segments liés à une même question par exemple. Le regroupement facilitera également le calcul du "TF-IDF" que l'on verra plus loin.


In [None]:
def get_bloc(data, column, new_dataframe = False) : #fonction pour regrouper les segments d'un même bloc (prise de parole d'un locuteur)
    """Groupe les segments d'une retranscription whisper en bloc.

    ------
    data : le dataframe contenant la retranscription. Le dataframe doit avoir à minima une colonne "segment"
    column : la colonne à partir de laquelle  le regroupement est effectué.
    new_dataframe : Si faux (argument par défaut), la fonction crée une nouvelle colonne au dataframe (dans lequel une ligne est égal à un segment). Si vrai, la fonction retourne un nouveau dataframe dans lequel une ligne est égal un bloc
    """
    
    dict_bloc_id = {}
    for n, speaker in enumerate(data[column]):
        if n == 0:
            bloc_id = n
        else :
            if speaker == data[column].iloc[n-1]:
                bloc_id = int(dict_bloc_id[n-1].replace("bloc_",""))
            else:
                bloc_id = int(dict_bloc_id[n-1].replace("bloc_",""))+1
        dict_bloc_id[n] = "bloc_"+str(bloc_id)
    data["bloc_id"] = data.index.map(dict_bloc_id.get)
    data["bloc_text"] = data.groupby(['bloc_id'])['text'].transform(lambda x : ' '.join(x))
    data["start_bloc"] = data.groupby(['bloc_id'])['start'].transform("min")
    data["end_bloc"] = data.groupby(['bloc_id'])['end'].transform("min")
    data["start_bloc_ms"] = data.groupby(['bloc_id'])['start_in_ms'].transform("min")
    data["end_bloc_ms"] = data.groupby(['bloc_id'])['end_in_ms'].transform("min")
    if new_dataframe==True:
        data = data.drop(columns=["text", "id","start", "end", "start_in_ms", "end_in_ms"]).drop_duplicates()
    return dict_bloc_id, data


def write_bloc_in_list(data, column_of_text = "text", segment_tag=False, segment_id=None):
    """
    Ecrit les blocs obtenu avec la fonction "get_bloc" dans une liste.

    ------
    data: le dataframe contenant la retranscription avec les segments regroupés par bloc.
    column_of_text : le nom de la colonne contenant le text.
    segment_tag : Boolean (Faux par défaut). Si vrai et que le dataframe contient une colonne segment, la fonction ajout un tag sous la forme "<seg_id>segment</seg_id>" pour marquer le début et la fin de chaque segment d'un même bloc.
    segment_id : non de la colonne contenant les idenfitifiants des segments

    Retourne une liste des blocs (utile pour le calcul du tf-idf ensuite)
    """
    
    list_bloc_text = []
    #dict_speaker = {}
    for n, b in enumerate(data.bloc_id.unique()):
        data_tmp = data.loc[data.bloc_id == b]
        if segment_tag == True:
            new_text = ""
            try:
                for m, seg in enumerate(data_tmp[segment_id]):
                    new_text = new_text + "<" + seg + ">" + data_tmp[column_of_text].iloc[m]  + "</" + seg + ">" #décommenter la ligne ci-dessous si on souhaite mettre des balises indiquant le début et la fin des segments que l'on concatène
            except:
                raise
        else:
            new_text = data_tmp[column_of_text].iloc[0] 
        list_bloc_text.append({"bloc_id":b, "speaker": data_tmp.speaker.unique()[0], "bloc_text" : new_text, "start_bloc": data_tmp.start_bloc.iloc[0], "end_bloc": data_tmp.end_bloc.iloc[0]})
    return list_bloc_text
    

In [None]:
dict_bloc_id, gb1 = get_bloc(data=gb, column="speaker", new_dataframe=False)
gb1

In [None]:
write_bloc_in_list(data=gb1, column_of_text = "bloc_text", segment_tag=False, segment_id="id")


In [None]:
dict_bloc_id, gb1 = get_bloc(data=gb, column="speaker", new_dataframe=False)
list_bloc_text = write_bloc_in_list(data=gb1, column_of_text = "bloc_text", segment_tag=True, segment_id="id")
with open("../records/2026-02-05_grazia_borrini_in_block.txt" , 'w', newline='') as txt:
    for row in list_bloc_text:
        start = row["start_bloc"]
        end = row["end_bloc"]
        speaker = row["speaker"]
        bloc_text = row["bloc_text"]
        txt.write(f"{row["bloc_id"]}\n")
        txt.write(f"{start} --> {end}\n")
        txt.write(f"{speaker} : {bloc_text}\n\n")
            

        

In [None]:
list_of_dataframe = [gb, mr]
list_of_path = [gb_transcript, mr_transcript]
for n, df in enumerate([gb, mr]):
    dict_bloc_id, df1 = get_bloc(data=df, column="speaker", new_dataframe=False)
    list_bloc_text = write_bloc_in_list(data=df1, column_of_text = "bloc_text", segment_tag=False, segment_id=None)
    with open(f"{list_of_path[n]}_in_bloc.txt" , 'w', newline='') as txt:
        for row in list_bloc_text:
            start = row["start_bloc"]
            end = row["end_bloc"]
            speaker = row["speaker"]
            bloc_text = row["bloc_text"]
            txt.write(f"{row["bloc_id"]}\n")
            txt.write(f"{start} --> {end}\n")
            txt.write(f"{speaker} : {bloc_text}\n\n")
    

# Pseudonomyser et anonymiser les locuteurs

Quand on travaille avec des entretiens, il est souvent nécessaire de les pseudonomyser. On peut pour cela utiliser l'outil "find and replace" de son loogiciel de traitement de texte. On peut également le faire avec python, notamment lorsqu'on a de nombreux noms de personnes ou de lieux à remplacer.

C'est ce que propose de faire la fonction ci-dessous. 

In [None]:
def pseudonymiser(original_name, new_name, file, column = None, replace_file=False):
    """
    Pseudonymise un fichier
    ---------------

    original_name : 'string'.
    new_name : 'string'. The pseudonym
    file : path of file to pseudonymise. It could be a csv, srt or txt file.
    column : only if "file" is a csv. Name of the column to pseudonymise
    replace_file: boolean. If false, it create a new file. Else it erases the given file.
    """
    
    if file.split(".")[-1] == "csv":
        with open(file, "r") as csvf:
            reader2 = csv.DictReader(csvf)
            old_row = []
            line_to_override={}
            for n, r in enumerate(reader2):
                old_row.append(r)
                pseudo = r[column].replace(original_name, new_name)
                r[f"pseudo_{column}"] = pseudo
                line_to_override[n] = r
        if replace_file == False:
            new_file = file.replace(".csv", "pseudonymise.csv")
            with open(new_file, 'w', newline='') as csvfile:
                fieldnames = [key for key, value in line_to_override[0].items()]
                writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                writer.writeheader()
                for line, row in enumerate(old_row):
                    data = line_to_override.get(line, row)
                    #print(data)
                    writer.writerow(data)
            return new_file
        else:
            with open(file, 'w', newline='') as csvfile:
                fieldnames = [key for key, value in line_to_override[0].items()]
                writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
                writer.writeheader()
                for line, row in enumerate(old_row):
                    data = line_to_override.get(line, row)
                    #print(data)
                    writer.writerow(data)
            return file
    else:
        if replace_file == False:
            find_ext = file.split(".")[-1]
            new_file = file.replace(f".{find_ext}", f"pseudonymise.{find_ext}")
            with open(file, 'r', encoding='utf-8-sig') as txt:
                with open(new_file, 'w', encoding='utf-8') as txt2:
                    for line in txt:
                        new_line = re.sub(original_name, new_name, line)
                        txt2.write(new_line)
            return new_file
        else:
            for line in fileinput.input(file, inplace = 1): 
                print(line.replace(original_name, new_name))
            return file
            
                            
        

In [None]:
name_to_replace= {"Speaker 1": "Chercheur", "Speaker 0": "Enquêtée"}

n = 0
for nom, new_name in name_to_replace.items():
    n +=1
    if n == 1:
        nom_fichier = pseudonymiser(nom, new_name, file = "../records/2026-02-05_grazia_borrini_in_block.txt", column= "speaker", replace_file=False)
    else:
        pseudonymiser(nom, new_name, file = nom_fichier, column= "pseudo_speaker", replace_file=True)

# Compter un ou plusieurs mots

Nous créons maintenant un compteur de mots (équivalent à la fonction "find" dans word). On utiliser pour cela des expressions régulières (Regex). Les regex permettent par exemple de retrouver tous les mots contenant une même racine (ou terminaisons). Dans l'exemple ci-dessous, nous allons rechercher tout les mots qui contiennent la racine "participat" : participation, participatif, participative, participatory, etc.

Nous allons faire la recherche sur deux types de fichier : un fichier texte (.txt) et un fichier csv.

## Trouver les occurences de l'adjectif "participative" dans l'entretien de Grazia Borrini

Nous commençons par explorer l'entretien de Grazia Borrini en utilisant le fichier texte obtenu après avoir regroupés les segments en bloc. Ce fichier s'appelle `2026-02-05_grazia_borrini_in_block.txt`.

Pour cela, j'ouvre le fichier et je "mets" son contenu dans l'objet "texte". 

In [None]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt","r") as f:
    texte = f.read()

len(texte)

Une fois l'objet `texte` créé, on peut effectuer différents décomptes :

* Si je veux connaître le nombre de caractères, j'exécute la commande `len(texte)` (len pour length).
* Si je veux connaître le nombre de mots/chaînes de caractères : `len(texte.split())`. La fonction `.split()` découpe le texte à chaque fois qu'elle trouve une espace.
* Si je veux connaître le nombre d'occurrence d'un mot quelconque : `texte.count("le mot que je cherche")`.

Essayez ces différentes commandes dans la cellule ci-dessous


In [None]:
texte.count("participative")

Bien sûr, il est possible d'inscrire les résultats dans des objets.

In [None]:
nb_caractere = len(texte)
nb_string = len(texte.split())
occ_participat = texte.count("participative")

print("Nombre de caractères ",nb_caractere) # affiche le nombre de chaînes de caractère
print("Longueur du texte ", nb_string) # affiche le nombre de chaînes de caractère
print("Occurence du terme 'participative' ", occ_participat) # compte le nombre de fois que participative apparaît

Combien de fois le terme "participative" apparaît dans l'entretien de Grazia Borrini ? Quel est le problème avec cette clé de recherche ?

C'est en ce sens que les regex sont utiles, que ce soit dans le cadre des traitements que nous faisons, mais aussi dans tous les cas où vous faites une recherche sur word, le web, etc. Elles permettent de préciser la recherche en l'élargissant ou en la spécifiant. Par exemple `texte.count()` compte les formes singulières et plurielles. Mais parfois, il peut intéressant de compter le nombre de fois qu'un mot est mis au singulier ou mis au pluriel.

```
Il existe de nombreuses ressources sur le web pour comprendre le fonctionnement des regex et le rôle des différentes "balises". Vous pouvez en particulier consulter le tutoriel sur le site W3school : [https://www.w3schools.com/python/python_regex.asp](https://www.w3schools.com/python/python_regex.asp)```


In [None]:
test = "Il a une fois participative dans sciences participatives."

test.count("participative")

La fonction ci-dessous est similaire à la fonction test.count(mot_a_chercher)

In [None]:
re.findall(r"participative", test)

* Si on ne cherche que les formes au singulier:

In [None]:
re.findall(r"participative\b", test) # le "\b" indique que l'on recherche toutes les chaines de caractères finissant par "participative", c'est-à-dire le mot "participative" suivi d'un espace ou d'un signe de ponctuation

* Si on ne cherche que les formes au pluriel:

In [None]:
re.findall(r"participatives", test)



**OU**

In [None]:
re.findall(r"participatives\b", test)

In [None]:
re.findall(r"participative\w\b", test)

* Si on cherche les deux formes, mais que l'on souhaite les distinguer

In [None]:
re.findall(r"participatives?", test) # Le point d'interrogation signifie qu'on cherche toutes les occurrence de participative contenant un "s" ou aucun.

**OU**

In [None]:
re.findall(r"participatives*\b", test) # L'astérisque signifie qu'on cherche toutes les occurrence de participative contenant aucun "s" ou plus

**OU**

In [None]:
re.findall(r"participative.", test) #La balise ".\b" signifie qu'on cherche toutes les occurrence de participative suivi de n'importe quel caractère en bout de chaîne

Dans la cellule ci-dessous, on recherche fois toutes les fois qu'apparaît la racine "participat" quelque soit la terminaison (participation, participatif, participatory, etc.)

In [None]:
words_with_participat = re.findall(r"participat\w*", texte.lower()) 
print("Le nombre de mots contenant la racine 'participat' est : ", len(words_with_participat))
print("Voici la liste des différentes formes retrouvées : ", set(words_with_participat))

En fait, la fonction `re.findall()` "retourne" la liste de toutes les occurrences des termes commençant par "participat". Si on veut la liste des différentes formes sans les doublons, on écrit l'objet contenant la liste à l'intérieur de la fonction `set()`.

In [None]:
print("La liste des occurrences de 'participat' : ", words_with_participat[0:10])
print("Voici la liste des différentes formes retrouvées sans les doublons : ", set(words_with_participat))

### Exercice

Pour chaque terme contenu dans la liste `words_with_participat`, comptez le nombre d'occurrences dans les entretiens de Grazia Borrini, puis dans celui de Marie Roué.

* Trouver une regex pour identifier les expressions contenant la racine "participat" comme "science participative" ou "démocratie participative".

### Mettre en gras les mots recherchés

Maintenant que nous avons identifiés les termes commençant par "participat", il peut être intéressant des les "taguer" dans le texte pour les repérer plus facilement à la lecture des entretiens. Ici, on choisit de les signaler en les encadrant de deux astérisques, mais on peut aussi utiliser des balises html, xml, etc.

In [None]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt","r") as f:
    texte = f.readlines()

for s in texte:
    if re.search(r'participat\w+', s.lower()):
        for w in set(re.findall(r'participat\w+', s.lower())):
            s = re.sub(w, f'**{w}**', s.lower())
        #print(s)


Si on veut enregistrer le résultat dans un fichier .txt

In [None]:
with open("../records/2026-02-05_grazia_borrini_in_block.txt" , 'w', newline='') as txt:
    for s in texte: 
        txt.write(s)

La cellule ci-dessous permet de faire la même recherche dans des données présentées dataframe (tableur)

In [None]:
dict_n_word = {}
dict_word = {}
for n, seg in enumerate(gb.id):
    row = gb.iloc[n]
    n_word = len(re.findall(r'participat\w+', row["text"].lower()))
    word = [x for x in set(re.findall(r'participat\w+', row["text"].lower()))]
    if n_word > 0:
        
        dict_word[seg]= "|".join(word)
        dict_n_word[seg] = n_word

dict_word
gb["partipat"] = gb.id.map(dict_word.get)
gb["nb_partipat"] = gb.id.map(dict_n_word.get)
gb.loc[gb.nb_partipat>0]



Le problème de cette méthode est qu'il faut connaître a priori les termes que l'on souhaite rechercher. Nous allons maintenant voir comment faire ressortir les termes spécifiques de l'entretien.

# Identifier les termes "spécifiques" d'un entretien

## Le Term Frequency-Inverse Document Frequency (TF-IDF)

Le "Term Frequency-Inverse Document Frequency" (TF-IDF) est un indice statistique utilisé dans la recherche d'information et l'exploration de documents. Il permet de "mesurer" l'importance d'un terme dans un document comparativement à un ensemble de documents. Au sens du "TF-IDF", un mot est important dans un document lorsqu'il apparait plus fréquement que dans le reste du corpus. Par exemple, si dans un entretien l'expression "savoirs locaux" apparaît 10 fois alors que dans les autres il n'apparaît jamais, on peut supposer que c'est une expression "importante" pour la personne qui la cite.

Les éléments qui vont suivre permettent de calculer ce TF-iDF. Nous allons d'abord voir comment le calculer 'from scratch', afin de comprendre les différents élements qui entre dans le calcul de l'indice au cas où voudriez le faire dans excel par exemple. Puis, nous utiliserons des modules pythons qui permettent de le faire de façon plus "concise".

Le calcul du TF-IDF suppose au préalable de "nettoyer" les textes : le passer en petite casse, retirer les signes de ponctuation et les "stop words" (mots vides en français). Les "stop words" sont des mots tellement communs qu'ils n'apportent théoriquement aucune information sur le contenu du texte. Les articles (la, le, les, de, du, des, etc.), les auxilliaires (être, avoir) sont généralement considérés comme des stop words. 

Plusieurs modules sous Python proposent des listes de "stop words". Je vous propose d'utiliser les modules "Spacy" et "Nltk" conçues spécialement pour le traitement automatique des langues.

### Installer et charger Spacy

Spacy n'est pas encore installé. Pour cela nous ouvrons une cellule de code et écrivons `!pip install spacy`

In [None]:
!pip install spacy

Une fois spacy installé, nous allons télécharger le modèle de langue dont on n'a besoin. Dans le cas des entretiens utilisés pour l'atelier, on prend le modèle français. Mais il existe d'autres langues : l'anglais bien sûr, mais aussi l'allemand, le chinois, le polonais, etc. 

Vous trouverez les modèles de langue existant ici  : [https://spacy.io/models](https://spacy.io/models)



In [None]:
!python -m spacy download fr_core_news_md

### Les stop words proposés par Spacy

Enfin, on peut importer le module spacy, charger le modèle et imprimer la liste des stop words

In [None]:
import spacy
nlp = spacy.load('fr_core_news_md')
print(f"Il y a {len(nlp.Defaults.stop_words)} termes dans la liste des stopwords de Spacy")
print(nlp.Defaults.stop_words)

### Les stop words proposés par le module nltk

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

In [None]:
stopwords.words("french")
print(f"Il y a {len(stopwords.words("french"))} termes dans la liste des stopwords de Spacy")
print(stopwords.words("french"))

### Nettoyage du texte

Nous allons "nettoyer" le texte de l'entretien de Grazia Borrini et le "tokenizer" (i.e. diviser en mot). Nous allons par ailleurs travailler au niveau des blocs pour voir quels sont les thèmes qui émergent au fil de l'entretien ou ceux qui reviennent. Par défaut, aucun stopword n'est retiré.





In [None]:
def cleaner(text, lower_case = True, remove_stopword=None):
    if lower_case == True:
        text = text.lower()
    else:
        pass
    text = re.sub(r"http\S+", "", text) # remove urls
    text = re.sub("’", "'",text) #replace "’" by "'"
    text = re.sub("'", "' ",text) #replace "’" by "'"
    text = " ".join(re.sub("[^a-zA-Zàâäéèêëïîôöùûüÿçß]+", " ", text).lower().split()) #remove hashtag, arobase, HTML character
    text = re.sub(r"\b[a-zA-Z].\b", "", text)
    if remove_stopword == None:
        split_text = text.split() # 
    else:
        split_text = [x for x in text.split() if x not in remove_stopword]
        text = ' '.join(split_text)
    
    return text, split_text

La fonction `cleaner()` prend en entrée un texte (un string en langage informatique). L'argument "remove_stopword" prend une liste de termes que l'on souhaite retirer pour l'analyse. Elle retourne ensuite deux objets : 
* la phrase "nettoyée", c'est-à-dire sans ponctuation, sans caractères spéciaux et en petite casse (on peut préciser ̀`lower_case = False` si on veut garder les majuscules)
* la phrase tokenizée

**Essayons-là!**

In [None]:
phrase = "Le chat mange une souris. La souris est mangée par un chat. La souris que le chat a mangée! #souris #chat. C'est le chat qui mange la souris."

cleaned_phrase, token_phrase = cleaner(phrase)
print("La phrase nettoyée : ", cleaned_phrase)
print("La phrase tokenizée : ", token_phrase)

La même phrase avec les "stop_words en moins":

In [None]:
fr_stopwords = stopwords.words("french") # on met les stop words de nltk dans une liste
cleaned_phrase, token_phrase = cleaner(phrase, remove_stopword=fr_stopwords)
print("La phrase nettoyée : ", cleaned_phrase)
print("La phrase tokenizée : ", token_phrase)

### Exercice

Utiliser la même fonction `cleaner` en utilisant cette fois la liste des stopwords proposée par Spacy

In [None]:
# Ecrire le code dans cette cellule


Nous allons maintenant répéter la fonction de nettoyage sur chacun des segments de l'entretien de Grazia Borrinin en utilisant le dataframe `gb`

In [None]:
fr_stopwords = list(nlp.Defaults.stop_words)#stopwords.words("french")

dict_token = {} #dictionnaire pour "conserver" la liste des tokens de chaque segment
dict_text = {} #dictionnaire pour "conserver" les segments nettoyés
dict_size_token = {} #dictionnaire pour "conserver" le nombre de tokens par segment
for n, seg in enumerate(gb.id): # pour chaque segment dans la colonne gb.id
    row = gb.iloc[n] #on extrait lla ligne
    text = row['text']#on extrait le texte
    clean_text, split_text = cleaner(text, lower_case = True, remove_stopword=fr_stopwords)
    dict_token[seg]="|".join(split_text)
    dict_size_token[seg] = len(split_text)
    dict_text[seg]= clean_text



Les objets `dict_token` et `dict_text` sont des "dictionnaires" qui nous permettront d'ajouter la liste des token et les phrases nettoyées à notre dataframe. Pour faciliter le comptage, on va ensuite utilise la fonction `explode()` de pandas permettant de créer un nouveau dataframe avec une ligne par token. 

In [None]:
gb["cleaned_text"] = gb.id.map(dict_text.get)
gb["tokens"] = gb.id.map(dict_token.get)
gb["nb_tokens"] = gb.id.map(dict_size_token.get)

gb["tokens"]= gb.tokens.str.split("|")

gb_explode = gb[["id","bloc_id","speaker","tokens","nb_tokens"]].loc[gb.nb_tokens>0].explode("tokens")
gb_explode

### Décortiquer le TF-IDF

Cette partie s'inspire de l'article "Analyse de documents avec TF-IDF" de Matthew Lavin publié dans la revue en ligne *Programming Historian* (revue que je recommande pour ces nombreux articles didactiques).

La formule mathématique pour calculer le TF-IDF est la suivante :

\begin{equation}
Tf{\text -}Idf_i = Tf_i \times Idf_i
\end{equation}

* $Tf_i$ : la fréquence du terme *i* dans le document. Selon les algorithmes, la fréquence correspond à la fréquence absolue ou à la fréquence relative (i.e. fréquence du terme *i* divisé par le nombre de tokens dans le document)
* $Idf_i$ : la fréquence *inverse* de documents (inverse document frequency) du terme *i*. Elle correspond au *logarithme naturel* du nombre de documents analysés divisé par le nombre de documents contenant le terme *i*.

$$
Idf_i = ln\left[{\frac{N}{df_i}}\right]
$$

* N : le nombre de document analysés
* df_i : le nombre de document contenant *i*.

Souvent, les algorythmes implémentés dans les modules informatiques "normalisent" l'idf en ajoutant $+1$ au numérateur puis au logarithme. C'est le cas du module Scikit-learn que nous allons utilisé plus bas.

$$
Idf_i = ln\left[{\frac{N+1}{df_i}}\right]+1
$$

Si la formule peut impressionnée, elle n'a rien de vraiment compliqué puisque la plupart des opérations sont des additions, mutliplications et divisions. En ce qui concerne le logarithme, nous allons utilisez le module numpy.


Un petit exemple concret :

On remarque que dans un entretien le mot "domination" apparaît 10 fois. Ce mot apparaît par ailleurs dans 5 entretiens et notre corpus en contient 30.
On remarque également que dans ce même entretien le mot "famille" apparaît 20 fois et qu'il est présent dans les 30 entretiens.

|terme | $tf_i$ | $df_i$ | $N$| $tf{\text -}idf_i$|
|------|--------|--------|----|-----------|
|domination| 10 | 5 | 30 | 28,25 |
|famille | 20 | 30 | 30 | 20,66 |

$$
tf{\text -}idf_{domination} = 10 \times \left[len\left(\frac{30+1}{5}\right) +1\right] \approx 28,25 
$$

$$
tf{\text -}idf_{famille} = 20 \times \left[len\left(\frac{30+1}{30}\right) +1\right] \approx 20,66
$$



In [None]:
import numpy as npdocument

La fonction `compute_tfidf` décompose l'algorithme. Pour chaque bloc, on compte le nombre de fois qu'apparaît le terme, le nombre de blocs dans lequel il est présent et le nombre de bloc total.
On calcule par ailleurs deux tf-idf : l'un avec la fréquence absolue, l'autre avec la fréquence relative.


In [None]:
def compute_tfidf(data, group_by):
    
    size_doc0 = data.groupby([group_by]).agg(nb_tokens=("tokens","size")).reset_index()
    size_doc = size_doc0.loc[size_doc0.nb_tokens >1]

    l = [x for n, x in enumerate (size_doc[group_by]) if size_doc.nb_tokens.iloc[n] > 1]
    data = data.loc[data[group_by].isin(l)]
    token_freq = data.groupby([group_by,"tokens"]).agg(term_freq=(group_by,"size")).reset_index()
    #remove bloc with 0 or 1 token :
     
    nb_of_doc = data[group_by].nunique()

    nb_doc_with_freq = data[[group_by,"tokens"]].drop_duplicates().groupby("tokens").agg(nb_doc=(group_by,"size")).reset_index()
    
    df_tf = token_freq.merge(size_doc, on = [group_by], how = "left").merge(nb_doc_with_freq, on = ["tokens"], how = "left")
    df_tf["tf"]= df_tf.term_freq/df_tf.nb_tokens
    df_tf["idf"]= np.log((nb_of_seg+1)/df_tf.nb_doc)+1
    df_tf["tfidf"]= df_tf.tf*df_tf.idf
    df_tf["tfidf1"]= df_tf.term_freq*df_tf.idf
    return df_tf

In [None]:
df = compute_tfidf(data=gb_explode, group_by="bloc_id")
#dict_tfidf
df["id_bloc"] = df.bloc_id.str.replace("bloc_","").astype(int)
df = df.merge(gb_explode[["bloc_id", "speaker"]].drop_duplicates(), on = ["bloc_id"], how ="left")
df = df.loc[df.speaker == "Speaker 0"].sort_values("id_bloc", ascending=True)

for bloc in df.id_bloc.unique():
    df_bloc = df.loc[df.id_bloc == bloc].sort_values("tfidf", ascending=False)
    specific_term = [x for x in df_bloc.tokens.head(5)]
    print(f"Les 5 termes les plus spécifique du bloc {bloc} sont : ", specific_term)


In [None]:
df.sort_values("id_bloc", ascending=True)

## TF-IDF avec scikit learn

Dans la section précédente, j'ai créé une fonction spéciale pour "montrer" le fonctionnement du TF-IDF en espérant que cela aide à sa compréhension. Toutefois, il existe de nombreux modules qui permettent de calculer le tf-idf uniquement en donnant une liste de document entrée. C'est le cas de Scikit-learn, un module dédié "machine learning".

In [None]:
# importer le vectoriseur TfidfVectorizer de Scikit-Learn.  
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# Chargement du modèle français de SpaCy
nlp = spacy.load('fr_core_news_md')  # ou 'en_core_web_sm' pour l'anglais
# Récupération et extension des stopwords par défaut de SpaCy
spacy_stopwords = set(nlp.Defaults.stop_words)




In [None]:
# Fonction pour lemmatiser le texte et retirer les stopwords
def lemmatize_and_remove_stopwords(text, nlp, stopwords, lemmatiser = False):
    doc = nlp(text)
    if lemmatiser == True:
        cleaned_text = " ".join([token.lemma_ for token in doc if token.text.lower() not in stopwords and not token.is_punct])
    else:
        cleaned_text = " ".join([str(token) for token in doc if token.text.lower() not in stopwords and not token.is_punct])
    return cleaned_text

In [None]:
gb_bloc_id, gb1 = get_bloc(data=gb, column="speaker", new_dataframe=False)
gb_bloc_text = write_bloc_in_list(data=gb1, column_of_text = "bloc_text", segment_tag=False, segment_id=None)


In [None]:
print(gb_bloc_text[0]["bloc_text"])
print(lemmatize_and_remove_stopwords(list_bloc_text[0]["bloc_text"], nlp, spacy_stopwords))

In [None]:
tous_documents = []
tous_documents2 = []
for bloc in gb_bloc_text:
    lemmatized_an_cleaned_text = lemmatize_and_remove_stopwords(bloc["bloc_text"], nlp, spacy_stopwords, lemmatiser = True)
    tous_documents.append(lemmatized_an_cleaned_text)


vectoriseur = TfidfVectorizer(use_idf=True)
documents_transformes = vectoriseur.fit_transform(tous_documents)

In [None]:
documents_transformes_tableau = documents_transformes.toarray()
len(documents_transformes_tableau)

In [None]:
i = -1
for compteur, document in enumerate(documents_transformes_tableau):
    i+=1
    #print("#####\n",document)
    # construire un objet de la classe DataFrame
    tf_idf_tuples = list(zip(vectoriseur.get_feature_names_out(), document))
    df0 = pd.DataFrame.from_records(tf_idf_tuples, columns=['terme', 'tfidf']).sort_values(by='tfidf', ascending=False).reset_index(drop=True)
    df0 = df0.loc[df0.tfidf > 0]
    df0['bloc_id'] = str(compteur)
    if i == 0:
        df = df0.copy()
    else:
        df = pd.concat([df, df0])

for bloc in df.bloc_id.unique():
    df_bloc = df.loc[df.bloc_id == bloc].sort_values("tfidf", ascending=False)
    specific_term = [x for x in df_bloc.terme.head(5)]
    print(f"Les 5 termes les plus spécifique du bloc {bloc} sont : ", specific_term)


In [None]:
df

## Comparaison des deux entretiens

In [None]:
gb["itw"] = "itw_gb"
mr["itw"] = "itw_mr"


text_gb = [x for x in gb.text]
text_mr = [x for x in mr.text]

In [None]:
tous_documents = []
for itw in [text_gb, text_mr]:
    lemmatized_an_cleaned_text = lemmatize_and_remove_stopwords(" ".join(itw), nlp, spacy_stopwords, lemmatiser = True)
    tous_documents.append(lemmatized_an_cleaned_text)

vectoriseur = TfidfVectorizer(max_df=.65, min_df=1, use_idf=True)
documents_transformes = vectoriseur.fit_transform(tous_documents)

In [None]:
documents_transformes_tableau = documents_transformes.toarray()
len(documents_transformes_tableau)

In [None]:
i = -1
for compteur, document in enumerate(documents_transformes_tableau):
    i+=1
    #print("#####\n",document)
    # construire un objet de la classe DataFrame
    tf_idf_tuples = list(zip(vectoriseur.get_feature_names_out(), document))
    df0 = pd.DataFrame.from_records(tf_idf_tuples, columns=['terme', 'tfidf']).sort_values(by='tfidf', ascending=False).reset_index(drop=True)
    df0 = df0.loc[df0.tfidf >= 0]
    df0['bloc_id'] = str(compteur)
    if i == 0:
        df = df0.copy()
    else:
        df = pd.concat([df, df0])

for bloc in df.bloc_id.unique():
    df_bloc = df.loc[df.bloc_id == bloc].sort_values("tfidf", ascending=False)
    specific_term = [x for x in df_bloc.terme.tail(20)]
    print(f"Les 5 termes les plus spécifique du bloc {bloc} sont : ", specific_term)


In [None]:
df.loc[df.terme.str.contains(r"participat")]