_________
_Notebook cr√©√© par Lise Brisset, le 21/12/2024, dans le cadre du cours de d'Apprentissage Artificiel (enseignant : Lo√Øc Grobol)._

Groupe du projet ML2024 DEFT09 : Patricia Augustyn, Lise Brisset et Solomiia Korol.

Ce notebook permet d'extraire les vecteurs du corpus DEFT09.
Il suit l'√©tape du notebook _extract_train_test.ipynb_ .

___________

In [1]:
# Importation des librairies n√©cessaires au programme : 
import json
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

## R√©cup√©ration des donn√©es train et test des fichiers JSON :

In [2]:
# D√©finition de la fonction qui permet de lire le fichier JSON :

def lire_fichier_json(nom_fichier):
    with open(nom_fichier, "r") as fichier:
        file = fichier.read()
        donnees = json.loads(file)
    return donnees

# D√©finition de la fonction qui permet de r√©cup√©rer les textes des donn√©es JSON :

def recuperer_textes(donnees, type_donnees): 
    textes = []
    for element in donnees[type_donnees]:
        textes.append(element["texte"])
    return textes

# D√©finition de la fonction qui permet de r√©cup√©rer les partis politiques des donn√©es JSON :

def recuperer_partis(donnees, type_donnees):
    partis = []
    for element in donnees[type_donnees]:
        partis.append(element["parti"])
    return partis

# D√©finition de la fonction qui permet d'extraire les donn√©es du fichier JSON : 

def extraction_donnees(nom_fichier, types_donnees):
    donnees = lire_fichier_json(nom_fichier)
    textes = recuperer_textes(donnees, types_donnees)
    partis = recuperer_partis(donnees, types_donnees)
    print(f"La liste des textes et celle des partis politiques de {types_donnees} ont bien √©t√© extraites üòÑ.")
    return textes, partis

In [3]:
# extraction des donn√©es d'entra√Ænement √† partir des fichiers JSON :
nom_fichier_train = "./data_parlement/train/deft09_parlement_train.json"
textes_train, partis_train = extraction_donnees(nom_fichier_train, "train")

# extraction des donn√©es de test √† partir des fichiers JSON :
nom_fichier_test = "./data_parlement/test/deft09_parlement_test.json"
textes_test, partis_test = extraction_donnees(nom_fichier_test, "test")

La liste des textes et celle des partis politiques de train ont bien √©t√© extraites üòÑ.
La liste des textes et celle des partis politiques de test ont bien √©t√© extraites üòÑ.


In [4]:
# Affichage de quelques exemples : 
print("Exemples de textes d'entra√Ænement :")
for i in range(3):
    print(f"Texte {i+1} : {textes_train[i]}")
    print(f"Parti politique : {partis_train[i]}")
    print("\n")

print("Exemples de textes de test :")
for i in range(3):
    print(f"Texte {i+1} : {textes_test[i]}")
    print(f"Parti politique : {partis_test[i]}")
    print("\n")

Exemples de textes d'entra√Ænement :
Texte 1 : Monsieur le Pr√©sident, j'ai toujours fait preuve d'un certain scepticisme quant aux comportements moralistes et policiers qui encouragent carr√©ment la d√©lation et qui permettent d'√©viter des cas de fraude seulement par le biais de la cr√©ation d'instruments de contr√¥le toujours plus envahissants par rapport aux personnes. Nous pouvons certainement - mon groupe et moi-m√™me - soutenir avec conviction le rapport du pr√©sident Napolitano. La modification du r√®glement et la proposition de d√©cision r√©pondent en effet s√©rieusement √† une pr√©occupation qui a √©t√© soulev√©e r√©cemment et que M. Dell'Alba a √©t√© le dernier √† exprimer : ne pas soumettre les d√©put√©s √† des contr√¥les excessifs et arbitraires. Je ne vois aucune raison pour retarder davantage cette d√©cision. Si un tel abus devait se produire, le Parlement europ√©en et les d√©put√©s disposent de larges possibilit√©s pour se d√©fendre. Des proc√©dures internes plus transp

## Vectorisation des donn√©es train et test :

Nous allons vectoriser avec la m√©thode TF-IDF, car lors de nos travaux sur le TP ML2024 sur le corpus 20 newsgroups, nous avons remarqu√© que cette m√©thode de vectorisation est plus adapt√©e √† un probl√®me de classification de texte plut√¥t que la m√©thode de comptage de mot simple (_CountVectorizer_). 

In [5]:
# D√©finition de la fonction qui permet de vectoriser les textes :

def vectoriser_textes(textes_train, textes_test):
    vectorizer = TfidfVectorizer()
    X_train = vectorizer.fit_transform(textes_train)
    X_test = vectorizer.transform(textes_test)
    print("Les textes ont bien √©t√© vectoris√©s üòÑ.")
    return X_train, X_test, vectorizer

In [6]:
# Vectorisation des textes d'entra√Ænement et de test :
datas_train, datas_test, vectorizer = vectoriser_textes(textes_train, textes_test)

Les textes ont bien √©t√© vectoris√©s üòÑ.


In [7]:
# Affichage de la taille des donn√©es d'entra√Ænement et de test :
print(f"Taille des donn√©es d'entra√Ænement : {datas_train.shape}")
print(f"Taille des donn√©es de test : {datas_test.shape}")

Taille des donn√©es d'entra√Ænement : (19370, 54760)
Taille des donn√©es de test : (12917, 54760)


## Conversion des noms de classes en num√©ro : 

Nous avons cinqs classes diff√©rentes, nous allons donc convertir chaque noms de partis politiques en un num√©ro de classe entre 1 et 5 :
- Verts-ALE = 1, 
- GUE-NGL = 2, 
- PSE = 3, 
- ELDR = 4, 
- PPE-DE = 5

In [8]:
# D√©finition d'une fonction qui convertie les noms des classes en id :

def convert_classes(liste_classes, dico_equivalences):
    partis_convertis = []
    for i, parti in enumerate(liste_classes):
        try:
            partis_convertis.append(dico_equivalences[parti])
        except KeyError as e:
            print(e, "au document :", i+1)
    print("Convertion termin√©e !")
    return partis_convertis

In [9]:
# Conversion de la liste de partis politiques ordonn√©s en une liste √©quivalente des classes avec des ids allant de 1 √† 5 :
dico_equivalences = {"Verts-ALE" : 1, "GUE-NGL" : 2, "PSE" : 3, "ELDR" : 4, "PPE-DE" : 5}

# convertion des classes train et test : 
partis_train_convertis = convert_classes(partis_train, dico_equivalences)
partis_test_convertis = convert_classes(partis_test, dico_equivalences)

Convertion termin√©e !
'' au document : 1175
'' au document : 4574
Convertion termin√©e !


Comme il n'y a que deux documents qui n'ont pas de partis attitr√©, nous allons les retirer nous m√™me. Il n'y en a que deux, de plus apr√®s v√©rification, les texte associ√© √† ce ids sont vides donc nous pouvons totalement les retirer !

Deux document √©tait vide dans le JSON, nous les avosn donc supprim√© manuellement. Ce sont les documents avec pour ID : 1175 et 4574 dans les donn√©es de test. 

## Enregistrement des donn√©es dans un format tabulaire

In [10]:
print(f" üìö Le corpus test converti üìö : {partis_test_convertis}")
print(f"üìö Le corpus train converti üìö : {partis_train_convertis}")

 üìö Le corpus test converti üìö : [4, 2, 5, 2, 5, 1, 5, 5, 2, 5, 1, 1, 5, 5, 2, 3, 5, 2, 3, 1, 5, 5, 5, 5, 5, 5, 1, 1, 3, 1, 5, 4, 5, 3, 1, 5, 5, 5, 3, 5, 1, 5, 2, 2, 2, 5, 3, 3, 5, 2, 3, 5, 4, 1, 4, 5, 2, 3, 3, 2, 4, 5, 3, 4, 1, 5, 5, 5, 4, 3, 5, 3, 2, 1, 3, 3, 4, 5, 4, 4, 1, 5, 1, 5, 3, 3, 5, 3, 3, 1, 2, 1, 3, 4, 4, 4, 5, 4, 5, 3, 5, 3, 5, 1, 5, 5, 2, 5, 5, 2, 3, 4, 4, 5, 3, 1, 4, 2, 5, 3, 5, 5, 5, 5, 1, 2, 3, 5, 2, 5, 3, 5, 5, 5, 3, 5, 3, 3, 5, 1, 4, 1, 5, 4, 2, 2, 3, 2, 3, 3, 1, 5, 5, 2, 3, 3, 5, 3, 4, 5, 3, 3, 5, 3, 5, 5, 1, 5, 3, 1, 1, 5, 5, 5, 3, 1, 5, 4, 5, 3, 2, 3, 4, 3, 3, 2, 4, 2, 5, 5, 5, 1, 2, 4, 2, 5, 5, 2, 4, 5, 5, 5, 2, 4, 5, 5, 1, 5, 5, 1, 5, 2, 3, 5, 3, 5, 1, 4, 3, 5, 1, 2, 3, 3, 5, 3, 4, 2, 2, 3, 5, 5, 3, 5, 5, 1, 5, 3, 5, 1, 3, 5, 3, 4, 3, 2, 5, 3, 5, 5, 2, 5, 3, 1, 3, 2, 1, 5, 1, 1, 5, 5, 3, 5, 1, 3, 4, 4, 2, 1, 1, 3, 3, 4, 3, 3, 5, 5, 5, 4, 5, 5, 2, 5, 5, 4, 3, 1, 5, 5, 5, 5, 1, 3, 3, 3, 3, 4, 5, 4, 2, 3, 4, 5, 2, 5, 5, 5, 2, 1, 5, 4, 2, 2, 1, 3, 5, 3, 2, 2, 3,

In [11]:
# Cr√©ez un DataFrame pour les donn√©es d'entra√Ænement
df_train = pd.DataFrame(partis_train_convertis, columns=["Classe"])
df_train.to_csv("./data_csv/train/partis_train_convertis.csv", index=False)

# Cr√©ez un DataFrame pour les donn√©es de test
df_test = pd.DataFrame(partis_test_convertis, columns=["Classe"])
df_test.to_csv("./data_csv/test/partis_test_convertis.csv", index=False)


# XXXX JE N'AI PAS LANC√â CE QUI EST EN BAS XXX

## Enregistrement des vecteurs au format Parquet :

Ajouter des explications de pourquoi avoir choisi le format Parquet.

In [None]:
# On va convertir la matrice TF-IDF en liste de listes afin d'en faire ensuite un dictionnaire :
features_train = datas_train.toarray().tolist()  # Convertir en liste de listes

# Cr√©ation du dictionnaire :
dico_data_train = {
    "features": features_train,
    "class": partis_train
}

In [None]:
# La m√™me chose aves les donn√©es de test : 
features_test = datas_test.toarray().tolist()

# cr√©ation du dictionnaire de test : 
dico_data_test = {
    'features': features_test,
    'class': partis_test
}

In [None]:
# Enregistrement des deux dicos dans des fichiers Parquet : 
df_train = pd.DataFrame(dico_data_train)
df_train.to_parquet('data_train_vectorized.parquet')
print("Les donn√©es train ont √©t√© enregistr√©es au format Parquet.")


df_test = pd.DataFrame(dico_data_test)
df_test.to_parquet('data_test_vectorized.parquet')
print("Les donn√©es test ont √©t√© enregistr√©es au format Parquet.")