In [2]:
import pandas as pd
import os
import re

# 1. Fonction de nettoyage sp√©cifique pour les Programmes (Platforms)
def clean_platform_text(text):
    # Supprimer les mentions l√©gales typiques des PDF de campagne
    text = re.sub(r'Paid for by.*', '', text, flags=re.IGNORECASE)
    text = re.sub(r'Not Authorized By.*', '', text, flags=re.IGNORECASE)
    
    # Supprimer les num√©ros de page isol√©s (chiffres seuls sur une ligne ou entour√©s d'espaces)
    text = re.sub(r'\n\s*\d+\s*\n', ' ', text) # Chiffre seul sur une ligne
    text = re.sub(r'\s\d+\s', ' ', text)       # Chiffre isol√© dans le texte
    
    # Supprimer les en-t√™tes/pieds de page r√©p√©t√©s s'ils sont connus (ex: "Republican Platform 2012")
    # On peut ajouter ici des patterns sp√©cifiques si tu en remarques d'autres
    
    # Nettoyage des sauts de ligne (PDF) : 
    # Remplacer les retours √† la ligne par des espaces pour reconstituer les phrases
    text = text.replace('\n', ' ')
    
    # Supprimer les espaces multiples (ex: "  " devient " ")
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# 2. Boucle pour traiter les fichiers
def process_platforms(folder_path):
    data = []
    
    # Liste tous les fichiers .txt dans le dossier
    for filename in os.listdir(folder_path):
        if filename.endswith(".txt"):
            file_path = os.path.join(folder_path, filename)
            
            # Extraction des m√©tadonn√©es via le nom du fichier (ex: "2004-Republicans.txt")
            # Attention: Adapte le split si tes fichiers sont nomm√©s diff√©remment
            try:
                year_str, party_raw = filename.replace('.txt', '').split('-')
                year = int(year_str)
                party = "Republican" if "Republicans" in party_raw else "Democrat"
            except:
                print(f"Format de nom de fichier non reconnu pour : {filename}")
                continue

            # Lecture et nettoyage
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                raw_text = f.read()
                cleaned_text = clean_platform_text(raw_text)
            
            # Pour les programmes, le candidat est souvent "Party Platform", 
            # ou tu peux mettre le nom du candidat de l'ann√©e si tu pr√©f√®res.
            candidate_name = "Party Platform" 
            
            data.append({
                'year': year,
                'party': party,
                'candidate': candidate_name, 
                'text': cleaned_text
            })
    
    return pd.DataFrame(data)

# --- UTILISATION ---

# Remplace ceci par le chemin r√©el de ton dossier contenant les 14 fichiers txt
folder_path = '/Users/jessicabourdouxhe/Desktop/Master 1/Data/Projet /elections-nlp-project/data/raw/manifestos' 

# Cr√©ation du dataframe des programmes
df_platforms = process_platforms(folder_path)

# Chargement de ton dataframe des discours (celui que tu as envoy√©)
df_speeches = pd.read_csv('/Users/jessicabourdouxhe/Desktop/Master 1/Data/Projet /elections-nlp-project/data/processed/president_speeches_clean.csv')

# Uniformisation des colonnes (au cas o√π)
df_speeches = df_speeches[['year', 'party', 'candidate', 'text']]
df_platforms = df_platforms[['year', 'party', 'candidate', 'text']]

# Fusion des deux bases (Concat√©nation verticale)
df_nlp_final = pd.concat([df_speeches, df_platforms], ignore_index=True)

# V√©rification
print(f"Nombre de textes total : {len(df_nlp_final)}")
print(df_nlp_final.head())

# Sauvegarde
df_nlp_final.to_csv('nlp_database_complete.csv', index=False)

Format de nom de fichier non reconnu pour : 2020_Republicans.txt
Nombre de textes total : 27
   year       party candidate  \
0  2024    Democrat    Harris   
1  2024  Republican     Trump   
2  2020    Democrat     Biden   
3  2020  Republican     Trump   
4  2016    Democrat   Clinton   

                                                text  
0  Good evening! Kamala! Kamala! Kamala! Californ...  
1  Thank you very much. Thank you very, very much...  
2  Good evening. Ella Baker, a giant of the civil...  
3  Thank you very much. Thank you very much. Than...  
4  Thank you all very, very much! Thank you for t...  


Sanity check

In [4]:
# 1. REMETTRE DE L'ORDRE
# On trie par Ann√©e (descendant) et par Parti
df_nlp_final = df_nlp_final.sort_values(by=['year', 'party'], ascending=[False, True])

# 2. V√âRIFICATION (Le "Sanity Check")
print("-" * 30)
print("V√âRIFICATION DU CONTENU")
print("-" * 30)

# A. Est-ce qu'on a bien tous les documents ?
# Tu devrais avoir environ 4 documents par an (2 discours + 2 programmes)
print("\nNombre de documents par ann√©e :")
print(df_nlp_final.groupby('year').size())

# B. Est-ce que les textes des programmes sont bien remplis ?
# On calcule la longueur du texte pour v√©rifier qu'on n'a pas nettoy√© "trop fort" (texte vide)
df_nlp_final['text_length'] = df_nlp_final['text'].apply(len)

print("\nAper√ßu des 10 premiers documents (Ann√©e, Parti, Candidat, Longueur du texte) :")
print(df_nlp_final[['year', 'party', 'candidate', 'text_length']].head(15))

# C. V√©rifier sp√©cifiquement les plateformes (Programmes)
print("\nZoom sur les programmes (doivent √™tre tr√®s longs, > 20 000 caract√®res souvent) :")
print(df_nlp_final[df_nlp_final['candidate'] == "Party Platform"][['year', 'party', 'text_length']])

------------------------------
V√âRIFICATION DU CONTENU
------------------------------

Nombre de documents par ann√©e :
year
2000    4
2004    4
2008    4
2012    4
2016    4
2020    3
2024    4
dtype: int64

Aper√ßu des 10 premiers documents (Ann√©e, Parti, Candidat, Longueur du texte) :
    year       party       candidate  text_length
0   2024    Democrat          Harris        20974
20  2024    Democrat  Party Platform       270996
1   2024  Republican           Trump        66964
22  2024  Republican  Party Platform        39275
2   2020    Democrat           Biden        17591
19  2020    Democrat  Party Platform       287421
3   2020  Republican           Trump        40805
4   2016    Democrat         Clinton        29502
15  2016    Democrat  Party Platform       182915
5   2016  Republican           Trump        29128
23  2016  Republican  Party Platform       240697
6   2012    Democrat           Obama        25330
14  2012    Democrat  Party Platform       169538
7   2012 

In [5]:
# On regarde uniquement l'ann√©e 2012
test_2012 = df_nlp_final[df_nlp_final['year'] == 2012]

print(f"Nombre de lignes pour 2012 : {len(test_2012)}")
print(test_2012[['year', 'party', 'candidate', 'text_length']])

Nombre de lignes pour 2012 : 4
    year       party       candidate  text_length
6   2012    Democrat           Obama        25330
14  2012    Democrat  Party Platform       169538
7   2012  Republican          Romney        22519
16  2012  Republican  Party Platform       211417


tri dans la base de donn√©e 

In [7]:
# --- √âTAPE 1 : TRI D√âFINITIF ET PROPRE ---

# 1. On trie par Ann√©e (descendant) et par Parti (alphab√©tique)
df_nlp_final = df_nlp_final.sort_values(by=['year', 'party'], ascending=[False, True])

# 2. CRUCIAL : On r√©initialise l'index
# Cela permet que la premi√®re ligne soit bien la num√©ro 0, la deuxi√®me la 1, etc.
# L'option 'drop=True' √©vite de garder l'ancien index en d√©sordre dans une nouvelle colonne.
df_nlp_final = df_nlp_final.reset_index(drop=True)

# 3. On sauvegarde cette version "propre et tri√©e" (checkpoint de s√©curit√©)
df_nlp_final.to_csv('nlp_database_sorted_clean.csv', index=False)

print("‚úÖ Base de donn√©es tri√©e et index r√©initialis√©.")
print("Aper√ßu des 10 premi√®res lignes (doit commencer par 2024) :")
print(df_nlp_final[['year', 'party', 'candidate']].head(10))

‚úÖ Base de donn√©es tri√©e et index r√©initialis√©.
Aper√ßu des 10 premi√®res lignes (doit commencer par 2024) :
   year       party       candidate
0  2024    Democrat          Harris
1  2024    Democrat  Party Platform
2  2024  Republican           Trump
3  2024  Republican  Party Platform
4  2020    Democrat           Biden
5  2020    Democrat  Party Platform
6  2020  Republican           Trump
7  2016    Democrat         Clinton
8  2016    Democrat  Party Platform
9  2016  Republican           Trump


In [21]:
import pandas as pd
import re

def cleaning_v8_scorched_earth(text):
    if not isinstance(text, str): return ""
    
    # --- 1. NETTOYAGE DES NOMBRES (NOUVEAU) ---
    # On supprime TOUS les nombres qui ne ressemblent pas √† une ann√©e (19xx ou 20xx)
    # Cela va tuer tes "6060", "0002", "3-1", etc.
    # Regex : On cherche un chiffre. Si ce n'est pas pr√©c√©d√© de 19 ou 20, on supprime.
    text = re.sub(r'\b(?!19|20)\d+\b', ' ', text) # Vire 6060, 54, 1...
    text = re.sub(r'\b\d+\.\d+\b', ' ', text)     # Vire les d√©cimaux 0.0002
    
    # --- 2. LA BLACKLIST (Mots individuels) ---
    # On ajoute ici tous les d√©chets que tu as vus, mot par mot.
    blacklist = [
        "etek", "nee", "ane", "EERE", "PR", "ees", "MERICAN", 
        "itecee", "cscce", "erenere", "ri", "DDLE", "eeaeva"
    ]
    
    for bad_word in blacklist:
        # On supprime le mot exact, quelle que soit la casse
        text = re.sub(r'\b' + re.escape(bad_word) + r'\b', ' ', text, flags=re.IGNORECASE)

    # --- 3. NETTOYAGE PONCTUATION & SYMBOLES (NOUVEAU) ---
    # On vire les r√©p√©titions de ponctuation (ex: ": :..")
    text = re.sub(r'[\.:\-,_]{2,}', ' ', text) 
    # On vire le symbole centime et autres
    text = re.sub(r'[^a-zA-Z0-9\s.,;:\'\-?!]', ' ', text)

    # --- 4. R√àGLES CLASSIQUES (D√©j√† valid√©es) ---
    # Noise Pattern (Lettres sales OCR) -> Mots > 12 lettres
    text = re.sub(r'\b[cesinrat_\-]{12,}\b', ' ', text, flags=re.IGNORECASE)
    
    # Length Nuke (Mots > 18 lettres)
    text = re.sub(r'\b\w{18,}\b', ' ', text)
    
    # Majuscules espac√©es
    text = re.sub(r'\b([A-Z])\s+(?=[A-Z]\b)', r'\1', text)
    
    # En-t√™tes
    text = re.sub(r'TABLE OF CONTENTS|CONTENTS|PREAMBLE|INTRODUCTION', ' ', text, flags=re.IGNORECASE)

    # Nettoyage final des espaces
    return re.sub(r'\s+', ' ', text).strip()

print("‚ò¢Ô∏è D√©marrage du nettoyage V8 (Terre Br√ªl√©e)...")

# Application
df_nlp_final['text'] = df_nlp_final['text'].apply(cleaning_v8_scorched_earth)

# Tri et Indexation
df_nlp_final = df_nlp_final.sort_values(by=['year', 'party'], ascending=[False, True])
df_nlp_final = df_nlp_final.reset_index(drop=True)

# Sauvegarde
output_filename = 'nlp_database_CLEAN_V8.csv'
df_nlp_final.to_csv(output_filename, index=False)

print(f"‚úÖ Termin√© ! Base sauvegard√©e : {output_filename}")

# --- V√âRIFICATION ---
print("\nüîç V√©rification finale :")
check_list = ["etek", "nee", "6060", "0002", "ees", "MERICAN"]
clean_count = 0

for item in check_list:
    matches = df_nlp_final[df_nlp_final['text'].str.contains(r'\b' + item + r'\b', case=False, na=False)]
    if len(matches) > 0:
        print(f"‚ùå '{item}' est toujours l√† (Bizarre !)")
    else:
        print(f"‚ú® '{item}' a √©t√© atomis√©.")
        clean_count += 1

if clean_count == len(check_list):
    print("\nüèÜ VICTOIRE TOTALE. Lance l'analyse de sentiment maintenant !")

‚ò¢Ô∏è D√©marrage du nettoyage V8 (Terre Br√ªl√©e)...
‚úÖ Termin√© ! Base sauvegard√©e : nlp_database_CLEAN_V8.csv

üîç V√©rification finale :
‚ú® 'etek' a √©t√© atomis√©.
‚ú® 'nee' a √©t√© atomis√©.
‚ú® '6060' a √©t√© atomis√©.
‚ú® '0002' a √©t√© atomis√©.
‚ú® 'ees' a √©t√© atomis√©.
‚ú® 'MERICAN' a √©t√© atomis√©.

üèÜ VICTOIRE TOTALE. Lance l'analyse de sentiment maintenant !
