# üßπ Nettoyage et Traduction de Donn√©es MySQL - News & Tweets

Ce notebook permet de **traduire**, **nettoyer** et **stocker** les donn√©es de **3 fichiers CSV** dans MySQL, ou simplement de **charger** les donn√©es d√©j√† trait√©es.

## üìÅ Datasets trait√©s :
1. **fake_news_dataset.csv** ‚Üí Table `news`
2. **labeled_data.csv** ‚Üí Table `labeled`
3. **FakeNewsNet.csv** ‚Üí Table `fakenewsnet`

## ‚öôÔ∏è Modes de fonctionnement :

### üîÑ Mode `process` :
- Charge les fichiers CSV
- Traduit vers la langue pivot (optionnel)
- Nettoie et tokenise le texte
- Stocke dans MySQL
- **√Ä utiliser : La premi√®re fois ou pour retraiter**

### üì• Mode `load` (par d√©faut) :
- Charge directement depuis MySQL
- **Beaucoup plus rapide** (pas de retraitement)
- **√Ä utiliser : Pour travailler avec des donn√©es d√©j√† trait√©es**

## üéØ Configuration simple :

Dans la cellule de configuration, changez simplement :
```python
MODE = 'load'     # Pour charger depuis MySQL (rapide)
MODE = 'process'  # Pour retraiter les donn√©es (long)
```

## ‚öôÔ∏è Fonctionnalit√©s :
- üåç **Traduction automatique vers langue pivot** (anglais) avec d√©tection de langue
- ‚úÖ **Syst√®me intelligent** : charge ou traite selon la disponibilit√©
- ‚úÖ **√âvite les retraitements inutiles** : v√©rifie si les donn√©es existent d√©j√†
- ‚úÖ Suppression des URLs, mentions, symboles, emojis
- ‚úÖ Tokenization et lemmatisation (via NLTK)
- ‚úÖ Suppression des stopwords
- ‚úÖ Stockage automatique dans MySQL

## üìä Colonnes g√©n√©r√©es (mode process) :
- `text_translated` : Texte traduit en langue pivot
- `text_cleaned` : Texte nettoy√© (sans URLs, ponctuation, etc.)
- `text_processed` : Texte final (tokenis√©, lemmatis√©, sans stopwords)

## üîß Configuration MySQL :
- **Database:** `dataControl`
- **User:** `root`
- **Password:** *(vide)*

## üì¶ D√©pendances requises :
- `googletrans==4.0.0-rc1` : Pour la traduction
- `langdetect` : Pour la d√©tection de langue

## üöÄ Utilisation :
1. **Premi√®re fois** : Mettez `MODE = 'process'` et ex√©cutez toutes les cellules
2. **Fois suivantes** : Laissez `MODE = 'load'` (d√©faut) pour charger rapidement les donn√©es
3. Acc√©dez aux donn√©es via le dictionnaire `dataframes`

In [None]:
# üì¶ INSTALLATION DES D√âPENDANCES

In [None]:
# Installation des packages n√©cessaires (√† ex√©cuter une seule fois)
# !pip install googletrans==4.0.0-rc1 langdetect

In [1]:
import pandas as pd
import re
import nltk
from sqlalchemy import create_engine
import warnings
from googletrans import Translator
from langdetect import detect

from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

warnings.filterwarnings('ignore')

In [222]:
# Configurtion Mysql

In [2]:
# Configuration de la connexion MySQL
DB_USERNAME = 'root'
DB_PASSWORD = ''
DB_HOST = 'localhost'
DB_PORT = '3306'
DB_NAME = 'dataControl'

connection_string = f'mysql+pymysql://{DB_USERNAME}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}'

try:
    engine = create_engine(connection_string)
    with engine.connect() as conn:
        print("‚úì Connexion MySQL r√©ussie!")
except Exception as e:
    print(f"‚úó Erreur de connexion: {e}")

‚úì Connexion MySQL r√©ussie!


In [3]:
# ========================================
# PARAM√àTRES DE CONFIGURATION
# ========================================

# Mode de traitement : 
# - 'process' : Nettoyer et stocker les donn√©es (retraitement complet)
# - 'load'    : Charger les donn√©es depuis MySQL (sans retraitement)
MODE = 'load'  # Changer en 'process' pour retraiter les donn√©es

# Options de traitement (utilis√©es seulement si MODE = 'process')
CONFIG = {
    'translate': True,          # Active/D√©sactive la traduction
    'pivot_lang': 'en',        # Langue pivot pour la traduction
    'force_reprocess': False,  # Si True, force le retraitement m√™me si la table existe
}

# Datasets √† traiter
DATASETS = {
    'news': {
        'csv_path': 'data/fake_news_dataset.csv',
        'text_column': 'text',
        'table_name': 'news'
    },
    'labeled': {
        'csv_path': 'data/labeled_data.csv',
        'text_column': 'tweet',
        'table_name': 'labeled'
    },
    'fakenewsnet': {
        'csv_path': '../fakeData/FakeNewsNet.csv',
        'text_column': 'title',
        'table_name': 'fakenewsnet'
    }
}

print("=" * 70)
print("CONFIGURATION DU TRAITEMENT")
print("=" * 70)
print(f"Mode s√©lectionn√©: {MODE.upper()}")
if MODE == 'process':
    print(f"  ‚Üí Traduction: {'Activ√©e' if CONFIG['translate'] else 'D√©sactiv√©e'}")
    print(f"  ‚Üí Langue pivot: {CONFIG['pivot_lang']}")
    print(f"  ‚Üí Force retraitement: {CONFIG['force_reprocess']}")
else:
    print("  ‚Üí Les donn√©es seront charg√©es depuis MySQL")
print(f"Nombre de datasets: {len(DATASETS)}")
print("=" * 70)

CONFIGURATION DU TRAITEMENT
Mode s√©lectionn√©: LOAD
  ‚Üí Les donn√©es seront charg√©es depuis MySQL
Nombre de datasets: 3


In [None]:
# ‚öôÔ∏è CONFIGURATION DU TRAITEMENT

---

## üéÆ CONFIGURATION - MODIFIEZ ICI

**Changez simplement le `MODE` selon vos besoins :**

- üîÑ **`MODE = 'process'`** : Retraite compl√®tement les donn√©es (1√®re fois ou mise √† jour)
- üì• **`MODE = 'load'`** : Charge depuis MySQL (rapide, recommand√© apr√®s 1er traitement)

---

In [None]:
# ========================================
# SECTION 1 : FONCTIONS DE BASE
# ========================================

In [4]:

def clean_text(text):
    """
    Nettoie le texte en appliquant plusieurs transformations
    """
    if pd.isna(text):
        return ""
    
    # Conversion en minuscules
    text = str(text).lower()
    
    # Suppression des URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    
    # Suppression des mentions (@username) et hashtags (#hashtag)
    text = re.sub(r'@\w+|#\w+', '', text)
    
    # Suppression des emails
    text = re.sub(r'\S+@\S+', '', text)
    
    # Suppression des chiffres
    text = re.sub(r'\d+', '', text)
    
    # Suppression de la ponctuation et symboles
    text = re.sub(r'[^\w\s]', ' ', text)
    
    # Suppression des espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def tokenize_and_lemmatize(text):
    """
    Tokenise, lemmatise et supprime les stopwords
    """
    if not text or len(text) == 0:
        return ""
    
    try:
        # Tokenization
        tokens = word_tokenize(text)
        
        # Initialiser le lemmatizer
        lemmatizer = WordNetLemmatizer()
        
        # Lemmatisation
        lemmatized = [lemmatizer.lemmatize(token) for token in tokens]
        
        # Suppression des stopwords anglais
        stop_words = set(stopwords.words('english'))
        
        # Filtrer les mots courts et les stopwords
        filtered = [word for word in lemmatized 
                   if word not in stop_words and len(word) > 2]
        
        return ' '.join(filtered)
    except Exception as e:
        print(f"Erreur lors du traitement: {e}")
        return ""

print("‚úì Fonctions de nettoyage d√©finies")


‚úì Fonctions de nettoyage d√©finies


In [None]:
# 1.3 - Fonction de traduction vers langue pivot

def translate_to_pivot_language(text, pivot_lang='en', max_retries=3):
    """
    Traduit le texte vers une langue pivot (par d√©faut: anglais)
    
    Param√®tres:
    -----------
    text : str
        Texte √† traduire
    pivot_lang : str
        Code de la langue pivot (par d√©faut: 'en' pour anglais)
    max_retries : int
        Nombre maximum de tentatives en cas d'erreur
    
    Retour:
    -------
    str
        Texte traduit ou texte original si erreur
    """
    if pd.isna(text) or not text or len(str(text).strip()) == 0:
        return ""
    
    text = str(text).strip()
    
    # Limiter la longueur du texte pour √©viter les timeouts
    if len(text) > 5000:
        text = text[:5000]
    
    try:
        # D√©tecter la langue source
        source_lang = detect(text)
        
        # Si d√©j√† dans la langue pivot, retourner tel quel (RAPIDE!)
        if source_lang == pivot_lang:
            return text
        
        # Traduire vers la langue pivot (LENT - API call)
        translator = Translator()
        
        for attempt in range(max_retries):
            try:
                translation = translator.translate(text, src=source_lang, dest=pivot_lang)
                return translation.text
            except Exception as retry_error:
                if attempt == max_retries - 1:
                    # Derni√®re tentative √©chou√©e, retourner le texte original
                    return text
                continue
                
    except Exception as e:
        # En cas d'erreur de d√©tection ou autre, retourner le texte original
        return text

print("‚úì Fonction de traduction d√©finie")

‚úì Fonction de traduction d√©finie


In [None]:
# ========================================
# SECTION 2 : FONCTIONS UTILITAIRES MySQL
# ========================================

In [7]:
# 2.1 - Fonction pour v√©rifier l'existence d'une table

def table_exists(table_name, engine):
    """
    V√©rifie si une table existe dans MySQL
    
    Param√®tres:
    -----------
    table_name : str
        Nom de la table √† v√©rifier
    engine : SQLAlchemy Engine
        Connexion √† la base de donn√©es
    
    Retour:
    -------
    bool
        True si la table existe, False sinon
    """
    try:
        query = f"SHOW TABLES LIKE '{table_name}'"
        result = pd.read_sql(query, engine)
        return not result.empty
    except:
        return False

print("‚úì Fonction de v√©rification de table d√©finie")

‚úì Fonction de v√©rification de table d√©finie


In [8]:
# 2.2 - Fonction pour charger les donn√©es depuis MySQL

def load_dataset_from_mysql(table_name, engine):  
    print("\n" + "=" * 70)
    print(f"CHARGEMENT DEPUIS MYSQL - Table '{table_name}'")
    print("=" * 70)
    
    try:
        # V√©rifier si la table existe
        if not table_exists(table_name, engine):
            print(f"‚úó Table '{table_name}' n'existe pas dans la base de donn√©es")
            return None
        
        # Charger les donn√©es
        df = pd.read_sql(f"SELECT * FROM {table_name}", engine)
        
        print(f"‚úì Donn√©es charg√©es: {df.shape[0]} lignes, {df.shape[1]} colonnes")
        print(f"  Colonnes: {list(df.columns)}")
        
        # Afficher un aper√ßu
        print(f"\nüìã Aper√ßu des donn√©es:")
        print(df.head(3))
        
        return df
        
    except Exception as e:
        print(f"‚úó Erreur lors du chargement: {e}")
        return None

print("‚úì Fonction de chargement d√©finie")

‚úì Fonction de chargement d√©finie


In [None]:
# ========================================
# SECTION 3 : FONCTIONS DE TRAITEMENT COMPLET
# ========================================

---

## üìö DOCUMENTATION DES FONCTIONS

### Section 1 : Fonctions de Base
1. **`clean_text(text)`** - Nettoie le texte (URLs, ponctuation, etc.)
2. **`tokenize_and_lemmatize(text)`** - Tokenise et lemmatise le texte
3. **`translate_to_pivot_language(text, pivot_lang='en')`** - Traduit vers langue pivot

### Section 2 : Fonctions Utilitaires MySQL
1. **`table_exists(table_name, engine)`** - V√©rifie si une table existe
2. **`load_dataset_from_mysql(table_name, engine)`** - Charge depuis MySQL

### Section 3 : Fonctions de Traitement Complet
1. **`process_and_store_dataset(...)`** - Traite compl√®tement un dataset (CSV ‚Üí MySQL)
2. **`get_or_process_dataset(...)`** - Fonction intelligente (charge ou traite selon le mode)

---

In [9]:
# 3.2 - Fonction intelligente de gestion des donn√©es

def get_or_process_dataset(
    csv_path,
    text_column,
    table_name,
    engine,
    mode='load',
    translate=True,
    pivot_lang='en',
    force_reprocess=False
):
    """
    Fonction intelligente qui charge depuis MySQL ou traite les donn√©es selon le mode
    
    Param√®tres:
    -----------
    csv_path : str
        Chemin vers le fichier CSV
    text_column : str
        Nom de la colonne contenant le texte √† nettoyer
    table_name : str
        Nom de la table MySQL
    engine : SQLAlchemy Engine
        Connexion √† la base de donn√©es
    mode : str
        'load' pour charger depuis MySQL, 'process' pour retraiter
    translate : bool
        Si True, traduit le texte vers la langue pivot (mode process uniquement)
    pivot_lang : str
        Code de la langue pivot
    force_reprocess : bool
        Si True, force le retraitement m√™me si la table existe
    
    Retour:
    -------
    pandas.DataFrame ou None
        DataFrame charg√©/trait√© si succ√®s, None si erreur
    """
    
    # Mode LOAD : Charger depuis MySQL
    if mode == 'load':
        # V√©rifier si la table existe
        if table_exists(table_name, engine):
            print(f"\nüîç Mode LOAD activ√© pour '{table_name}'")
            return load_dataset_from_mysql(table_name, engine)
        else:
            print(f"\n‚ö†Ô∏è Table '{table_name}' introuvable en mode LOAD")
            print(f"üí° Basculement automatique en mode PROCESS...")
            mode = 'process'
    
    # Mode PROCESS : Traiter les donn√©es
    if mode == 'process':
        # V√©rifier si la table existe d√©j√†
        if table_exists(table_name, engine) and not force_reprocess:
            print(f"\n‚ö†Ô∏è Table '{table_name}' existe d√©j√†")
            response = input(f"Voulez-vous la retraiter ? (o/n) : ").lower()
            if response != 'o':
                print("‚Üí Chargement des donn√©es existantes...")
                return load_dataset_from_mysql(table_name, engine)
        
        print(f"\nüîÑ Mode PROCESS activ√© pour '{table_name}'")
        return process_and_store_dataset(
            csv_path=csv_path,
            text_column=text_column,
            table_name=table_name,
            engine=engine,
            translate=translate,
            pivot_lang=pivot_lang
        )
    
    return None

print("‚úì Fonction intelligente de gestion d√©finie")

‚úì Fonction intelligente de gestion d√©finie


In [10]:
def process_and_store_dataset(
    csv_path, 
    text_column, 
    table_name, 
    engine,
    translate=True,
    pivot_lang='en',
    additional_columns=None
):
    """
    Fonction g√©n√©rique pour charger, traduire, nettoyer et stocker un dataset dans MySQL
    
    Param√®tres:
    -----------
    csv_path : str
        Chemin vers le fichier CSV
    text_column : str
        Nom de la colonne contenant le texte √† nettoyer
    table_name : str
        Nom de la table MySQL o√π stocker les donn√©es
    engine : SQLAlchemy Engine
        Connexion √† la base de donn√©es
    translate : bool
        Si True, traduit le texte vers la langue pivot
    pivot_lang : str
        Code de la langue pivot (par d√©faut: 'en' pour anglais)
    additional_columns : list, optional
        Liste des colonnes suppl√©mentaires √† conserver
    
    Retour:
    -------
    pandas.DataFrame ou None
        DataFrame nettoy√© si succ√®s, None si erreur
    """
    
    print("\n" + "=" * 70)
    print(f"TRAITEMENT DE: {csv_path}")
    print("=" * 70)
    
    # ===== √âTAPE 1: CHARGEMENT =====
    try:
        df = pd.read_csv(csv_path)
        print(f"‚úì Fichier charg√©: {df.shape[0]} lignes, {df.shape[1]} colonnes")
        print(f"  Colonnes disponibles: {list(df.columns)}")
        print(f"\nüìÑ Aper√ßu des donn√©es brutes:")
        print(df.head(2))
    except FileNotFoundError:
        print(f"‚úó Fichier non trouv√©: {csv_path}")
        return None
    except Exception as e:
        print(f"‚úó Erreur lors du chargement: {e}")
        return None
    
    # ===== √âTAPE 2: V√âRIFICATION DE LA COLONNE =====
    if text_column not in df.columns:
        print(f"‚úó Colonne '{text_column}' non trouv√©e!")
        print(f"  Colonnes disponibles: {list(df.columns)}")
        return None
    
    # ===== √âTAPE 3: TRADUCTION (optionnelle) =====
    if translate:
        print(f"\n‚ñ∂ Traduction vers la langue pivot: '{pivot_lang}'")
        print("  ‚Üí Traduction en cours (peut prendre du temps)...")
        
        # Limiter le nombre de lignes √† traduire pour le test (optionnel)
        # On peut traiter toutes les lignes ou un √©chantillon
        df['text_translated'] = df[text_column].apply(
            lambda x: translate_to_pivot_language(x, pivot_lang=pivot_lang)
        )
        
        print(f"  ‚Üí Traduction termin√©e!")
        
        # Utiliser la colonne traduite pour le nettoyage
        text_to_clean = 'text_translated'
    else:
        text_to_clean = text_column
    
    # ===== √âTAPE 4: NETTOYAGE =====
    print(f"\n‚ñ∂ Nettoyage de la colonne: '{text_to_clean}'")
    
    # √âtape 4.1: Nettoyage de base
    print("  ‚Üí Suppression URLs, mentions, ponctuation...")
    df['text_cleaned'] = df[text_to_clean].apply(clean_text)
    
    # √âtape 4.2: Tokenization et lemmatisation
    print("  ‚Üí Tokenization et lemmatisation...")
    df['text_processed'] = df['text_cleaned'].apply(tokenize_and_lemmatize)
    
    # √âtape 4.3: Supprimer les lignes vides apr√®s nettoyage
    initial_rows = df.shape[0]
    df = df[df['text_processed'].str.len() > 0]
    final_rows = df.shape[0]
    
    print(f"  ‚Üí Lignes supprim√©es (vides): {initial_rows - final_rows}")
    print(f"  ‚Üí Lignes finales: {final_rows}")
    
    # Afficher un exemple de transformation
    if final_rows > 0:
        print("\nüìä Exemple de transformation:")
        sample_idx = 0
        original = str(df.iloc[sample_idx][text_column])
        print(f"  Texte original: {original[:120]}...")
        
        if translate:
            print(f"  Texte traduit: {df.iloc[sample_idx]['text_translated'][:120]}...")
        
        print(f"  Texte nettoy√©: {df.iloc[sample_idx]['text_cleaned'][:120]}...")
        print(f"  Texte trait√©: {df.iloc[sample_idx]['text_processed'][:120]}...")
    
    # ===== √âTAPE 5: STOCKAGE DANS MYSQL =====
    print(f"\n‚ñ∂ Stockage dans MySQL - Table '{table_name}'")
    
    try:
        df.to_sql(
            name=table_name,
            con=engine,
            if_exists='replace',
            index=False,
            chunksize=1000
        )
        
        print(f"‚úì Donn√©es stock√©es avec succ√®s dans la table '{table_name}'")
        
        # V√©rification
        result = pd.read_sql(f"SELECT COUNT(*) as count FROM {table_name}", engine)
        print(f"‚úì Nombre de lignes dans la table: {result['count'][0]}")
        
        # Aper√ßu de la table
        print(f"\nüìã Aper√ßu de la table '{table_name}':")
        preview = pd.read_sql(f"SELECT * FROM {table_name} LIMIT 3", engine)
        print(preview.head())
        
        return df
        
    except Exception as e:
        print(f"‚úó Erreur lors du stockage: {e}")
        return None

print("‚úì Fonction de traitement g√©n√©rique d√©finie")

‚úì Fonction de traitement g√©n√©rique d√©finie


In [None]:
# TRAITEMENT DES DATASETS

---

## üìù IMPORTANT : √Ä propos de la traduction

### Comment √ßa fonctionne ?
- Chaque texte est **automatiquement d√©tect√©** pour sa langue d'origine
- Si le texte n'est **pas en anglais**, il est traduit automatiquement
- Si le texte est **d√©j√† en anglais**, il reste inchang√©
- La traduction est stock√©e dans la colonne `text_translated`

### Param√®tres modifiables :
- `translate=True/False` : Active ou d√©sactive la traduction
- `pivot_lang='en'` : Langue pivot (peut √™tre 'fr', 'es', 'de', etc.)

### ‚ö†Ô∏è Note sur les performances :
La traduction peut prendre du temps pour de grands datasets. Pour tester rapidement :
- R√©duisez le nombre de lignes : `df.head(100)` avant de traiter
- Ou d√©sactivez la traduction : `translate=False`

---

---

## ‚ö° OPTIMISATION DE LA TRADUCTION

### üéØ Choix de la langue pivot :

**Important** : V√©rifiez la langue de vos donn√©es AVANT de choisir `pivot_lang` !

#### ‚úÖ **Si vos donn√©es sont EN ANGLAIS** (cas actuel) :
```python
pivot_lang='en'  # ‚ö° RAPIDE : Pas de traduction n√©cessaire!
```

#### ‚è≥ **Si vos donn√©es sont EN FRAN√áAIS** :
```python
pivot_lang='fr'  # üêå LENT : Traduit tout vers le fran√ßais
```

### üí° Pourquoi c'est important ?

- **Donn√©es en anglais + `pivot_lang='en'`** ‚Üí ‚ö° **Instantan√©** (d√©tection seulement)
- **Donn√©es en anglais + `pivot_lang='fr'`** ‚Üí üêå **Tr√®s lent** (traduit 20,000+ lignes!)

### üîç Comment v√©rifier la langue de vos donn√©es ?

Regardez quelques lignes de votre CSV. Si le texte est en anglais ‚Üí utilisez `'en'`

---

In [None]:
# ===== DATASET 1: fake_news_dataset.csv =====
df_fake_news = process_and_store_dataset(
    csv_path='data/fake_news_dataset.csv',
    text_column='text',
    table_name='news',
    engine=engine,
    translate=True,  # Active la traduction
    pivot_lang='fr'  # Langue pivot: anglais
)


TRAITEMENT DE: data/fake_news_dataset.csv
‚úì Fichier charg√©: 20000 lignes, 7 colonnes
  Colonnes disponibles: ['title', 'text', 'date', 'source', 'author', 'category', 'label']

üìÑ Aper√ßu des donn√©es brutes:
                                 title  \
0              Foreign Democrat final.   
1  To offer down resource great point.   

                                                text        date    source  \
0  more tax development both store agreement lawy...  2023-03-10  NY Times   
1  probably guess western behind likely next inve...  2022-05-25  Fox News   

         author  category label  
0  Paula George  Politics  real  
1   Joseph Hill  Politics  fake  

‚ñ∂ Traduction vers la langue pivot: 'fr'
  ‚Üí Traduction en cours (peut prendre du temps)...


### ‚è±Ô∏è Temps de traitement estim√© :

**Avec `pivot_lang='en'` (donn√©es en anglais)** :
- ‚ö° **~5 secondes** pour 20,000 lignes (d√©tection seulement)

**Avec `pivot_lang='fr'` (traduction n√©cessaire)** :
- üêå **~30-60 minutes** pour 20,000 lignes (traduction compl√®te via API)
- Chaque ligne = 1 appel API = ~0.1-0.2 seconde

üí° **Astuce** : Testez d'abord sur un petit √©chantillon !
```python
df = df.head(100)  # Teste sur 100 lignes seulement
```