#### ========================================
### NOTEBOOK 2 : PR√âTRAITEMENT DU TEXTE
### Projet Classification de CV - LiveCareer
### ========================================

### Pr√©traitement du Texte des CV
 
##### **Ce notebook utilise la classe TextCleaner de src/preprocessing/text_cleaner.py**

In [None]:
### 1. Imports et Configuration

In [None]:

# %%
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import sys
from pathlib import Path

# Ajouter le dossier src au path Python
sys.path.append(str(Path.cwd().parent))

# Importer notre classe TextCleaner depuis src/
from src.preprocessing.text_cleaner import TextCleaner

import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Imports r√©ussis!")
print(f"   - TextCleaner import√© depuis: src/preprocessing/text_cleaner.py")

# %% [markdown]
# ## 2. Chargement des Donn√©es Brutes

# %%
# Charger le dataset original
df = pd.read_csv('../data/raw/resume_dataset.csv')

print(f"üìä Dataset charg√©:")
print(f"   - Nombre de CV: {len(df)}")
print(f"   - Colonnes: {df.columns.tolist()}")

# Identifier les colonnes
text_col = 'Resume'  # Ajustez selon votre dataset
category_col = 'Category'

# Afficher un exemple
print("\nüìÑ Exemple de CV brut (500 premiers caract√®res):")
print("="*80)
print(df[text_col].iloc[0][:500] + "...")

# %% [markdown]
# ## 3. Initialisation du TextCleaner

# %%
# Cr√©er une instance du TextCleaner
# (La classe est d√©finie dans src/preprocessing/text_cleaner.py)
cleaner = TextCleaner(
    lowercase=True,
    remove_urls=True,
    remove_emails=True,
    remove_phone_numbers=True,
    remove_numbers=False,  # Garder les ann√©es d'exp√©rience
    remove_punctuation=True,
    remove_stopwords=True,
    lemmatize=True,
    stem=False
)

print("‚úÖ TextCleaner initialis√© avec les param√®tres:")
print(f"   - Stopwords: {len(cleaner.stop_words)} mots")

# %% [markdown]
# ## 4. Test sur un Exemple

# %%
# Prendre un CV exemple
sample_cv = df[text_col].iloc[0]

print("üìù AVANT NETTOYAGE:")
print("="*80)
print(sample_cv[:500] + "...")

# Nettoyer avec notre classe
cleaned_sample = cleaner.clean_text(sample_cv)

print("\n‚ú® APR√àS NETTOYAGE:")
print("="*80)
print(cleaned_sample[:500] + "...")

print(f"\nüìä STATISTIQUES:")
print(f"   Longueur originale: {len(sample_cv)} caract√®res")
print(f"   Longueur nettoy√©e:  {len(cleaned_sample)} caract√®res")
print(f"   R√©duction: {((len(sample_cv) - len(cleaned_sample)) / len(sample_cv)) * 100:.1f}%")

# %% [markdown]
# ## 5. Nettoyage de Tout le Dataset

# %%
# Utiliser la m√©thode clean_dataframe de notre classe
df = cleaner.clean_dataframe(df, text_column=text_col, output_column='cleaned_text')

# Afficher les premi√®res lignes
print("\nüëÄ Aper√ßu du DataFrame nettoy√©:")
df[[category_col, 'cleaned_text']].head()

# %% [markdown]
# ## 6. Analyse du Nettoyage

# %%
# Calculer les longueurs avant/apr√®s
df['length_before'] = df[text_col].astype(str).apply(len)
df['length_after'] = df['cleaned_text'].apply(len)
df['reduction_percent'] = ((df['length_before'] - df['length_after']) / df['length_before']) * 100

print("\nüìä STATISTIQUES DE NETTOYAGE:")
print("="*60)
print(df[['length_before', 'length_after', 'reduction_percent']].describe())

# %% [markdown]
# ## 7. Visualisation de l'Impact du Nettoyage

# %%
# Cr√©er des visualisations
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Distribution longueurs avant
axes[0, 0].hist(df['length_before'], bins=50, color='lightcoral', 
               edgecolor='black', alpha=0.7)
axes[0, 0].set_xlabel('Longueur (caract√®res)', fontweight='bold')
axes[0, 0].set_ylabel('Fr√©quence', fontweight='bold')
axes[0, 0].set_title('Distribution AVANT Nettoyage', fontsize=14, fontweight='bold')
axes[0, 0].axvline(df['length_before'].mean(), color='red', linestyle='--', 
                   label=f'Moyenne: {df["length_before"].mean():.0f}')
axes[0, 0].legend()
axes[0, 0].grid(alpha=0.3)

# 2. Distribution longueurs apr√®s
axes[0, 1].hist(df['length_after'], bins=50, color='lightgreen', 
               edgecolor='black', alpha=0.7)
axes[0, 1].set_xlabel('Longueur (caract√®res)', fontweight='bold')
axes[0, 1].set_ylabel('Fr√©quence', fontweight='bold')
axes[0, 1].set_title('Distribution APR√àS Nettoyage', fontsize=14, fontweight='bold')
axes[0, 1].axvline(df['length_after'].mean(), color='green', linestyle='--',
                   label=f'Moyenne: {df["length_after"].mean():.0f}')
axes[0, 1].legend()
axes[0, 1].grid(alpha=0.3)

# 3. R√©duction en pourcentage
axes[1, 0].hist(df['reduction_percent'], bins=50, color='skyblue',
               edgecolor='black', alpha=0.7)
axes[1, 0].set_xlabel('R√©duction (%)', fontweight='bold')
axes[1, 0].set_ylabel('Fr√©quence', fontweight='bold')
axes[1, 0].set_title('Taux de R√©duction', fontsize=14, fontweight='bold')
axes[1, 0].axvline(df['reduction_percent'].mean(), color='blue', linestyle='--',
                   label=f'Moyenne: {df["reduction_percent"].mean():.1f}%')
axes[1, 0].legend()
axes[1, 0].grid(alpha=0.3)

# 4. Scatter avant vs apr√®s
sample_df = df.sample(min(1000, len(df)))
axes[1, 1].scatter(sample_df['length_before'], sample_df['length_after'],
                  alpha=0.5, c='purple')
axes[1, 1].set_xlabel('Longueur AVANT', fontweight='bold')
axes[1, 1].set_ylabel('Longueur APR√àS', fontweight='bold')
axes[1, 1].set_title('Corr√©lation Avant/Apr√®s', fontsize=14, fontweight='bold')
axes[1, 1].grid(alpha=0.3)

# Ligne de r√©f√©rence
max_val = max(df['length_before'].max(), df['length_after'].max())
axes[1, 1].plot([0, max_val], [0, max_val], 'r--', alpha=0.5, label='Pas de r√©duction')
axes[1, 1].legend()

plt.tight_layout()
plt.savefig('../outputs/plots/cleaning_impact.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© dans outputs/plots/cleaning_impact.png")

# %% [markdown]
# ## 8. Analyse des Mots les Plus Fr√©quents

# %%
# Utiliser la m√©thode get_word_frequency de notre classe
word_freq = cleaner.get_word_frequency(df['cleaned_text'], top_n=30)

print("\nüî§ TOP 30 MOTS APR√àS NETTOYAGE:")
print("="*60)
for i, (word, count) in enumerate(word_freq.items(), 1):
    print(f"{i:2d}. {word:20s} : {count:7d}")

# %% [markdown]
# ## 9. Comparaison Avant/Apr√®s sur un Exemple

# %%
# Utiliser la m√©thode visualize_cleaning_effect de notre classe
print("\n" + "="*80)
print("üìä EXEMPLE DE NETTOYAGE D√âTAILL√â")
print("="*80)

sample_idx = 5
original = df[text_col].iloc[sample_idx]
cleaned = df['cleaned_text'].iloc[sample_idx]

cleaner.visualize_cleaning_effect(original, cleaned)

# %% [markdown]
# ## 10. Sauvegarde des Donn√©es Nettoy√©es

# %%
# Sauvegarder le DataFrame nettoy√©
output_path = '../data/processed/resume_cleaned.csv'
df.to_csv(output_path, index=False)

print(f"üíæ Donn√©es nettoy√©es sauvegard√©es dans: {output_path}")
print(f"   Colonnes sauvegard√©es: {df.columns.tolist()}")
print(f"   Nombre de lignes: {len(df)}")

# Version compacte (seulement les colonnes essentielles)
df_compact = df[[category_col, 'cleaned_text']].copy()
df_compact.to_csv('../data/processed/resume_cleaned_compact.csv', index=False)

print(f"\nüíæ Version compacte sauvegard√©e dans: resume_cleaned_compact.csv")

# %% [markdown]
# ## 11. R√©sum√©

# %%
print("\n" + "="*80)
print("üìä R√âSUM√â DU PR√âTRAITEMENT")
print("="*80)

print(f"""
‚úÖ DONN√âES TRAIT√âES:
   - CV nettoy√©s: {len(df)}
   - R√©duction moyenne: {df['reduction_percent'].mean():.1f}%
   - Longueur moyenne avant: {df['length_before'].mean():.0f} caract√®res
   - Longueur moyenne apr√®s: {df['length_after'].mean():.0f} caract√®res

üìÅ FICHIERS CR√â√âS:
   - data/processed/resume_cleaned.csv (complet)
   - data/processed/resume_cleaned_compact.csv (compact)
   - outputs/plots/cleaning_impact.png

üîß CLASSE UTILIS√âE:
   - src/preprocessing/text_cleaner.py ‚Üí TextCleaner

üéØ PROCHAINES √âTAPES:
   1. Feature Extraction (TF-IDF) ‚Üí Notebook 03
   2. Utilise: src/preprocessing/feature_extractor.py
   
‚úÖ Passez au Notebook 03_feature_extraction.ipynb
""")

# %% [markdown]
# ---
# ## ‚úÖ FIN DU PR√âTRAITEMENT
# 
# **Points cl√©s:**
# - ‚úÖ Utilis√© TextCleaner depuis src/preprocessing/text_cleaner.py
# - ‚úÖ Pas de duplication de code
# - ‚úÖ Fichier resume_cleaned.csv cr√©√©
# - ‚úÖ Pr√™t pour l'extraction de features