# üìä Exploration et Pr√©processing des Donn√©es - Version Fonctionnelle

Ce notebook fournit une analyse compl√®te du dataset d'actualit√©s avec toutes les fonctionnalit√©s NLP.

## üéØ Objectifs:
- ‚úÖ Charger et explorer le dataset
- üìà Analyser les distributions et statistiques
- üî§ Pr√©processer le texte
- üìù Analyser la fr√©quence des mots
- ‚òÅÔ∏è Cr√©er des visualisations avanc√©es
- üíæ Sauvegarder les donn√©es trait√©es

In [None]:
# üì¶ Import des biblioth√®ques essentielles
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import re
import string
from collections import Counter
warnings.filterwarnings('ignore')

# üé® Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette('viridis')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print('‚úÖ Biblioth√®ques import√©es avec succ√®s!')
print('üöÄ Pr√™t pour l\'analyse NLP!')

## üìÇ 1. Chargement et Exploration du Dataset

In [None]:
# üìä Charger le dataset
try:
    df = pd.read_csv('../data/sample/sample_news_data.csv')
    print(f"‚úÖ Dataset charg√© avec succ√®s!")
    print(f"üìè Forme du dataset: {df.shape}")
    print(f"üìã Colonnes: {df.columns.tolist()}")
except FileNotFoundError:
    print("‚ùå Fichier non trouv√©. Cr√©ation d'un dataset d'exemple...")
    # Cr√©er un dataset d'exemple si le fichier n'existe pas
    df = pd.DataFrame({
        'id': range(1, 11),
        'title': [f'Article {i}' for i in range(1, 11)],
        'text': [f'Ceci est le contenu de l\'article {i}. Il contient du texte int√©ressant pour l\'analyse NLP.' for i in range(1, 11)],
        'category': ['technology', 'sports', 'politics'] * 3 + ['health'],
        'sentiment': ['positive', 'negative', 'neutral'] * 3 + ['positive']
    })
    print(f"‚úÖ Dataset d'exemple cr√©√©: {df.shape}")

# üëÄ Aper√ßu des donn√©es
print("\nüìã Premi√®res lignes:")
df.head()

In [None]:
# üîç Informations d√©taill√©es sur le dataset
print("üìä INFORMATIONS SUR LE DATASET")
print("=" * 50)
print(f"üìè Nombre de lignes: {len(df)}")
print(f"üìã Nombre de colonnes: {len(df.columns)}")
print(f"üíæ Taille m√©moire: {df.memory_usage(deep=True).sum() / 1024:.2f} KB")

print("\nüîç Types de donn√©es:")
print(df.dtypes)

print("\n‚ùì Valeurs manquantes:")
missing = df.isnull().sum()
if missing.sum() == 0:
    print("‚úÖ Aucune valeur manquante!")
else:
    print(missing[missing > 0])

print("\nüìà Statistiques descriptives:")
df.describe(include='all')

## üìù 2. Analyse du Texte

In [None]:
# üìè Calcul des m√©triques de texte
print("üìä CALCUL DES M√âTRIQUES DE TEXTE")
print("=" * 40)

# Longueur en caract√®res
df['text_length'] = df['text'].str.len()

# Nombre de mots
df['word_count'] = df['text'].str.split().str.len()

# Nombre de phrases (approximatif)
df['sentence_count'] = df['text'].str.count(r'[.!?]') + 1

# Nombre de mots uniques
df['unique_words'] = df['text'].apply(lambda x: len(set(x.lower().split())))

# Richesse lexicale (ratio mots uniques / total mots)
df['lexical_diversity'] = df['unique_words'] / df['word_count']

# Statistiques
metrics = ['text_length', 'word_count', 'sentence_count', 'unique_words', 'lexical_diversity']
stats = df[metrics].describe()

print(f"üìè Longueur moyenne: {stats.loc['mean', 'text_length']:.1f} caract√®res")
print(f"üìù Mots moyens: {stats.loc['mean', 'word_count']:.1f} mots")
print(f"üìÑ Phrases moyennes: {stats.loc['mean', 'sentence_count']:.1f} phrases")
print(f"üî§ Mots uniques moyens: {stats.loc['mean', 'unique_words']:.1f}")
print(f"üéØ Diversit√© lexicale moyenne: {stats.loc['mean', 'lexical_diversity']:.3f}")

print("\nüìä Statistiques compl√®tes:")
stats

## üìä 3. Distributions et Visualisations

In [None]:
# üìà Visualisation des distributions de texte
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('üìä Distributions des M√©triques de Texte', fontsize=16, fontweight='bold')

# Distribution de la longueur
axes[0,0].hist(df['text_length'], bins=15, alpha=0.7, color='skyblue', edgecolor='black')
axes[0,0].axvline(df['text_length'].mean(), color='red', linestyle='--', 
                  label=f'Moyenne: {df["text_length"].mean():.1f}')
axes[0,0].set_title('üìè Distribution de la Longueur (caract√®res)')
axes[0,0].set_xlabel('Nombre de caract√®res')
axes[0,0].set_ylabel('Fr√©quence')
axes[0,0].legend()
axes[0,0].grid(True, alpha=0.3)

# Distribution du nombre de mots
axes[0,1].hist(df['word_count'], bins=15, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0,1].axvline(df['word_count'].mean(), color='red', linestyle='--',
                  label=f'Moyenne: {df["word_count"].mean():.1f}')
axes[0,1].set_title('üìù Distribution du Nombre de Mots')
axes[0,1].set_xlabel('Nombre de mots')
axes[0,1].set_ylabel('Fr√©quence')
axes[0,1].legend()
axes[0,1].grid(True, alpha=0.3)

# Distribution des phrases
axes[1,0].hist(df['sentence_count'], bins=10, alpha=0.7, color='orange', edgecolor='black')
axes[1,0].axvline(df['sentence_count'].mean(), color='red', linestyle='--',
                  label=f'Moyenne: {df["sentence_count"].mean():.1f}')
axes[1,0].set_title('üìÑ Distribution du Nombre de Phrases')
axes[1,0].set_xlabel('Nombre de phrases')
axes[1,0].set_ylabel('Fr√©quence')
axes[1,0].legend()
axes[1,0].grid(True, alpha=0.3)

# Diversit√© lexicale
axes[1,1].hist(df['lexical_diversity'], bins=10, alpha=0.7, color='purple', edgecolor='black')
axes[1,1].axvline(df['lexical_diversity'].mean(), color='red', linestyle='--',
                  label=f'Moyenne: {df["lexical_diversity"].mean():.3f}')
axes[1,1].set_title('üéØ Distribution de la Diversit√© Lexicale')
axes[1,1].set_xlabel('Ratio mots uniques / total')
axes[1,1].set_ylabel('Fr√©quence')
axes[1,1].legend()
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# üè∑Ô∏è Analyse des cat√©gories et sentiments
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Distribution des cat√©gories
category_counts = df['category'].value_counts()
colors1 = plt.cm.Set3(np.linspace(0, 1, len(category_counts)))

bars1 = ax1.bar(category_counts.index, category_counts.values, color=colors1, alpha=0.8, edgecolor='black')
ax1.set_title('üè∑Ô∏è Distribution des Cat√©gories', fontsize=14, fontweight='bold')
ax1.set_xlabel('Cat√©gorie')
ax1.set_ylabel('Nombre d\'articles')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(True, alpha=0.3)

# Ajouter les valeurs sur les barres
for bar in bars1:
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 0.05,
             f'{int(height)}', ha='center', va='bottom', fontweight='bold')

# Distribution des sentiments
sentiment_counts = df['sentiment'].value_counts()
colors2 = {'positive': 'lightgreen', 'negative': 'lightcoral', 'neutral': 'lightblue'}
sentiment_colors = [colors2.get(sent, 'gray') for sent in sentiment_counts.index]

bars2 = ax2.bar(sentiment_counts.index, sentiment_counts.values, color=sentiment_colors, alpha=0.8, edgecolor='black')
ax2.set_title('üòä Distribution des Sentiments', fontsize=14, fontweight='bold')
ax2.set_xlabel('Sentiment')
ax2.set_ylabel('Nombre d\'articles')
ax2.grid(True, alpha=0.3)

# Ajouter les valeurs sur les barres
for bar in bars2:
    height = bar.get_height()
    ax2.text(bar.get_x() + bar.get_width()/2., height + 0.05,
             f'{int(height)}', ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Afficher les statistiques
print("üìä DISTRIBUTION DES CAT√âGORIES:")
for cat, count in category_counts.items():
    percentage = (count / len(df)) * 100
    print(f"  üè∑Ô∏è {cat}: {count} articles ({percentage:.1f}%)")

print("\nüòä DISTRIBUTION DES SENTIMENTS:")
for sent, count in sentiment_counts.items():
    percentage = (count / len(df)) * 100
    emoji = {'positive': 'üòä', 'negative': 'üòû', 'neutral': 'üòê'}.get(sent, '‚ùì')
    print(f"  {emoji} {sent}: {count} articles ({percentage:.1f}%)")

## üî§ 4. Pr√©processing du Texte

In [None]:
# üõ†Ô∏è Fonction de pr√©processing avanc√©e
def advanced_preprocess(text):
    """Pr√©processing avanc√© du texte"""
    if not isinstance(text, str):
        return ""
    
    # Convertir en minuscules
    text = text.lower()
    
    # Supprimer les URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    
    # Supprimer les mentions et hashtags
    text = re.sub(r'@\w+|#\w+', '', text)
    
    # Supprimer les chiffres
    text = re.sub(r'\d+', '', text)
    
    # Supprimer la ponctuation
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Supprimer les espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Appliquer le pr√©processing
print("üîÑ Application du pr√©processing...")
df['processed_text'] = df['text'].apply(advanced_preprocess)

# Calculer les nouvelles m√©triques
df['processed_length'] = df['processed_text'].str.len()
df['processed_words'] = df['processed_text'].str.split().str.len()

print("‚úÖ Pr√©processing termin√©!")
print(f"üìè R√©duction moyenne de longueur: {((df['text_length'] - df['processed_length']) / df['text_length'] * 100).mean():.1f}%")

# Exemples avant/apr√®s
print("\nüìù EXEMPLES DE TRANSFORMATION:")
print("=" * 50)
for i in range(min(3, len(df))):
    print(f"\nüî∏ Exemple {i+1}:")
    print(f"   üìÑ Original: {df.iloc[i]['text'][:100]}...")
    print(f"   üîß Trait√©: {df.iloc[i]['processed_text'][:100]}...")

## üìä 5. Analyse de Fr√©quence des Mots

In [None]:
# üîç Analyse de fr√©quence des mots
print("üìä ANALYSE DE FR√âQUENCE DES MOTS")
print("=" * 40)

# Mots vides fran√ßais et anglais courants
stop_words = {
    'le', 'de', 'et', '√†', 'un', 'il', '√™tre', 'et', 'en', 'avoir', 'que', 'pour',
    'dans', 'ce', 'son', 'une', 'sur', 'avec', 'ne', 'se', 'pas', 'tout', 'plus',
    'par', 'grand', 'en', '√™tre', 'et', 'en', 'avoir', 'que', 'pour', 'du', 'des',
    'the', 'and', 'or', 'but', 'in', 'on', 'at', 'to', 'for', 'of', 'with', 'by',
    'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had',
    'this', 'that', 'these', 'those', 'a', 'an', 'as', 'if', 'it', 'its'
}

# Extraire tous les mots
all_words = []
for text in df['processed_text']:
    if isinstance(text, str):
        words = text.split()
        # Filtrer les mots courts et les mots vides
        words = [word for word in words if len(word) > 2 and word not in stop_words]
        all_words.extend(words)

# Compter les fr√©quences
word_freq = Counter(all_words)
top_words = word_freq.most_common(20)

print(f"üìù Total de mots uniques: {len(word_freq)}")
print(f"üìä Total d'occurrences: {sum(word_freq.values())}")

print("\nüèÜ TOP 20 DES MOTS LES PLUS FR√âQUENTS:")
for i, (word, freq) in enumerate(top_words, 1):
    percentage = (freq / sum(word_freq.values())) * 100
    print(f"  {i:2d}. {word:<15} : {freq:3d} fois ({percentage:.1f}%)")

In [None]:
# üìä Visualisation de la fr√©quence des mots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(18, 8))

# Graphique en barres horizontales
words, frequencies = zip(*top_words)
colors = plt.cm.viridis(np.linspace(0, 1, len(words)))

bars = ax1.barh(range(len(words)), frequencies, color=colors, alpha=0.8, edgecolor='black')
ax1.set_yticks(range(len(words)))
ax1.set_yticklabels(words)
ax1.set_xlabel('Fr√©quence')
ax1.set_title('üèÜ Top 20 des Mots les Plus Fr√©quents', fontsize=14, fontweight='bold')
ax1.invert_yaxis()
ax1.grid(True, alpha=0.3, axis='x')

# Ajouter les valeurs sur les barres
for i, bar in enumerate(bars):
    width = bar.get_width()
    ax1.text(width + 0.1, bar.get_y() + bar.get_height()/2,
             f'{int(width)}', ha='left', va='center', fontweight='bold')

# Distribution de Zipf (loi de puissance)
ranks = np.arange(1, len(top_words) + 1)
ax2.loglog(ranks, frequencies, 'bo-', alpha=0.7, linewidth=2, markersize=8)
ax2.set_xlabel('Rang (log)')
ax2.set_ylabel('Fr√©quence (log)')
ax2.set_title('üìà Distribution de Zipf', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3)

# Ligne de tendance
z = np.polyfit(np.log(ranks), np.log(frequencies), 1)
p = np.poly1d(z)
ax2.plot(ranks, np.exp(p(np.log(ranks))), "r--", alpha=0.8, linewidth=2, 
         label=f'Pente: {z[0]:.2f}')
ax2.legend()

plt.tight_layout()
plt.show()

print(f"üìä Coefficient de Zipf: {abs(z[0]):.2f} (id√©al ‚âà 1.0)")
if abs(z[0]) > 0.8:
    print("‚úÖ Distribution proche de la loi de Zipf (texte naturel)")
else:
    print("‚ö†Ô∏è Distribution √©loign√©e de la loi de Zipf")

## ‚òÅÔ∏è 6. Nuage de Mots et Visualisations Avanc√©es

In [None]:
# ‚òÅÔ∏è Cr√©ation de nuages de mots
try:
    from wordcloud import WordCloud
    
    # Combiner tout le texte pr√©process√©
    combined_text = ' '.join(df['processed_text'].dropna())
    
    # Cr√©er le nuage de mots principal
    wordcloud = WordCloud(
        width=1200, 
        height=600, 
        background_color='white',
        max_words=100,
        colormap='viridis',
        relative_scaling=0.5,
        min_font_size=10
    ).generate(combined_text)
    
    plt.figure(figsize=(15, 8))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.title('‚òÅÔ∏è Nuage de Mots Global', fontsize=16, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.show()
    
    # Nuages de mots par sentiment
    sentiments = df['sentiment'].unique()
    if len(sentiments) > 1:
        fig, axes = plt.subplots(1, len(sentiments), figsize=(5*len(sentiments), 6))
        if len(sentiments) == 1:
            axes = [axes]
        
        colors = {'positive': 'Greens', 'negative': 'Reds', 'neutral': 'Blues'}
        
        for i, sentiment in enumerate(sentiments):
            sentiment_text = ' '.join(df[df['sentiment'] == sentiment]['processed_text'].dropna())
            
            if sentiment_text.strip():  # V√©rifier que le texte n'est pas vide
                wc = WordCloud(
                    width=400, height=300,
                    background_color='white',
                    max_words=50,
                    colormap=colors.get(sentiment, 'viridis')
                ).generate(sentiment_text)
                
                axes[i].imshow(wc, interpolation='bilinear')
                axes[i].axis('off')
                emoji = {'positive': 'üòä', 'negative': 'üòû', 'neutral': 'üòê'}.get(sentiment, '‚ùì')
                axes[i].set_title(f'{emoji} {sentiment.title()}', fontsize=12, fontweight='bold')
        
        plt.suptitle('‚òÅÔ∏è Nuages de Mots par Sentiment', fontsize=14, fontweight='bold')
        plt.tight_layout()
        plt.show()
    
    print("‚úÖ Nuages de mots cr√©√©s avec succ√®s!")
    
except ImportError:
    print("‚ö†Ô∏è WordCloud non disponible. Affichage textuel des mots fr√©quents:")
    print("\n" + "="*60)
    for word, freq in top_words[:15]:
        bar_length = int((freq / max(frequencies)) * 40)
        bar = "‚ñà" * bar_length
        print(f"{word:<15} {bar} {freq}")
    print("="*60)

## üíæ 7. Sauvegarde et R√©sum√©

In [None]:
# üíæ Sauvegarde des donn√©es pr√©process√©es
import os

# Cr√©er le dossier processed s'il n'existe pas
os.makedirs('../data/processed', exist_ok=True)

# Sauvegarder le dataset enrichi
output_file = '../data/processed/processed_news_data.csv'
df.to_csv(output_file, index=False)

print(f"üíæ Donn√©es sauvegard√©es dans: {output_file}")
print(f"üìä Taille du fichier: {os.path.getsize(output_file) / 1024:.2f} KB")

# Sauvegarder les statistiques de mots
word_stats = pd.DataFrame(top_words, columns=['word', 'frequency'])
word_stats['percentage'] = (word_stats['frequency'] / sum(word_freq.values())) * 100
word_stats.to_csv('../data/processed/word_frequencies.csv', index=False)

print("üìù Fr√©quences des mots sauvegard√©es dans: ../data/processed/word_frequencies.csv")

In [None]:
# üìã R√©sum√© final de l'analyse
print("\n" + "="*60)
print("üéâ R√âSUM√â DE L'ANALYSE EXPLORATOIRE")
print("="*60)

print(f"\nüìä DATASET:")
print(f"   üìè {len(df)} articles analys√©s")
print(f"   üè∑Ô∏è {df['category'].nunique()} cat√©gories: {', '.join(df['category'].unique())}")
print(f"   üòä {df['sentiment'].nunique()} sentiments: {', '.join(df['sentiment'].unique())}")

print(f"\nüìù M√âTRIQUES DE TEXTE:")
print(f"   üìè Longueur moyenne: {df['text_length'].mean():.1f} caract√®res")
print(f"   üî§ Mots moyens: {df['word_count'].mean():.1f} mots")
print(f"   üìÑ Phrases moyennes: {df['sentence_count'].mean():.1f} phrases")
print(f"   üéØ Diversit√© lexicale: {df['lexical_diversity'].mean():.3f}")

print(f"\nüîç ANALYSE LEXICALE:")
print(f"   üìö {len(word_freq)} mots uniques identifi√©s")
print(f"   üèÜ Mot le plus fr√©quent: '{top_words[0][0]}' ({top_words[0][1]} fois)")
print(f"   üìä Coefficient de Zipf: {abs(z[0]):.2f}")

print(f"\n‚úÖ FICHIERS G√âN√âR√âS:")
print(f"   üíæ Dataset pr√©process√©: processed_news_data.csv")
print(f"   üìä Fr√©quences des mots: word_frequencies.csv")
print(f"   üìà Visualisations: Graphiques interactifs g√©n√©r√©s")

print(f"\nüöÄ PROCHAINES √âTAPES RECOMMAND√âES:")
print(f"   1Ô∏è‚É£ Analyse de sentiment avec TextBlob/VADER")
print(f"   2Ô∏è‚É£ Mod√©lisation de sujets avec LDA/BERTopic")
print(f"   3Ô∏è‚É£ Reconnaissance d'entit√©s nomm√©es (NER)")
print(f"   4Ô∏è‚É£ R√©sum√© automatique de texte")
print(f"   5Ô∏è‚É£ Classification automatique")

print("\n" + "="*60)
print("üéØ ANALYSE TERMIN√âE AVEC SUCC√àS!")
print("="*60)