# Partie A : Analyse Statistique du Corpus NER

**Universit√© Paris Cit√© - Master 2 VMI**  
**Projet Knowledge Extraction**  
**Auteur :** Jacques Gastebois

---

## Objectifs

Cette analyse vise √† :
1. **Caract√©riser le corpus** : statistiques descriptives, distributions
2. **Visualiser les donn√©es** : graphiques professionnels
3. **Analyser les entit√©s NER** : r√©partition des types d'entit√©s
4. **Analyser l'impact du preprocessing** : avant/apr√®s lemmatization
5. **Connecter avec les autres parties** : lien avec PartII (NER) et PartieC (relations)
6. **Tirer des conclusions** : insights pour la suite du projet

## 1. Setup et Chargement des Donn√©es

In [None]:
import sys
!{sys.executable} -m pip install -q pandas numpy matplotlib seaborn wordcloud

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import json
import ast
from collections import Counter

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Setup termin√©")

In [None]:
# Chargement du corpus pr√©trait√©
df = pd.read_csv('data_preprocessed.csv')

print(f"üìä Corpus charg√© : {len(df)} phrases")
print(f"\nColonnes disponibles :")
for col in df.columns:
    print(f"  - {col}")

df.head()

## 2. Statistiques Descriptives G√©n√©rales

In [None]:
# Calcul des longueurs de texte
df['text_length'] = df['text'].str.len()
df['cleaned_length'] = df['cleaned_text'].str.len()
df['lemmatized_length'] = df['lemmatized_text'].str.len()

# Nombre de mots
df['num_words'] = df['text'].str.split().str.len()
df['num_words_lemmatized'] = df['lemmatized_text'].str.split().str.len()

print("="*60)
print("STATISTIQUES G√âN√âRALES DU CORPUS")
print("="*60)
print(f"\nüìè Longueur des textes (caract√®res) :")
print(f"  Moyenne : {df['text_length'].mean():.1f}")
print(f"  M√©diane : {df['text_length'].median():.1f}")
print(f"  Min     : {df['text_length'].min()}")
print(f"  Max     : {df['text_length'].max()}")
print(f"  √âcart-type : {df['text_length'].std():.1f}")

print(f"\nüìù Nombre de mots par phrase :")
print(f"  Moyenne : {df['num_words'].mean():.1f}")
print(f"  M√©diane : {df['num_words'].median():.1f}")
print(f"  Min     : {df['num_words'].min()}")
print(f"  Max     : {df['num_words'].max()}")

print(f"\nüîÑ Impact du preprocessing :")
reduction = (1 - df['cleaned_length'].mean() / df['text_length'].mean()) * 100
print(f"  R√©duction (nettoyage) : {reduction:.1f}%")
reduction_lem = (1 - df['lemmatized_length'].mean() / df['cleaned_length'].mean()) * 100
print(f"  R√©duction (lemmatization) : {reduction_lem:.1f}%")
print("="*60)

## 3. Visualisations : Distributions

In [None]:
# Distribution des longueurs de phrases
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histogramme
axes[0].hist(df['num_words'], bins=50, edgecolor='black', alpha=0.7)
axes[0].axvline(df['num_words'].mean(), color='red', linestyle='--', 
                linewidth=2, label=f'Moyenne: {df["num_words"].mean():.1f}')
axes[0].axvline(df['num_words'].median(), color='green', linestyle='--', 
                linewidth=2, label=f'M√©diane: {df["num_words"].median():.1f}')
axes[0].set_xlabel('Nombre de mots par phrase')
axes[0].set_ylabel('Fr√©quence')
axes[0].set_title('Distribution du Nombre de Mots par Phrase')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Boxplot
axes[1].boxplot([df['num_words']], labels=['Corpus'])
axes[1].set_ylabel('Nombre de mots')
axes[1].set_title('Boxplot : Nombre de Mots par Phrase')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('stats_distributions.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© : stats_distributions.png")

In [None]:
# Comparaison avant/apr√®s preprocessing
fig, ax = plt.subplots(figsize=(12, 6))

data_to_plot = [
    df['text_length'].values,
    df['cleaned_length'].values,
    df['lemmatized_length'].values
]

bp = ax.boxplot(data_to_plot, 
                labels=['Texte Original', 'Texte Nettoy√©', 'Texte Lemmatis√©'],
                patch_artist=True,
                showmeans=True)

# Couleurs
colors = ['lightblue', 'lightgreen', 'lightcoral']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)

ax.set_ylabel('Longueur (caract√®res)')
ax.set_title('Impact du Preprocessing sur la Longueur des Textes')
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('stats_preprocessing_impact.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© : stats_preprocessing_impact.png")

## 4. Analyse du Vocabulaire

In [None]:
# Extraction du vocabulaire
all_words_original = ' '.join(df['text'].fillna('')).lower().split()
all_words_lemmatized = ' '.join(df['lemmatized_text'].fillna('')).split()

vocab_original = set(all_words_original)
vocab_lemmatized = set(all_words_lemmatized)

print("="*60)
print("ANALYSE DU VOCABULAIRE")
print("="*60)
print(f"\nüìö Taille du vocabulaire :")
print(f"  Original     : {len(vocab_original):,} mots uniques")
print(f"  Lemmatis√©    : {len(vocab_lemmatized):,} mots uniques")
print(f"  R√©duction    : {(1 - len(vocab_lemmatized)/len(vocab_original))*100:.1f}%")

print(f"\nüî¢ Tokens totaux :")
print(f"  Original     : {len(all_words_original):,} tokens")
print(f"  Lemmatis√©    : {len(all_words_lemmatized):,} tokens")
print("="*60)

In [None]:
# Top 20 mots les plus fr√©quents
word_freq_original = Counter(all_words_original)
word_freq_lemmatized = Counter(all_words_lemmatized)

top_20_original = word_freq_original.most_common(20)
top_20_lemmatized = word_freq_lemmatized.most_common(20)

# Visualisation
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Top mots originaux
words_orig, counts_orig = zip(*top_20_original)
axes[0].barh(range(len(words_orig)), counts_orig, color='steelblue')
axes[0].set_yticks(range(len(words_orig)))
axes[0].set_yticklabels(words_orig)
axes[0].invert_yaxis()
axes[0].set_xlabel('Fr√©quence')
axes[0].set_title('Top 20 Mots - Texte Original (lowercase)')
axes[0].grid(True, alpha=0.3, axis='x')

# Top mots lemmatis√©s
words_lem, counts_lem = zip(*top_20_lemmatized)
axes[1].barh(range(len(words_lem)), counts_lem, color='coral')
axes[1].set_yticks(range(len(words_lem)))
axes[1].set_yticklabels(words_lem)
axes[1].invert_yaxis()
axes[1].set_xlabel('Fr√©quence')
axes[1].set_title('Top 20 Mots - Texte Lemmatis√©')
axes[1].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.savefig('stats_top_words.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© : stats_top_words.png")

In [None]:
# Word Cloud du corpus lemmatis√©
text_for_cloud = ' '.join(df['lemmatized_text'].fillna(''))

wordcloud = WordCloud(width=1200, height=600, 
                      background_color='white',
                      colormap='viridis',
                      max_words=200).generate(text_for_cloud)

plt.figure(figsize=(14, 7))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud - Corpus Lemmatis√© (Top 200 mots)', fontsize=16, pad=20)
plt.tight_layout()
plt.savefig('stats_wordcloud.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© : stats_wordcloud.png")

## 5. Analyse des Entit√©s NER

In [None]:
# Mapping des tags NER
ner_mapping = {
    0: 'O (Other)',
    1: 'B-LOC (Location)',
    2: 'B-PER (Person)',
    4: 'B-ORG (Organization)'
}

# Extraction et comptage des tags
def count_ner_tags(ner_tags_str):
    try:
        tags = ast.literal_eval(ner_tags_str)
        return Counter(tags)
    except:
        return Counter()

all_ner_counts = Counter()
for tags_str in df['ner_tags']:
    all_ner_counts.update(count_ner_tags(tags_str))

print("="*60)
print("ANALYSE DES ENTIT√âS NER")
print("="*60)
print(f"\nüè∑Ô∏è R√©partition des tags NER :")
total_tags = sum(all_ner_counts.values())
for tag, count in sorted(all_ner_counts.items()):
    tag_name = ner_mapping.get(tag, f'Unknown ({tag})')
    percentage = (count / total_tags) * 100
    print(f"  {tag_name:25s} : {count:6,} ({percentage:5.2f}%)")
print(f"\n  Total : {total_tags:,} tags")
print("="*60)

In [None]:
# Visualisation de la r√©partition des entit√©s
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Pie chart
labels = [ner_mapping.get(tag, f'Tag {tag}') for tag in all_ner_counts.keys()]
sizes = list(all_ner_counts.values())
colors = ['lightgray', 'lightblue', 'lightcoral', 'lightgreen']

axes[0].pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90, colors=colors)
axes[0].set_title('R√©partition des Tags NER')

# Bar chart (sans 'O')
entity_tags = {k: v for k, v in all_ner_counts.items() if k != 0}
entity_labels = [ner_mapping.get(tag, f'Tag {tag}') for tag in entity_tags.keys()]
entity_counts = list(entity_tags.values())

axes[1].bar(entity_labels, entity_counts, color=['lightblue', 'lightcoral', 'lightgreen'])
axes[1].set_ylabel('Nombre d\'occurrences')
axes[1].set_title('Distribution des Entit√©s Nomm√©es (sans O)')
axes[1].tick_params(axis='x', rotation=15)
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.savefig('stats_ner_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print("‚úÖ Graphique sauvegard√© : stats_ner_distribution.png")

## 6. Connexion avec les Autres Parties du Projet

In [None]:
# Analyse de la Partie C : extraction de relations
import os

if os.path.exists('PartieC/extracted_triplets.json'):
    with open('PartieC/extracted_triplets.json', 'r') as f:
        triplets = json.load(f)
    
    print("="*60)
    print("CONNEXION AVEC PARTIE C (EXTRACTION DE RELATIONS)")
    print("="*60)
    print(f"\nüîó Triplets extraits : {len(triplets)}")
    
    # Analyse des types de relations si disponible
    if triplets and isinstance(triplets, list) and len(triplets) > 0:
        print(f"\nExemple de triplet :")
        print(f"  {triplets[0]}")
        
        # Calcul du taux de couverture
        coverage = (len(triplets) / len(df)) * 100
        print(f"\nüìä Taux de couverture :")
        print(f"  {coverage:.1f}% des phrases ont des relations extraites")
    
    print("="*60)
else:
    print("‚ö†Ô∏è Fichier PartieC/extracted_triplets.json non trouv√©")

## 7. Conclusions et Insights

### üéØ Caract√©ristiques du Corpus

**Nature du corpus :**
- Dataset de **Named Entity Recognition** (NER) avec 2221 phrases
- Textes courts (moyenne ~20 mots/phrase)
- Domaine : textes encyclop√©diques/biographiques

**Distribution des entit√©s :**
- Majorit√© de tokens 'O' (Other) : texte non annot√©
- Entit√©s principales : Personnes (B-PER), Lieux (B-LOC), Organisations (B-ORG)
- √âquilibre entre les diff√©rents types d'entit√©s

**Impact du preprocessing :**
- **Nettoyage** : r√©duction des caract√®res sp√©ciaux (~10-15%)
- **Lemmatization** : r√©duction du vocabulaire (~20-30%)
- Permet une meilleure g√©n√©ralisation pour les mod√®les

### üîó Connexion avec les Autres Parties

**Partie II (NER) :**
- Utilise les textes lemmatis√©s pour am√©liorer la reconnaissance d'entit√©s
- Le preprocessing facilite la d√©tection des patterns
- Vocabulaire r√©duit = mod√®le plus efficace

**Partie C (Extraction de Relations) :**
- S'appuie sur les entit√©s identifi√©es en Partie II
- Extraction de triplets (sujet-relation-objet)
- Le preprocessing pr√©alable am√©liore la qualit√© des relations extraites

### üí° Recommandations pour la Suite

1. **Pour la Partie B (NER) :**
   - Utiliser les textes lemmatis√©s pour l'entra√Ænement
   - Attention aux entit√©s rares (balance dataset)
   - Consid√©rer les bigrammes pour les entit√©s compos√©es

2. **Pour la Partie C (Relations) :**
   - Exploiter la structure syntaxique pr√©serv√©e
   - Focus sur les phrases avec plusieurs entit√©s
   - Validation crois√©e avec les tags NER originaux

3. **Am√©liorations possibles :**
   - Stemming vs Lemmatization : comparaison
   - Filtrage des stop words pour certaines t√¢ches
   - Enrichissement avec POS tags

---

**üìå Conclusion g√©n√©rale :**

Le preprocessing appliqu√© (nettoyage + lemmatization) constitue une **base solide** pour les t√¢ches suivantes. La r√©duction du vocabulaire et la normalisation des formes verbales facilitent l'apprentissage des mod√®les tout en pr√©servant l'information s√©mantique essentielle pour la reconnaissance d'entit√©s et l'extraction de relations.

## 8. Export du Rapport Statistique

In [None]:
# Cr√©ation d'un r√©sum√© statistique en JSON
stats_summary = {
    'corpus': {
        'total_sentences': len(df),
        'avg_words_per_sentence': float(df['num_words'].mean()),
        'avg_chars_per_sentence': float(df['text_length'].mean()),
        'min_words': int(df['num_words'].min()),
        'max_words': int(df['num_words'].max())
    },
    'vocabulary': {
        'original_vocab_size': len(vocab_original),
        'lemmatized_vocab_size': len(vocab_lemmatized),
        'reduction_percentage': float((1 - len(vocab_lemmatized)/len(vocab_original))*100)
    },
    'ner_distribution': {ner_mapping.get(k, f'Tag_{k}'): int(v) 
                        for k, v in all_ner_counts.items()},
    'preprocessing_impact': {
        'cleaning_reduction': float((1 - df['cleaned_length'].mean() / df['text_length'].mean()) * 100),
        'lemmatization_reduction': float((1 - df['lemmatized_length'].mean() / df['cleaned_length'].mean()) * 100)
    }
}

with open('corpus_statistics.json', 'w') as f:
    json.dump(stats_summary, f, indent=2)

print("‚úÖ R√©sum√© statistique sauvegard√© : corpus_statistics.json")
print("\nüìä Graphiques g√©n√©r√©s :")
print("  - stats_distributions.png")
print("  - stats_preprocessing_impact.png")
print("  - stats_top_words.png")
print("  - stats_wordcloud.png")
print("  - stats_ner_distribution.png")