# Projet Knowledge Extraction - Partie A : Preprocessing et Repr√©sentation Text

**Universit√© Paris Cit√© - Master 2 VMI**  
**Cours :** IFLCE085 Recherche et extraction s√©mantique √† partir de texte (Prof. Salima Benbernou)

**√âquipe :**
- **Partie A (Preprocessing) : Jacques Gastebois**
- Partie B : Boutayna EL MOUJAOUID
- Partie C : Franz Dervis
- Partie D : Aya Benkabour

---

## Dataset : NER (Named Entity Recognition)

Ce notebook traite un dataset de **2221 phrases** annot√©es pour la reconnaissance d'entit√©s nomm√©es.

**Colonnes originales :**
- `id` : Identifiant unique de la phrase
- `words` : Liste des mots tokenis√©s
- `ner_tags` : Tags NER (0=O, 1=B-LOC, 2=B-PER, 4=B-ORG)
- `text` : Texte brut de la phrase

**Colonnes ajout√©es par ce notebook :**
- `cleaned_text` : Texte nettoy√© (lowercase, sans caract√®res sp√©ciaux)
- `lemmatized_text` : Texte lemmatis√© avec spaCy

## √âtape 1 : Setup et Importations

In [None]:
import sys
# Installation des d√©pendances de base
!{sys.executable} -m pip install -q pandas numpy nltk scikit-learn spacy
!{sys.executable} -m spacy download en_core_web_sm

import os
import re
import pandas as pd
import numpy as np
import spacy

# Chargement du mod√®le spaCy
nlp = spacy.load('en_core_web_sm')

# Configuration de l'affichage pandas
pd.set_option('display.max_colwidth', 100)

print("‚úÖ Environnement configur√© avec succ√®s.")

## √âtape 2 : Chargement des Donn√©es

In [None]:
# Chargement du dataset
df = pd.read_csv('data.csv')

print(f"üìä Dataset charg√© : {len(df)} phrases")
print(f"\nColonnes originales : {list(df.columns)}")
print(f"\nAper√ßu des donn√©es :")
df.head()

## √âtape 3 : Nettoyage du Texte

Ajout de la colonne `cleaned_text` au dataset.

In [None]:
def clean_text(text):
    """
    Nettoie le texte : lowercase, suppression caract√®res sp√©ciaux, normalisation espaces.
    """
    if not isinstance(text, str):
        return ""
    
    # 1. Lowercase
    text = text.lower()
    
    # 2. Suppression des caract√®res sp√©ciaux (garde lettres, chiffres et espaces)
    text = re.sub(r'[^a-z0-9\s]', ' ', text)
    
    # 3. Suppression des espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Application du nettoyage
print("üîÑ Nettoyage en cours...")
df['cleaned_text'] = df['text'].apply(clean_text)

print("‚úÖ Colonne 'cleaned_text' ajout√©e")
print(f"\nExemple :")
print(f"  Original : {df.iloc[0]['text']}")
print(f"  Nettoy√©  : {df.iloc[0]['cleaned_text']}")

## √âtape 4 : Lemmatization

Ajout de la colonne `lemmatized_text` au dataset.

In [None]:
def lemmatize_text(text):
    """
    Lemmatise le texte avec spaCy.
    """
    doc = nlp(text)
    lemmas = [token.lemma_ for token in doc]
    return ' '.join(lemmas)

# Application de la lemmatization
print("üîÑ Lemmatization en cours (cela peut prendre quelques minutes)...")
df['lemmatized_text'] = df['cleaned_text'].apply(lemmatize_text)

print("‚úÖ Colonne 'lemmatized_text' ajout√©e")
print(f"\nExemple de texte lemmatis√© :")
print(f"  {df.iloc[0]['lemmatized_text'][:100]}...")

## √âtape 5 : Sauvegarde du Dataset Enrichi

In [None]:
# V√©rification des colonnes
print("üìã Colonnes du dataset enrichi :")
print(list(df.columns))
print(f"\nNombre de lignes : {len(df)}")

# Aper√ßu
df.head()

In [None]:
# Sauvegarde du dataset enrichi
output_file = 'data_preprocessed.csv'
df.to_csv(output_file, index=False)

print(f"‚úÖ Dataset enrichi sauvegard√© : {output_file}")
print(f"   Colonnes : {list(df.columns)}")
print(f"   Nombre de lignes : {len(df)}")

## R√©sum√©

### Dataset Enrichi

Le fichier `data_preprocessed.csv` contient maintenant **6 colonnes** :

**Colonnes originales (conserv√©es) :**
1. `id` : Identifiant unique
2. `words` : Liste des mots tokenis√©s
3. `ner_tags` : Tags NER
4. `text` : Texte original

**Colonnes ajout√©es :**
5. `cleaned_text` : Texte nettoy√© (lowercase, sans caract√®res sp√©ciaux)
6. `lemmatized_text` : Texte lemmatis√© avec spaCy

### Utilisation (Partie B)

```python
import pandas as pd

# Charger le dataset enrichi
df = pd.read_csv('data_preprocessed.csv')

# Acc√©der aux diff√©rentes versions du texte
original_texts = df['text']
cleaned_texts = df['cleaned_text']
lemmatized_texts = df['lemmatized_text']

# Acc√©der aux annotations NER originales
ner_tags = df['ner_tags']
```

### Pipeline Appliqu√©

1. **Nettoyage** : Lowercase + Suppression caract√®res sp√©ciaux + Normalisation espaces
2. **Lemmatization** : spaCy `en_core_web_sm`

**Note** : Toutes les colonnes originales sont conserv√©es intactes !