# Projet Knowledge Extraction - Partie A : Preprocessing et Représentation Text

**Université Paris Cité - Master 2 VMI**
**Cours :** IFLCE085 Recherche et extraction sémantique à partir de texte (Prof. Salima Benbernou)

**Équipe :**
- **Partie A (Preprocessing) : Jacques Gastebois**
- Partie B : Boutayna EL MOUJAOUID
- Partie C : Franz Dervis
- Partie D : Aya Benkabour

---

## Étape 1 : Setup et Importations
Objectif : Configurer l'environnement et importer les librairies nécessaires.

In [1]:
import sys
# Installation des dépendances de base
!{sys.executable} -m pip install pandas
!{sys.executable} -m pip install numpy
!{sys.executable} -m pip install nltk
!{sys.executable} -m pip install scikit-learn
!{sys.executable} -m pip install spacy

# Téléchargement du modèle spaCy anglais
!{sys.executable} -m spacy download en_core_web_sm



import os
import json
import re
import pandas as pd
import numpy as np
import nltk
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

# Téléchargement des ressources NLTK (version mise à jour)
nltk.download('punkt_tab', quiet=True)
nltk.download('averaged_perceptron_tagger_eng', quiet=True)
nltk.download('stopwords', quiet=True)

# Chargement du modèle spaCy
nlp = spacy.load('en_core_web_sm')

# Configuration de l'affichage pandas
pd.set_option('display.max_colwidth', 100)

print("Environnement configuré avec succès.")

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m57.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Environnement configuré avec succès.


## Étape 2 : Chargement et Exploration des Données (SciREX)
Objectif : Télécharger (si nécessaire) et charger le dataset SciREX.

In [2]:
import urllib.request
import tarfile

DATA_DIR = "release_data"
DATA_URL = "https://github.com/allenai/SciREX/raw/master/scirex_dataset/release_data.tar.gz"
TAR_FILE = "release_data.tar.gz"

def download_and_extract_data():
    if not os.path.exists(DATA_DIR):
        print("Dossier de données non trouvé. Téléchargement en cours...")
        try:
            urllib.request.urlretrieve(DATA_URL, TAR_FILE)
            print("Téléchargement terminé. Extraction...")
            with tarfile.open(TAR_FILE, "r:gz") as tar:
                tar.extractall()
            print("Extraction terminée.")
        except Exception as e:
            print(f"Erreur lors du téléchargement/extraction : {e}")
    else:
        print("Les données sont déjà présentes.")

download_and_extract_data()

FILES = {
    "train": os.path.join(DATA_DIR, "train.jsonl"),
    "dev": os.path.join(DATA_DIR, "dev.jsonl"),
    "test": os.path.join(DATA_DIR, "test.jsonl")
}

def load_jsonl(file_path):
    """Charge un fichier JSONL dans une liste de dictionnaires."""
    data = []
    if os.path.exists(file_path):
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data.append(json.loads(line))
    else:
        print(f"Attention : Fichier {file_path} introuvable.")
    return data

# Chargement des données
print("Chargement des données...")
train_data = load_jsonl(FILES["train"])
dev_data = load_jsonl(FILES["dev"])
test_data = load_jsonl(FILES["test"])

print(f"Nombre de documents Train : {len(train_data)}")
print(f"Nombre de documents Dev   : {len(dev_data)}")
print(f"Nombre de documents Test  : {len(test_data)}")

Les données sont déjà présentes.
Chargement des données...
Nombre de documents Train : 306
Nombre de documents Dev   : 66
Nombre de documents Test  : 66


In [3]:
# Exploration d'un document type
if train_data:
    doc_example = train_data[0]
    print("\nClés disponibles dans un document :")
    print(list(doc_example.keys()))

    print("\nExemple de contenu (champs principaux) :")
    print(f"ID: {doc_example.get('doc_id')}")
    if 'words' in doc_example:
        print(f"Début du texte (50 premiers mots) : {' '.join(doc_example['words'][:50])}...")



Clés disponibles dans un document :
['coref', 'coref_non_salient', 'doc_id', 'method_subrelations', 'n_ary_relations', 'ner', 'sections', 'sentences', 'words']

Exemple de contenu (champs principaux) :
ID: 000f90380d768a85e2316225854fc377c079b5c4
Début du texte (50 premiers mots) : Full - Resolution Residual Networks for Semantic Segmentation in Street Scenes section : Abstract Semantic image segmentation is an essential component of modern autonomous driving systems , as an accurate understanding of the surrounding scene is crucial to navigation and action planning . Current state - of - the -...


## Étape 3 : Nettoyage et Normalisation
Objectif : Nettoyer le texte (lowercase, suppression caractères spéciaux, espaces multiples).

In [4]:
def clean_text(text):
    """
    Nettoie le texte : lowercase, suppression caractères spéciaux, espaces multiples.
    
    Args:
        text (str): Texte à nettoyer
    
    Returns:
        str: Texte nettoyé
    """
    if not isinstance(text, str):
        return ""
    
    # 1. Lowercase
    text = text.lower()
    
    # 2. Suppression des caractères spéciaux (garde lettres, chiffres et espaces)
    text = re.sub(r'[^a-z0-9\s]', ' ', text)
    
    # 3. Suppression des espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

print("Fonction clean_text() définie.")

Fonction clean_text() définie.


In [5]:
# Test sur l'exemple
if train_data and 'words' in doc_example:
    raw_text = ' '.join(doc_example['words'])
    cleaned_text = clean_text(raw_text)
    
    print("Texte original (200 premiers caractères) :")
    print(raw_text[:200])
    print("\nTexte nettoyé (200 premiers caractères) :")
    print(cleaned_text[:200])
    print(f"\nLongueur originale : {len(raw_text)} caractères")
    print(f"Longueur nettoyée  : {len(cleaned_text)} caractères")

Texte original (200 premiers caractères) :
Full - Resolution Residual Networks for Semantic Segmentation in Street Scenes section : Abstract Semantic image segmentation is an essential component of modern autonomous driving systems , as an acc

Texte nettoyé (200 premiers caractères) :
full resolution residual networks for semantic segmentation in street scenes section abstract semantic image segmentation is an essential component of modern autonomous driving systems as an accurate 

Longueur originale : 36348 caractères
Longueur nettoyée  : 34301 caractères


In [6]:
# Application du nettoyage sur tous les documents
print("Application du nettoyage sur tous les documents...")

for doc in train_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

for doc in dev_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

for doc in test_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

print(f"Nettoyage terminé pour {len(train_data)} docs train, {len(dev_data)} docs dev, {len(test_data)} docs test.")
print(f"\nExemple de texte nettoyé (doc 0) : {train_data[0]['cleaned_text'][:150]}...")

Application du nettoyage sur tous les documents...
Nettoyage terminé pour 306 docs train, 66 docs dev, 66 docs test.

Exemple de texte nettoyé (doc 0) : full resolution residual networks for semantic segmentation in street scenes section abstract semantic image segmentation is an essential component of...


## Étape 4 : Tokenization, POS Tagging et Lemmatization
Objectif : Tokeniser, identifier les parties du discours (POS) et lemmatiser les textes.

In [7]:
def tokenize_and_pos(text):
    """
    Tokenise le texte et effectue le POS tagging avec NLTK.
    
    Args:
        text (str): Texte à tokeniser
    
    Returns:
        list: Liste de tuples (token, pos_tag)
    """
    tokens = word_tokenize(text)
    pos_tags = nltk.pos_tag(tokens)
    return pos_tags

def lemmatize_text(text):
    """
    Lemmatise le texte avec spaCy.
    
    Args:
        text (str): Texte à lemmatiser
    
    Returns:
        str: Texte lemmatisé
    """
    doc = nlp(text)
    lemmas = [token.lemma_ for token in doc]
    return ' '.join(lemmas)

print("Fonctions tokenize_and_pos() et lemmatize_text() définies.")

Fonctions tokenize_and_pos() et lemmatize_text() définies.


In [8]:
# Test sur l'exemple
if train_data and 'cleaned_text' in train_data[0]:
    sample_text = train_data[0]['cleaned_text'][:500]  # Premier 500 caractères
    
    print("Texte nettoyé (extrait) :")
    print(sample_text)
    
    print("\n--- Tokenization + POS Tagging ---")
    pos_tags = tokenize_and_pos(sample_text)
    print(f"Nombre de tokens : {len(pos_tags)}")
    print(f"Premiers 10 tokens avec POS : {pos_tags[:10]}")
    
    print("\n--- Lemmatization ---")
    lemmatized = lemmatize_text(sample_text)
    print(f"Texte lemmatisé (extrait) : {lemmatized[:200]}...")

Texte nettoyé (extrait) :
full resolution residual networks for semantic segmentation in street scenes section abstract semantic image segmentation is an essential component of modern autonomous driving systems as an accurate understanding of the surrounding scene is crucial to navigation and action planning current state of the art approaches in semantic image segmentation rely on pretrained networks that were initially developed for classifying images as a whole while these networks exhibit outstanding recognition perf

--- Tokenization + POS Tagging ---
Nombre de tokens : 70
Premiers 10 tokens avec POS : [('full', 'JJ'), ('resolution', 'NN'), ('residual', 'JJ'), ('networks', 'NNS'), ('for', 'IN'), ('semantic', 'JJ'), ('segmentation', 'NN'), ('in', 'IN'), ('street', 'NN'), ('scenes', 'NNS')]

--- Lemmatization ---
Texte lemmatisé (extrait) : full resolution residual network for semantic segmentation in street scene section abstract semantic image segmentation be an essential componen

In [9]:
# Application sur tous les documents (limité aux 100 premiers pour la démo)
# Pour le dataset complet, cela peut prendre du temps
print("Application de la lemmatization sur les 100 premiers documents train...")

for i, doc in enumerate(train_data[:100]):
    if 'cleaned_text' in doc:
        doc['lemmatized_text'] = lemmatize_text(doc['cleaned_text'])
    if (i + 1) % 20 == 0:
        print(f"  Traité {i + 1}/100 documents...")

print("Lemmatization terminée pour le sous-ensemble.")
print(f"\nExemple de texte lemmatisé (doc 0) : {train_data[0]['lemmatized_text'][:150]}...")

Application de la lemmatization sur les 100 premiers documents train...
  Traité 20/100 documents...
  Traité 40/100 documents...
  Traité 60/100 documents...
  Traité 80/100 documents...
  Traité 100/100 documents...
Lemmatization terminée pour le sous-ensemble.

Exemple de texte lemmatisé (doc 0) : full resolution residual network for semantic segmentation in street scene section abstract semantic image segmentation be an essential component of m...


## Étape 5 : Représentation Vectorielle TF-IDF
Objectif : Créer une représentation vectorielle des textes avec TF-IDF.

In [10]:
# Préparation des textes pour TF-IDF (utilisation des textes nettoyés)
train_texts = [doc['cleaned_text'] for doc in train_data if 'cleaned_text' in doc]

# Création du vectoriseur TF-IDF
tfidf_vectorizer = TfidfVectorizer(
    max_features=5000,  # Limite à 5000 features les plus importantes
    min_df=2,           # Ignore les termes qui apparaissent dans moins de 2 documents
    max_df=0.8,         # Ignore les termes qui apparaissent dans plus de 80% des documents
    ngram_range=(1, 2)  # Unigrammes et bigrammes
)

# Calcul de la matrice TF-IDF
print("Calcul de la matrice TF-IDF...")
tfidf_matrix = tfidf_vectorizer.fit_transform(train_texts)

print(f"\nMatrice TF-IDF créée :")
print(f"  Forme : {tfidf_matrix.shape}")
print(f"  Nombre de documents : {tfidf_matrix.shape[0]}")
print(f"  Nombre de features : {tfidf_matrix.shape[1]}")
print(f"  Densité : {tfidf_matrix.nnz / (tfidf_matrix.shape[0] * tfidf_matrix.shape[1]):.4f}")

Calcul de la matrice TF-IDF...

Matrice TF-IDF créée :
  Forme : (306, 5000)
  Nombre de documents : 306
  Nombre de features : 5000
  Densité : 0.2370


In [11]:
# Affichage des top features pour le premier document
feature_names = tfidf_vectorizer.get_feature_names_out()
doc_0_vector = tfidf_matrix[0].toarray()[0]
top_indices = doc_0_vector.argsort()[-10:][::-1]

print("Top 10 features TF-IDF pour le document 0 :")
for idx in top_indices:
    print(f"  {feature_names[idx]}: {doc_0_vector[idx]:.4f}")

Top 10 features TF-IDF pour le document 0 :
  stream: 0.2819
  cityscapes: 0.2445
  residual: 0.2226
  resolution: 0.1905
  segmentation: 0.1893
  reference reference: 0.1770
  pooling: 0.1688
  pooling operations: 0.1449
  image: 0.1281
  semantic segmentation: 0.1195


## Résumé des Étapes Complétées

✅ **Étape 1** : Setup et importations  
✅ **Étape 2** : Chargement et exploration SciREX (306 train, 66 dev, 66 test)  
✅ **Étape 3** : Nettoyage et normalisation  
✅ **Étape 4** : Tokenization, POS tagging et lemmatization  
✅ **Étape 5** : Représentation TF-IDF (matrice 306×5000)

**Note** : Les embeddings BERT ont été retirés pour des raisons de performance. TF-IDF est suffisant pour la démonstration pédagogique.