# Projet Knowledge Extraction - Partie A : Preprocessing et Représentation Text

**Université Paris Cité - Master 2 VMI**
**Cours :** IFLCE085 Recherche et extraction sémantique à partir de texte (Prof. Salima Benbernou)

**Équipe :**
- **Partie A (Preprocessing) : Jacques Gastebois**
- Partie B : Boutayna EL MOUJAOUID
- Partie C : Franz Dervis
- Partie D : Aya Benkabour

---

## Étape 1 : Setup et Importations
Objectif : Configurer l'environnement et importer les librairies nécessaires.

**Note importante** : Sur Mac ARM avec Python 3.8, spaCy doit être installé via conda (pas pip).

In [22]:
import sys
# Installation des dépendances de base
!{sys.executable} -m pip install pandas
!{sys.executable} -m pip install numpy
!{sys.executable} -m pip install nltk
!{sys.executable} -m pip install scikit-learn
!{sys.executable} -m pip install transformers
!{sys.executable} -m pip install torch
!{sys.executable} -m pip install spacy

# Téléchargement du modèle spaCy anglais
!{sys.executable} -m spacy download en_core_web_sm



import os
import json
import re
import pandas as pd
import numpy as np
import nltk
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Téléchargement des ressources NLTK (version mise à jour)
nltk.download('punkt_tab', quiet=True)
nltk.download('averaged_perceptron_tagger_eng', quiet=True)
nltk.download('stopwords', quiet=True)

# Chargement du modèle spaCy
nlp = spacy.load('en_core_web_sm')

# Configuration de l'affichage pandas
pd.set_option('display.max_colwidth', 100)

print("Environnement configuré avec succès.")

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m51.9 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Environnement configuré avec succès.


## Étape 2 : Chargement et Exploration des Données (SciREX)
Objectif : Télécharger (si nécessaire) et charger le dataset SciREX.

In [None]:
import urllib.request
import tarfile

DATA_DIR = "release_data"
DATA_URL = "https://github.com/allenai/SciREX/raw/master/scirex_dataset/release_data.tar.gz"
TAR_FILE = "release_data.tar.gz"

def download_and_extract_data():
    if not os.path.exists(DATA_DIR):
        print("Dossier de données non trouvé. Téléchargement en cours...")
        try:
            urllib.request.urlretrieve(DATA_URL, TAR_FILE)
            print("Téléchargement terminé. Extraction...")
            with tarfile.open(TAR_FILE, "r:gz") as tar:
                tar.extractall()
            print("Extraction terminée.")
        except Exception as e:
            print(f"Erreur lors du téléchargement/extraction : {e}")
    else:
        print("Les données sont déjà présentes.")

download_and_extract_data()

FILES = {
    "train": os.path.join(DATA_DIR, "train.jsonl"),
    "dev": os.path.join(DATA_DIR, "dev.jsonl"),
    "test": os.path.join(DATA_DIR, "test.jsonl")
}

def load_jsonl(file_path):
    """Charge un fichier JSONL dans une liste de dictionnaires."""
    data = []
    if os.path.exists(file_path):
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data.append(json.loads(line))
    else:
        print(f"Attention : Fichier {file_path} introuvable.")
    return data

# Chargement des données
print("Chargement des données...")
train_data = load_jsonl(FILES["train"])
dev_data = load_jsonl(FILES["dev"])
test_data = load_jsonl(FILES["test"])

print(f"Nombre de documents Train : {len(train_data)}")
print(f"Nombre de documents Dev   : {len(dev_data)}")
print(f"Nombre de documents Test  : {len(test_data)}")

In [None]:
# Exploration d'un document type
if train_data:
    doc_example = train_data[0]
    print("\nClés disponibles dans un document :")
    print(list(doc_example.keys()))

    print("\nExemple de contenu (champs principaux) :")
    print(f"ID: {doc_example.get('doc_id')}")
    if 'words' in doc_example:
        print(f"Début du texte (50 premiers mots) : {' '.join(doc_example['words'][:50])}...")


## Étape 3 : Nettoyage et Normalisation
Objectif : Nettoyer le texte (lowercase, suppression caractères spéciaux, espaces multiples).

In [None]:
def clean_text(text):
    """
    Nettoie le texte : lowercase, suppression caractères spéciaux, espaces multiples.
    
    Args:
        text (str): Texte à nettoyer
    
    Returns:
        str: Texte nettoyé
    """
    if not isinstance(text, str):
        return ""
    
    # 1. Lowercase
    text = text.lower()
    
    # 2. Suppression des caractères spéciaux (garde lettres, chiffres et espaces)
    text = re.sub(r'[^a-z0-9\s]', ' ', text)
    
    # 3. Suppression des espaces multiples
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

print("Fonction clean_text() définie.")

In [None]:
# Test sur l'exemple
if train_data and 'words' in doc_example:
    raw_text = ' '.join(doc_example['words'])
    cleaned_text = clean_text(raw_text)
    
    print("Texte original (200 premiers caractères) :")
    print(raw_text[:200])
    print("\nTexte nettoyé (200 premiers caractères) :")
    print(cleaned_text[:200])
    print(f"\nLongueur originale : {len(raw_text)} caractères")
    print(f"Longueur nettoyée  : {len(cleaned_text)} caractères")

In [None]:
# Application du nettoyage sur tous les documents
print("Application du nettoyage sur tous les documents...")

for doc in train_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

for doc in dev_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

for doc in test_data:
    if 'words' in doc:
        doc['cleaned_text'] = clean_text(' '.join(doc['words']))

print(f"Nettoyage terminé pour {len(train_data)} docs train, {len(dev_data)} docs dev, {len(test_data)} docs test.")
print(f"\nExemple de texte nettoyé (doc 0) : {train_data[0]['cleaned_text'][:150]}...")

## Étape 4 : Tokenization, POS Tagging et Lemmatization
Objectif : Tokeniser, identifier les parties du discours (POS) et lemmatiser les textes.

In [23]:
def tokenize_and_pos(text):
    """
    Tokenise le texte et effectue le POS tagging avec NLTK.
    
    Args:
        text (str): Texte à tokeniser
    
    Returns:
        list: Liste de tuples (token, pos_tag)
    """
    tokens = word_tokenize(text)
    pos_tags = nltk.pos_tag(tokens)
    return pos_tags

def lemmatize_text(text):
    """
    Lemmatise le texte avec spaCy.
    
    Args:
        text (str): Texte à lemmatiser
    
    Returns:
        str: Texte lemmatisé
    """
    doc = nlp(text)
    lemmas = [token.lemma_ for token in doc]
    return ' '.join(lemmas)

print("Fonctions tokenize_and_pos() et lemmatize_text() définies.")

Fonctions tokenize_and_pos() et lemmatize_text() définies.


In [24]:
# Test sur l'exemple
if train_data and 'cleaned_text' in train_data[0]:
    sample_text = train_data[0]['cleaned_text'][:500]  # Premier 500 caractères
    
    print("Texte nettoyé (extrait) :")
    print(sample_text)
    
    print("\n--- Tokenization + POS Tagging ---")
    pos_tags = tokenize_and_pos(sample_text)
    print(f"Nombre de tokens : {len(pos_tags)}")
    print(f"Premiers 10 tokens avec POS : {pos_tags[:10]}")
    
    print("\n--- Lemmatization ---")
    lemmatized = lemmatize_text(sample_text)
    print(f"Texte lemmatisé (extrait) : {lemmatized[:200]}...")

Texte nettoyé (extrait) :
full resolution residual networks for semantic segmentation in street scenes section abstract semantic image segmentation is an essential component of modern autonomous driving systems as an accurate understanding of the surrounding scene is crucial to navigation and action planning current state of the art approaches in semantic image segmentation rely on pretrained networks that were initially developed for classifying images as a whole while these networks exhibit outstanding recognition perf

--- Tokenization + POS Tagging ---
Nombre de tokens : 70
Premiers 10 tokens avec POS : [('full', 'JJ'), ('resolution', 'NN'), ('residual', 'JJ'), ('networks', 'NNS'), ('for', 'IN'), ('semantic', 'JJ'), ('segmentation', 'NN'), ('in', 'IN'), ('street', 'NN'), ('scenes', 'NNS')]

--- Lemmatization ---
Texte lemmatisé (extrait) : full resolution residual network for semantic segmentation in street scene section abstract semantic image segmentation be an essential componen

In [25]:
# Application sur tous les documents (limité aux 100 premiers pour la démo)
# Pour le dataset complet, cela peut prendre du temps
print("Application de la lemmatization sur les 100 premiers documents train...")

for i, doc in enumerate(train_data[:100]):
    if 'cleaned_text' in doc:
        doc['lemmatized_text'] = lemmatize_text(doc['cleaned_text'])
    if (i + 1) % 20 == 0:
        print(f"  Traité {i + 1}/100 documents...")

print("Lemmatization terminée pour le sous-ensemble.")
print(f"\nExemple de texte lemmatisé (doc 0) : {train_data[0]['lemmatized_text'][:150]}...")

Application de la lemmatization sur les 100 premiers documents train...
  Traité 20/100 documents...
  Traité 40/100 documents...
  Traité 60/100 documents...
  Traité 80/100 documents...
  Traité 100/100 documents...
Lemmatization terminée pour le sous-ensemble.

Exemple de texte lemmatisé (doc 0) : full resolution residual network for semantic segmentation in street scene section abstract semantic image segmentation be an essential component of m...
