In [2]:
import pandas as pd
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.stem import WordNetLemmatizer, PorterStemmer  # Ajout de PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer


  from pandas.core import (


In [3]:

def calculate_tfidf(corpus):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(corpus)
    feature_names = vectorizer.get_feature_names_out()
    return tfidf_matrix, feature_names

In [4]:

# Définir les chemins de fichiers
corpus_file = r'D:\etude\M2\RI\nfcorpus\nfcorpus\corpus.jsonl'
queries_file = r'D:\etude\M2\RI\nfcorpus\nfcorpus\queries.jsonl'
dev_qrels_file = r'D:\etude\M2\RI\nfcorpus\nfcorpus\qrels\dev.tsv'
test_qrels_file = r'D:\etude\M2\RI\nfcorpus\nfcorpus\qrels\test.tsv'
train_qrels_file = r'D:\etude\M2\RI\nfcorpus\nfcorpus\qrels\train.tsv'


In [5]:
# Charger le corpus
corpus_df = pd.read_json(corpus_file, lines=True)
queries_df = pd.read_json(queries_file, lines=True)


In [6]:
# Compter le nombre de documents et de requêtes
num_docs = len(corpus_df)
num_queries = len(queries_df)


In [7]:
print(f"Nombre de documents : {num_docs}")
print(f"Nombre de requêtes : {num_queries}")


Nombre de documents : 3633
Nombre de requêtes : 3237


In [8]:
# Convertir en txt
corpus_df.to_csv('corpus.txt', index=False, header=False)
queries_df.to_csv('queries.txt', index=False, header=False)


In [9]:
# Chargement des stop words
stop_words = set(stopwords.words('english'))


In [10]:
# Fonction de tokenisation et nettoyage
def tokenize_file(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f:  # Spécifier l'encodage ici
        content = f.read().lower()  # Conversion en minuscules
        
    # Suppression de la ponctuation
    content = re.sub(r'[^\w\s]', '', content)
    tokens = word_tokenize(content)  # Tokenisation
    
    # Filtrage des stop words
    filtered_tokens = [token for token in tokens if token not in stop_words]
    
    # Enregistrement des tokens filtrés 
    with open(output_file, 'w', encoding='utf-8') as f_out:  # Spécifier l'encodage ici aussi
        f_out.write('\n'.join(filtered_tokens))



In [11]:
# Résultats de tokenisation
tokenize_file('corpus.txt', 'corpus_tokens.txt')
tokenize_file('queries.txt', 'queries_tokens.txt')


In [12]:

# Télécharger les ressources NLTK si nécessaire
import nltk
nltk.download('punkt')
nltk.download('stopwords')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Utilisateur\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Utilisateur\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [13]:
lemmatizer = WordNetLemmatizer()


In [14]:
# Fonction de stemming
stemmer = PorterStemmer()

In [15]:
# Fonction pour lemmatiser les tokens d'un fichier et enregistrer le résultat
def lemmatize_tokens(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f:  # Spécifier l'encodage ici
        tokens = f.read().splitlines()  # Lecture des tokens ligne par ligne
    
    # Application de la lemmatisation
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
    
    # Enregistrement des tokens lemmatisés dans un fichier de sortie
    with open(output_file, 'w', encoding='utf-8') as f_out:  # Spécifier l'encodage ici aussi
        f_out.write('\n'.join(lemmatized_tokens))



In [16]:
# Application de la lemmatisation aux fichiers
lemmatize_tokens('corpus_tokens.txt', 'corpus_lemmatized_tokens.txt')
lemmatize_tokens('queries_tokens.txt', 'queries_lemmatized_tokens.txt')


In [17]:
# Fonction pour effectuer le stemming et enregistrer le résultat
def stemming_tokens(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f:
        tokens = f.read().splitlines()  # Lecture des tokens ligne par ligne
    
    # Application du stemming
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    
    # Enregistrement des tokens stemmés dans un fichier de sortie
    with open(output_file, 'w', encoding='utf-8') as f_out:
        f_out.write('\n'.join(stemmed_tokens))

# Application du stemming aux fichiers
stemming_tokens('corpus_tokens.txt', 'corpus_stemmed_tokens.txt')
stemming_tokens('queries_tokens.txt', 'queries_stemmed_tokens.txt')


In [18]:
def process_text(input_file, output_file):
    with open(input_file, 'r', encoding='utf-8') as f:
        content = f.read().lower()  # Conversion en minuscules

    # Suppression de la ponctuation
    content = re.sub(r'[^\w\s]', '', content)
    
    # Tokenisation
    tokens = word_tokenize(content)

    # Retirer les stop words
    filtered_tokens = [token for token in tokens if token not in stop_words]

    # Stemming
    stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]  # Ajout du stemming

    # Lemmatisation
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in filtered_tokens]

    # Enregistrement des tokens traités dans un fichier
    with open(output_file, 'w', encoding='utf-8') as f_out:
        f_out.write('\n'.join(lemmatized_tokens))

    return filtered_tokens, stemmed_tokens, lemmatized_tokens  # Retourne les tokens filtrés, lemmatisés, et stemmés


In [19]:
# Application du traitement aux fichiers
corpus_filtered, corpus_stemmed, corpus_lemmatized = process_text('corpus.txt', 'corpus_processed.txt')
queries_filtered, queries_stemmed, queries_lemmatized = process_text('queries.txt', 'queries_processed.txt')


In [20]:
# Ajuster les options d'affichage de pandas
pd.set_option('display.max_rows', None)       # Affiche toutes les lignes
pd.set_option('display.max_columns', None)    # Affiche toutes les colonnes
pd.set_option('display.width', None)          # Ajuste automatiquement la largeur
pd.set_option('display.max_colwidth', None) 

In [21]:
def calculate_tfidf(corpus_file):
    with open(corpus_file, 'r', encoding='utf-8') as f:
        documents = f.read().splitlines()  # Lecture des documents
    
    # Utilisation de TfidfVectorizer pour calculer le TF-IDF
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(documents)
    
    # Conversion en DataFrame pour un affichage facile
    tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
    
    return tfidf_df

In [None]:
calculate_tfidf("corpus.txt")

In [54]:
# On utilise le texte brut pour le calcul TF-IDF
corpus_tfidf, feature_names = calculate_tfidf([' '.join(corpus_filtered)])


TypeError: unhashable type: 'list'