In [16]:
import nltk
import os
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Télécharger les ressources nécessaires de NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Chemin vers le dossier contenant les documents
corpus_folder = "../corpus_covid19"

# Liste des noms de fichiers dans le dossier
file_names = os.listdir(corpus_folder)

# Initialiser une liste pour contenir les mots de chaque document
documents_words = []

# Initialiser le lemmatiseur
lemmatizer = WordNetLemmatizer()

# Parcourir chaque fichier, lire son contenu et segmenter en mots
for file_name in file_names:
    file_path = os.path.join(corpus_folder, file_name)
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        words = word_tokenize(content)  # Segmenter en mots
        
        # Filtrer les mots vides de la langue anglaise
        stop_words = set(stopwords.words('english'))
        words = [word for word in words if word.lower() not in stop_words]
        
        # Lemmatisation des mots
        words = [lemmatizer.lemmatize(word) for word in words]
        
        # Supprimer les caractères de ponctuation
        words = [word for word in words if re.match('^[a-zA-Z0-9]+$', word)]
        
        documents_words.append(words)

# Afficher les mots de chaque document
for i, words in enumerate(documents_words, start=1):
    print(f"Mots du document {i}: {words}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\chalh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\chalh\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\chalh\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Mots du document 1: ['use', 'essential', 'cooky', 'make', 'sure', 'site', 'function', '207', 'partner', 'also', 'use', 'optional', 'cooky', 'similar', 'technology', 'advertising', 'personalisation', 'content', 'usage', 'analysis', 'social', 'medium', 'accepting', 'optional', 'cooky', 'consent', 'allowing', 'u', 'partner', 'store', 'access', 'personal', 'data', 'device', 'browsing', 'behaviour', 'unique', 'identifier', 'third', 'party', 'outside', 'European', 'Economic', 'Area', 'varying', 'standard', 'data', 'protection', 'See', 'privacy', 'policy', 'information', 'use', 'personal', 'data', 'consent', 'choice', 'apply', 'applicable', 'subdomains', 'find', 'information', 'change', 'preference', 'via', 'preference', 'also', 'change', 'preference', 'withdraw', 'consent', 'time', 'via', 'privacy', 'choice', 'found', 'footer', 'every', 'page', 'use', 'cooky', 'similar', 'technology', 'following', 'purpose', 'Cookies', 'device', 'similar', 'online', 'identifier', 'identifier', 'randomly', 'a

In [18]:
import os
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

# Chemin vers le dossier contenant les documents
corpus_folder = "../corpus_covid19"

# Liste des noms de fichiers dans le dossier
file_names = os.listdir(corpus_folder)

# Initialiser une liste pour contenir le texte de chaque document
documents_text = []

# Parcourir chaque fichier, lire son contenu et le stocker dans la liste
for file_name in file_names:
    file_path = os.path.join(corpus_folder, file_name)
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        documents_text.append(content)

# Définition du lemmatiseur
lemmatizer = WordNetLemmatizer()

# Lemmatisation des mots dans chaque document
lemmatized_documents = []
for document in documents_text:
    words = word_tokenize(document)  # Segmenter en mots
    lemmatized_words = [lemmatizer.lemmatize(word.lower()) for word in words]  # Lemmatisation
    lemmatized_documents.append(" ".join(lemmatized_words))  # Regrouper les mots en texte

# Initialiser le vectoriseur pour la construction de la matrice d'incidence
vectorizer = CountVectorizer()

# Construire la matrice d'incidence documents-termes
matrix_documents_terms = vectorizer.fit_transform(lemmatized_documents)

# Obtenez le dictionnaire des termes avec leurs indices associés
terms_dictionary = vectorizer.get_feature_names_out()

# Afficher le dictionnaire des termes
print("Dictionnaire des termes avec leurs indices associés :")
for index, term in enumerate(terms_dictionary):
    print(f"{index}: {term}")

# Afficher la matrice d'incidence documents-termes
print("\nMatrice d'incidence documents-termes :")
print(matrix_documents_terms.toarray())


Dictionnaire des termes avec leurs indices associés :
0: 00
1: 000
2: 0000
3: 00007
4: 0001
5: 0002
6: 00025
7: 0005
8: 001
9: 0014
10: 0015
11: 0016
12: 0024
13: 0028
14: 003
15: 0036
16: 0038
17: 004
18: 005
19: 00502
20: 006
21: 0094
22: 0099
23: 01
24: 011
25: 0147
26: 02
27: 020
28: 021
29: 0231
30: 0279
31: 028
32: 03
33: 0361
34: 04
35: 047
36: 05
37: 0566
38: 06
39: 07
40: 08
41: 082
42: 0836
43: 0886
44: 09
45: 10
46: 100
47: 1000
48: 101
49: 1016
50: 102
51: 103
52: 1038
53: 104
54: 1045
55: 105
56: 1056
57: 1059
58: 106
59: 107
60: 1071
61: 1076
62: 1079
63: 108
64: 1081
65: 1082
66: 1084
67: 109
68: 11
69: 110
70: 1101
71: 111
72: 1114
73: 112
74: 1126
75: 113
76: 115
77: 1153
78: 116
79: 1166
80: 117
81: 1170
82: 1171
83: 1172
84: 1175
85: 1180
86: 119
87: 1196
88: 12
89: 120
90: 121
91: 122
92: 123
93: 126
94: 1265
95: 127
96: 128
97: 129
98: 12th
99: 13
100: 132
101: 1339
102: 135
103: 1378
104: 138
105: 139
106: 1393
107: 14
108: 140
109: 1421
110: 143
111: 146
112: 147

# Construction de l’index inversé 

In [19]:
from collections import defaultdict

# Création de l'index inversé à partir de la matrice d'incidence documents-termes
def create_inverted_index(matrix_documents_terms, terms_dictionary):
    # Initialiser un dictionnaire par défaut où chaque clé contiendra une liste vide
    inverted_index = defaultdict(list)
    
    # Obtenir la matrice d'incidence sous forme d'un tableau numpy
    incidence_matrix = matrix_documents_terms.toarray()
    
    # Parcourir chaque terme dans le dictionnaire des termes
    for term_index, term in enumerate(terms_dictionary):
        # Trouver les indices des documents où le terme apparaît
        document_indices = np.where(incidence_matrix[:, term_index] > 0)[0]
        # Ajouter ces indices à la liste du terme dans l'index inversé
        inverted_index[term] = document_indices.tolist()
    
    return inverted_index

# Utiliser la matrice d'incidence et le dictionnaire des termes pour créer l'index inversé
inverted_index = create_inverted_index(matrix_documents_terms, terms_dictionary)

# Afficher l'index inversé
for term, doc_indices in inverted_index.items():
    print(f"Terme '{term}': {doc_indices}")


Terme '00': [4, 9]
Terme '000': [1, 5]
Terme '0000': [5]
Terme '00007': [7]
Terme '0001': [5]
Terme '0002': [5]
Terme '00025': [8]
Terme '0005': [9]
Terme '001': [1, 9]
Terme '0014': [1]
Terme '0015': [1]
Terme '0016': [1]
Terme '0024': [1]
Terme '0028': [0]
Terme '003': [9]
Terme '0036': [1]
Terme '0038': [1]
Terme '004': [1]
Terme '005': [9]
Terme '00502': [0]
Terme '006': [1]
Terme '0094': [1]
Terme '0099': [1]
Terme '01': [9]
Terme '011': [1]
Terme '0147': [1]
Terme '02': [4, 5, 9]
Terme '020': [0]
Terme '021': [3]
Terme '0231': [1]
Terme '0279': [1]
Terme '028': [9]
Terme '03': [2, 9]
Terme '0361': [1]
Terme '04': [1, 3, 4, 9]
Terme '047': [1]
Terme '05': [2, 5, 9]
Terme '0566': [1]
Terme '06': [5, 9]
Terme '07': [9]
Terme '08': [4, 5, 9]
Terme '082': [9]
Terme '0836': [0]
Terme '0886': [1]
Terme '09': [5, 9]
Terme '10': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
Terme '100': [1, 2, 9]
Terme '1000': [2, 4]
Terme '101': [3, 5, 9]
Terme '1016': [7, 8, 9]
Terme '102': [9]
Terme '103': [4, 9]
Ter

# Algorithm for indexing documents 

In [20]:
def simple_search(query, inverted_index, matrix_documents_terms):
    # Rechercher l'index inversé pour les documents contenant le terme de la requête
    if query in inverted_index:
        doc_indices = inverted_index[query]
        # Compter les occurrences du terme de la requête dans chaque document
        term_counts = matrix_documents_terms.toarray()[:, terms_dictionary.tolist().index(query)]
        # Associer chaque document à son nombre d'occurrences du terme
        doc_occurrences = [(index, term_counts[index]) for index in doc_indices]
        # Trier les documents par le nombre d'occurrences décroissant
        sorted_docs = sorted(doc_occurrences, key=lambda x: x[1], reverse=True)
        return [doc[0] for doc in sorted_docs]
    else:
        return []

def normalized_search(query, inverted_index, matrix_documents_terms):
    # Rechercher l'index inversé pour les documents contenant le terme de la requête
    if query in inverted_index:
        doc_indices = inverted_index[query]
        # Compter les occurrences du terme de la requête dans chaque document
        term_counts = matrix_documents_terms.toarray()[:, terms_dictionary.tolist().index(query)]
        # Normaliser les comptages par la longueur totale des documents
        doc_lengths = matrix_documents_terms.toarray().sum(axis=1)
        # Éviter la division par zéro
        doc_lengths[doc_lengths == 0] = 1
        normalized_counts = term_counts / doc_lengths
        # Associer chaque document à son nombre normalisé d'occurrences du terme
        doc_occurrences = [(index, normalized_counts[index]) for index in doc_indices]
        # Trier les documents par le score normalisé décroissant
        sorted_docs = sorted(doc_occurrences, key=lambda x: x[1], reverse=True)
        return [doc[0] for doc in sorted_docs]
    else:
        return []

# Exemple d'utilisation de la fonction simple_search
simple_results = simple_search('covid', inverted_index, matrix_documents_terms)
print("Résultats de la recherche simple:", simple_results)

# Exemple d'utilisation de la fonction normalized_search
normalized_results = normalized_search('covid', inverted_index, matrix_documents_terms)
print("Résultats de la recherche normalisée:", normalized_results)


Résultats de la recherche simple: [3, 9, 2, 1, 4, 5, 8, 6, 0, 7]
Résultats de la recherche normalisée: [3, 1, 8, 6, 2, 5, 9, 7, 4, 0]


In [28]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialiser le vectoriseur TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Construire la matrice TF-IDF pour le corpus lemmatisé
tfidf_matrix = tfidf_vectorizer.fit_transform(lemmatized_documents)

# Fonction pour effectuer une recherche TF-IDF
def tfidf_search(query, tfidf_vectorizer, tfidf_matrix):
    # Transformer la requête en vecteur TF-IDF
    query_vector = tfidf_vectorizer.transform([query])
    # Calculer la similarité cosinus entre la requête et les documents du corpus
    cosine_similarities = (tfidf_matrix * query_vector.T).toarray().flatten()
    # Trier les documents par similarité cosinus décroissante
    sorted_doc_indices = np.argsort(-cosine_similarities)
    return sorted_doc_indices, cosine_similarities[sorted_doc_indices]

# Exemple d'utilisation de la fonction tfidf_search
query = 'plasma  '
search_results, similarities = tfidf_search(query, tfidf_vectorizer, tfidf_matrix)
print("Résultats de la recherche TF-IDF:", search_results)
print("Scores de similarité:", similarities)


Résultats de la recherche TF-IDF: [2 4 9 5 0 1 3 6 7 8]
Scores de similarité: [0.23865204 0.00661646 0.00442473 0.00348468 0.         0.
 0.         0.         0.         0.        ]


# Sous-étape 4.1 — Requêtes booléennes 


In [None]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Prétraitement de la requête
def preprocess_query(query):
    lemmatizer = WordNetLemmatizer()
    stop_words = set(stopwords.words('english'))  # Assurez-vous que la langue des stopwords correspond à celle de vos documents
    words = word_tokenize(query)
    return [lemmatizer.lemmatize(w.lower()) for w in words if w.isalpha() and w not in stop_words]

# Fonction de recherche booléenne
def boolean_search(inverted_index, query):
    query_tokens = preprocess_query(query)
    stack = []

    for token in query_tokens:
        if token.lower() in inverted_index:
            stack.append(inverted_index[token.lower()])
        elif token.upper() == 'AND':
            stack.append(stack.pop() & stack.pop())
        elif token.upper() == 'OR':
            stack.append(stack.pop() | stack.pop())
        elif token.upper() == 'NOT':
            stack.append(set(range(len(documents_text))) - stack.pop())

    if stack:
        return sorted(stack[-1])
    else:
        return []

# Effectuer les requêtes booléennes
queries = [
    'desease AND severe',
    'antibody AND plasma AND (cells OR receptors)',
    'antimalarial drugs OR antiviral agents OR immunomodulators',
    'NOT plasma AND risk of infection AND NOT restrictions',
    '(older adults AND antibodies) AND (genomes OR variant)'
]

# Appliquer les recherches booléennes pour chaque requête
for i, q in enumerate(queries, start=1):
    result = boolean_search(inverted_index, q)
    print(f'Requête booléenne {i}: {result}')


# Sous-étape 4.2 — Requêtes textuelles plus complexes 


In [35]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Initialiser le vectoriseur TF-IDF avec les documents prétraités
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(lemmatized_documents)

# Fonction pour exécuter les requêtes complexes et trouver les documents pertinents
def complex_textual_search(query, tfidf_vectorizer, tfidf_matrix):
    # Transformer la requête en vecteur TF-IDF
    query_vector = tfidf_vectorizer.transform([query])
    # Calculer la similarité cosinus entre la requête transformée et les documents
    cosine_sim = cosine_similarity(query_vector, tfidf_matrix).flatten()
    # Trier les indices des documents par similarité décroissante
    relevant_docs_indices = cosine_sim.argsort()[::-1]
    return relevant_docs_indices, cosine_sim[relevant_docs_indices]

# Requêtes complexes
complex_queries = [
    "antibody treatments",
    "efficacy and safety of the treatments",
    "family access to hospitals",
    "contact tracing results",
    "genomic analysis of SARS-CoV-2 disease"
]

# Exécuter et afficher les résultats pour chaque requête complexe
for i, query in enumerate(complex_queries, start=1):
    indices, scores = complex_textual_search(query, tfidf_vectorizer, tfidf_matrix)
    print(f"Requête textuelle complexe {i}: {query}")
    print(f"Indices des documents les plus pertinents: {indices[:5]}")
    print(f"Scores de similarité: {scores[:5]}\n")


Requête textuelle complexe 1: antibody treatments
Indices des documents les plus pertinents: [4 9 2 5 1]
Scores de similarité: [0.1880084  0.05388422 0.04843828 0.0282909  0.0262972 ]

Requête textuelle complexe 2: efficacy and safety of the treatments
Indices des documents les plus pertinents: [1 2 3 4 5]
Scores de similarité: [0.38705566 0.38515611 0.38373518 0.38227027 0.3701883 ]

Requête textuelle complexe 3: family access to hospitals
Indices des documents les plus pertinents: [8 9 0 2 6]
Scores de similarité: [0.24297211 0.11711142 0.11634846 0.09791238 0.08485537]

Requête textuelle complexe 4: contact tracing results
Indices des documents les plus pertinents: [4 3 9 8 7]
Scores de similarité: [0.00353776 0.0033612  0.         0.         0.        ]

Requête textuelle complexe 5: genomic analysis of SARS-CoV-2 disease
Indices des documents les plus pertinents: [1 2 4 5 6]
Scores de similarité: [0.27359771 0.26970174 0.21588972 0.2152479  0.21488503]
