### 1. Tokenization et Normalisation

#### 🔹 Objectif :  
Segmenter un texte en unités (mots, phrases) et le normaliser pour uniformiser l’analyse.

#### 🔹 Techniques :
- Tokenization : Découpage du texte en mots ou phrases.
- Normalisation : Conversion en minuscules, suppression des caractères spéciaux, accents, ponctuation.

#### 🔹 Outils :

- 📌 NLTK

In [None]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

texte = "Bonjour ! Comment ça va ?"
tokens = word_tokenize(texte)
print(tokens)  # ['Bonjour', '!', 'Comment', 'ça', 'va', '?']

- 📌 spaCy

In [None]:
import spacy
nlp = spacy.load("fr_core_news_sm")

texte = "Bonjour ! Comment ça va ?"
tokens = [token.text for token in nlp(texte)]
print(tokens)  # ['Bonjour', '!', 'Comment', 'ça', 'va', '?']

- 📌 Regex pour normalisation

In [None]:
import re
texte_normalise = re.sub(r"[^\w\s]", "", texte.lower())  # Suppression ponctuation et passage en minuscules
print(texte_normalise)  # "bonjour comment ça va"

### 2. Stemming et Lemmatization
#### 🔹 Objectif :
Réduire les mots à leur racine (stemming) ou leur forme canonique (lemmatisation).

#### 🔹 Différence :
- Stemming : Coupe le mot (ex. "mangeons" → "mange") sans forcément respecter la grammaire.
- Lemmatization : Trouve la forme correcte du mot (ex. "mangeons" → "manger").
#### 🔹 Outils :
- 📌 Stemming avec NLTK

In [None]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("french")

print(stemmer.stem("mangeons"))  # "mange"
print(stemmer.stem("étudiantes"))  # "étudi"

- 📌 Lemmatization avec spaCy

In [None]:
doc = nlp("Les étudiants apprennent la programmation.")
lemmas = [token.lemma_ for token in doc]
print(lemmas)  # ['le', 'étudiant', 'apprendre', 'le', 'programmation', '.']

### 3. Suppression des Stopwords
#### 🔹 Objectif :
- Éliminer les mots qui n'apportent pas de valeur sémantique ("le", "de", "et", etc.).

### 🔹 Outils :
- 📌 Avec NLTK

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = set(stopwords.words('french'))
tokens_filtrés = [word for word in tokens if word.lower() not in stop_words]
print(tokens_filtrés)  # Garde les mots importants

- 📌 Avec spaCy

In [None]:
tokens_filtrés = [token.text for token in doc if not token.is_stop]
print(tokens_filtrés)

### 4. Détection et Correction des Fautes d’Orthographe
#### 🔹 Objectif :
- Corriger les erreurs typographiques pour améliorer la recherche.

#### 🔹 Outils :
- 📌 Avec fuzzywuzzy (Matching approximatif)

In [None]:
from fuzzywuzzy import process
mots_connus = ["bonjour", "comment", "ça", "va", "programmation"]
mot_corrigé = process.extractOne("prpgrammation", mots_connus)
print(mot_corrigé)  # ('programmation', 90)

- 📌 Avec textdistance (Distances de Levenshtein, Jaccard, etc.)

In [None]:
import textdistance
print(textdistance.levenshtein.normalized_similarity("programmation", "prpgrammation"))  # 0.91

### 5. Extraction d’Entités Nommées (NER)
#### 🔹 Objectif :
- Identifier les entités importantes (personnes, lieux, organisations).

#### 🔹 Outils :
- 📌 Avec spaCy

In [None]:
doc = nlp("Emmanuel Macron est le président de la France.")
for ent in doc.ents:
    print(ent.text, ent.label_)
# "Emmanuel Macron" -> PERSON
# "France" -> GPE (lieu)

### 📌 Techniques Avancées de Prétraitement NLP pour la Recherche
- 1. Vectorisation avancée (TF-IDF, Word2Vec, FastText, BERT) pour améliorer la recherche sémantique.
- 2. Expansion de requêtes : Trouver des synonymes pour enrichir les recherches.
- 3. Correction orthographique automatique en se basant sur les mots les plus fréquents dans le corpus.
- 4. Indexation efficace dans Elasticsearch avec des champs analysés et non analysés.
- 5. NLP basé sur des modèles transformers (spaCy, Hugging Face) pour une recherche plus intelligente.