### 1. Tokenization et Normalisation

#### üîπ Objectif :  
Segmenter un texte en unit√©s (mots, phrases) et le normaliser pour uniformiser l‚Äôanalyse.

#### üîπ Techniques :
- Tokenization : D√©coupage du texte en mots ou phrases.
- Normalisation : Conversion en minuscules, suppression des caract√®res sp√©ciaux, accents, ponctuation.

#### üîπ Outils :

- üìå NLTK

In [None]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

texte = "Bonjour ! Comment √ßa va ?"
tokens = word_tokenize(texte)
print(tokens)  # ['Bonjour', '!', 'Comment', '√ßa', 'va', '?']

- üìå spaCy

In [None]:
import spacy
nlp = spacy.load("fr_core_news_sm")

texte = "Bonjour ! Comment √ßa va ?"
tokens = [token.text for token in nlp(texte)]
print(tokens)  # ['Bonjour', '!', 'Comment', '√ßa', 'va', '?']

- üìå Regex pour normalisation

In [None]:
import re
texte_normalise = re.sub(r"[^\w\s]", "", texte.lower())  # Suppression ponctuation et passage en minuscules
print(texte_normalise)  # "bonjour comment √ßa va"

### 2. Stemming et Lemmatization
#### üîπ Objectif :
R√©duire les mots √† leur racine (stemming) ou leur forme canonique (lemmatisation).

#### üîπ Diff√©rence :
- Stemming : Coupe le mot (ex. "mangeons" ‚Üí "mange") sans forc√©ment respecter la grammaire.
- Lemmatization : Trouve la forme correcte du mot (ex. "mangeons" ‚Üí "manger").
#### üîπ Outils :
- üìå Stemming avec NLTK

In [None]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("french")

print(stemmer.stem("mangeons"))  # "mange"
print(stemmer.stem("√©tudiantes"))  # "√©tudi"

- üìå Lemmatization avec spaCy

In [None]:
doc = nlp("Les √©tudiants apprennent la programmation.")
lemmas = [token.lemma_ for token in doc]
print(lemmas)  # ['le', '√©tudiant', 'apprendre', 'le', 'programmation', '.']

### 3. Suppression des Stopwords
#### üîπ Objectif :
- √âliminer les mots qui n'apportent pas de valeur s√©mantique ("le", "de", "et", etc.).

### üîπ Outils :
- üìå Avec NLTK

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = set(stopwords.words('french'))
tokens_filtr√©s = [word for word in tokens if word.lower() not in stop_words]
print(tokens_filtr√©s)  # Garde les mots importants

- üìå Avec spaCy

In [None]:
tokens_filtr√©s = [token.text for token in doc if not token.is_stop]
print(tokens_filtr√©s)

### 4. D√©tection et Correction des Fautes d‚ÄôOrthographe
#### üîπ Objectif :
- Corriger les erreurs typographiques pour am√©liorer la recherche.

#### üîπ Outils :
- üìå Avec fuzzywuzzy (Matching approximatif)

In [None]:
from fuzzywuzzy import process
mots_connus = ["bonjour", "comment", "√ßa", "va", "programmation"]
mot_corrig√© = process.extractOne("prpgrammation", mots_connus)
print(mot_corrig√©)  # ('programmation', 90)

- üìå Avec textdistance (Distances de Levenshtein, Jaccard, etc.)

In [None]:
import textdistance
print(textdistance.levenshtein.normalized_similarity("programmation", "prpgrammation"))  # 0.91

### 5. Extraction d‚ÄôEntit√©s Nomm√©es (NER)
#### üîπ Objectif :
- Identifier les entit√©s importantes (personnes, lieux, organisations).

#### üîπ Outils :
- üìå Avec spaCy

In [None]:
doc = nlp("Emmanuel Macron est le pr√©sident de la France.")
for ent in doc.ents:
    print(ent.text, ent.label_)
# "Emmanuel Macron" -> PERSON
# "France" -> GPE (lieu)

### üìå Techniques Avanc√©es de Pr√©traitement NLP pour la Recherche
- 1. Vectorisation avanc√©e (TF-IDF, Word2Vec, FastText, BERT) pour am√©liorer la recherche s√©mantique.
- 2. Expansion de requ√™tes : Trouver des synonymes pour enrichir les recherches.
- 3. Correction orthographique automatique en se basant sur les mots les plus fr√©quents dans le corpus.
- 4. Indexation efficace dans Elasticsearch avec des champs analys√©s et non analys√©s.
- 5. NLP bas√© sur des mod√®les transformers (spaCy, Hugging Face) pour une recherche plus intelligente.