**Prétraitement des données**

In [1]:
import spacy

nlp = spacy.load('fr_core_news_sm')

texte = "Les chats sont les animaux les plus mignons."

doc = nlp(texte)

# Lemmatisation
lemmes = [token.lemma_ for token in doc]

# Suppression des stop words
tokens_sans_stop = [token.text for token in doc if not token.is_stop]

# Normalisation (minuscules)
tokens_minuscules = [token.text.lower() for token in doc]

print("Lemmatisation :", lemmes)
print("Tokens sans stop words :", tokens_sans_stop)
print("Tokens en minuscules :", tokens_minuscules)


Lemmatisation : ['le', 'chat', 'être', 'le', 'animal', 'le', 'plus', 'mignon', '.']
Tokens sans stop words : ['chats', 'animaux', 'mignons', '.']
Tokens en minuscules : ['les', 'chats', 'sont', 'les', 'animaux', 'les', 'plus', 'mignons', '.']


**Vectorisation (Tf_Idf)**

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Ton corpus
corpus = [
    "Le chat aime le lait.",
    "Le chien aime les os.",
    "Le chat et le chien sont des animaux domestiques."
]

# Initialiser le vectoriseur TF-IDF
vectorizer = TfidfVectorizer()

# Calculer la matrice TF-IDF
X = vectorizer.fit_transform(corpus)

# Afficher la matrice sous forme dense
print(X.toarray())

# Afficher les mots associés aux colonnes
print(vectorizer.get_feature_names_out())


[[0.40352536 0.         0.40352536 0.         0.         0.
  0.         0.53058735 0.62674687 0.         0.         0.        ]
 [0.40619178 0.         0.         0.40619178 0.         0.
  0.         0.         0.31544415 0.53409337 0.53409337 0.        ]
 [0.         0.36388646 0.27674503 0.27674503 0.36388646 0.36388646
  0.36388646 0.         0.42983441 0.         0.         0.36388646]]
['aime' 'animaux' 'chat' 'chien' 'des' 'domestiques' 'et' 'lait' 'le'
 'les' 'os' 'sont']
