# Extraction de caractéristiques à partir du texte
<a href="madani.a@ucd.ac.ma">madani.a@ucd.ac.ma</a>

## Introduction
<p>
Cet article sert d'une simple introduction à l'extraction des caractéristiques à partir de texte en utilisant Sci-Kit Learn de Python. Ces caractéristiques seront utilisées par la suite dans un modèle d'apprentissage automatique.
</p>
<p>
La plupart des algorithmes de machine learning ne peuvent pas traiter directement un texte, nous allons donc créer une matrice de valeurs numériques pour représenter notre texte.
</p>
<p>
Avant d’entrer dans le vif du sujet, il y a quelques termes que nous devons définir dès le départ.
</p>
<ul>
<li><strong>document</strong> : fait référence à une seule information textuelle. Cela pourrait être un message textuel, un tweet, un e-mail, un livre, les paroles d'une chanson. 
<li><strong>corpus</strong> : une collection de documents. Cela équivalent à un ensemble de données de lignes / observations.
<li><strong>jeton/token</strong> : il s'agit d'un mot, d'une phrase ou de symboles. 
</ul>
<p>
Commençons par définir un corpus de quelques exemples de messages texte.
</p>

In [5]:
d0="Hey hey hey lets go get lunch today"
d1="Did you go home?"
d2="Go Hey!!! I need a favor"
corpus = [d0, d1, d2]
corpus

['Hey hey hey lets go get lunch today',
 'Did you go home?',
 'Go Hey!!! I need a favor']

## CountVectorizer
<p>
Tout d'abord, nous allons utiliser <strong>CountVectorizer()</strong> de sci-kit learn pour créer une matrice de nombres pour représenter nos messages. CountVectorizer() produit ce qu'on appelle un <strong>sac de mots (Bag Of Words)</strong>. 
    <font color="red"><strong>Chaque message est divisé en tokens et le nombre de fois qu'un token apparaît dans un message est compté.</strong></font>
</p>
<p>
Pour commencer, nous allons importer <strong>CountVectorizer</strong> de sklearn et l'instancier en tant qu'objet, comme nous le ferons avec un classificateur de sklearn. En fait, l'utilisation est très similaire. Au lieu d'utiliser les méthodes <strong>fit()</strong> et <strong>predict()</strong>, nous utiliserons la méthode <strong>fit()</strong> puis la méthode <strong>transform()</strong>.
</p>

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
vect

En utilisant la méthode fit(), CountVectorizer () va "apprendre" ce que les tokens qui sont utilisés dans nos messages.

In [7]:
vect.fit(corpus)

En utilisant la méthode <strong>get_feature_names_out()</strong>, nous pouvons voir quelles caractéristiques (features) ont été créées à partir de nos messages. 

In [8]:
vect.get_feature_names_out()

array(['did', 'favor', 'get', 'go', 'hey', 'home', 'lets', 'lunch',
       'need', 'today', 'you'], dtype=object)

La propriété <strong>vocabulary_</strong> permet d'afficher le vocabulaire appris à partir de notre corpus

In [9]:
vect.vocabulary_

{'hey': 4,
 'lets': 6,
 'go': 3,
 'get': 2,
 'lunch': 7,
 'today': 9,
 'did': 0,
 'you': 10,
 'home': 5,
 'need': 8,
 'favor': 1}

<p>
Il y a quelques points à noter ici.
</p>
<ul>
<li>Tout est en minuscules
<li>Les mots de moins de deux lettres n'ont pas été inclus
<li>La ponctuation a été supprimée
<li>Il n'y a pas de doublons
</ul>
<p>
En changeant les arguments par défaut lorsque CountVectorizer est instancié, vous pouvez changer ce qui a été mentionné dans les deux premiers points si vous le souhaitez.
</p>
<p>
Ensuite, transformons notre objet CountVectorizer. Cela créera une matrice peuplée de nombres de tokens par message. Cette matrice est souvent appelé une <b>term document matrix.</b> 
</p>
<p>
Dans notre cas, nous allons nommer la sortie représentant cette matrice dtm (document term matrix). Nous pouvons aussi afficher des informations sur la matrice ainsi que la matrice elle-même.
</p>

In [10]:
 dtm = vect.transform(corpus)
print(dtm.toarray())
print(dtm)

[[0 0 1 1 3 0 1 1 0 1 0]
 [1 0 0 1 0 1 0 0 0 0 1]
 [0 1 0 1 1 0 0 0 1 0 0]]
  (0, 2)	1
  (0, 3)	1
  (0, 4)	3
  (0, 6)	1
  (0, 7)	1
  (0, 9)	1
  (1, 0)	1
  (1, 3)	1
  (1, 5)	1
  (1, 10)	1
  (2, 1)	1
  (2, 3)	1
  (2, 4)	1
  (2, 8)	1


<p>
Chacun de nos messages contient seulement 3 à 6 tokens uniques et nous avons 11 caractéristiques différentes créées à partir de tous les messages. Cela signifie que chaque ligne sera principalement remplie de zéros. 
</p>
<p>
Afin de gagner de l'espace / puissance de calcul, une matrice clairsemée (sparse matrix) est créée. Cela signifie que seul l'emplacement et la valeur des valeurs non nulles sont sauvegardés. Nous pouvons aussi la convertir sous forme d’un dataframe pandas pour une meilleure visualisation
</p>

In [11]:
import pandas as pd
pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names_out())

Unnamed: 0,did,favor,get,go,hey,home,lets,lunch,need,today,you
0,0,0,1,1,3,0,1,1,0,1,0
1,1,0,0,1,0,1,0,0,0,0,1
2,0,1,0,1,1,0,0,0,1,0,0


<p>
Par exemple, la troisième entrée dans notre matrice sparse est:
</p>
<strong><center>(0,4)    3</center></strong>

<p>
Ce qui correspond au 1er message et à la 5ème caractéristique, 'hey'. L'entrée est 3 car notre 1er message avait trois fois le mot 'hey'.
</p>
<p>
Nous sommes maintenant prêts à fournir une matrice de termes par documents à notre classificateur de Machine Learning.
</p>

### Remarque
Il y a une chose qu’il faut bien souligner. Supposons que nous avons reçu un autre message peu après avoir créé la matrice de terme par documents et que nous souhaitions l'ajouter. Nous allons le transformer en une matrice de terme par documents à l'aide de notre objet CountVectorizer () que nous avons adapté précédemment.

In [12]:
d4 = ['Hey lets go get a drink tonight']
new_dtm = vect.transform(d4)
pd.DataFrame(new_dtm.toarray(), columns=vect.get_feature_names_out())

Unnamed: 0,did,favor,get,go,hey,home,lets,lunch,need,today,you
0,0,0,1,1,1,0,1,0,0,0,0


Maintenant, même s'il contient 6 tokens uniques (à l’exception de 'a'), il n'y a que 4 entrées dans notre dtm. Les tokens «drink» et «tonight» ne sont pas représentés. C'est parce que nos messages originaux utilisés pour CountVectorizer () n'avaient pas ces tokens. Nous pouvons ajouter notre nouveau message à notre collection originale, puis refit() et transform() pour nous assurer de ne pas perdre cette information. Au lieu de ça, nous allons utiliser la méthode fit_transform() combinant fit() et transform().

In [13]:
corpus.append(d4[0])
print(corpus)

dtm = vect.fit_transform(corpus)
pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names_out())

['Hey hey hey lets go get lunch today', 'Did you go home?', 'Go Hey!!! I need a favor', 'Hey lets go get a drink tonight']


Unnamed: 0,did,drink,favor,get,go,hey,home,lets,lunch,need,today,tonight,you
0,0,0,0,1,1,3,0,1,1,0,1,0,0
1,1,0,0,0,1,0,1,0,0,0,0,0,1
2,0,0,1,0,1,1,0,0,0,1,0,0,0
3,0,1,0,1,1,1,0,1,0,0,0,1,0


## TfidfVectorizer
<p>
Une alternative à CountVectorizer() est la méthode TfidfVectorizer(). Cette méthode créée également une matrice de terme par documents à partir de nos messages. Cependant, au lieu de remplir le DTM avec des nombres de fois qu’un token apparaît dans un message (document), il calcule la valeur de la fréquence TF-IDF. 
</p>

### Rappel
<p>Pour claculer la valeur de IF-IDF, on utilise la formule suivante :</p>
<img src="images/tfidf.png">

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer()
dtm = vect.fit_transform(corpus)
    
pd.DataFrame(dtm.toarray(), columns=vect.get_feature_names_out()) 


Unnamed: 0,did,drink,favor,get,go,hey,home,lets,lunch,need,today,tonight,you
0,0.0,0.0,0.0,0.294188,0.19472,0.714511,0.0,0.294188,0.37314,0.0,0.37314,0.0,0.0
1,0.552805,0.0,0.0,0.0,0.288477,0.0,0.552805,0.0,0.0,0.0,0.0,0.0,0.552805
2,0.0,0.0,0.610878,0.0,0.318782,0.389916,0.0,0.0,0.0,0.610878,0.0,0.0,0.0
3,0.0,0.504889,0.0,0.39806,0.263472,0.322264,0.0,0.39806,0.0,0.0,0.0,0.504889,0.0


## Calcul de la similarité Cosinus

<p>La similarité cosinus est fréquemment utilisée en tant que mesure de ressemblance entre deux documents. Il pourra s'agir de comparer les textes issus d'un corpus dans une optique de classification (regrouper tous les documents relatifs à une thématique particulière), ou de recherche d'information.
</p>

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# Dataset
documents = [
    "Le machine learning est une discipline de l’intelligence artificielle.",
    "Le deep learning utilise des réseaux de neurones profonds.",
    "Le RAG combine recherche d'information et modèles génératifs.",
]
question = "C'est quoi le RAG ?"

# Étape 1 : TF-IDF
vectorizer = TfidfVectorizer()
tfidf_docs = vectorizer.fit_transform(documents)
tfidf_question = vectorizer.transform([question])

# Étape 2 : Similarité
#cosine_similarity(tfidf_question, tfidf_docs)) retourne un tableau
scores = cosine_similarity(tfidf_question, tfidf_docs)[0]
#scores.argmax() : retourne l'indice du score le plus élevé
print("Scores : ",scores, scores.argmax())
best_doc = documents[scores.argmax()]
#best_doc : le document qui correspond au score le plus élevé du corpus (documents)

print("Document récupéré :", best_doc)

Scores :  [0.32124572 0.08307906 0.32465478] 2
Document récupéré : Le RAG combine recherche d'information et modèles génératifs.
