## Machine learning sur du texte

Pour pouvoir faire du machine learning sur du texte, il faut en général faire des étapes supplémentaires de pretraitement : 

1. Nettoyage : enlever la ponctuation, caractères spéciaux, etc.
2. Normalisation : tout mettre en minuscule, faire la racinisation
3. Représentation numérique de texte: nécessaire pour pouvoir faire du machine learning

![Intro_nlp.png](Intro_nlp.png)


Pour pouvoir faire du machine learning sur du texte, il est nécessaire de convertir les mots ou les documents sous forme numérique. Pour cela on va utiliser des vecteurs.

Il y a deux approches principales : 

1. Représenter chaque mot d'une phrase ou d'un document par un vecteur.
2. Représenter une phrase entière ou un document entier par un unique vecteur


Idéalement on voudrait que les répresentations numériques que l'on utilise porte un sens. Qu'est ce que cela veut dire ? 

Cela veut dire qu'on voudrait que les vecteurs des mots chat et chaton soient "proches" et que les vecteurs des mots "chat" et "croissant" soient éloignés.

Il existe plusieurs manière de mesurer si des vecteurs sont proches où éloignés dont le produit scalaire et la cosinus similarité. 

Cette dernière est similaire au produit scalaire et ne mesure que l'angle entre deux vecteurs : 

- deux vecteurs pallèleles seront considérés comme proches (angle = 0 )
- deux vecteurs perpendicules seront considérés comme différents (angle = 90°) 



## Représentation de mot

La première représentation de mot et la plus simple est le one hot encoding. 

![one_hot_encoding.png](one_hot_encoding.png)

Le problème de cette représentation c'est que la cosinus similarité (et le produit scalaire) de n'importe quelle paire de vecteur est toujours 0 : tous les vecteurs de mots, même ceux qui ont le même sens, sont considérés comme éloignés



## Les outils pour le NLP 


Il existe de nombreux outils dans le NLP que ça soit pour le prétraitement ou pour faire du machine learning

Pour le prétraitement nous utilseront spacy


![outils_texte.png](outils_texte.png)

Installation de spacy

In [None]:
!pip install spacy

Installation du module pour gérer l'anglais en spacy. Il en existe plusieurs sm veut dire "small" c'est le modèle le plus petit mais le moins performant

In [None]:
!python -m spacy download en_core_web_sm

On import spacy et le modèle qu'on a téléchargé

In [None]:
import spacy
nlp = spacy.load("en_core_web_sm")

Spacy nécessite de charger le texte à traiter avec la fonction nlp. Ensuite on peut parcourir le document spacy obtenu pour analyser chaque mot et éventuellement les trier

In [None]:
text = "hello Efrei, how are you ? I am laurent. "

doc = nlp(text)
type(doc)

Chaque mot du document spacy est annoté avec des informations : 
- est ce que c'est un stop word ou non **is_stop**
- est ce que c'est de la ponctuation **is_punct**

etc.

La liste des informations est listée ici : https://spacy.io/api/token/

In [None]:
for word in doc:

    print(dir(word))
    break

## Machine learning simple sur du texte

Pour faire du machine learning on va utiliser une représentation numérique simple, le tfidf 

In [None]:
phrases = [
    
    "allez l OM"
     
    'vive les chats',
    'le chat est joli, chat chat chat chat',
    'le chat est sur le toit',
    'la france est nulle'
    'Arreter de chanter ',
    'Salut ',
    'Acide rain hits hard'
    'Jaime les petits animaux'
    'Karim tu es trop fort'
    'IL FAIT MOCHE AUJOURDhui'
    'le coronavirus est une plaie'
    'les vacances ne sont pas proches'
    'j\'aime pas trop les pommes'
    'tu es moche'
    'j\'ai bien dormi'
    'çA se passe plutôt bien'
    "ils n'ont pas gagné"
    'La France a perdu'
    'rien est vrai tout est permis'
    'ALED'
    'mbappe m a deçu'
    'Je veux tuer'
    'MBAPPE ECLATER'
    'halufa'
    'j'aaime la suisse 
    'mangez des pommes'
]


from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer()

tfidf.fit(phrases)


phrases_numeriques = tfidf.transform(phrases)

In [None]:
phrases_numeriques

<2x6 sparse matrix of type '<class 'numpy.float64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [None]:
phrases_numeriques.todense()

matrix([[0.44832087, 0.44832087, 0.63009934, 0.44832087, 0.        ,
         0.        ],
        [0.31701073, 0.31701073, 0.        , 0.63402146, 0.44554752,
         0.44554752]])

In [None]:
tfidf = TfidfVectorizer()

tfidf.fit(phrases)


phrases_numeriques = tfidf.transform(phrases)
phrases_numeriques.todense()

matrix([[0.92887183, 0.18577437, 0.26109939, 0.18577437, 0.        ,
         0.        ],
        [0.31701073, 0.31701073, 0.        , 0.63402146, 0.44554752,
         0.44554752]])

In [None]:
tfidf.get_feature_names()

['chat', 'est', 'joli', 'le', 'sur', 'toit']

In [None]:

phrases = [
    "les maths c'est cool",
    "j'aime les vacances",
    "One piece c'est incroyable",
    "Le zèbre a très mal au dos",
    "Mademoiselle a réussi son bac, elle est joyeuse !",
    "le machine c'est pas bien",
    "j'ai détesté voir la France perdre",
    "j'aime beaucoup la teinture de granit xhaka",
    "je suis content",
    "Le mastercamp c'est nul !",
    "Bobi est un bon chien",
    "Vive KB9",
     "Les lives de BobLennon, ça nous rend heureux."
    "la kpop c'est pas bien",
    "Le ML c'est vraiment bien",
    
    "L'efrei c'est bien, c'est faux xD",
    "j'aime les pommes",
    "je n'aime pas les pommes",
    
    "j'aime les frites"    ,
    "Le réchauffement climatique c'est mal",

   
    "Je suis heureux que la suisse soit en finale",
    "j'aime Ranoute",
    "C'est nul que le CROUS soit fermé",
    "J'aime les fruits",
    "j'aime pas ségéra"
    
]


labels = [1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0,1, 0, 1, 1, 0, 1  ]

In [None]:
len(phrases), len(labels)

(24, 24)

In [None]:
tfidf = TfidfVectorizer()

tfidf.fit(phrases)


phrases_numeriques = tfidf.transform(phrases)




In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

model.fit(phrases_numeriques, labels)

LogisticRegression()

In [None]:
model.score(phrases_numeriques, labels)

0.625

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=25ad01f7-ec4b-4ac8-bce6-a3745ef02c96' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>