# TP1

## Import des bibliothèques 


In [1]:
#!python -m spacy download fr_core_news_sm
#!pip install torch 

#Import des bibliothèques
import spacy


## Initialisation du premier message 

In [8]:
nlp = spacy.load("fr_core_news_sm")
test = "Bouygues a eu une coupure de réseau à Marseille"

## 1- Tokenisation: 

**Qui veut dire en gros segmentation du texte en plusieurs parties appelées tokens**

La tokenisation cherche à transformer un texte en une série de tokens individuels. Dans
l’idée, chaque token représente un mot, et identifier des mots semble être une tâche

relativement simple. Mais comment gérer des exemples tels que: « J’ai froid ». Il faut que le
modèle de tokenisation sépare le « J' » comme étant un premier mot.
SpaCy offre une fonctionnalité de tokenisation en utilisant la fonction nlp. Cette fonction est
le point d’entrée vers toutes les fonctionnalités de SpaCy. Il sert à représenter le texte sous
une forme interprétable par la librairie.

In [9]:
def return_token(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque token
    return [X.text for X in doc]

**Application sur la phrase**

In [10]:
return_token(test)
['Bouygues', 'a', 'eu', 'une', 'coupure', 'de', 'réseau', 'à',
'Marseille']

['Bouygues', 'a', 'eu', 'une', 'coupure', 'de', 'réseau', 'à', 'Marseille']

## 2. Enlever les mots les plus fréquents

In [11]:
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))
{'ai',
'aie',
'aient',
'aies',
'ait',
'as',
'au',
'aura',
'aurai',
'auraient',
'aurais',
}

{'ai',
 'aie',
 'aient',
 'aies',
 'ait',
 'as',
 'au',
 'aura',
 'aurai',
 'auraient',
 'aurais'}

In [12]:
clean_words = []
for token in return_token(test):
    if token not in stopWords:
        clean_words.append(token)

        clean_words
        ['Bouygues', 'a', 'coupure', 'réseau', 'Marseille', '.']

## 3. Tokenisation par phrases

In [13]:
def return_token_sent(sentence):
# Tokeniser la phrase

    doc = nlp(sentence)
    # Retourner le texte de chaque phrase
    return [X.text for X in doc.sents]

return_token_sent("Bouygues a eu une coupure de réseau à Marseille. La panne a affecté 300.000 utilisateurs.")



['Bouygues a eu une coupure de réseau à Marseille.',
 'La panne a affecté 300.000 utilisateurs.']

## 4. Stemming

In [14]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer(language='french')

def return_stem(sentence):
    doc = nlp(sentence)
    return [stemmer.stem(X.text) for X in doc]


return_stem(test)

['bouygu', 'a', 'eu', 'une', 'coupur', 'de', 'réseau', 'à', 'marseil']

## 5. Reconnaissance d’entités nommées (NER)

In [15]:
def return_NER(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte et le label pour chaque entité
    return [(X.text, X.label_) for X in doc.ents]

return_NER(test)


[('Bouygues', 'ORG'), ('Marseille', 'LOC')]

In [16]:
from spacy import displacy

doc = nlp(test)
displacy.render(doc, style="ent", jupyter=True)

In [17]:
doc = nlp(test)
colors = {"ORG": "linear-gradient(90deg, #aa9cfc, #fc9ce7)"}
options = {"ents": ["ORG"], "colors": colors}

displacy.render(doc, style="ent", jupyter=True,
options=options)

## 6. L’étiquetage morpho-syntaxique

In [18]:
def return_POS(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner les étiquettes de chaque token
    return [(X, X.pos_) for X in doc]


return_POS(test)



doc = nlp(test)
displacy.serve(doc, style="dep")




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


## 7. Embedding par mot

In [19]:
import numpy as np

def return_word_embedding(sentence):

    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le vecteur lié à chaque token

    return [(X.vector) for X in doc]

return_word_embedding(test)

[array([-1.6346099 , -0.5649567 , -1.9408679 , -2.813146  , -0.10111822,
        -3.530174  ,  2.1561453 , -4.919579  ,  0.32698557,  1.0308661 ,
         2.2153058 ,  0.7172387 , -8.715832  , -1.0822319 , -0.29062498,
        -1.5783455 , -2.3651779 , -2.728358  , -0.86396784,  0.92594165,
        -2.9402206 ,  9.626809  ,  3.6982553 ,  2.3619318 , -3.4923077 ,
        -3.007491  ,  0.6268473 ,  0.74501777,  0.10165483, -2.073378  ,
        -6.022312  , -3.268891  ,  1.3297336 , -0.02227807,  6.210668  ,
         5.510391  , -3.3060744 ,  6.059071  ,  8.359106  ,  1.2666026 ,
        -2.4710221 ,  1.2002287 , -2.1460958 ,  1.1080242 , -0.47597623,
        -3.48144   , -0.3286002 , -2.6209486 ,  2.7624912 , -3.1821744 ,
         0.70762277, -5.4075885 , -0.43672955, -1.1972885 ,  1.9135561 ,
        -4.791294  ,  1.8234208 ,  2.8430328 ,  2.995939  , -3.0965562 ,
        -0.8349128 ,  0.7072923 , -3.1008275 ,  2.5546198 ,  5.942214  ,
        -1.4530498 ,  2.4120169 , -2.190457  , -1.3

## 8. Similarité entre phrases

In [20]:
def return_mean_embedding(sentence):
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner la moyenne des vecteurs pour chaque phrase
    return np.mean([(X.vector) for X in doc], axis=0)


test_2 = "Le réseau sera bientot rétabli à Marseille"

test_3 = "La panne réseau affecte plusieurs utilisateurs del'opérateur"
test_4 = "Il fait 18 degrés ici"



In [21]:
def return_mean_embedding(sentence):
    doc = nlp(sentence)
    return np.mean([token.vector for token in doc], axis=0)

test_2 = "Le réseau sera bientôt rétabli à Marseille"
test_3 = "La panne réseau affecte plusieurs utilisateurs de l'opérateur"
test_4 = "Il fait 18 degrés ici"

# Calcul des embeddings pour chaque phrase
embedding_test = return_mean_embedding(test)
embedding_test_2 = return_mean_embedding(test_2)
embedding_test_3 = return_mean_embedding(test_3)
embedding_test_4 = return_mean_embedding(test_4)

# Calcul de la norme de la différence entre les embeddings
norm_diff_2 = np.linalg.norm(embedding_test - embedding_test_2)
norm_diff_3 = np.linalg.norm(embedding_test - embedding_test_3)
norm_diff_4 = np.linalg.norm(embedding_test - embedding_test_4)

# Affichage des résultats
print("Norme de la différence entre test et test_2:", norm_diff_2)
print("Norme de la différence entre test et test_3:", norm_diff_3)
print("Norme de la différence entre test et test_4:", norm_diff_4)


Norme de la différence entre test et test_2: 13.324599
Norme de la différence entre test et test_3: 12.17234
Norme de la différence entre test et test_4: 20.493286


## 9. Transformers

In [23]:
import torch
from transformers import *




In [24]:
# Tokeniser, Model

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

model = BertForNextSentencePrediction.from_pretrained('bert-base-multilingual-cased')

model.eval()

BertForNextSentencePrediction(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12

In [25]:
text = "Comment ça va ? Bien merci, un peu stressé avantl'examen"
# Texte tokenisé
tokenized_text = tokenizer.tokenize(text)
# Convertir le texte en indexs
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

In [28]:
import torch
from transformers import BertTokenizer, BertForNextSentencePrediction

# Charger le tokenizer et le modèle BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model = BertForNextSentencePrediction.from_pretrained('bert-base-multilingual-cased')
model.eval()

# Texte à traiter
text = "Comment ça va ? Bien merci, un peu stressé avant l'examen"

# Tokenisation du texte
tokenized_text = tokenizer.tokenize(text)

# Conversion en indexs
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

# Conversion en tenseurs
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])

# Prédiction
predictions = model(tokens_tensor, segments_tensors)

# Accéder à l'élément approprié du tuple contenant les logits
logits = predictions[0]  # Par exemple, si les logits sont dans le premier élément du tuple

# Déterminer si la deuxième phrase est la suite de la première
if torch.argmax(logits) == 0:
    print("Suite")
else:
    print("Pas la suite")



Suite
