# Word Embedding

## Vectorisation de texte sous forme de nombres

Le processus de transformation des mots en nombres est appel√© vectorisation.

Cette √©tape est n√©cessaire pour appliquer des algorithmes d'apprentissage automatique sur des donn√©es textuelles, car ces algorithmes ont besoin de donn√©es num√©riques pour fonctionner.

La vectorisation consiste √† attribuer un vecteur de nombres √† chaque mot du texte, en utilisant des techniques telles que la repr√©sentation de sacs de mots (bag-of-words), la repr√©sentation TF-IDF, les plongements de mots (word embeddings) ou d'autres approches de traitement du langage naturel apr√®s le processus de tokenisation.

Ce processus quant √† lui consiste √† diviser un texte en tokens afin de pouvoir effectuer des analyses linguistiques ou statistiques sur les unit√©s de texte individuelles.

### a. Indexation

L'indexation consiste √† cr√©er un index de termes √† partir d'un ensemble de documents. Les termes sont extraits des documents √† l'aide d'un processus de pr√©traitement de texte, qui peut inclure la tokenisation, la suppression des mots vides, le stemming et la lemmatisation.

<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2023/03/indexing.png' width="200">

**Avantages** ‚ûï
+ Respectueux de la m√©moire
+  Compatibilit√© informatique

**Inconv√©nients** ‚ûñ

- L'espace des caract√©ristiques d'origine est √©gal au nombre de jetons uniques utilis√©s dans les textes, l'espace de repr√©sentation est unidimensionnel (r√©duction extr√™me de la dimensionnalit√© = perte d'informations)
- L'encodage entier est arbitraire (il ne capture aucune relation entre les mots).
- Un codage entier peut √™tre difficile √† interpr√©ter pour un mod√®le. Un classificateur lin√©aire, par exemple, apprend un seul poids pour chaque caract√©ristique. Puisqu'il n'y a pas de relation entre la similarit√© de deux mots et la similarit√© de leurs codages, cette combinaison caract√©ristique-pond√©ration n'est pas significative.

### b. TF-IDF Term Frequency-Inverse Document Frequency

TF-IDF (Term Frequency-Inverse Document Frequency) est une mesure statistique utilis√©e pour √©valuer l'importance d'un terme dans un document, par rapport √† un corpus de documents. Il est souvent utilis√© en recherche d'information, en extraction de texte, en classification de texte et en recherche s√©mantique.

Le poids d'un terme dans un document est calcul√© en multipliant la fr√©quence d'apparition du terme (TF) dans le document par son facteur inverse de la fr√©quence de document (IDF), qui mesure l'importance du terme dans le corpus en fonction de la fr√©quence avec laquelle il appara√Æt dans les documents du corpus.

Le r√©sultat est une mesure num√©rique qui refl√®te l'importance relative d'un terme dans un document ou un corpus.

<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2023/03/Capture-decran-2023-03-05-a-12.23.25.png' width="300">

**Avantages** ‚ûï
* Repr√©sente les jetons avec des nombres li√©s √† leur importance relative dans chaque texte.
* Chaque texte devient une ligne o√π chaque colonne repr√©sente un token dans le vocabulaire, ce qui rend les donn√©es compatibles avec les mod√®les ML classiques.

**Inconv√©nients** ‚ûñ
* gourmand en m√©moire et en calcul : chaque texte sera repr√©sent√© par un vecteur de la taille du vocabulaire, qui peut √™tre tr√®s important.
* Supprime le caract√®re s√©quentiel des donn√©es textuelles (vous perdez l'ordre dans lequel les jetons apparaissent)

### c. One-hot-encoding
Le One-Hot-Encoding est une technique de repr√©sentation des donn√©es qui consiste √† transformer chaque valeur d'une variable cat√©gorielle en une nouvelle variable binaire (0 ou 1) qui indique si la valeur est pr√©sente ou non.

<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2023/03/Capture-decran-2023-03-05-a-12.32.35.png' width="500">

**Avantages** ‚ûï
* Conserve le caract√®re s√©quentiel des donn√©es
* Aucune hi√©rarchie arbitraire introduite entre les mots

**Inconv√©nients** ‚ûñ

* Tr√®s inefficace en termes de m√©moire et de calcul en raison de la nature clairsem√©e de la repr√©sentation

### d. Word Embedding üìÉ‚Üíüî¢

Word Embedding est une technique de traitement du langage naturel qui permet de repr√©senter les mots sous forme de vecteurs num√©riques denses, o√π chaque dimension du vecteur repr√©sente une caract√©ristique s√©mantique du mot. Les vecteurs ainsi cr√©√©s peuvent √™tre utilis√©s pour entra√Æner des mod√®les de machine learning pour diverses t√¢ches de NLP, telles que la classification de texte, la traduction automatique, la reconnaissance de la parole, etc.

Le Word Embedding permet de capturer la signification s√©mantique et la relation entre les mots, ce qui facilite l'apprentissage automatique √† partir de textes non structur√©s.

<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2023/03/Capture-decran-2023-03-05-a-12.39.23.png' width="500">

**Avantages** ‚ûï
* Efficace en termes de calcul et de m√©moire* Compatible avec le caract√®re s√©quentiel des donn√©es
* Pas besoin de d√©terminer manuellement les valeurs dans l'int√©gration

**Inconv√©nients** ‚ûñ
* La formation des param√®tres d'int√©gration peut prendre beaucoup de temps pour les grands ensembles de donn√©es

## 1. Hypoth√®se distributionnelle

<img src='https://i.stack.imgur.com/vMMTq.png'>

L'hypoth√®se distributionnelle est une hypoth√®se linguistique qui affirme que la signification des mots est d√©termin√©e par leur contexte d'utilisation. Selon cette hypoth√®se, les mots qui ont des distributions similaires ont des significations similaires.


Cette hypoth√®se repose sur les travaux de linguistes des ann√©es 1950 dont notament **Zellig S. Harris** qui propose la th√©orie [Distributional Structure](https://www.tandfonline.com/doi/pdf/10.1080/00437956.1954.11659520) selon laquelle **la signification des mots est d√©termin√©e par leur distribution dans un corpus de texte.**

**`"Les mots qui ont des distributions similaires ont des significations similaires."`**








# 2. Word Embeding & DeepLeanring

Les techniques de Word Embedding via le Deep Learning utilisent des r√©seaux de neurones pour g√©n√©rer des repr√©sentations vectorielles denses de mots √† partir de grands corpus de textes.

Ils apprennent √† partir des co-occurrences de mots dans des contextes similaires pour cr√©er des vecteurs qui capturent les relations s√©mantiques et syntaxiques entre les mots. Les mod√®les Word Embedding peuvent ensuite √™tre utilis√©s pour r√©soudre diverses t√¢ches de NLP, telles que la classification de texte, la traduction automatique, la g√©n√©ration de texte et l'analyse de sentiment.


<img src='https://xn--kvin-duranty-beb.fr/wp-content/uploads/2023/03/Capture-decran-2023-03-05-a-13.06.52.png' width="600">


1. La couche Embedding va transformer chaque index de mots en vecteur d‚Äôembedding. La matrice de l‚Äôembedding sera apprise tout au long de l'entrainement du model. Les dimensions r√©sultantes sont :
- batch-> Taille du lot,
- pad (ou sequence) -> longueur des document,
- embedding -> La longueur des vecteurs de mots.

2. La couche embeding envoie les vecteurs ensuite au r√©seau de neurones afin de pr√©dire une classe.

3. Pour finir, la r√©tropropagation va mettre √† jour les poids de la matrice d‚Äôembedding afin de maximiser la pr√©cision du mod√®le et cr√©er des vecteurs d‚Äôembedding qui sont plus pertinents pour la t√¢che de classification.


# 3. Hugging Face
<img src="https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo-with-title.png">

[Hugging Face](https://huggingface.co/) est une entreprise sp√©cialis√©e dans l'intelligence artificielle (IA) qui a gagn√© en popularit√© gr√¢ce √† ses outils open-source d√©di√©s aux technologies de traitement du langage naturel (NLP, Natural Language Processing). Voici une pr√©sentation succincte de la plateforme :

**Transformers Library** : Hugging Face est surtout connue pour sa biblioth√®que "Transformers", une collection de mod√®les pr√©-entra√Æn√©s pour le traitement du langage naturel. Elle facilite la mise en ≈ìuvre de mod√®les populaires comme BERT, GPT-2, T5 et d'autres.

**Datasets Library** : Une biblioth√®que destin√©e √† la d√©couverte, l'acc√®s et l'utilisation de datasets pour le NLP. Elle comprend de nombreux jeux de donn√©es couramment utilis√©s dans la recherche en NLP.

**Model Hub**: Une plateforme o√π les utilisateurs peuvent partager et t√©l√©charger des mod√®les pr√©-entra√Æn√©s. C'est une ressource pr√©cieuse pour ceux qui souhaitent utiliser ou finetuner des mod√®les existants.


**Collaboration avec la communaut√©**: Hugging Face a une forte interaction avec la communaut√© d'IA. Les chercheurs et les d√©veloppeurs peuvent contribuer √† leurs biblioth√®ques, partager leurs mod√®les, et m√™me √©crire des articles et des tutoriels.

**Services commerciaux** : Outre leurs outils open-source, Hugging Face propose √©galement des solutions commerciales pour les entreprises souhaitant int√©grer des capacit√©s de NLP avanc√©es.

En r√©sum√©, Hugging Face est devenue une r√©f√©rence incontournable dans le domaine du NLP, gr√¢ce √† ses outils open-source de haute qualit√© et √† sa collaboration √©troite avec la communaut√© de recherche en IA.






In [1]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.33.2-py3-none-any.whl (7.6 MB)
     ---------------------------------------- 7.6/7.6 MB 14.8 MB/s eta 0:00:00
Collecting filelock
  Downloading filelock-3.12.4-py3-none-any.whl (11 kB)
Collecting huggingface-hub<1.0,>=0.15.1
  Downloading huggingface_hub-0.17.1-py3-none-any.whl (294 kB)
     ------------------------------------- 294.8/294.8 kB 17.8 MB/s eta 0:00:00
Collecting numpy>=1.17
  Downloading numpy-1.26.0-cp311-cp311-win_amd64.whl (15.8 MB)
     --------------------------------------- 15.8/15.8 MB 20.4 MB/s eta 0:00:00
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0.1-cp311-cp311-win_amd64.whl (144 kB)
     ---------------------------------------- 144.7/144.7 kB ? eta 0:00:00
Collecting requests
  Downloading requests-2.31.0-py3-none-any.whl (62 kB)
     ---------------------------------------- 62.6/62.6 kB ? eta 0:00:00
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.3-cp311-cp311-win_amd64.whl (3


[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


### 3.1 **Extraction d'Embeddings** - BertTokenizer.from_pretrained('bert-base-uncased') :

**Description** : Les embeddings de mots sont des repr√©sentations vectorielles des mots qui capturent la s√©mantique des mots, leurs relations et contextes. BERT est l'un des mod√®les les plus populaires pour obtenir ces embeddings, car il consid√®re le contexte entier d'un mot dans une phrase, plut√¥t que de se baser uniquement sur le mot lui-m√™me.

**Applications** : T√¢ches de classification de texte, analyse de la similarit√© s√©mantique, syst√®mes de recommandation, compl√©tion automatique, etc.

In [6]:
pipe("Hello, I'm a language model,", max_length=30, num_return_sequences=5)

NameError: name 'pipe' is not defined

In [15]:
pip install tensorflow






[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [1]:
from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

model = TFGPT2Model.from_pretrained('gpt2')

text = "Replace me by any text you'd like."


  from .autonotebook import tqdm as notebook_tqdm
Downloading model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 548M/548M [00:17<00:00, 31.1MB/s] 
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
All PyTorch model weights were used when initializing TFGPT2Model.

All the weights of TFGPT2Model were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2Model for predictions without further training.


In [2]:
tokens = tokenizer.tokenize(text)
tokens

['Re', 'place', 'ƒ†me', 'ƒ†by', 'ƒ†any', 'ƒ†text', 'ƒ†you', "'d", 'ƒ†like', '.']

In [3]:
index = tokenizer.convert_tokens_to_ids(tokens)
index

[3041, 5372, 502, 416, 597, 2420, 345, 1549, 588, 13]

In [4]:
encode = tokenizer.encode(tokens, return_tensors='tf')
model(encode)

TFBaseModelOutputWithPastAndCrossAttentions(last_hidden_state=<tf.Tensor: shape=(1, 10, 768), dtype=float32, numpy=
array([[[ 0.16290544, -0.21657373, -0.14102711, ..., -0.26188684,
         -0.08190874,  0.00924023],
        [ 0.46279702,  0.02483863, -0.07853647, ..., -0.08585814,
          0.5122236 , -0.3939047 ],
        [-0.0643686 ,  0.15511815, -0.6305848 , ...,  0.24878478,
          0.3690542 ,  0.08326875],
        ...,
        [-0.5590812 , -0.44902483, -1.4539906 , ...,  0.16498949,
         -0.13022874, -0.37402725],
        [ 0.14001569, -0.387528  , -0.79156303, ..., -0.17796828,
          0.1823611 ,  0.21849126],
        [ 0.17207065, -0.24204694, -0.11238763, ..., -0.1068422 ,
          0.12054719, -0.32129428]]], dtype=float32)>, past_key_values=(<tf.Tensor: shape=(2, 1, 12, 10, 64), dtype=float32, numpy=
array([[[[[-1.07186723e+00,  2.41698933e+00,  9.66034234e-01, ...,
           -4.78705734e-01, -3.31557035e-01,  1.79252326e+00],
          [-2.28969359e+00,  2.54

### 3.2 **Analyse de Sentiment** - pipeline("sentiment-analysis"):

**Description** : L'analyse de sentiment √©value si l'attitude exprim√©e dans un morceau de texte est positive, n√©gative ou neutre. Elle peut √©galement √©valuer l'intensit√© de ce sentiment.

**Applications** : Surveillance des m√©dias sociaux, √©valuations des produits, analyse des retours des clients, √©tudes de march√©, etc.

In [7]:
from transformers import pipeline

sentiment_analysis = pipeline("sentiment-analysis")
sentiment_analysis("We are very happy to show you the ü§ó Transformers library.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 629/629 [00:00<00:00, 629kB/s]
Downloading model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 268M/268M [00:08<00:00, 31.7MB/s] 
All PyTorch model weights were used when initializing TFDistilBertForSequenceClassification.

All the weights of TFDistilBertForSequenceClassification were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFDistilBertForSequenceClassification for predictions without further training.
Downloading (‚Ä¶)okenizer_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 48.0/48.0 [00:00<?, ?B/s]
Downloading (‚Ä¶)solve/main/vocab.txt: 10

[{'label': 'POSITIVE', 'score': 0.9997795224189758}]

### 3.3 **Reconnaissance d'Entit√©s Nomm√©es** - pipeline("ner") :

**Description** : La reconnaissance d'entit√©s nomm√©es (NER, Named Entity Recognition) identifie et classe les mots ou s√©quences de mots dans un texte qui repr√©sentent des entit√©s sp√©cifiques, telles que des noms propres, des lieux, des dates, des organisations, etc.

**Applications** : Extraction d'informations, surveillance des m√©dias, moteurs de recherche, chatbots, etc.

In [8]:
entity_recognition = pipeline("ner")
entity_recognition("My name is Sylvain and I work at Hugging Face in Brooklyn. You are Great")

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 998/998 [00:00<?, ?B/s] 
Downloading model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.33G/1.33G [00:41<00:00, 31.9MB/s]
All PyTorch model weights were used when initializing TFBertForTokenClassification.

All the weights of TFBertForTokenClassification were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForTokenClassification for predictions without further training.
Downloading (‚Ä¶)okenizer_config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 60.0/60.0 [00:00<?, ?B/s]
Downloading (‚Ä¶)solve/main/vocab.txt: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà

[{'entity': 'I-PER',
  'score': 0.99937785,
  'index': 4,
  'word': 'S',
  'start': 11,
  'end': 12},
 {'entity': 'I-PER',
  'score': 0.9981554,
  'index': 5,
  'word': '##yl',
  'start': 12,
  'end': 14},
 {'entity': 'I-PER',
  'score': 0.99629766,
  'index': 6,
  'word': '##va',
  'start': 14,
  'end': 16},
 {'entity': 'I-PER',
  'score': 0.99923813,
  'index': 7,
  'word': '##in',
  'start': 16,
  'end': 18},
 {'entity': 'I-ORG',
  'score': 0.98674923,
  'index': 12,
  'word': 'Hu',
  'start': 33,
  'end': 35},
 {'entity': 'I-ORG',
  'score': 0.9756085,
  'index': 13,
  'word': '##gging',
  'start': 35,
  'end': 40},
 {'entity': 'I-ORG',
  'score': 0.9881954,
  'index': 14,
  'word': 'Face',
  'start': 41,
  'end': 45},
 {'entity': 'I-LOC',
  'score': 0.9930823,
  'index': 16,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

### 3.4 **Traduction** - pipeline("translation_en_to_fr") :

**Description** : La traduction automatique vise √† convertir du texte d'une langue source √† une autre langue cible. Par exemple, traduire de l'anglais au fran√ßais.

**Applications** : Sites web multilingues, applications de traduction comme Google Translate, sous-titrage automatique, etc.

In [9]:
# Traducteur pipeline

traduction = pipeline("translation_en_to_fr")
traduction("We are very happy to show you the ü§ó Transformers library.")

No model was supplied, defaulted to t5-base and revision 686f1db (https://huggingface.co/t5-base).
Using a pipeline without specifying a model name and revision in production is not recommended.
Downloading (‚Ä¶)lve/main/config.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.21k/1.21k [00:00<00:00, 1.24MB/s]
Downloading model.safetensors: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 892M/892M [00:28<00:00, 31.0MB/s] 
All PyTorch model weights were used when initializing TFT5ForConditionalGeneration.

All the weights of TFT5ForConditionalGeneration were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFT5ForConditionalGeneration for predictions without further training.
Downloading (‚Ä¶)ve/main/spiece.model: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 792k/792k [00:00<00:00, 7.00MB/s]
Downloading (‚Ä¶)/main/tokenizer.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.39M/1.39M [00:00<00:00, 4.27MB/s]
For now, this behavior 

[{'translation_text': 'Nous sommes tr√®s heureux de vous montrer la biblioth√®que  Transformers.'}]

### 3.5 **G√©n√©ration de Texte** -  pipeline("text-generation", model="gpt2"):

**Description** : La g√©n√©ration de texte est une branche du traitement du langage naturel (NLP) centr√©e sur la cr√©ation automatique de contenu textuel. Cette technologie peut produire du texte sens√© et coh√©rent en se basant sur une entr√©e donn√©e ou m√™me sans aucune entr√©e sp√©cifique. Elle requiert une compr√©hension profonde et vaste du langage pour assurer la pertinence et la fluidit√© du contenu g√©n√©r√©.

**Applications** : Cr√©ation de contenus pour blogs ou sites web, r√©ponses automatis√©es dans les chatbots, continuation de textes, outils d'aide √† la r√©daction, cr√©ation de scripts pour jeux vid√©o ou sc√©narios, et diverses autres formes d'√©criture cr√©ative.



In [10]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="gpt2")

All PyTorch model weights were used when initializing TFGPT2LMHeadModel.

All the weights of TFGPT2LMHeadModel were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
Downloading (‚Ä¶)/main/tokenizer.json: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1.36M/1.36M [00:00<00:00, 15.7MB/s]


___
# Exercice : Construction d'une Classe de Traitement de Texte avec Hugging Face

**Objectif** : Cr√©er une classe Python qui permet d'effectuer plusieurs op√©rations sur un texte donn√© : la traduction, la reconnaissance d'entit√©s nomm√©es, l'analyse de sentiment, et l'extraction des embeddings.

Crit√®res de validation :
- La classe doit s'appeler **TextProcessor** et doit h√©riter des m√©thodes de la classe **Processing**.
- La classe doit √™tre bien initialis√©e et ne doit pas lancer d'erreur lors de l'instanciation.
- Chaque m√©thode doit retourner le r√©sultat attendu pour le texte donn√©.
- L'embedding d'un texte doit √™tre de la forme d'un tenseur ou d'une liste de valeurs num√©riques.


**Les m√©thodes √† impl√©menter sont les suivantes :**

**Traduction** : Ajoutez une m√©thode translate_to_french qui prend en argument un texte en anglais et le renvoie traduit en fran√ßais.
Utilisez la fonction pipeline("translation_en_to_fr") pour effectuer la traduction.

**Reconnaissance d'Entit√©s Nomm√©es** : Ajoutez une m√©thode extract_entities qui prend un texte comme argument et renvoie la liste des entit√©s reconnues avec leurs types respectifs.
Utilisez la fonction pipeline("ner") pour r√©aliser cette t√¢che.

**Analyse de Sentiment** : Ajoutez une m√©thode analyze_sentiment qui prend un texte comme argument et renvoie le sentiment du texte (positif, n√©gatif, neutre).
Utilisez la fonction pipeline("sentiment-analysis") pour ce faire.

**Extraction d'Embeddings** : Ajoutez une m√©thode extract_embeddings qui prend un texte comme argument et renvoie ses embeddings.
Pour cela, utilisez le BertTokenizer.from_pretrained('bert-base-uncased') pour tokenizer le texte, puis utilisez un mod√®le BERT pour obtenir les embeddings. Pensez √† g√©rer la conversion entre les tokens et les embeddings en utilisant le mod√®le BERT appropri√©.

**G√©n√©ration de Texte** : Ajoutez une m√©thode generate_text qui utilise pipeline("text-generation", model="gpt2") pour g√©n√©rer du texte √† partir d'une prompt donn√©e.

Testez votre programme sur le jeu de donn√©es [suivant](https://drive.google.com/file/d/1Pz9YfRErwnkgD2qTk4Q0CCY_PPP7akqa/view?usp=sharing).

In [12]:
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer


class Processing:
    def __init__(self):
        self.test = {
            "document": None,
            "tokens": None,
        }

    def tokenization(self, document, stem=False , lem=False):
        self.test["document"] = document

        tokens = word_tokenize(document)
     

        if stem:
            stemmer = PorterStemmer()
            tokens = [stemmer.stem(token) for token in tokens]

        if lem:
            lemmatizer = WordNetLemmatizer()
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        self.test["tokens"] = tokens
        return tokens


In [58]:
from transformers import pipeline, BertTokenizer

class TextProcessor(Processing):
    def __init__(self):
        super().__init__()

    def translate_en_to_fr(self, text):
        traduction = pipeline("translation_en_to_fr")
        return traduction(text)[0]['translation_text']
    
    def extract_entities(self, text):
        entities = pipeline("ner")
        return entities(text)
    
    def analyze_sentiment(self, text):
        sentiment = pipeline("sentiment-analysis")
        resultat = sentiment(text)
        return resultat[0]
    
    def extract_embeddings(self, text):
        tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
        return tokenizer.tokenize(text)

    def generate_text(self, prompt=''): 
        text_gen = pipeline("text-generation", model="gpt2")
        return text_gen(prompt)[0]['generated_text']
    

    


In [60]:
processor = TextProcessor()
# text = "I love artificial intelligence."

# texte_traduit = processor.translate_en_to_fr(text)
# print("Traduction en fran√ßais:", texte_traduit)

# entities = processor.extract_entities(text)
# print("Named Entities:", entities)

# sentiment = processor.analyze_sentiment(text)
# print("Sentiment Analysis:", sentiment)

# embeddings = processor.extract_embeddings(text)
# print("Embeddings shape:", embeddings)

generated_text = processor.generate_text("vive les oiseaux")
print("Generated Text:")
print(generated_text)


All PyTorch model weights were used when initializing TFGPT2LMHeadModel.

All the weights of TFGPT2LMHeadModel were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFGPT2LMHeadModel for predictions without further training.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Generated Text:
vive les oiseaux des meers en meux qui s'est les oiseaux par dans les seignes et que l'entre dans √©tudiants, et et d'√©tudiants et d'


___
# Exercice Bonus

Consevez une application web avec [Streamlit](https://docs.streamlit.io/library/api-reference) permettant d'int√©ragir avec la classe **TextProcessor**.

L'utilisateur doit avoir acc√®s aux fonctionnalit√©s :
- Traduction,
- Analyse de sentiment
- Embedding

In [54]:
!pip install streamlit

Collecting streamlit
  Downloading streamlit-1.26.0-py2.py3-none-any.whl (8.1 MB)
     ---------------------------------------- 8.1/8.1 MB 19.2 MB/s eta 0:00:00
Collecting altair<6,>=4.0
  Downloading altair-5.1.1-py3-none-any.whl (520 kB)
     ------------------------------------- 520.6/520.6 kB 31.9 MB/s eta 0:00:00
Collecting blinker<2,>=1.0.0
  Downloading blinker-1.6.2-py3-none-any.whl (13 kB)
Collecting importlib-metadata<7,>=1.4
  Downloading importlib_metadata-6.8.0-py3-none-any.whl (22 kB)
Collecting pandas<3,>=1.3.0
  Downloading pandas-2.1.0-cp311-cp311-win_amd64.whl (11.0 MB)
     --------------------------------------- 11.0/11.0 MB 18.2 MB/s eta 0:00:00
Collecting pillow<10,>=7.1.0
  Downloading Pillow-9.5.0-cp311-cp311-win_amd64.whl (2.5 MB)
     ---------------------------------------- 2.5/2.5 MB 26.6 MB/s eta 0:00:00
Collecting pyarrow>=6.0
  Downloading pyarrow-13.0.0-cp311-cp311-win_amd64.whl (24.3 MB)
     ---------------------------------------- 24.3/24.3 MB 8.7 MB/


[notice] A new release of pip available: 22.3 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import streamlit as staticmethod

st.write