## Comment utiliser une Fonction Pipeline?

La fonction pipeline renvoie un objet de bout en bout qui exécute une tâche NLP sur un ou plusieurs textes.

In [1]:
!pip install transformers[sentencepiece]

Collecting sentencepiece!=0.1.92,>=0.1.91 (from transformers[sentencepiece])
  Downloading sentencepiece-0.1.99-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sentencepiece
Successfully installed sentencepiece-0.1.99


In [2]:
from transformers import pipeline

In [3]:
classifier = pipeline("sentiment-analysis") # c'est un pipeline pour la classification du texte (positif/négatif)
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

In [4]:
classifier = pipeline("sentiment-analysis") # c'est un pipeline pour la classification du texte (positif/négatif)
classifier("J'aime bien apprendre NLP")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.8663091063499451}]

Lorsque vous utilisez la fonction `pipeline` de la bibliothèque Hugging Face Transformers sans spécifier de modèle, elle sélectionne un modèle par défaut pour la tâche que vous avez spécifiée. Pour la tâche **"sentiment-analysis"**, le modèle par défaut est **`"distilbert-base-uncased-finetuned-sst-2-english"`**.

Ce modèle est une version de DistilBERT qui a été affinée sur l'ensemble de données SST-2, une référence largement utilisée pour l'analyse des sentiments. L'ensemble de données SST-2 (Stanford Sentiment Treebank) se compose de phrases tirées de critiques de films et d'étiquettes de sentiment correspondantes. Le modèle DistilBERT est une variante plus petite, plus rapide et plus légère de BERT, conçue pour consommer moins de ressources.


In [5]:
classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine") # c'est un pipeline pour la classification du texte (positif/négatif)
classifier("Je n'aime pas rater mes cours")

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]

tf_model.h5:   0%|          | 0.00/445M [00:00<?, ?B/s]

All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.


tokenizer_config.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/811k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/210 [00:00<?, ?B/s]

[{'label': 'NEGATIVE', 'score': 0.6052295565605164}]

`"tblard/tf-allocine"` : ce modèle est spécifiquement entraîné pour l'analyse des sentiments sur les critiques de films en langue française sur la base d'une architecture de transformers, qui est connue pour son efficacité dans le traitement des tâches linguistiques. Il est conçu pour être utilisé avec TensorFlow et devrait donner de bons résultats dans la classification des sentiments des critiques de films en français.

In [6]:
classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine") # c'est un pipeline pour la classification du texte (positif/négatif)
classifier("J'ai attendu un cours d'HuggingFace toute ma vie.")

All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.


[{'label': 'NEGATIVE', 'score': 0.934744656085968}]

In [7]:
classifier = pipeline("sentiment-analysis", model="tblard/tf-allocine") # c'est un pipeline pour la classification du texte (positif/négatif)
classifier("J'adore ce film")

All model checkpoint layers were used when initializing TFCamembertForSequenceClassification.

All the layers of TFCamembertForSequenceClassification were initialized from the model checkpoint at tblard/tf-allocine.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFCamembertForSequenceClassification for predictions without further training.


[{'label': 'POSITIVE', 'score': 0.9984068274497986}]