In [None]:
!pip install datasets evaluate transformers[sentencepiece] gradio

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting datasets
  Downloading datasets-2.6.1-py3-none-any.whl (441 kB)
[K     |████████████████████████████████| 441 kB 14.6 MB/s 
[?25hCollecting evaluate
  Downloading evaluate-0.3.0-py3-none-any.whl (72 kB)
[K     |████████████████████████████████| 72 kB 1.6 MB/s 
[?25hCollecting transformers[sentencepiece]
  Downloading transformers-4.23.1-py3-none-any.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 57.9 MB/s 
[?25hCollecting gradio
  Downloading gradio-3.8-py3-none-any.whl (11.6 MB)
[K     |████████████████████████████████| 11.6 MB 56.6 MB/s 
Collecting multiprocess
  Downloading multiprocess-0.70.14-py37-none-any.whl (115 kB)
[K     |████████████████████████████████| 115 kB 66.5 MB/s 
Collecting huggingface-hub<1.0.0,>=0.2.0
  Downloading huggingface_hub-0.10.1-py3-none-any.whl (163 kB)
[K     |████████████████████████████████| 163 kB 43.9 MB/s 
Collecting

## Analyse de Sentiment

In [None]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    "It is a pleasure for me to participate in this meetup."  
)   # C'est un plaisir pour moi de participer à ce meetup.

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/268M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

[{'label': 'POSITIVE', 'score': 0.9998524188995361}]

In [None]:
import pandas as pd

text = "It is a pleasure for me to participate in this meetup."

output = classifier(text)
pd.DataFrame(output)

Unnamed: 0,label,score
0,POSITIVE,0.999852


Ce `pipeline` regroupe trois étapes : le prétraitement, le passage des entrées dans le modèle et le post-traitement.

<img src='https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/full_nlp_pipeline.svg' align='center' width=80%>

On peut faire passer plusieurs phrases:

In [None]:
text = [
        "This course is amazing.",
        "I hate this so much!",
    ]  # « Ce cours est incroyable. »,  « Je déteste tellement ça ! »

outputs = classifier(text)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,POSITIVE,0.999883
1,NEGATIVE,0.999456


## Zero-shot classification

Le `zero-shot-classification` est une tâche qui consiste à classer des textes qui n’ont pas été annotés.

In [None]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")

classifier(
    "This is a course about the Transformers library",
    # C'est un cours sur la bibliothèque Transformers
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.844599723815918, 0.11197370290756226, 0.04342665150761604]}

In [None]:
outputs = classifier(
    "This is a course about the Transformers library",
    # C'est un cours sur la bibliothèque Transformers
    candidate_labels=["education", "politics", "business"],
)

pd.DataFrame(outputs)

Unnamed: 0,sequence,labels,scores
0,This is a course about the Transformers library,education,0.8446
1,This is a course about the Transformers library,business,0.111974
2,This is a course about the Transformers library,politics,0.043427


## Generation de Text

L’idée principale ici est que vous fournissez seulement un extrait de texte qui va être complété par du texte généré automatiquement par le modèle.

In [None]:
from transformers import pipeline

generator = pipeline("text-generation")

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [None]:
generator("Linux is the best operating systems", max_length=50) # max_length pour contrôler le nombre caractères générés

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Linux is the best operating systems, and it is only the one that has made the decision. There are many things that can improve the software experience without breaking things.\n\nThe next step is to bring back OS X. The latest operating system is'}]

## Utiliser n'importe quel modèle du Hub dans un pipeline

In [None]:
from transformers import pipeline

generator = pipeline("text-generation", model="asi/gpt-fr-cased-base") # pour generer du text en Francais
generator(
    "la vie n'est rien d'autre que le trait d'union du mot peut-être",
    max_length=50
)

Downloading:   0%|          | 0.00/726 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/4.09G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/853k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/513k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/123 [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.


[{'generated_text': "la vie n'est rien d'autre que le trait d'union du mot peut-être avec le mot qui l'a créé. La vie est un mouvement, un mouvement qui se déroule dans le temps. La vie est un mouvement qui"}]

## Remplacement de mot-masques

L’argument `top_k` permet de contrôler le nombre de possibilités que vous souhaitez afficher. Notez que dans ce cas, le modèle remplace le mot spécial `<mask>`, qui est souvent appelé un `mot masqué`. 

In [None]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2) # top_k contrôler le nombre de possibilités que vous souhaitez afficher

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/331M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.196197971701622,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052729904651642,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

## Reconnaissance d'entités nommées (NER Name Entity Recognition)

La reconnaissance d’entités nommées ou NER (pour Named Entity Recognition) est une tâche où le modèle doit trouver les parties du texte d’entrée qui correspondent à des entités telles que des personnes, des lieux ou des organisations.

In [None]:
# from transformers import pipeline

# ner = pipeline("ner", grouped_entities=True)
# ner(
#     "My name is Astou and I have a great enthusiasm for Data."
# )  # Je m'appelle Astou et j'ai un grand enthousiasme pour les données.

## Réponse à des questions

Le pipeline `question-answering` répond à des questions en utilisant des informations données en contexte:

In [None]:
# from transformers import pipeline

# question_answerer = pipeline("question-answering")
# question_answerer(
#     question="Where do I work?",  # Où est-ce que je travaille ?
#     context="My name is Astou and I work at Baamtu Datamation in Dakar",
#     # Je m'appelle Astou et je travaille à Baamtu à Dakar.
# )

In [None]:
# reader = pipeline("question-answering")
# question = "Where do I work?"
# text = "I am Astou and I work at Baamtu in Dakar"
# outputs = reader(question=question, context=text)
# pd.DataFrame([outputs])

## Résumé

Le résumé est une tâche de réduction d’un texte en un texte plus court, tout en gardant tous (ou presque tous) les aspects importants référencés dans le texte.

In [None]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    
    L'Amérique a changé de façon spectaculaire au cours des dernières années. Non seulement le nombre de 
    diplômés dans les disciplines traditionnelles de l'ingénierie telles que le génie mécanique, civil, 
    l'électricité, la chimie et l'aéronautique a diminué, mais dans la plupart 
    des grandes universités américaines, les programmes d'études d'ingénierie se concentrent désormais sur 
    et encouragent largement l'étude des sciences de l'ingénieur. Par conséquent, il y a 
    de moins en moins d'offres dans les sujets d'ingénierie traitant de l'infrastructure, 
    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute 
    technologie, qui soutiennent en grande partie des développements scientifiques de plus en plus 
    complexes. Si cette dernière est importante, elle ne doit pas se faire au détriment
    de l'ingénierie plus traditionnelle.

    Les économies en développement rapide telles que la Chine et l'Inde, ainsi que d'autres 
    pays industrialisés d'Europe et d'Asie, continuent d'encourager et de promouvoir
    l'enseignement de l'ingénierie. La Chine et l'Inde, respectivement, diplôment 
    six et huit fois plus d'ingénieurs traditionnels que les États-Unis. 
    Les autres pays industriels maintiennent au minimum leur production, tandis que l'Amérique 
    souffre d'une baisse de plus en plus importante du nombre de diplômés en ingénierie
    et un manque d'ingénieurs bien formés.

"""
)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': " L'Amérique a changé de façon spectaculaire au cours des dernières années . Le nombre de diplômés dans disciplines traditionnelles de l'ingénierie telles such as civil, génie mécanique, civil, l'électricité, the chimie et l'aéronautique a diminué . La Chine and l'Inde, respectivement,    six and huit fois plus d'ingénieurs traditionnels than les États-Unis ."}]

## Traduction

In [None]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")
outputs = translator("GalsenAI is a community of AI enthusiasts.")
outputs[0]['translation_text']

Downloading:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/301M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/778k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



"GalsenAI est une communauté de passionnés de l'IA."

## Deployer un mini-application de traduction avec Gradio

In [None]:
import gradio as gr

def translate_sentence(input_text):
    """Une fonction qui retourne le texte traduit"""
    for value in translator(input_text)[0].values():
        return value

iface = gr.Interface(fn = translate_sentence, inputs = 'text', outputs = 'text',
                     title = "Traduction EN-FR", 
                     description="Un mini google translate avec huggingface")
                     
iface.launch()

Colab notebook detected. To show errors in colab notebook, set `debug=True` in `launch()`
Running on public URL: https://0a55e001d08cc632.gradio.app

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces


(<gradio.routes.App at 0x7f99fcf1ab10>,
 'http://127.0.0.1:7860/',
 'https://0a55e001d08cc632.gradio.app')