<a href="https://colab.research.google.com/github/Vonewman/Hugginface-course/blob/main/Transformers%2C_what_they_can_do.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformers, what can they do?

Install the Transformers and Datasets libraries to run this notebook.

In [1]:
!pip install datasets transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting datasets
  Downloading datasets-2.3.2-py3-none-any.whl (362 kB)
[K     |████████████████████████████████| 362 kB 5.0 MB/s 
[?25hCollecting transformers[sentencepiece]
  Downloading transformers-4.20.1-py3-none-any.whl (4.4 MB)
[K     |████████████████████████████████| 4.4 MB 66.1 MB/s 
[?25hCollecting xxhash
  Downloading xxhash-3.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)
[K     |████████████████████████████████| 212 kB 54.3 MB/s 
Collecting responses<0.19
  Downloading responses-0.18.0-py3-none-any.whl (38 kB)
Collecting fsspec[http]>=2021.05.0
  Downloading fsspec-2022.5.0-py3-none-any.whl (140 kB)
[K     |████████████████████████████████| 140 kB 41.5 MB/s 
[?25hCollecting huggingface-hub<1.0.0,>=0.1.0
  Downloading huggingface_hub-0.8.1-py3-none-any.whl (101 kB)
[K     |████████████████████████████████| 101 kB 4.6 MB/s 
Collecting aiohttp

### Text Classification

In [10]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

In [11]:
classifier(
    ["I've been waiting for a huggingFace course my hole life.", "I hate this so much!"]
)

[{'label': 'NEGATIVE', 'score': 0.9942923784255981},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

### Zero-shot classification

In [12]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"]
)

No model was supplied, defaulted to facebook/bart-large-mnli (https://huggingface.co/facebook/bart-large-mnli)


{'labels': ['education', 'business', 'politics'],
 'scores': [0.8445988297462463, 0.11197440326213837, 0.04342682659626007],
 'sequence': 'This is a course about the Transformers library'}

### Text Generation

In [14]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course we will teach you how to")

No model was supplied, defaulted to gpt2 (https://huggingface.co/gpt2)
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course we will teach you how to design mobile applications with React.\n\n\nOverview:\n\nReact makes it simple to create UI components and to integrate them into a React API. This tutorial will demonstrate how to create UI components through React'}]

### Utiliser n'importe quel modèle du Hub dans un pipeline

In [19]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to take advantage of learning so the students can apply their knowledge to our courses. We will provide you with'},
 {'generated_text': 'In this course, we will teach you how to set up a simple and simple setup as well as create a GUI application for you. That’'}]

### Remplacement des mots manquants

In [21]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

No model was supplied, defaulted to distilroberta-base (https://huggingface.co/distilroberta-base)


[{'score': 0.19619810581207275,
  'sequence': 'This course will teach you all about mathematical models.',
  'token': 30412,
  'token_str': ' mathematical'},
 {'score': 0.04052736610174179,
  'sequence': 'This course will teach you all about computational models.',
  'token': 38163,
  'token_str': ' computational'}]

### Reconnaissance d'entités nommées

La reconnaissance d’entités nommées ou NER (pour Named Entity Recognition) est une tâche où le modèle doit trouver les parties du texte d’entrée qui correspondent à des entités telles que des personnes, des lieux ou des organisations. Voyons un exemple :

In [23]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner(
    "My name is Abdoulaye and I work at Hugging Face in Brooklyn."
)  # Je m'appelle Abdoulaye et je travaille à Hugging Face à Brooklyn.

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english)
  "`grouped_entities` is deprecated and will be removed in version v5.0.0, defaulted to"


[{'end': 20,
  'entity_group': 'PER',
  'score': 0.9982846,
  'start': 11,
  'word': 'Abdoulaye'},
 {'end': 47,
  'entity_group': 'ORG',
  'score': 0.9816856,
  'start': 35,
  'word': 'Hugging Face'},
 {'end': 59,
  'entity_group': 'LOC',
  'score': 0.9931253,
  'start': 51,
  'word': 'Brooklyn'}]

### Réponse à des questions

In [25]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",  # Où est-ce que je travaille ?
    context="My name is Abdoulaye and I work at Hugging Face in Brooklyn",
    # Je m'appelle Sylvain et je travaille à Hugging Face à Brooklyn.
)

No model was supplied, defaulted to distilbert-base-cased-distilled-squad (https://huggingface.co/distilbert-base-cased-distilled-squad)


{'answer': 'Hugging Face', 'end': 47, 'score': 0.6681919693946838, 'start': 35}

### Résumé

Le résumé est une tâche de réduction d’un texte en un texte plus court, tout en gardant tous (ou presque tous) les aspects importants référencés dans le texte. Voici un exemple :

In [27]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
"""
)

"""
    L'Amérique a changé de façon spectaculaire au cours des dernières années. Non seulement le nombre de 
    diplômés dans les disciplines traditionnelles de l'ingénierie telles que le génie mécanique, civil, 
    l'électricité, la chimie et l'aéronautique a diminué, mais dans la plupart 
    des grandes universités américaines, les programmes d'études d'ingénierie se concentrent désormais sur 
    et encouragent largement l'étude des sciences de l'ingénieur. Par conséquent, il y a 
    de moins en moins d'offres dans les sujets d'ingénierie traitant de l'infrastructure, 
    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute 
    technologie, qui soutiennent en grande partie des développements scientifiques de plus en plus 
    complexes. Si cette dernière est importante, elle ne doit pas se faire au détriment
    de l'ingénierie plus traditionnelle.

    Les économies en développement rapide telles que la Chine et l'Inde, ainsi que d'autres 
    pays industrialisés d'Europe et d'Asie, continuent d'encourager et de promouvoir
    l'enseignement de l'ingénierie. La Chine et l'Inde, respectivement, diplôment 
    six et huit fois plus d'ingénieurs traditionnels que les États-Unis. 
    Les autres pays industriels maintiennent au minimum leur production, tandis que l'Amérique 
    souffre d'une baisse de plus en plus importante du nombre de diplômés en ingénierie
    et un manque d'ingénieurs bien formés.
"""

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 (https://huggingface.co/sshleifer/distilbart-cnn-12-6)


"\n    L'Amérique a changé de façon spectaculaire au cours des dernières années. Non seulement le nombre de \n    diplômés dans les disciplines traditionnelles de l'ingénierie telles que le génie mécanique, civil, \n    l'électricité, la chimie et l'aéronautique a diminué, mais dans la plupart \n    des grandes universités américaines, les programmes d'études d'ingénierie se concentrent désormais sur \n    et encouragent largement l'étude des sciences de l'ingénieur. Par conséquent, il y a \n    de moins en moins d'offres dans les sujets d'ingénierie traitant de l'infrastructure, \n    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute \n    technologie, qui soutiennent en grande partie des développements scientifiques de plus en plus \n    complexes. Si cette dernière est importante, elle ne doit pas se faire au détriment\n    de l'ingénierie plus traditionnelle.\n\n    Les économies en développement rapide telles que la Chine et l'Inde

### Traduction

Pour la traduction, vous pouvez utiliser un modèle par défaut si vous fournissez un couple de langues dans le nom de la tâche (comme "translation_en_to_fr"), mais le plus simple reste d’utiliser un modèle adéquat disponible sur le Hub. Ici, nous allons essayer de traduire du français en anglais :

In [29]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
translator("Ce cours est produit par Hugging Face.")



[{'translation_text': 'This course is produced by Hugging Face.'}]