<a href="https://colab.research.google.com/github/Vonewman/Hugginface-course/blob/main/Que_peuvent_faire_les_Transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install datasets evaluate transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Analyse de Sentiment

In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    "It is a pleasure for me to make this presentation on the Transformers."  
)   # C'est un plaisir pour moi de faire cette présentation sur les Transformers.

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


[{'label': 'POSITIVE', 'score': 0.9997870326042175}]

In [3]:
import pandas as pd

text = "It is a pleasure for me to make this presentation on the Transformers."

output = classifier(text)
pd.DataFrame(output)

Unnamed: 0,label,score
0,POSITIVE,0.999787


Ce `pipeline` regroupe trois étapes : le prétraitement, le passage des entrées dans le modèle et le post-traitement.

<img src='https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/full_nlp_pipeline.svg' align='center' width=80%>

On peut faire passer plusieurs phrases:

In [4]:
text = [
        "This course is amazing.",
        "I hate this so much!",
    ]  # « Ce cours est incroyable. »,  « Je déteste tellement ça ! »

outputs = classifier(text)
pd.DataFrame(outputs)

Unnamed: 0,label,score
0,POSITIVE,0.999883
1,NEGATIVE,0.999456


## Zero-shot classification

Le `zero-shot-classification` est une tâche qui consiste à classer des textes qui n’ont pas été annotés.

In [5]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")

classifier(
    "This is a course about the Transformers library",
    # C'est un cours sur la bibliothèque Transformers
    candidate_labels=["education", "politics", "business"],
)

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445988297462463, 0.11197440326213837, 0.04342682659626007]}

In [6]:
outputs = classifier(
    "This is a course about the Transformers library",
    # C'est un cours sur la bibliothèque Transformers
    candidate_labels=["education", "politics", "business"],
)

pd.DataFrame(outputs)

Unnamed: 0,sequence,labels,scores
0,This is a course about the Transformers library,education,0.844599
1,This is a course about the Transformers library,business,0.111974
2,This is a course about the Transformers library,politics,0.043427


## Generation de Text

L’idée principale ici est que vous fournissez seulement un extrait de texte qui va être complété par du texte généré automatiquement par le modèle.

In [6]:
from transformers import pipeline

generator = pipeline("text-generation")

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [7]:
generator("Linux is the best operating systems", max_length=50) # max_length pour contrôler le nombre caractères générés

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'Linux is the best operating systems to use. Windows 8 has great options thanks to what Linux has to offer today. Many of you might have heard Linux is actually better than other operating systems (especially Linux based systems). We recommend that those who are just'}]

## Utiliser n'importe quel modèle du Hub dans un pipeline

In [8]:
from transformers import pipeline

generator = pipeline("text-generation", model="asi/gpt-fr-cased-base") # pour generer du text en Francais
generator(
    "la vie n'est rien d'autre que le trait d'union du mot peut-être",
    max_length=50
)

Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.


[{'generated_text': "la vie n'est rien d'autre que le trait d'union du mot peut-être avec le mot qui l'a créé. La vie est un mouvement, un mouvement qui se déroule dans le temps. La vie est un mouvement qui"}]

## Remplacement de mot-masques

L’argument `top_k` permet de contrôler le nombre de possibilités que vous souhaitez afficher. Notez que dans ce cas, le modèle remplace le mot spécial `<mask>`, qui est souvent appelé un `mot masqué`. 

In [9]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2) # top_k contrôler le nombre de possibilités que vous souhaitez afficher

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/331M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19619810581207275,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04052736610174179,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

## Reconnaissance d'entités nommées (NER Name Entity Recognition)

La reconnaissance d’entités nommées ou NER (pour Named Entity Recognition) est une tâche où le modèle doit trouver les parties du texte d’entrée qui correspondent à des entités telles que des personnes, des lieux ou des organisations.

In [10]:
from transformers import pipeline

ner = pipeline("ner", grouped_entities=True)
ner(
    "My name is Abdoulaye and I work at Sonatel in Dakar."
)  # Je m'appelle Abdoulaye et je travaille à Sonatel à Dakar.

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

  "`grouped_entities` is deprecated and will be removed in version v5.0.0, defaulted to"


[{'entity_group': 'PER',
  'score': 0.9984453,
  'word': 'Abdoulaye',
  'start': 11,
  'end': 20},
 {'entity_group': 'ORG',
  'score': 0.9938895,
  'word': 'Sonatel',
  'start': 35,
  'end': 42},
 {'entity_group': 'LOC',
  'score': 0.99804306,
  'word': 'Dakar',
  'start': 46,
  'end': 51}]

## Réponse à des questions

Le pipeline `question-answering` répond à des questions en utilisant des informations données en contexte:

In [11]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",  # Où est-ce que je travaille ?
    context="My name is Abdoulaye and I work at Sonatel in Dakar",
    # Je m'appelle Abdoulaye et je travaille à Sonatel à Dakar.
)

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/473 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/261M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.5635401010513306, 'start': 35, 'end': 42, 'answer': 'Sonatel'}

In [12]:
reader = pipeline("question-answering")
question = "Where do I work?"
text = "My name is Abdoulaye and I work at Sonatel in Dakar"
outputs = reader(question=question, context=text)
pd.DataFrame([outputs])

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Unnamed: 0,score,start,end,answer
0,0.56354,35,42,Sonatel


## Résumé

Le résumé est une tâche de réduction d’un texte en un texte plus court, tout en gardant tous (ou presque tous) les aspects importants référencés dans le texte.

In [13]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of 
    graduates in traditional engineering disciplines such as mechanical, civil, 
    electrical, chemical, and aeronautical engineering declined, but in most of 
    the premier American universities engineering curricula now concentrate on 
    and encourage largely the study of engineering science. As a result, there 
    are declining offerings in engineering subjects dealing with infrastructure, 
    the environment, and related issues, and greater concentration on high 
    technology subjects, largely supporting increasingly complex scientific 
    developments. While the latter is important, it should not be at the expense 
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other 
    industrial countries in Europe and Asia, continue to encourage and advance 
    the teaching of engineering. Both China and India, respectively, graduate 
    six and eight times as many traditional engineers as does the United States. 
    Other industrial countries at minimum maintain their output, while America 
    suffers an increasingly serious decline in the number of engineering graduates 
    and a lack of well-educated engineers.
"""
)

"""
    L'Amérique a changé de façon spectaculaire au cours des dernières années. Non seulement le nombre de 
    diplômés dans les disciplines traditionnelles de l'ingénierie telles que le génie mécanique, civil, 
    l'électricité, la chimie et l'aéronautique a diminué, mais dans la plupart 
    des grandes universités américaines, les programmes d'études d'ingénierie se concentrent désormais sur 
    et encouragent largement l'étude des sciences de l'ingénieur. Par conséquent, il y a 
    de moins en moins d'offres dans les sujets d'ingénierie traitant de l'infrastructure, 
    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute 
    technologie, qui soutiennent en grande partie des développements scientifiques de plus en plus 
    complexes. Si cette dernière est importante, elle ne doit pas se faire au détriment
    de l'ingénierie plus traditionnelle.

    Les économies en développement rapide telles que la Chine et l'Inde, ainsi que d'autres 
    pays industrialisés d'Europe et d'Asie, continuent d'encourager et de promouvoir
    l'enseignement de l'ingénierie. La Chine et l'Inde, respectivement, diplôment 
    six et huit fois plus d'ingénieurs traditionnels que les États-Unis. 
    Les autres pays industriels maintiennent au minimum leur production, tandis que l'Amérique 
    souffre d'une baisse de plus en plus importante du nombre de diplômés en ingénierie
    et un manque d'ingénieurs bien formés.
"""

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

"\n    L'Amérique a changé de façon spectaculaire au cours des dernières années. Non seulement le nombre de \n    diplômés dans les disciplines traditionnelles de l'ingénierie telles que le génie mécanique, civil, \n    l'électricité, la chimie et l'aéronautique a diminué, mais dans la plupart \n    des grandes universités américaines, les programmes d'études d'ingénierie se concentrent désormais sur \n    et encouragent largement l'étude des sciences de l'ingénieur. Par conséquent, il y a \n    de moins en moins d'offres dans les sujets d'ingénierie traitant de l'infrastructure, \n    l'environnement et les questions connexes, et une plus grande concentration sur les sujets de haute \n    technologie, qui soutiennent en grande partie des développements scientifiques de plus en plus \n    complexes. Si cette dernière est importante, elle ne doit pas se faire au détriment\n    de l'ingénierie plus traditionnelle.\n\n    Les économies en développement rapide telles que la Chine et l'Inde

## Traduction

In [14]:
from transformers import pipeline

translator = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")
outputs = translator("Ce cours est produit par Hugging Face.")
outputs[0]['translation_text']

Downloading:   0%|          | 0.00/1.42k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/301M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/778k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



'Ce cours est produit par Hugging Face.'

In [15]:
!pip install gradio

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gradio
  Downloading gradio-3.6-py3-none-any.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 35.0 MB/s 
Collecting markdown-it-py[linkify,plugins]
  Downloading markdown_it_py-2.1.0-py3-none-any.whl (84 kB)
[K     |████████████████████████████████| 84 kB 3.0 MB/s 
Collecting pycryptodome
  Downloading pycryptodome-3.15.0-cp35-abi3-manylinux2010_x86_64.whl (2.3 MB)
[K     |████████████████████████████████| 2.3 MB 61.0 MB/s 
Collecting uvicorn
  Downloading uvicorn-0.19.0-py3-none-any.whl (56 kB)
[K     |████████████████████████████████| 56 kB 3.9 MB/s 
Collecting paramiko
  Downloading paramiko-2.11.0-py2.py3-none-any.whl (212 kB)
[K     |████████████████████████████████| 212 kB 59.3 MB/s 
Collecting websockets
  Downloading websockets-10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (112 kB)
[K     |██████

## Deployer un mini-application de traduction avec Gradio

In [16]:
import gradio as gr

def translate_sentence(input_text):
    """Une fonction qui retourne le texte traduit"""
    for value in translator(input_text)[0].values():
        return value

iface = gr.Interface(fn = translate_sentence, inputs = 'text', outputs = 'text',
                     title = "Traduction EN-FR", 
                     description="Un mini google translate avec huggingface")
                     
iface.launch()

Colab notebook detected. To show errors in colab notebook, set `debug=True` in `launch()`
Running on public URL: https://f4a3c6d3e74c2f02.gradio.app

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces


(<gradio.routes.App at 0x7f9ff0c4cb90>,
 'http://127.0.0.1:7860/',
 'https://f4a3c6d3e74c2f02.gradio.app')