## Installation on Google Colab

Skip if you're not on Google Colab

In [2]:
!pip install transformers[sentencepiece]

Collecting transformers[sentencepiece]
[?25l  Downloading https://files.pythonhosted.org/packages/b5/d5/c6c23ad75491467a9a84e526ef2364e523d45e2b0fae28a7cbe8689e7e84/transformers-4.8.1-py3-none-any.whl (2.5MB)
[K     |▏                               | 10kB 24.8MB/s eta 0:00:01[K     |▎                               | 20kB 30.8MB/s eta 0:00:01[K     |▍                               | 30kB 35.2MB/s eta 0:00:01[K     |▌                               | 40kB 34.8MB/s eta 0:00:01[K     |▋                               | 51kB 31.4MB/s eta 0:00:01[K     |▉                               | 61kB 30.9MB/s eta 0:00:01[K     |█                               | 71kB 28.4MB/s eta 0:00:01[K     |█                               | 81kB 27.5MB/s eta 0:00:01[K     |█▏                              | 92kB 27.6MB/s eta 0:00:01[K     |█▎                              | 102kB 29.0MB/s eta 0:00:01[K     |█▌                              | 112kB 29.0MB/s eta 0:00:01[K     |█▋                 

## Super easy NLP with the pipeline interface

### Sentiment analysis in english

In [3]:
from transformers import pipeline

In [15]:
classifier = pipeline("sentiment-analysis")

In [16]:
classifier(["this is a great tutorial, thank you", 
            "your content just sucks"])

[{'label': 'POSITIVE', 'score': 0.9998582601547241},
 {'label': 'NEGATIVE', 'score': 0.9971919059753418}]

In [21]:
classifier(["Ton tuto est vraiment bien", 
            "il est complètement nul"])

[{'label': 'POSITIVE', 'score': 0.7650704979896545},
 {'label': 'POSITIVE', 'score': 0.8282670974731445}]

### Sentiment analysis in Dutch, German, French, Spanish and Italian

Search the Hub for a french classification model: https://huggingface.co/models?filter=fr&pipeline_tag=text-classification&sort=downloads

In [18]:
multilang_classifier = pipeline("sentiment-analysis", 
                                model="nlptown/bert-base-multilingual-uncased-sentiment")

In [20]:
multilang_classifier(["Ton tuto est vraiment bien", 
                      "il est complètement nul"])

[{'label': '5 stars', 'score': 0.5787978172302246},
 {'label': '1 star', 'score': 0.9223358035087585}]

### Translation 

In [133]:
en_to_fr = pipeline("translation_en_to_fr", 
                    model="Helsinki-NLP/opus-mt-en-fr")

In [134]:
en_to_fr("your tutorial is really good")

[{'translation_text': 'votre tutoriel est vraiment bon'}]

In [137]:
fr_to_en = pipeline("translation_fr_to_en", 
                    model="Helsinki-NLP/opus-mt-fr-en")

In [138]:
fr_to_en("ton tutoriel est super")

[{'translation_text': 'Your tutorial is great.'}]

### Zero-shot classification in french

In [140]:
classifier = pipeline("zero-shot-classification", 
                      model="BaptisteDoyen/camembert-base-xlni")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=882.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=442587593.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=433.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=810912.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=299.0, style=ProgressStyle(description_…




In [147]:
sequence = "Colin est en train d'écrire un article au sujet du traitement du langage naturel"
candidate_labels = ["science","politique","education", "news"]
classifier(sequence, candidate_labels)     

{'labels': ['science', 'news', 'education', 'politique'],
 'scores': [0.4613836407661438,
  0.20861364901065826,
  0.20573210716247559,
  0.12427058815956116],
 'sequence': "Colin est en train d'écrire un article au sujet du traitement du langage naturel"}

### Writing summaries in French

In [149]:
summarizer = pipeline("summarization", 
                       model="moussaKam/barthez-orangesum-title")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1465.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=864357306.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1115393.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2630980.0, style=ProgressStyle(descript…




In [152]:
import pprint
sentence = "Le premier tour des élections régionales, dimanche 20 juin, a été marqué par un niveau d’abstention inédit (66,7 %). Une première clé est de savoir si ce second tour mobilisera davantage les électeurs que le premier. Il a également fait apparaître un paysage politique fragmenté. Ce morcellement se retrouvera lors du second tour, dimanche 27 juin, lui aussi inédit à bien des égards."
pprint.pprint(sentence)

('Le premier tour des élections régionales, dimanche 20 juin, a été marqué par '
 'un niveau d’abstention inédit (66,7 %). Une première clé est de savoir si ce '
 'second tour mobilisera davantage les électeurs que le premier. Il a '
 'également fait apparaître un paysage politique fragmenté. Ce morcellement se '
 'retrouvera lors du second tour, dimanche 27 juin, lui aussi inédit à bien '
 'des égards.')


In [154]:
summarizer(sentence, max_length=50)

[{'summary_text': "Régionales : le niveau d'abstention inédit au second tour"}]

### Named entity recognition

In [155]:
ner = pipeline("token-classification", model="Jean-Baptiste/camembert-ner")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=876.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=440227047.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=269.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=810912.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=210.0, style=ProgressStyle(description_…




In [160]:
nes = ner("Colin est parti à Saint-André acheter de la mozzarella")
pprint.pprint(nes)

[{'end': 5,
  'entity': 'PER',
  'index': 1,
  'score': 0.94243556,
  'start': 0,
  'word': '▁Colin'},
 {'end': 23,
  'entity': 'LOC',
  'index': 5,
  'score': 0.99605554,
  'start': 17,
  'word': '▁Saint'},
 {'end': 24,
  'entity': 'LOC',
  'index': 6,
  'score': 0.9967083,
  'start': 23,
  'word': '-'},
 {'end': 29,
  'entity': 'LOC',
  'index': 7,
  'score': 0.99609375,
  'start': 24,
  'word': 'André'}]


In [178]:
cur = None
agg = []
for ne in nes: 
  entity=ne['entity']
  if entity != cur: 
    if not cur: 
      cur=entity
    if agg: 
      print(cur, ner.tokenizer.convert_tokens_to_string(agg))
      agg = []
      cur = entity
  agg.append(ne['word'])
print(cur, ner.tokenizer.convert_tokens_to_string(agg))


PER Colin
LOC Saint-André
