In [1]:
#!pip install transformers

In [2]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


[{'label': 'POSITIVE', 'score': 0.9598048329353333}]

In [3]:
classifier(
    ["I'm a little tired and fed up with everyone", "I finished the AI program at Universidad Austral and it went very well!", "With this phrase we try to get the analyzer to give us a neutral score."]
)

[{'label': 'NEGATIVE', 'score': 0.9964057207107544},
 {'label': 'POSITIVE', 'score': 0.999821126461029},
 {'label': 'NEGATIVE', 'score': 0.9995025396347046}]

In [4]:
#!pip install pysentimiento

In [5]:
from pysentimiento import create_analyzer
analyzer = create_analyzer(task="sentiment", lang="es")

analyzer.predict("Qué gran jugador es Messi")

config.json:   0%|          | 0.00/925 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]

AnalyzerOutput(output=POS, probas={POS: 0.946, NEU: 0.037, NEG: 0.017})

In [6]:
analyzer.predict("Estoy un poco cansado y harto de todos")

AnalyzerOutput(output=NEG, probas={NEG: 0.969, NEU: 0.026, POS: 0.006})

In [7]:
analyzer.predict("¡Terminé el programa de IA en la Uviversidad Austral y me fue muy bien!")

AnalyzerOutput(output=POS, probas={POS: 0.944, NEU: 0.052, NEG: 0.004})

In [8]:
analyzer.predict("Con esta frase tratamos de que el analizador nos dé una puntuación neutra.")

AnalyzerOutput(output=NEU, probas={NEU: 0.722, POS: 0.244, NEG: 0.033})

# Zero-shot classification

Sirve para clasificar textos que no han sido etiquetados. Este es un escenario común en proyectos del mundo real porque anotar texto suele llevar mucho tiempo y requiere experiencia en el dominio. Para este caso de uso, el proceso de clasificación Zero-shot es muy poderoso: permite especificar qué etiquetas usar para la clasificación, por lo que no depende de las etiquetas del modelo previamente entrenado. Ya vimos cómo el modelo puede clasificar una oración como positiva o negativa usando esas dos etiquetas, pero también puede clasificar el texto usando cualquier otro conjunto de etiquetas.

In [9]:
from transformers import pipeline

classifier = pipeline("zero-shot-classification")
classifier(
    "This is a course about the Transformers library",
    candidate_labels=["education", "politics", "business"],
)

config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

{'sequence': 'This is a course about the Transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.8445993661880493, 0.1119738519191742, 0.04342673718929291]}

# Generación de texto

Ahora veamos cómo usar una canalización (pipeline) para generar texto. La idea principal aquí es proporcionar un mensaje y el modelo lo completará automáticamente generando el texto restante. Esto es similar a la función de texto predictivo que se encuentra en muchos teléfonos. La generación de texto implica aleatoriedad, por lo que es normal que no se obtengan los mismos resultados en cada ocasión.

In [10]:
from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'generated_text': 'In this course, we will teach you how to identify each feature of a real-world situation and develop a model to measure it. This would ideally be a multi-part series to make sure that you understand the problem correctly before starting out. In'}]

# Usando otros modelos del Hub en un pipeline

Los ejemplos anteriores utilizaron el modelo predeterminado para la tarea en cuestión, pero también se puede elegir un modelo particular del Hub para usarlo en una pipeline para una tarea específica, por ejemplo, generación de texto.
Para determinar qué modelo usar, ir al Model Hub y hacer clic en la etiqueta correspondiente a la izquierda para mostrar solo los modelos compatibles para esa tarea.

In [11]:
from transformers import pipeline

generator = pipeline("text-generation", model="distilgpt2")
generator(
    "In this course, we will teach you how to",
    max_length=30,
    num_return_sequences=2,
)

config.json:   0%|          | 0.00/762 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/353M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'generated_text': 'In this course, we will teach you how to find and use the resources you need to find and use the most advanced resources within a given language language'},
 {'generated_text': 'In this course, we will teach you how to read your own words. The book will teach you how to write your own poetry, share your passions'}]

In [12]:
from transformers import pipeline

generator = pipeline("text-generation", model="DeepESP/gpt2-spanish")
generator(
    "En este curso acelerado vamos a aprender a",
    max_length=30,
    num_return_sequences=2,
)

config.json:   0%|          | 0.00/914 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/115 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/840k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/499k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/262 [00:00<?, ?B/s]

[{'generated_text': 'En este curso acelerado vamos a aprender a distinguir entre los animales y los animales. A saber cuál será nuestra posición en las vidas humanas. \n\nPero'},
 {'generated_text': 'En este curso acelerado vamos a aprender a vivir con esa imagen corporativa de la existencia que es esencial para la comunicación. Esa imagen es, en esencia,'}]

# Rellenado

Completar los espacios en blanco de un texto determinado.

In [13]:
from transformers import pipeline

unmasker = pipeline("fill-mask")
unmasker("This course will teach you all about <mask> models.", top_k=2)

config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[{'score': 0.19198493659496307,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models.'},
 {'score': 0.04209216684103012,
  'token': 38163,
  'token_str': ' computational',
  'sequence': 'This course will teach you all about computational models.'}]

In [14]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="MMG/mlm-spanish-roberta-base")
unmasker("En este curso trataremos de <mask> todo lo <mask> a la inteligencia artificial.", top_k=2)

config.json:   0%|          | 0.00/889 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/504M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.13k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/890k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/536k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.53M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

[[{'score': 0.11607638001441956,
   'token': 5796,
   'token_str': ' explicar',
   'sequence': '<s>En este curso trataremos de explicar todo lo<mask> a la inteligencia artificial.</s>'},
  {'score': 0.08639812469482422,
   'token': 5072,
   'token_str': ' aplicar',
   'sequence': '<s>En este curso trataremos de aplicar todo lo<mask> a la inteligencia artificial.</s>'}],
 [{'score': 0.4942193925380707,
   'token': 7951,
   'token_str': ' relacionado',
   'sequence': '<s>En este curso trataremos de<mask> todo lo relacionado a la inteligencia artificial.</s>'},
  {'score': 0.15242254734039307,
   'token': 36517,
   'token_str': ' concerniente',
   'sequence': '<s>En este curso trataremos de<mask> todo lo concerniente a la inteligencia artificial.</s>'}]]

# Named entity recognition

El reconocimiento de entidades nombradas (NER) es una tarea en la que el modelo tiene que encontrar qué partes del texto de entrada corresponden a entidades como personas, ubicaciones, organizaciones, etc.

In [15]:
from transformers import pipeline

ner = pipeline("ner", aggregation_strategy="simple")
ner("My name is Paul and I work at the United Nations in NY City.")

config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

[{'entity_group': 'PER',
  'score': 0.9993462,
  'word': 'Paul',
  'start': 11,
  'end': 15},
 {'entity_group': 'ORG',
  'score': 0.9986558,
  'word': 'United Nations',
  'start': 34,
  'end': 48},
 {'entity_group': 'LOC',
  'score': 0.99857676,
  'word': 'NY City',
  'start': 52,
  'end': 59}]

# Respuesta a preguntas

El canal de preguntas y respuestas responde a preguntas utilizando información de un contexto determinado.

In [16]:
from transformers import pipeline

question_answerer = pipeline("question-answering")
question_answerer(
    question="Where do I work?",
    context="My name is Paul and I work at the United Nations in NY City.",
)

config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

{'score': 0.3307371437549591,
 'start': 34,
 'end': 59,
 'answer': 'United Nations in NY City'}

In [17]:
from transformers import pipeline

question_answerer = pipeline("question-answering", model="dccuchile/albert-base-spanish-finetuned-qa-mlqa")
question_answerer(
    question="¿Qué alimento le dieron al animal?",
    context="Dábale arroz a la burra el abad.",
)

config.json:   0%|          | 0.00/842 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/44.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/476 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.74M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

{'score': 0.9100965857505798, 'start': 7, 'end': 12, 'answer': 'arroz'}

In [18]:
question_answerer(
    question="¿Quién realizaba la acción?",
    context="Dábale arroz a la burra el abad.",
)

{'score': 0.056723278015851974,
 'start': 15,
 'end': 32,
 'answer': 'la burra el abad.'}

In [19]:
question_answerer(
    question="¿Quiénes son los denunciados?",
    context="La Corte Suprema bonaerense ya analiza la denuncia contra los jueces que liberaron a Chocolate Rigau",
)

{'score': 0.3241027891635895,
 'start': 62,
 'end': 100,
 'answer': 'jueces que liberaron a Chocolate Rigau'}

# Resumen
El resumen es la tarea de reducir un texto a uno más corto manteniendo todos (o la mayoría) de los aspectos importantes a los que se hace referencia en el texto.

In [20]:
from transformers import pipeline

summarizer = pipeline("summarization")
summarizer(
    """
    America has changed dramatically during recent years. Not only has the number of
    graduates in traditional engineering disciplines such as mechanical, civil,
    electrical, chemical, and aeronautical engineering declined, but in most of
    the premier American universities engineering curricula now concentrate on
    and encourage largely the study of engineering science. As a result, there
    are declining offerings in engineering subjects dealing with infrastructure,
    the environment, and related issues, and greater concentration on high
    technology subjects, largely supporting increasingly complex scientific
    developments. While the latter is important, it should not be at the expense
    of more traditional engineering.

    Rapidly developing economies such as China and India, as well as other
    industrial countries in Europe and Asia, continue to encourage and advance
    the teaching of engineering. Both China and India, respectively, graduate
    six and eight times as many traditional engineers as does the United States.
    Other industrial countries at minimum maintain their output, while America
    suffers an increasingly serious decline in the number of engineering graduates
    and a lack of well-educated engineers.
"""
)

config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

[{'summary_text': ' The number of engineering graduates in the United States has declined in recent years . China and India graduate six and eight times as many traditional engineers as the U.S. does . Rapidly developing economies such as China continue to encourage and advance the teaching of engineering . There are declining offerings in engineering subjects dealing with infrastructure, infrastructure, the environment, and related issues .'}]

In [21]:
import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'Narrativa/bsc_roberta2roberta_shared-spanish-finetuned-mlsum-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)

def generate_summary(text):

   inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = model.generate(input_ids, attention_mask=attention_mask)
   return tokenizer.decode(output[0], skip_special_tokens=True)

text = "Estados Unidos ha cambiado dramáticamente durante los últimos años. No sólo ha disminuido el número de graduados en disciplinas tradicionales de ingeniería, como la ingeniería mecánica, civil, eléctrica, química y aeronáutica, sino que en la mayoría de las principales universidades estadounidenses los planes de estudio de ingeniería ahora se concentran y fomentan en gran medida el estudio de las ciencias de la ingeniería. Como resultado, hay una oferta cada vez menor en temas de ingeniería relacionados con infraestructura, medio ambiente y temas relacionados, y una mayor concentración en temas de alta tecnología, que respaldan en gran medida desarrollos científicos cada vez más complejos. Si bien esto último es importante, no debería hacerse a expensas de la ingeniería más tradicional. Las economías en rápido desarrollo, como China e India, así como otros países industriales de Europa y Asia, continúan fomentando y promoviendo la enseñanza de la ingeniería. Tanto China como India, respectivamente, gradúan seis y ocho veces más ingenieros tradicionales que Estados Unidos. Otros países industriales mantienen al mínimo su producción, mientras que Estados Unidos sufre una disminución cada vez más grave en el número de graduados en ingeniería y una falta de ingenieros bien formados."
generate_summary(text)

tokenizer_config.json:   0%|          | 0.00/1.12k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/851k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/509k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.46M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/4.62k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/615M [00:00<?, ?B/s]

'En la mayoría de las principales universidades de EE UU los planes de estudio de la ingeniería ya se concentran y fomentan en gran medida el estudio de las ciencias de la Ingeniería'

# Traducción
Para la traducción, puede usar un modelo predeterminado si proporciona un par de idiomas en el nombre de la tarea (como "translation_en_to_fr"), pero la forma más sencilla es elegir el modelo que se desea usar en Model Hub. Aquí intentaremos traducir del francés al inglés.

In [22]:
#!pip install sentencepiece

In [36]:
from transformers import pipeline

# translator = pipeline("translation", model="SoyGema/english-spanish-2")
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-es")
# translator = pipeline("translation_en_to_fr")

# translator("My name is Wolfgang and I live in Berlin.")
translator("This is a long text and I want to test the capabilities of transformers, used for translations.")
translator("Because there are no constraints placed upon the timing of the volunteer's activities in such a time-free environment, these are called free-running experiments and the rhythms measured during them are known as free-running rhythms.")

[{'translation_text': 'Debido a que no hay restricciones en el tiempo de las actividades del voluntario en un entorno tan libre de tiempo, estos se llaman experimentos de carrera libre y los ritmos medidos durante ellos se conocen como ritmos de carrera libre.'}]