<a href="https://colab.research.google.com/github/fvillena/dcc-ia-nlp/blob/master/8_transformers_pipelines.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Los siguientes ejemplos ha sido basados en los ejemplos de 
https://github.com/huggingface/transformers



In [None]:
!pip install transformers

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/3a/83/e74092e7f24a08d751aa59b37a9fc572b2e4af3918cb66f7766c3affb1b4/transformers-3.5.1-py3-none-any.whl (1.3MB)
[K     |████████████████████████████████| 1.3MB 5.3MB/s 
Collecting tokenizers==0.9.3
[?25l  Downloading https://files.pythonhosted.org/packages/4c/34/b39eb9994bc3c999270b69c9eea40ecc6f0e97991dba28282b9fd32d44ee/tokenizers-0.9.3-cp36-cp36m-manylinux1_x86_64.whl (2.9MB)
[K     |████████████████████████████████| 2.9MB 40.4MB/s 
[?25hCollecting sentencepiece==0.1.91
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 38.3MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K  

In [None]:
from transformers import pipeline

#Responder pregunta segun el contexto
nlp = pipeline("question-answering")

context = r"""
... 
... Los datos han pasado a constituir parte esencial de cualquier empresa, desde el ámbito del entretenimiento personal hasta 
... los negocios y la planificación estratégica de grandes organizaciones. Las tecnologías de captura, procesamiento y 
... comunicación de datos los han puesto en primer plano. La noción de “diluvio de datos” hace referencia a esa marea 
... aparentemente incontenible de datos que rodean (y muchas veces ahogan) a las personas y organizaciones hoy.
... Para analizar y sacar provecho de este diluvio de datos, los profesionales requieren tener conocimientos tanto 
... teóricos como prácticos de lo que se conoce como Ciencia de los Datos, que incluye áreas como Minería de Datos, 
... Recuperación de Información, Visualización y Gestión de Datos. El presente Diplomado apunta a formar profesionales 
... especialistas que trabajen como analistas expertos en el manejo de datos complejos y masivos..
... """

result = nlp(question="¿Qué conocimientos se imparten en el diplomado?", context=context)
print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")




Answer: 'El presente Diplomado apunta a formar profesionales', score: 0.0001, start: 784, end: 836


In [None]:
#clasificar si es positivo o negativo
from transformers import pipeline

nlp = pipeline("sentiment-analysis")

result = nlp("No me molestó")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

result = nlp("A nadie le gustó")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

label: POSITIVE, with score: 0.9945
label: POSITIVE, with score: 0.999


In [None]:
#generacion de texto
from transformers import AutoModelWithLMHead, AutoTokenizer

model = AutoModelWithLMHead.from_pretrained("xlnet-base-cased", return_dict=True)
tokenizer = AutoTokenizer.from_pretrained("xlnet-base-cased")

# Padding text helps XLNet with short prompts - proposed by Aman Rusia in https://github.com/rusiaaman/XLNet-gen#methodology

PADDING_TEXT =""" Los datos han pasado a constituir parte esencial de cualquier empresa, desde el ámbito del entretenimiento personal hasta 
... los negocios y la planificación estratégica de grandes organizaciones. Las tecnologías de captura, procesamiento y 
... comunicación de datos los han puesto en primer plano. La noción de “diluvio de datos” hace referencia a esa marea 
... aparentemente incontenible de datos que rodean (y muchas veces ahogan) a las personas y organizaciones hoy.
... Para analizar y sacar provecho de este diluvio de datos, los profesionales requieren tener conocimientos tanto 
... teóricos como prácticos de lo que se conoce como Ciencia de los Datos, que incluye áreas como Minería de Datos, 
... Recuperación de Información, Visualización y Gestión de Datos. El presente Diplomado apunta a formar profesionales 
... especialistas que trabajen como analistas expertos en el manejo de datos complejos y masivos. <eod> </s> <eos>
... """

prompt = "Los datos en mi empresa "
inputs = tokenizer.encode(PADDING_TEXT + prompt, add_special_tokens=False, return_tensors="pt")

prompt_length = len(tokenizer.decode(inputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True))
outputs = model.generate(inputs, max_length=250, do_sample=True, top_p=0.95, top_k=60)
generated = prompt + tokenizer.decode(outputs[0])[prompt_length:]

print(generated)



Los datos en mi empresa i empresa


In [None]:
#resumir textos
from transformers import pipeline

summarizer = pipeline("summarization")

ARTICLE = """ Los datos han pasado a constituir parte esencial de cualquier empresa, desde el ámbito del entretenimiento personal hasta 
... los negocios y la planificación estratégica de grandes organizaciones. Las tecnologías de captura, procesamiento y 
... comunicación de datos los han puesto en primer plano. La noción de “diluvio de datos” hace referencia a esa marea 
... aparentemente incontenible de datos que rodean (y muchas veces ahogan) a las personas y organizaciones hoy.
... Para analizar y sacar provecho de este diluvio de datos, los profesionales requieren tener conocimientos tanto 
... teóricos como prácticos de lo que se conoce como Ciencia de los Datos, que incluye áreas como Minería de Datos, 
... Recuperación de Información, Visualización y Gestión de Datos. El presente Diplomado apunta a formar profesionales 
... especialistas que trabajen como analistas expertos en el manejo de datos complejos y masivos. <eod> </s> <eos>
... """


print(summarizer(ARTICLE, max_length=5, min_length=4, do_sample=False))

[{'summary_text': ' Los datos han pasado a parte esencial de cualqu'}]
