# Taller: Introducción a los Large Language Models (LLMs) usando Python

## Objetivo
El objetivo de este taller es introducir a los estudiantes a los conceptos básicos de los large language models (LLMs) y proporcionarles una experiencia práctica utilizando la biblioteca `transformers` de Hugging Face para trabajar con modelos preentrenados de lenguaje natural.

## Contenido
1. Introducción a los Large Language Models (LLMs)
2. Configuración del entorno
3. Carga y uso de un modelo preentrenado
4. Ejemplos prácticos
5. Ejercicio

___

## 1. Introducción a los Large Language Models (LLMs)

Los large language models (LLMs) son modelos de inteligencia artificial que han sido entrenados en grandes cantidades de texto para comprender y generar lenguaje natural. Estos modelos pueden realizar una variedad de tareas de procesamiento de lenguaje natural (NLP) como traducción, resumen, generación de texto, respuesta a preguntas, entre otros.

## 2. Configuración del entorno

Para este taller, utilizaremos la biblioteca `transformers` de Hugging Face. Primero, necesitamos instalar las bibliotecas necesarias.


In [None]:
# Instalación de la biblioteca transformers y torch
!pip install transformers torch

: 

## 3. Carga y uso de un modelo preentrenado

Vamos a cargar un modelo preentrenado de Hugging Face y usarlo para generar texto.

In [2]:
from transformers import pipeline

# Cargamos un pipeline de generación de texto
generator = pipeline('text-generation', model='gpt2')

# Generamos texto con el modelo cargado
text = generator("Once upon a time, in a land far, far away", max_length=50, num_return_sequences=1)
print(text[0]['generated_text'])

  from .autonotebook import tqdm as notebook_tqdm
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Once upon a time, in a land far, far away, there seemed to me the existence of this invisible man, an obscure one who, from nothing of the world, only did his thoughts of the world have any definite connexion with any


## 4. Ejemplos prácticos

### 4.1 Generación de texto
Intenta generar texto con diferentes prompts y observa los resultados.

In [3]:
# Ejemplo de generación de texto con diferentes prompts
prompts = [
    "In the future, AI will",
    "The secret to happiness is",
    "The quick brown fox"
]

for prompt in prompts:
    text = generator(prompt, max_length=50, num_return_sequences=1)
    print(f"Prompt: {prompt}")
    print(f"Generated Text: {text[0]['generated_text']}\n")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: In the future, AI will
Generated Text: In the future, AI will be the future, as technology will soon become more complicated for humans to understand and interact with. The need for humans to learn and make intelligent decisions is increasing: we have been living with the same set of rules that we



Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: The secret to happiness is
Generated Text: The secret to happiness is one that goes in at the base of all the pleasures. To create an emotional state is difficult enough, but to do so with your true mental state is a task far beyond that. The process of making peace with your sense

Prompt: The quick brown fox
Generated Text: The quick brown foxes have a great shot at catching the dogs that make their way along the coast, especially when it comes raining.

The brown fox was sighted in September 2013 in Oregon, though it was never reported to the FBI until



### 4.2 Respuesta a preguntas

Podemos usar un pipeline de respuesta a preguntas para encontrar respuestas dentro de un contexto proporcionado.

In [12]:
from transformers import pipeline

# Cargamos un pipeline de respuesta a preguntas
qa_pipeline = pipeline('question-answering')

# Definimos el contexto y la pregunta
context = "Yachay Tech es una universidad de investigación de Ecuador."
question = "¿Qué hacen los estudiantes en Yachay Tech?"

# Obtenemos la respuesta
result = qa_pipeline(question=question, context=context)
print(f"Pregunta: {question}")
print(f"Respuesta: {result['answer']}")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Pregunta: ¿Qué hacen los estudiantes en Yachay Tech?
Respuesta: Ecuador


## 5. Ejercicio

### 5.1 Generación de Resumen

Usa un modelo preentrenado para generar un resumen de un texto largo.

In [6]:
from transformers import pipeline

# Cargamos un pipeline de resumen
summarizer = pipeline('summarization')

# Texto largo para resumir
long_text = """
La inteligencia artificial (IA) se refiere a la simulación de la inteligencia humana en máquinas que están programadas para pensar como humanos y 
imitar sus acciones. El término también se puede aplicar a cualquier máquina que exhiba rasgos asociados con una mente humana como el aprendizaje y 
la resolución de problemas. La característica ideal de la inteligencia artificial es su capacidad para racionalizar y tomar acciones que tengan 
la mejor posibilidad de alcanzar un objetivo específico. Un subconjunto de la inteligencia artificial es el aprendizaje automático, que se refiere a 
la idea de que los sistemas informáticos pueden aprender de datos, identificar patrones y tomar decisiones con una mínima intervención humana.
"""

# Generamos el resumen
summary = summarizer(long_text, max_length=50, min_length=25, do_sample=False)
print("Resumen:")
print(summary[0]['summary_text'])

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Resumen:
 La inteligencia artificial (IA) se refiere a la simulación of the human intelligence . La característica ideal de la IAI is su capacidad for racionalizar y tomar acciones


Ahora usa 3 de las otras tareas disponibles: 

- 'audio-classification'
- 'automatic-speech-recognition'
- 'conversational'
- 'depth-estimation'
- 'document-question-answering'
- 'feature-extraction'
- 'fill-mask'
- 'image-classification'
- 'image-feature-extraction'
- 'image-segmentation'
- 'image-to-image'
- 'image-to-text'
- 'mask-generation'
- 'ner', 'object-detection'
- 'question-answering'
- 'sentiment-analysis'
- 'summarization'
- 'table-question-answering'
- 'text-classification'
- 'text-generation'
- 'text-to-audio'
- 'text-to-speech'
- 'text2text-generation'
- 'token-classification'
- 'translation'
- 'video-classification'
- 'visual-question-answering'
- 'vqa'
- 'zero-shot-audio-classification'
- 'zero-shot-classification'
- 'zero-shot-image-classification'
- 'zero-shot-object-detection'
- 'translation_XX_to_YY'