# Introducción a los Large Language Models (LLMs) usando Python
### Percepción Computacional - Universidad de los Hemisferios
#### Maestría en Inteligencia Artificial Aplicada

## Objetivo:
El objetivo de este taller es introducir a los estudiantes a los conceptos básicos de los large language models (LLMs) y proporcionarles una experiencia práctica utilizando bibliotecas de Hugging Face para trabajar con modelos preentrenados de lenguaje natural.

## Contenido:
1. Introducción a los Large Language Models (LLMs)
2. Configuración del entorno
3. Ejemplos prácticos
4. Ejercicio

## 1. Introducción a los Large Language Models (LLMs)

Los large language models (LLMs) son modelos de inteligencia artificial que han sido entrenados en grandes cantidades de texto para comprender y generar lenguaje natural. Estos modelos pueden realizar una variedad de tareas de procesamiento de lenguaje natural (NLP) como traducción, resumen, generación de texto, respuesta a preguntas, entre otros.

## 2. Configuración del entorno

Para este taller, utilizaremos la biblioteca `transformers` de Hugging Face. Primero, necesitamos instalar las bibliotecas necesarias.


In [16]:
# Instalación de la biblioteca transformers y torch
!pip install transformers
!pip install torch
!pip install tf-keras

Collecting tf-keras
  Downloading tf_keras-2.16.0-py3-none-any.whl.metadata (1.6 kB)
Downloading tf_keras-2.16.0-py3-none-any.whl (1.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m0m
[?25hInstalling collected packages: tf-keras
Successfully installed tf-keras-2.16.0


Importamos `pipeline` de la librería `transformers`

In [18]:
from transformers import pipeline

## 3. Ejemplos prácticos de carga y uso de modelos preentrenados

### 3.1 Generación de texto (`text-generation`)

Vamos a cargar un modelo preentrenado de Hugging Face y usarlo para generar texto.

In [19]:
# Cargamos un pipeline de generación de texto
generator = pipeline('text-generation', model='gpt2')

# Generamos texto con el modelo cargado
text = generator("Once upon a time, in a land far, far away", max_length=50, num_return_sequences=1)
print(text[0]['generated_text'])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Once upon a time, in a land far, far away, when a man and a woman meet, he is one of the good.

If a people from the land of Israel are to follow a Lord from that, they must, when


Ahora usamos el modelo para la generación de texto mediante prompts

In [5]:
# Ejemplo de generación de texto con diferentes prompts
prompts = [
    "In the future, AI will",
    "The secret to happiness is",
    "The quick brown fox"
]

for prompt in prompts:
    text = generator(prompt, max_length=50, num_return_sequences=1)
    print(f"Prompt: {prompt}")
    print(f"Generated Text: {text[0]['generated_text']}\n")

NameError: name 'generator' is not defined

### 3.2 Respuesta a preguntas (`question-answering`)

Podemos usar un pipeline de respuesta a preguntas para encontrar respuestas dentro de un contexto proporcionado.

In [12]:
# Cargamos un pipeline de respuesta a preguntas
qa_pipeline = pipeline('question-answering')

# Definimos el contexto y la pregunta
context = "Yachay Tech es una universidad de investigación de Ecuador."
question = "¿Qué hacen los estudiantes en Yachay Tech?"

# Obtenemos la respuesta
result = qa_pipeline(question=question, context=context)
print(f"Pregunta: {question}")
print(f"Respuesta: {result['answer']}")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Pregunta: ¿Qué hacen los estudiantes en Yachay Tech?
Respuesta: Ecuador


### 3.3 Resumen de texto

Usa un modelo preentrenado para generar un resumen de un texto largo.

In [6]:
# Cargamos un pipeline de resumen
summarizer = pipeline('summarization')

# Texto largo para resumir
long_text = """
La inteligencia artificial (IA) se refiere a la simulación de la inteligencia humana en máquinas que están programadas para pensar como humanos y 
imitar sus acciones. El término también se puede aplicar a cualquier máquina que exhiba rasgos asociados con una mente humana como el aprendizaje y 
la resolución de problemas. La característica ideal de la inteligencia artificial es su capacidad para racionalizar y tomar acciones que tengan 
la mejor posibilidad de alcanzar un objetivo específico. Un subconjunto de la inteligencia artificial es el aprendizaje automático, que se refiere a 
la idea de que los sistemas informáticos pueden aprender de datos, identificar patrones y tomar decisiones con una mínima intervención humana.
"""

# Generamos el resumen
summary = summarizer(long_text, max_length=50, min_length=25, do_sample=False)
print("Resumen:")
print(summary[0]['summary_text'])

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Resumen:
 La inteligencia artificial (IA) se refiere a la simulación of the human intelligence . La característica ideal de la IAI is su capacidad for racionalizar y tomar acciones


### 3.4 Traducción de texto (`translation`)

Usamos un modelo traductor preentrenado de inglés a español

In [None]:
# Cargamos un pipeline de traducción especificando el modelo
translation_pipeline = pipeline('translation', model='Helsinki-NLP/opus-mt-en-es')

# Definimos el texto a traducir
text = "Persistent homology is a method for computing topological features of a space at different spatial resolutions. More persistent features are detected over a wide range of spatial scales and are deemed more likely to represent true features of the underlying space rather than artifacts of sampling, noise, or particular choice of parameters"

# Obtenemos la traducción.
result = translation_pipeline(text)
print(f"Texto original: {text}")
print(f"Traducción: {result[0]['translation_text']}")

### 3.5 

Usamos un modelo

In [None]:
!pip install gtts
from gtts import gTTS

# Definimos el texto que queremos convertir a voz
text = "Persistent homology is a method for computing topological features of a space at different spatial resolutions. More persistent features are detected over a wide range of spatial scales and are deemed more likely to represent true features of the underlying space rather than artifacts of sampling, noise, or particular choice of parameters."

# Convertimos el texto a voz
tts = gTTS(text, lang='en')

# Guardamos el resultado en un archivo de audio
tts.save("PH.mp3")

print("El archivo de audio ha sido guardado como output.mp3")

### 3.X Análisis de sentimientos (`sentiment-analysis`)

In [None]:
# Load the sentiment analysis pipeline
sentiment_analyzer = pipeline("sentiment-analysis")

# Text to analyze sentiment
text = "I'm feeling very happy today because I just got promoted at work! It's such a great day and I'm excited about the new opportunities ahead. However, I'm a bit nervous about the new responsibilities, but overall, I think this is a positive change."

# Perform sentiment analysis
sentiment_result = sentiment_analyzer(text)

# Print the sentiment result
print("Sentiment Analysis Result:")
for result in sentiment_result:
    print(f"Label: {result['label']}, Score: {result['score']}")

Ahora usa 3 de las otras tareas disponibles: 

- 'audio-classification'
- 'automatic-speech-recognition'
- 'conversational'
- 'depth-estimation'
- 'document-question-answering'
- 'feature-extraction'
- 'fill-mask'
- 'image-classification'
- 'image-feature-extraction'
- 'image-segmentation'
- 'image-to-image'
- 'image-to-text'
- 'mask-generation'
- 'ner', 'object-detection'
- 'question-answering'
- 'sentiment-analysis'
- 'summarization'
- 'table-question-answering'
- 'text-classification'
- 'text-generation'
- 'text-to-audio'
- 'text-to-speech'
- 'text2text-generation'
- 'token-classification'
- 'translation'
- 'video-classification'
- 'visual-question-answering'
- 'vqa'
- 'zero-shot-audio-classification'
- 'zero-shot-classification'
- 'zero-shot-image-classification'
- 'zero-shot-object-detection'
- 'translation_XX_to_YY'