![title](./images/logo_nao_digital.png)

# 1 Interactuando con LLM's para el análisis de información 

## 1. Objetivo

El presente reporte tiene por objeto introducir los elementos básicos que nos permitan entender las capacidades de los Large Language Models o LLM's (como ChatGPT, Gemini, Claude y otros), los principios en los que se basa dichas herramientas y la forma en que podemos interactuar con el mismo para analizar información texto a partir de su API (interfaz de programación de aplicaciones, por sus siglas en inglés).

En adición, también se presentarán algunas librerias para interactuar con LLM's a partir de información en texto presente en documentos con diferentes formatos.

# 2. Elementos sobre Large Language Models (LLM's)

## 2.1 ¿Qué son los LLM's?

Los Large Language Models (LLM's) son una serie de modelos que pertenecen a la rama de la inteligencia artificial de tipo generativa. Tales abordan la generación de contenido a partir de texto de entrada o de un conjunto de instrucciones dadas por un usuario, como un problema de predicción de sequencias de texto; es decir, estas herramientas intenta predecir cual es el texto que sea más acorde a una colección de texto ordenado. Estos modelos se basan en técnicas de aprendizaje profundo que se entrenan en grandes cantidades de texto de fuentes públicas como libros, comentarios de páginas web, redes sociales y foros, que por diseño abstraen el contenido vertido en tales datos y lo usan para predecir secuencias de texto, es decir, como una especie de base de conocimiento con el cual predecir cual sería la respuesta más acertada a cierta instrucción de texto.

Para ilustralo, pensemos que queremos entrenar un modelo que sea capaz de responder cual es la siguiente palabra de la oración "Añade a la olla la". Proveyendo suficientes ejemplos, quizá incluyendo textos que tengan que ver con temas de temas de la vida cotidiana, podriamos pensar en respuestas como a) llanta, b) dinosaurio, c) Saturno, d) cebolla. Intutivamente sabemos que con los incisos a) y d) podríamos tener una oración coherente, pero el primer inciso redundaria en una oración extraña (*Añade a la olla la llanta*), mientras que el resto de incisos no parece tener relación alguna con un texto con significado aceptable en el idioma. En este caso un modelo de tipo LLM, calcularía un valor de probabilidad de cual es la palabra que sigue a la oración de entrada para generar el texto correspondiente. 

Ésta idea sencilla que es la base con la que funciona dicha arquitectura de modelos, es central para consolidar buenas prácticas de *prompt engineering*, dado que intutivamente nos dice que si queremos obtener resultados adecuados al darle instrucciones a un modelo generativo, necesitamos ser cuidados en los patrones de texto que introducimos, así el modelo generará texto resultado a partir de predicciones basadas en el contexto y la estructura que le hemos provisto de inicio.

Por otro lado, vale la pena destacar que estos modelos se asocian a la palabra inglesa *Large* por dos motivos:

1) Generalmente necesitan un cantidad de datos ejemplo de volumen enorme, como datos de foros de internet o post de redes sociales y
2) Cuentan con una cantidad enorme de parámetros a ser calibrados (los modelos actuales rondan el orden de billones de parámetros). Por su puesto, un entrenamiento de modelos requiere de amplio poder computacional.

Cabe destacar que en la actualidad, los modelos generativos y particularmente los LLM son un campo activo de investigación. De hecho, trabajos recientes de investigación también se han enfocado en desarrollar modelos LLM a través de los cuales se puedan sostener conversaciones coherentes e informativas entre personas y máquinas, además muchas organizaciones han desarrollado y adaptado diferentes LLM's para su uso, abarcando ámbitos de investigación, creatividad, moda, análisis de datos y muchos otros.

En este sentido, es dable mencionar que entre las organizaciones han implementado sus propios LLM's y que los han hecho disponibles al público destacan las siguientes:

i) [ChatGPT](https://chat.openai.com/) en una herramienta de inteligencia articifial lanzada en el año 2022 por la empresa OpenAI. Su funcionamiento es el de un chatbot interactivo capaz de mantener conversaciones con usuarios, responder preguntas y proporcionar información relevante sobre una variedad de temas.

ii) [Google Gemini](https://gemini.google.com/) es un modelo desarrollado por la división DeepMind de Google, que es de tipo Multimodal (es decir, puede recibir inputs de muchas formas, como texto, imágenes y otros) y que salió a finales de 2023.

ii) [Claude de Anthropic](https://www.anthropic.com/claude) es una familia de modelos entrenados por la compañia Anthropic para ser un asistente de texto.


La siguiente imagen es una recopilación que ilustra, para marzo de 2024 a los principales actores del mercado de LLM's, entre los que se incluyen aquellos que dan acceso a sus capas de infraestructura para intectuar con los modelos o bien que han disponibilizado una aplicación de servicios basado en ellos para interacción del usuario:

![title](./images/llm_market.jpeg)


## 2.2 ¿Cuál es la teoría detrás de los LLM's?

Los LLM's se basan en modelos de aprendizaje profundo, llamados *redes neuronales*, que se especializan en aprender la información subyacentes de un conjunto de datos de texto que se les proveen como ejemplo y luego usar ese conocimiento para generar nuevos datos relacionados con las preguntas que reciben como entrada.

El diseño de tales redes utiliza una arquitectura de red neural llamada GPT (*Generative Pre-trained Transformer*), que permite capturar patrones complejos del lenguaje humano (como similaridad en significado, importancia de la posición del texto, etcétera).

El punto de partida de tal proceso es entrenar un modelo al que se le presentan grandes cantidades de texto de ejemplo para aprender patrones y estructuras del lenguaje. En una etapa posterior, se realiza un ajuste en el que se incorpora 

Luego, en la etapa de ajuste fino, donde al modelo se especializa en tareas específicas de conversación como ChatBot en el que se introduce retroalimentación con un framework de aprendizaje por refuerzo, de forma que se puede mejorar su capacidad para producir respuestas coherentes y cohesivas a partir de las interacciones con los usuarios.

Por otro lado, se debe mencionar que a éste tipo de modelo generativos, se les ha denominado en tiempos recientes como *Large Language Models*, donde la palabra inglesa *Large* se emplean por dos razones principales:

1) Generalmente necesitan un cantidad de datos de entrenamiento con un volumen enorme, como datos de foros de internet o post de redes sociales y
2) Cuentan con una cantidad enorme de parámetros -cantidades numéricas que codifican la información aprende- a ser calibrados. De hecho los modelos actuales rondan el orden de billones de parámetros y por ello  su entrenamiento de modelos requiere de amplio poder computacional.

Adicionalmente, podemos añadir que en la práctica obtener un buen resultado a partir de instrucciones de entrada para los LLM's depende además de un diseño adecuado del texto de entrada. Las prácticas y técnicas para optimizar el diseño de las instrucciones que le damos a modelos generativos se denomina **prompt engineering**, algunas recomendaciones de  principios de diseño se pueden consultar en [OpenAI](https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api#h_1951f30f08)
 y [DeepLearning.ai](https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/).

## 2.3 ¿Cómo se interactúa con un  LLM's?

Por otro lado, cabe destacar que en general, muchas de las compañías que lanzaron sus LLM's al mercado generalmente ponen a disposición de los usuarios una interfaz en un navegador a manera de interacción en conversación de un ChatBot. Además, para desarrollos más complejos también facilitan una manera programática de interacción con un API (*Application Programming Interface*, que no es más que un montón de sistemas de software que hace que dos aplicaciones intercambien información).

### 2.3.1 **Interfaces web**

Para ejemplificar sus capacidades, a continuación se presenta la interacción con ChatGPT a través de la interfaz de su página web:

**Figura 1: Ejemplo de conversación de ChatGPT**

![attachment:chatgpt_1.png](./images/chatgpt_1.png)


Aquí se obtuvo una respuesta informativa acerca de la pregunta que le hicimos al bot con respecto a los eclipses.

Al respecto cabe destacar las siguientes partes de la interacción

* **Prompt:** el conjunto de instrucciones de entrada. En esta caso el prompt consistió en el texto `Explica un eclipse solar en términos simples.`
* **Respuesta o salida (output):** Se refiere al texto que el Chatbot nos proporcionó como resultado de nuestra instrucción. 

En general los LLM's tienes algunas limitaciones de uso en términos comerciales y de privacidad, debe revisarse cada caso específico para el detalles

### 2.3.2 **Interacción programática por un API**

En secciones posteriores abordaremos a detalle como se realiza la interacción por éste medio, pero antes es relevante destacar en general para usar los LLM's a través de API's
se debe recurrir a librerias de Python que 1) usan llaves de autenticación que nos permiten comunicar que somos un usuario con licencias o permisos para usar los modelos de los proveedores, 2) contienen la instrucciones de interacción con el ChatBot y 3) reciben la respuestas correspodiente.

Entre éstas destacan los siguientes:

* **Open AI library:** se trata de la libreria oficial de Open AI para interactura con ChatGPT, véase las instrucciones en https://platform.openai.com/docs/quickstart
* **Gemini API SDK:** relativa a la librería de Google para interactuar con Gemini, ver https://ai.google.dev/gemini-api/docs/quickstart?hl=es-419&lang=python.
* **Anthropic API SDK:** se refiere a la libreria de Anthropic para usar su modelo, véase https://docs.anthropic.com/en/docs/quickstart-guide.

Como se puede notar cada proveedor de LLM y sus librerías específicas para interactuar con sus API's tiene características particulares a las que tendremos que adaptarnos en el desarrollo de nuestros proyectos.


#### 2.3.2.1 ¿Es necesario usar una librería específica para cada modelo que usemos?

Por supuesto que algo que nos puede venir a la cabeza es la disyuntiva siguiente:

*¿Cada que use un modelo LLM de un proveedor tengo que cambiar mi código para usar su API?*

La respuesta es si y dependemos de que exista una librería que permita interactuar con el API del modelo, junto con sus métodos particulares y diferentes implementaciones, que varían de un proyecto a otro; en su defecto tendremos que crearla de cero.

Algunos desarrolladores han tratado de abordar dicho problema desarrollando un framework de abstracción como [LangChaing](https://python.langchain.com/v0.2/docs/introduction/) que facilita la interacción con multiples modelos en el desarrollo de aplicaciones, ya que usar diferentes modelos, testearlos y usarlos en producción con métodos similares, facilitando el despliegue de aplicaciones de forma abstracta e independiente a los modelos subyacentes, desplegar ChatBots y muchas cosas interesantes (Te animamos a leer la documentación del proyecto). 

Concretamente, las instrucciones para ver como interactuar con diferentes modelos usando el framework LangChain se pueden consultar aquí: https://python.langchain.com/v0.2/docs/tutorials/llm_chain/, además todos los LLM's soportados por diferentes proveedores junto con las instrucciones concretas para su uso están disponibles en la siguiente liga: https://python.langchain.com/v0.1/docs/integrations/llms/

Esta es una gran solución, pues permite interactuar con los LLM's y probar sus funcionalidades y concentrarse en lo que queremos que el modelo haga por nuestros casos de uso, en vez de navegar en un mar de código :D!



## 2.4 ¿Cuáles son los elementos principales de los LLM's?

Entrando en materia, debemos reconocer que existen otros elementos que debemos tener presentes para el funcionamiento de tales herramientas y que desempeñan un papel crucial en la generación de texto coherente y contextualmente relevante durante las interacciones con los usuarios.

1. **Tokens:** Los tokens son unidades individuales en las que se divide el texto de entrada y salida para que el modelo pueda procesarlo. En el contexto de los LLM's, un token puede ser una palabra, un número, un signo de puntuación o incluso una parte de una palabra. Cada token tiene su propia representación numérica (ver encajes) y, al considerar contextos más amplios, el modelo puede generar respuestas más coherentes y precisas.
2. **Encajes (Embeddings):** Los embeddings son representaciones numéricas de las palabras o tokens en el texto. En el caso de los LLM's, se utilizan embeddings para codificar el significado y contexto de las palabras en vectores numéricos de alta dimensión. Esto ayuda al modelo a comprender las relaciones semánticas y sintácticas entre las palabras en las oraciones.
3. **Número de tokens máximos:** Para controlar la longitud de las respuestas generadas, se establece un límite en el número máximo de tokens que el modelo puede producir. Esto es útil para garantizar que las respuestas sean de una longitud razonable y fáciles de leer.
   
4. **Temperatura:** La temperatura es un parámetro de control en el proceso de generación de texto. Un valor alto de temperatura (por ejemplo, 1.0) hace que el modelo sea más creativo y generará respuestas más diversas pero potencialmente menos coherentes. Por otro lado, una temperatura baja (por ejemplo, 0.2) producirá respuestas más determinísticas y más repetitivas. Ajustar la temperatura permite equilibrar la creatividad con la coherencia en las respuestas generadas.

Al respecto, conviene notar que en la mayoría de los casos los proveedores de LLM's nos permite configurar la cantidad máxima de tokens en la respuesta generada por el modelo, así como la temperatura correspondiente. Por otro lado, los encajes son parte de la representación numérica calibrar en la fase de pre-entrenamiento del modelo y permite obtener respuesta al traducir las indicaciones que hacemos a chatbot hacia un espacio numérico con el que se generan las respuestas correspondientes.

# 3. Interacción con LLM's a través de API's

Como hemos dicho, sumado a la interfaz de interacción de usuario a través de un ChatBot, los proveedores de LLM's también proporciona un API que acepta peticiones HTTP para interactuar con sus servicios. En seguida mostraremos ejemplos usando el framework de librerias específicos de un proveedor y también consideraremos a [LangChaing](https://python.langchain.com/v0.2/docs/introduction/) del que ya hemos hablado anteriormente

## 3.1 Generalidades de la interacción con API's de los LLM's

### 3.1.1 Licencias de uso y princing

Un fenómeno interesante sobrelos modelos LLM es que se han integrado a cadenas de producción de muchas industrias como bienes valiosos; [este fenómeno](https://medium.com/@brandonfrazierjd/the-coming-commoditization-of-large-language-models-7b8b440db488) se denomina *commoditization*.

Como resultado, en el mercado actual la mayoria de los proveedores de LLM's comercializan su acceso, ofreciendo diferentes licencias de uso que, en lineas generales, tienen cargos al llamarse cada modelo con una instrucción; por ejemplo, una forma común de su estructura de precios es considerar tarifas que se cobran conforme a la cantidad de tokens de su input y también por la cantidad de tokens que genera la respuesta de la herramienta, esto es, si la entrada es larga pagaremos más y si la salida es larga pagaremos más que en inputs o respuestas cortas.
Este punto es **muy importante** porque puede disparar las facturas de uso de los LLM.

Sin embargo, algunos proveedores nos permiten usar sus modelos con políticas de prueba o uso justo. Debemos mencionar que a mediados de Junio de 2024, se tiene que algunos proveedores ofrecen interactuar con sus modelos sin costo:

1) Claude de Anthropic ofrece una cortesia de 5 USD gratuitos de sus créditos, que expiran en 14 días a partir de la creación del API Key correspondiente. Véase https://console.anthropic.com/settings/keys
2) Gemini de Google permite testear sus modelos mediante un API siguiente una política de uso justo. Para ello basta acceder a nuestra cuenta google y proceder liga https://aistudio.google.com/app/apikey


Por otro lado, también existe posibilidad de correr modelos LLM en nuestra computadora local, si nuestro hardware cumple con las capacidades necesarios. A continuación se provee una referencia de como usar LangChaing para correr modelos LLM de forma local:

https://python.langchain.com/v0.1/docs/guides/development/local_llms/



### 3.1.2 ¿Qué modelo LLM debo usar para este Reto?

En general, como hemos dichos antes que existen proveedores que ofrecen accesos a sus modelos LLM a través de versiones de prueba (e.g. créditos gratuitos) o a través de licencias con uso restringido.

Es por ello que para este reto se recomienda amplimente explorar las páginas de los principales proveedores y localizar aquellos que con versiones de prueba y sin costo bajo ciertas condiciones, generando la correspondiente API Key. También se puede considerar opciones como las que siguen:

1. Gemini de Google y Claude Anthropic, que a mediados de 2024 ofrecen versiones de prueba,
2. Cuentas de tipo educativo o capaz gratuitas (Free Tier) de proveedores en la nube que permiten hacer uso de modelos LLM's, por ejemplo:
    - AWS Educate con las cuales se puede hacer uso del servicio [Amazon Bedrock](https://aws.amazon.com/es/bedrock/) que nos da acceso a muchos modelos de inteligencia articifial generativa,
    - Vertex AI de Google, usando créditos de Google Cloud Computing
    - Azure ML de Microsoft, usando créditos de Azure.
3. Versiones de LLM's que puede correr localmente (ver sección 2.3.2.1), sin embargo es sabido que requieren de computadoras con capacidades grandes de hardware como tarjetas GPU.
4. En caso de tener acceso claves de un LLM para uso propio, usarlas cuidando el uso limitado de tokens para no incrementar demasiado el costo de uso.

Acerquese al Experto Técnico para orientación de la mejor opción en su caso concreto :D


### 3.1.3 Autenticación

En general, los proveedores nos dejan interactuar con las API's de los LLM a través de la creación de un API Key para identificar al usuario que hará las peticiones correspondientes, la cual no es mas que una clave alfanumerica que le comunicaremos a la libreria y con la cual podremos usar servicios.


Para crearla, basta ingresar en la dirección electrónica del proveedor y buscar el apartado de creación correspondiente. 

A manera de ejemplo, en la imagen inferior se aprecia como se ha creado un API para Gemini, la cual se puede crear en la liga https://aistudio.google.com/app/apikey:

![title](./images/gemini_api_key.png)


A partir de este punto, es importante que salvemos copiemos y salvemos la llave en una ubicación segura, pues será la única ocasión en que ésta información será visible para nosotros dentro de la plataforma.

Cabe destacar que muchos proveedores LLM's, como OpenAI, proveen consejos acerca de las mejores prácticas para el manejo seguro de las API Key de la aplicación (véase https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety), pero que, como es usual en el desarrollo de software, se resumen en 1) controlar el acceso a las claves, 2) no colocarlas en ambientes donde se puedan compartir de forma no intenciona y 3) leerlas en nuestro código desde variables de ambiente del sistema operativo para que no se encuentren expuestas en repositorios de trabajo. **Nota:** Es extremadamente importante seguir las recomendaciones de seguridad para evitar sorpresas!



### 3.1.4 Modelos

Como es usual, los proveedores de LLM's van perfeccionando sus modelos, algunos para mejorar su eficiencia, optimizar la cantidad de parámetros o especializarse en temas concretos. Estos suelen estar disponibles para los usuarios a través de versiones y normalmente su tarifa puede variar siendo más caras las versiones más actuales.

Por ejemplo, OpenAI provee una lista de sus modelos https://platform.openai.com/docs/models/, entre los que a mediados de 2024 destacan:

* **GPT-4o:** https://platform.openai.com/docs/models/gpt-4o
* **GPT-4 Turbo and GPT-4:** https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
* **GPT-3.5 Turbo:** https://platform.openai.com/docs/models/gpt-3-5-turbo

En la interacción con el API deberemos establecer con que modelo queremos interactuar a través de su nombre.

En tal sentido, es muy importante remarcar que el acceso las versiones de diferentes modelo a través del API tendrá en general un modelo de **cobro basado en la longitud de tokens en los inputs y outputs de la interacción**. En general, se trata de precio en milésimas o centavos de dolar en paquetes de miles o millones tokens en el input y output. No se debe perder de vista el uso que se hace de la herramienta para evitar cobros inesperados. Para mayor información consultar la sección correspondiente de pricing del modelo que se vaya a emplear.


### 3.1.5 Haciendo peticiones hacia el API con librerias

Para esta sección, interactuaremos con el LLM llamado Gemini de Google, usando 1) la libreria nativa desarrollada por dicho proveedor, y 2) el framework de LangChain.


### 3.1.5.1 Usando la librería de un proveedor

En este caso, se recomienda  localizar la documentación del proveedor de LLM que se pretende usar junto con las intrucciones correspondiente. 

En nuestro ejemplo, Gemini provee la documentación en la liga https://ai.google.dev/gemini-api/docs/get-started/tutorial?hl=es-419&lang=python

En resumen, esta indica que podemos instalar el SDK correspondiente bajo la instrucción:

```
# Instala libreria de google-generativeai para Gemini
pip install -q -U google-generativeai
```

A continuación mostramos un código simple para interactuar con la API donde introducimos un prompt para conocer sobre *Mario Bross*. La idea general del interacción con la API es simple: i) importamos el módulo para interacturar con el modelo, ii) le damos el API Key, definimos el nombre del modelo a usar, iii) le damos el prompt correspondiente y iv) recibimos la respuesta en JSON que deberemos post-procesar para extraer el texto y demás datos relevantes de la interacción.

In [3]:
"""
Script para interactuar con el API de Gemini en su version
gemini-1.5-flash, LLM desarrollado por Google Deep Mind
"""

import google.generativeai as genai

# Indica el API Key de nuestro usuario
GOOGLE_API_KEY="..." # <-- aqui va tu clave
genai.configure(api_key=GOOGLE_API_KEY)

# Especificamos el modelo a emplear ('gemini-1.5-flash')
model = genai.GenerativeModel(
    'gemini-1.5-flash'
    )
# Prompt a enviar al modelo
PROMT="Dime en tres lineas quien es Mario Bross"

# Obtiene respuesta
response = model.generate_content(PROMT)

print("Responde en valor crudo")
print(response)

response:
GenerateContentResponse(
    done=True,
    iterator=None,
    result=protos.GenerateContentResponse({
      "candidates": [
        {
          "content": {
            "parts": [
              {
                "text": "Mario Bros es un personaje de videojuegos creado por Shigeru Miyamoto, protagonista de la franquicia Super Mario. Es un fontanero italiano ficticio que vive en el Reino Champi\u00f1\u00f3n, donde debe rescatar a la Princesa Peach del malvado Bowser. Es uno de los personajes de videojuegos m\u00e1s populares y reconocibles del mundo. \n"
              }
            ],
            "role": "model"
          },
          "finish_reason": "STOP",
          "index": 0,
          "safety_ratings": [
            {
              "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
              "probability": "NEGLIGIBLE"
            },
            {
              "category": "HARM_CATEGORY_HATE_SPEECH",
              "probability": "NEGLIGIBLE"
            },
            

Como vemos, el API retorna una respuesta compleja en formato JSON, sin embargo la respuesta del texto se puede extraer y es algo parecido a lo siguiente:


*Mario Bros es un personaje de videojuegos creado por Shigeru Miyamoto, protagonista de la franquicia Super Mario. Es un fontanero italiano ficticio que vive en el Reino Champiñon, donde debe rescatar a la Princesa Peach del malvado Bowser. Es uno de los personajes de videojuegos más populares y reconocibles del mundo.*


Estas ideas se pueden extrapolar a cualquier librería o SDK del proveedor de LLM que nos interese usar, dado que la sintaxis suele ser similar.

### 3.1.5.2 Usando el framework de LangChain

En complemento, también podemos optar por usar el framework de LangChain, que como sabemos nos ayuda a abstraer la interacción con los LLM's.

Reiteramos que 1) las instrucciones para ver como interactuar con diferentes modelos usando el framework LangChain se pueden consultar aquí: https://python.langchain.com/v0.2/docs/tutorials/llm_chain/, y 2) además todos los LLM's soportados por diferentes proveedores junto con las instrucciones concretas para su uso están disponibles en la siguiente liga: https://python.langchain.com/v0.1/docs/integrations/llms/.

Adicionalmente, existen gran cantidad de recursos formativos en la documentación respecto a las capacidades de LangChain:

* **How-to guides:** https://python.langchain.com/v0.2/docs/how_to/
* **Quick start on LLM's:** https://python.langchain.com/v0.1/docs/modules/model_io/llms/quick_start/
* **Components:** https://python.langchain.com/v0.1/docs/modules/#prompts
* **Chat models (including Messagges):** https://python.langchain.com/v0.1/docs/modules/model_io/chat/quick_start/
* **Parsers:** https://python.langchain.com/v0.1/docs/modules/model_io/output_parsers/


Siguiendo tales documentaciones se espera que pueda adaptar el código correspondiente para el proveedor de LLM con el que desee trabajar.


En nuestro siguiente ejemplo, interactuaremos nuevamente con Gemini de Google. Primero, de acuerdo a la documentación deberemos ejecutar los siguientes códigos para instalar las librerías correspondientes:


```
# Instalamos langchain
pip install langchain

# Instala el soporte para el modelo que nos interesa
pip install --upgrade --quiet  langchain-google-genai pillow
```

Ahora mostraremos un ejemplo más complejo que lo anterior aprovechando las funcionalidades que nos da LangChaing. En concreto éste código realizará lo siguiente

 1) Usaremos la funcionlidad *langchain_core.messages* que permite interactuar con diferentes tipos de objetos de prompt y conversaciones (ver https://api.python.langchain.com/en/latest/core_api_reference.html#module-langchain_core.messages) para enviar mensajes de sistema e instrucciones de un humano,

2) Haremos un *parsing* de la respuesta (es decir, la post-procesaremos para poner los datos que recibimos del API en un formato más cómodo). 

In [10]:
import os
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.messages import HumanMessage, SystemMessage

# Clase para hacer parsing de la respuesta
parser = StrOutputParser()

# Definimos tipos de mensajes a enviar al modelo
messages = [
    SystemMessage(content="Ayudame a crear 3 propuestas de slogan para la siguiente situacion"),
    HumanMessage(content="un equipo de baseball que tiene a un zorro como mascota en 5 palabras"),
]

# Indica el API Key de nuestro usuario
GOOGLE_API_KEY = "..." # <-- aqui va tu clave

# Define el modelo a emplear

model = ChatGoogleGenerativeAI(
    model='gemini-1.5-flash',
    google_api_key=GOOGLE_API_KEY
)

# Ejecuta una tarea de completar un texto
result = model.invoke(messages)

# Imprime el mensaje respuesta del LLM
print(parser.invoke(result))

Aquí hay 3 lemas para un equipo de béisbol con un zorro como mascota:

1. **Desata al zorro: ¡Ataca!**
2. **Zorros astutos: ¡Dominan el diamante!**
3. **¡El zorro te atrapa: ¡Cuidado!** 



**Nota:**

    * Recordemos que los LLM se basan en un modelo generativo de lenguaje que tiene una componente que controla la aleatoreidad del texto generado (`temperature`), por lo que no siempre obtendremos las mismas respuestas.

In [11]:
# Indica el API Key de nuestro usuario
GOOGLE_API_KEY = "..." # <-- aqui va tu clave

# Define el modelo a emplear cambiado la temperatura

model2 = ChatGoogleGenerativeAI(
    model='gemini-1.5-flash',
    google_api_key=GOOGLE_API_KEY,
    temperature=0.3 # <-- aqui se cambio la temperatura
)

# Ejecuta una tarea de completar un texto
result2 = model2.invoke(messages)

# Imprime el mensaje respuesta del LLM
print(parser.invoke(result2))

Aquí tienes 3 lemas para un equipo de béisbol con un zorro como mascota, en 5 palabras o menos:

1. **Desata la astucia del zorro.**
2. **El zorro te atrapa.**
3. **Rápido, astuto, zorro.** 



# 4. Extracción de texto en diferentes formatos

Python es un lenguaje con mucha flexibilidad para trabajar archivos de texto. A continuación se presenta una discusión de formatos comunmente encontrados en la práctica **.txt**, **.pdf** y **.html**.

## 4.1 Archivos .txt

Los archivos de texto (.txt) son los más fáciles de manejar pues no necesitan ninguna biblioteca especial. Se pueden acceder desde la función `open(...)`, además de que es posible realizar manipulaciones como reemplazar caracteres, añadir nuevos, realizar lecturas y escrituras del mismo.


Una buena referencia para trabajar con éste tipo de archivo se encuentra en https://realpython.com/read-write-files-python/

A continuación se presenta un ejemplo de cómo leer el archivo `tale_of_two_cities_chapter_1.txt` que posee el texto del primer capítulo de la novela *Tales of Two Cities* del autor Charles Dickens:

In [12]:
def reading_txt(file_path: str) -> str:
    """
    Extrae el texto de un archivo .txt

    Parametros:
        file_path (str): Ruta del archivo de texto a analizar.

    Salida:
        str: El texto extraído del archivo.
    """

    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

# Ruta donde se encuentra el archivo
txt_file_path = './data/tale_of_two_cities_chapter_1.txt'

# Extraemos el texto
extracted_text = reading_txt(txt_file_path)

# Imprime el texto
print(extracted_text)

CHAPTER I.
The Period

It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of Light, it was the season of Darkness, it was the spring of hope, it was the winter of despair, we had everything before us, we had nothing before us, we were all going direct to Heaven, we were all going direct the other way—in short, the period was so far like the present period, that some of its noisiest authorities insisted on its being received, for good or for evil, in the superlative degree of comparison only.
There were a king with a large jaw and a queen with a plain face, on the throne of England; there were a king with a large jaw and a queen with a fair face, on the throne of France. In both countries it was clearer than crystal to the lords of the State preserves of loaves and fishes, that things in general were settled for ever.
It was the year of Our Lord one t

## 4.2 Archivos .pdf

El formato de documento portable (*.pdf*, por sus siglas en inglés) es tipo de archivo con gran popularidad en el mundo. En Python, se
suele emplear la librería `PyPDF2` (ver https://pypdf2.readthedocs.io/en/3.0.0/).

```
pip install PyPDF2
```

Una referencia de como emplearlo para extraer texto se presenta en https://pypdf2.readthedocs.io/en/3.0.0/user/extract-text.html


## 4.3 Archivos .html

El formato *Hypertext Markup Language* (*.html*, por sus siglas en inglés) permite crear documento con formato estilizado en el ambiente de desarrollo web, por lo que multiples sitios electrónicos basan si diseño en el mismo.  En Python, se puede extraer texto de dicho formato empleando la libreria denominada `Beautiful Soup` (ver https://www.crummy.com/software/BeautifulSoup/bs4/doc/), la cual se puede instalar como sigue:

```
pip install beautifulsoup4
```

La tarea de extracción en este caso depende fuertemente de la estructura en que el texto se encuentra organizado en el archivo .html (por ejemplo en forma de párrafos, viñetas, tablas y otros), las técnicas para extraerlo de manera eficiente se denominan *web scrapping*. Una referencia de como emplearlo para extraer texto se presenta en https://realpython.com/beautiful-soup-web-scraper-python/

## 5. Entregables

En esta sección se describen los entregables de la presente etapa que consisten en un script en Python para interactuar con algún LLM a través de su correspondiente API. 

Para ello se deberá crear las cuentas de plataforma correspondiente y generar el API Key correspondiente (**NO SE DEBE INCLUIR LA API KEY**, revise, por ejemplo, https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety para ver como invocarle como variable de ambiente desde Python).

**Nota:** *En caso de tener dudas del modelo que puede ser más adecuado para usar y del proceso para interactuar con el usado el API se debe consultar al Experto Técnico*

---

Considere las instrucciones siguientes para los entregables:

A. Diseña scripts y prompts que permitan:

    1) Obtener un resumen en español, de dos párrafos de longitud, del contenido del texto `news_digital_bank.txt`. Adicionalmente, se deberá incluir un tercer párrafo que indique cuál es el diario del que proviene el texto y el título correspondiente de la noticia. Este programa se deberá guardar con nombre `conversacion_1.py`

    2) Crear 5 viñetas (bullets) que presenten los elementos más importantes de la historia el archivo `cuento.pdf` (usando el texto de todas las páginas del archivo). Adicionalmente, se deberá incluir un par de viñetas que indique a) el nombre del autor del texto, 2) los personajes principales de la trama, 3) el título del cuento. Dicho programa se deberá guardar con nombre `conversacion_2.py`

Cabe destacar que como resultado de los programas anteriores, se debe crear un script de conversación que guarde el script de conversación entre el usuario y LLM en un archivo .txt (conversacion_i.txt donde i es el número de inciso asociado), con la estructura siguiente:

**Ejemplo**
```
Usuario: <Indicaciones del prompt empleado>

LLM: Respuesta
```

Adicionalmente se deberá adjuntar capturar de pantalla en formato .png donde se aprecia el cuerpo de las conversaciones generadas por los ChatBots, se pueden usar numeraciones sucesivas sin son muchas fotos, ejemplo: evidencia_1_conversacion_i.png, evidencia_2_conversacion_i.png, ..., evidencia_5_conversacion_i.png