# Reto 1 - Sistema RAG usando IA Generativa
## 1. Instalación de dependencias y inicialización del entorno para generar las respuestas del LLM

In [32]:
# instalamos langchain
!pip install langchain_openai -q

In [33]:
# Cargamos el TOKEN de OpenAI para poder ejecutar prompts
from google.colab import userdata
api_key = userdata.get('OpenAI_Key')

In [34]:
# Importamos las librerias para ejecutar los prompts
from langchain_openai import ChatOpenAI
# Inicializamos el modelo LangChain OpenAI
# Seleccionamos la temperatura de 0 para mantener el modelo lo mas
# deterministico posible
llm = ChatOpenAI(
    model="gpt-4o-mini",
    api_key=api_key,
    temperature=0
)

## 2. Zeroshot con metodlogía CoT sin espeicificar la implementación para obetener un panorama general de la información contenida en el LLM

In [10]:
# Zero-shot concadena de pensamiento simple
zero_shot_cot = """
Actúa como un arquitecto senior de software y piensa paso a paso (Chain of Thought)
para diseñar el ciclo de desarrollo de un sistema RAG usando langchain y OpenAI.

Describe el razonamiento en pasos enumerados.

"""


In [11]:
zero_shot_cot_response = llm.invoke(zero_shot_cot)
print(zero_shot_cot_response.content)

Claro, aquí tienes un enfoque paso a paso para diseñar el ciclo de desarrollo de un sistema RAG (Retrieval-Augmented Generation) utilizando LangChain y OpenAI:

### Paso 1: Definición de Requisitos
- **Objetivo del Sistema**: Definir claramente qué problema resolverá el sistema RAG. Por ejemplo, ¿será un asistente virtual, un sistema de recomendación, o un generador de contenido?
- **Usuarios y Casos de Uso**: Identificar quiénes serán los usuarios finales y cuáles son los casos de uso específicos que el sistema debe abordar.

### Paso 2: Investigación y Selección de Tecnologías
- **Evaluar LangChain**: Investigar las capacidades de LangChain para la integración de modelos de lenguaje y sistemas de recuperación de información.
- **Seleccionar el Modelo de OpenAI**: Decidir qué modelo de OpenAI se utilizará (por ejemplo, GPT-3.5, GPT-4) en función de los requisitos de rendimiento y costo.

### Paso 3: Diseño de la Arquitectura
- **Componentes del Sistema**: Definir los componentes princ

Observaciones:


*   El modelo nos presento la respuesta de manera general, mencinando los pasos a seguir para la implementación.
*   Menciono las metodologías que se le solictaron, pero no incluyó de manera específica como usarlas (no se le solicto al modelo)
*   La respuesta demuestra que el modelo tiene la información necesaria, ya que en ningún momento nos mencion que desconocía alguna de las tecnlogías solicitadas.


## 3. Fewshot con CoT para obetener los pasos generales para la implementación del sistema RAG

In [30]:
# Few-shot con Cadena de Pensamiento simple
few_shot_cot = """
Actúa como un arquitecto senior de software y piensa paso a paso (Chain of Thought)
para diseñar el ciclo de desarrollo de un sistema RAG usando langchain y OpenAI.

Describe el razonamiento en pasos enumerados.

El diseño debe de incluir las siguientes funcionalidades:
Paso 1: Extracción de texto de archivos pdf y txt usando langchain
Paso 2: División de texto en fragmentos (chunking) usando langchain
Paso 3: Creación de embeddings
Paso 4: Almacenamiento vectorial en ChromaDB
Paso 5: Sistema de recuperación de información relevante
Paso 6: Generar los prompts utilizando los fragmentos de textos obtenidos en el Paso 5.
Paso 7: Generación de respuestas usando OpenAI GPT-4 usando langchain

Incluye en la respuesta:
1. Las depenencias necesarias para ejecutar el código.
2. Código de ejemplo para cada paso.

"""


In [31]:
few_shot_cot_response = llm.invoke(few_shot_cot)
print(few_shot_cot_response.content)

Para diseñar un sistema de Recuperación de Respuestas Generativas (RAG) utilizando LangChain y OpenAI, seguiremos un enfoque paso a paso. A continuación, se describen los pasos necesarios, las dependencias requeridas y ejemplos de código para cada uno de ellos.

### Dependencias necesarias

Antes de comenzar, asegúrate de tener instaladas las siguientes bibliotecas:

```bash
pip install langchain openai chromadb PyPDF2
```

### Paso 1: Extracción de texto de archivos PDF y TXT usando LangChain

**Razonamiento**: Necesitamos extraer texto de diferentes formatos de archivo para poder procesarlo posteriormente.

**Código de ejemplo**:

```python
from langchain.document_loaders import PyPDFLoader, TextLoader

def load_documents(file_paths):
    documents = []
    for file_path in file_paths:
        if file_path.endswith('.pdf'):
            loader = PyPDFLoader(file_path)
            documents.extend(loader.load())
        elif file_path.endswith('.txt'):
            loader = TextLoader(f

## 4. Fewshot con metodología CoT y CREATE para la crecaión de un promppt mas especifico y con los requerimientos especificos para el sistema RAG

In [44]:
# Few-shot con Cadena de Pensamiento utilizando tecnología C.R.E.A.T.E.
few_shot_cot_create = """
<instruction>
Actúa como un arquitecto senior de software de Python especializado en sistemas RAG y
ciencia de datos, y amplia experiencia en implementaciones en Github Actions.
</instruction>

<context>
Estoy trabajando en la implementación de un sistema RAG (Retrieval-Augmented Generation)
utilizando langchain y OpenAI GPT-4, para la consulta de documementos internos de una empresa.
</context>

<requirements>
Crear un sistema RAG que:
- Utilice la tecnica de Chain of thought para diseñar el ciclo de desarrollo.
- Permite cargar o indexar por lo menos dos documentos tipo txt o pdf
- Los documentos solo se almanecarn una vez en ChromaDB.
- La base de datos de ChromaDB se almacenara en un archivo en el directorio y unicamente
se volvera a cargar en memoria cuando el usuario haga una pregunta.
- Reciba una pregunta del usuario.
- Utilice el modelo generativo de OpenAI GPT-4 para generar una respuesta, apoyandose
en la información recuperada de los documentos.
- Implemente una función que reciba una pregunta del usuario, recupere los fragmentos
mas relevantes de los documentos y pase la pregunta y los fragmentos al modelo generativo.
</requirements>

<specifications>
- Debe de usar langchain y OpenAI GPT-4
- Debe de usar la tecnica de Chain of thought para diseñar el ciclo de desarrollo.
- Debe usar ChromaDB para almacenar los fragmentos de texto.
- Debe de implementar una función que reciba una pregunta del usuario, recupere los fragmentos
mas relevantes de los documentos y pase la pregunta y los fragmentos al modelo generativo.
- Debe de incluir las dependencias necesarias para ejecutar el código.
- Debe de incluir código de ejemplo para cada paso.
- Debe de tomar en cuenta que se implementara en GitHub Actions.
- Debe de incluir los siguientes pasos:
    Paso 1: Extracción de texto de archivos pdf y txt usando langchain
    Paso 2: División de texto en fragmentos (chunking) usando langchain
    Paso 3: Creación de embeddings
    Paso 4: Almacenamiento vectorial en ChromaDB si la base de datos no existe en el directorio.
    Paso 5: Si la base de datos existe en el directorio, se volvera a cargar en memoria.
    Paso 6: Sistema de recuperación de información relevante
    Paso 7: Generar los prompts utilizando los fragmentos de textos obtenidos en el Paso 5.
    Paso 8: Generación de respuestas usando OpenAI GPT-4 usando langchain
- Debe de describir el proceso de diseño en pasos enumerados.
</specifications>

<artifacts>
Genera en orden especifico:
1. El notebook the python cumpliendo con las especificaciones descritas en la seccion specifications.
2. Los pasos necesarios para implementar el notebook en GitHub Actions.
3. Los pasos necesarios para ejecutar el notebook en GitHub Actions.
4. Los archivos necesarios para ejecutar el notebook en GitHub Actions incluyendo el archivo requirements y las instrucciones para ejecutarlo.
5. Las instrucciones necesarias para ejecutar el notebook en GitHub Actions.
5. Crea documentacion del notebook para Github Pages.
6. Crea un archivo README.md para Github Actions.
</artifacts>

<testing>
- Implementa pruebas unitarias y de integracion para el notebook con pytest.
- Implementa pruebas de ejecución para el notebook.
</testing>

"""

In [45]:
few_shot_cot_create_response = llm.invoke(few_shot_cot_create)
print(few_shot_cot_create_response.content)

A continuación, se presenta un diseño detallado para implementar un sistema RAG utilizando Langchain y OpenAI GPT-4, siguiendo las especificaciones y requisitos proporcionados. Este diseño incluye un notebook de Python, pasos para implementar en GitHub Actions, y documentación necesaria.

### 1. Notebook de Python

```python
# notebook_rag.py

# Paso 1: Importar las librerías necesarias
import os
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
import pickle

# Paso 2: Función para cargar documentos
def load_documents(file_paths):
    documents = []
    for file_path in file_paths:
        if file_path.endswith('.pdf'):
            loader = PyPDFLoader(file_path)
        elif file_path.endswith('.txt'):
            loader = TextLoader(file_pa