<a href="https://colab.research.google.com/github/castimax/-Sankey-diagram/blob/master/rag_llama3_ade_derecho.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

!pip install langchain==0.0.184
!pip install pypdf==3.8.1
!pip install chromadb==0.3.21
!pip install sentence-transformers==2.2.2
!pip install huggingface_hub==0.14.1
!pip install gradio==3.23.0
!pip install gdown

In [None]:

import os
import gradio as gr
from google.colab import drive
from langchain import PromptTemplate
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.llms import HuggingFaceHub
import gdown

# Configuración de la API de HuggingFace
HUGGINGFACE_API_KEY = "tu_clave_api_de_huggingface"  # Reemplaza esto con tu clave real
os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACE_API_KEY

# RAG con Llama3 70B para Exámenes de ADE y Derecho en Google Colab

Este proyecto implementa un sistema de Generación Aumentada por Recuperación (RAG) utilizando el modelo Llama3 70B a través de HuggingFace Hub en Google Colab. Está diseñado para responder preguntas de examen en el contexto del doble grado de ADE y Derecho, simulando las respuestas de un catedrático experto y exigente.

## Instrucciones de uso

1. Preparación en Google Drive:
   - Crea una carpeta llamada "ADE_Derecho_PDFs" en tu Google Drive.
   - Sube tus archivos PDF de ADE y Derecho a esta carpeta.

2. Configuración en Google Colab:
   - Abre Google Colab (https://colab.research.google.com/).
   - Crea un nuevo notebook o abre uno existente.
   - Copia y pega el contenido del archivo `rag_llama3_ade_derecho.ipynb` en las celdas del notebook.

3. Configuración de la API de HuggingFace:
   - En la celda donde se define `HUGGINGFACE_API_KEY`, reemplaza "tu_clave_api_de_huggingface" con tu clave API real de HuggingFace.

4. Ejecución del notebook:
   - Ejecuta todas las celdas en orden.
   - Cuando se te solicite, autoriza a Colab para acceder a tu Google Drive.

5. Uso de la interfaz:
   - Después de ejecutar todas las celdas, se generará un enlace público a la interfaz Gradio.
   - Abre ese enlace en tu navegador.
   - Escribe tu pregunta en el cuadro de texto.
   - Ajusta el número máximo de páginas para la respuesta con el control deslizante.
   - Haz clic en "Submit" para obtener la respuesta del catedrático virtual.

## Notas importantes

- Asegúrate de tener suficiente espacio en tu Google Drive para los archivos PDF y la base de conocimientos generada.
- El proceso de carga y procesamiento de PDFs puede llevar tiempo dependiendo del número y tamaño de los archivos.
- La interfaz Gradio estará disponible públicamente mientras tu sesión de Colab esté activa.

## Requisitos

- Cuenta de Google (para acceder a Google Colab y Google Drive)
- Clave API de HuggingFace

## Licencia

[MIT](https://choosealicense.com/licenses/mit/)

# Celda de configuración para RAG

import os

# Configurar la API key de HuggingFace
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

# Configurar la ruta del directorio PDF (si es necesario)
os.environ["PDF_DIRECTORY_PATH"] = "./data"

# Verificar que las variables se han cargado correctamente
print("Variables de entorno cargadas:")
print(f"HUGGINGFACE_API_TOKEN: {os.getenv('HUGGINGFACEHUB_API_TOKEN')[:10]}...")  # Mostramos solo los primeros 10 caracteres por seguridad
print(f"PDF_DIRECTORY_PATH: {os.getenv('PDF_DIRECTORY_PATH')}")

# Importaciones necesarias para el RAG
from langchain.llms import HuggingFaceHub
from langchain import PromptTemplate
from langchain.chains import RetrievalQA

# Configurar el modelo Meta-Llama-3-70B
llm = HuggingFaceHub(
    repo_id="meta-llama/Meta-Llama-3-70B",
    model_kwargs={
        "temperature": 0.7,
        "max_length": 512,
        "max_new_tokens": 512,
    },
    huggingfacehub_api_token=os.getenv("HUGGINGFACEHUB_API_TOKEN")
)

print("Modelo configurado correctamente.")

In [None]:

# Montar Google Drive
drive.mount('/content/drive')

# URL del archivo compartido
shared_file_url = "https://drive.google.com/file/d/1eKDp0tQvYPjEC86O4mVerHd0v-67tCw-/view?usp=drivesdk"

# Extraer el ID del archivo de la URL
file_id = shared_file_url.split('/')[-2]

# Descargar el archivo
output = '/content/temas_ade_derecho.pdf'
gdown.download(f'https://drive.google.com/uc?id={file_id}', output, quiet=False)

# Cargar el documento PDF
documents = []
loader = PyPDFLoader(output)
documents.extend(loader.load())

print(f"Se han cargado {len(documents)} páginas del documento.")

In [None]:

# Dividir documentos en chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

# Crear embeddings y base de datos vectorial
embeddings = HuggingFaceEmbeddings()
db = Chroma.from_documents(texts, embeddings)

In [None]:

# Configurar el modelo Meta-Llama-3-70B
from langchain.llms import HuggingFaceHub

llm = HuggingFaceHub(
    repo_id="meta-llama/Meta-Llama-3-70B",
    model_kwargs={
        "temperature": 0.7,
        "max_length": 512,
        "max_new_tokens": 512,
    },
    huggingfacehub_api_token=HUGGINGFACE_API_KEY
)

# Crear plantilla de prompt
template = """Asume el rol de un catedrático experto y muy exigente del doble grado de ADE y Derecho. Estás evaluando exámenes y respondiendo preguntas técnicas. Utiliza un lenguaje técnico y preciso, citando los preceptos legales pertinentes según la legislación jurídica vigente española. Responde en prosa, aunque puedes usar bullet points cuando sea apropiado para mejorar la claridad.

Contexto del examen: {context}

Pregunta del examen: {question}

Longitud máxima de respuesta: {max_words} palabras

Respuesta del catedrático:"""

prompt = PromptTemplate(
    template=template,
    input_variables=["context", "question", "max_words"]
)

# Crear la cadena de recuperación y generación
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=db.as_retriever(search_kwargs={"k": 3}),
    return_source_documents=True,
    chain_type_kwargs={"prompt": prompt}
)

In [None]:

# Lanzar la interfaz
iface.launch(share=True)