<a href="https://colab.research.google.com/github/gimb99/PDH_INTEGRADOR_GRUPAL_X/blob/develop/TI_CTG_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## üì• Paso 2.1 ‚Äì Ingesta de documentos PDF y traducci√≥n autom√°tica

Este paso carga los documentos t√©cnicos desde el disco local.
Se leen PDFs tanto en espa√±ol como en ingl√©s.  
Los documentos en ingl√©s se traducen autom√°ticamente al espa√±ol con un modelo de Hugging Face.
El resultado final es un corpus unificado en espa√±ol que se utilizar√° en los siguientes pasos del sistema RAG.


In [None]:
# üìå Paso 2.1 ‚Äì Ingesta y traducci√≥n autom√°tica de documentos PDF

# ========================
# ‚úÖ Librer√≠as necesarias
# ========================
!pip install --upgrade langchain langchain-community langchain-core langchain-text-splitters transformers pypdf pymupdf  # Upgrade core libraries
!pip install -U huggingface_hub# Install compatible huggingface_hub
from langchain_community.document_loaders import PyMuPDFLoader  # Para cargar PDFs

from transformers import pipeline                                # Para traducir texto
import os                                                        # Para acceder a archivos en disco


!pip install chromadb
from langchain_community.vectorstores import Chroma

In [None]:
# ========================
# ‚úÖ Modelo de traducci√≥n
# ========================
# Este modelo traduce texto de ingl√©s a espa√±ol usando Hugging Face
translator = pipeline("translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es")


In [None]:
# Paso 2.1 ‚Äì INGESTA DE DOCUMENTOS: Carga de archivos PDF desde Google Drive

# ======================================
# üîß 1. Montamos Google Drive (solo en Colab)
# ======================================
from google.colab import drive
drive.mount('/content/drive')


In [None]:
# ======================================
# üìÅ 2. Definimos las carpetas del corpus
# ======================================
carpetas_es = "/content/drive/MyDrive/ProcHabla/Trabajo Integrador/corpus/corpus_base"

carpeta_en = "/content/drive/MyDrive/ProcHabla/Trabajo Integrador/corpus/complementos_tecnicos"


In [None]:
# ======================================
# üìö 3. Funci√≥n para cargar documentos PDF
# ======================================
from langchain_community.document_loaders import PyMuPDFLoader
import os

def cargar_documentos_desde_carpeta(rutas_carpeta):
    documentos = []
    for ruta in rutas_carpeta:
        for archivo in os.listdir(ruta):
            if archivo.endswith(".pdf"):
                ruta_completa = os.path.join(ruta, archivo)
                loader = PyMuPDFLoader(ruta_completa)
                documentos_pdf = loader.load()
                documentos.extend(documentos_pdf)
    return documentos

In [None]:
# ======================================
# üåç 4. Funci√≥n para traducir texto de ingl√©s a espa√±ol
# ======================================
from transformers import MarianMTModel, MarianTokenizer
import torch

# Modelo para traducir de ingl√©s a espa√±ol
modelo_trad = "Helsinki-NLP/opus-mt-en-es"
tokenizer_trad = MarianTokenizer.from_pretrained(modelo_trad)
model_trad = MarianMTModel.from_pretrained(modelo_trad)

def traducir_texto(texto, max_length=512):
    oraciones = [texto[i:i+max_length] for i in range(0, len(texto), max_length)]
    resultado = []
    for segmento in oraciones:
        inputs = tokenizer_trad(segmento, return_tensors="pt", truncation=True)
        translated = model_trad.generate(**inputs)
        texto_traducido = tokenizer_trad.decode(translated[0], skip_special_tokens=True)
        resultado.append(texto_traducido)
    return " ".join(resultado)


In [None]:
# ======================================
# üìÑ 5. Traducci√≥n de documentos en ingl√©s
# ======================================
def traducir_documentos_en_ingles(ruta):
    documentos = []
    for archivo in os.listdir(ruta):
        if archivo.endswith(".pdf"):
            ruta_completa = os.path.join(ruta, archivo)
            loader = PyMuPDFLoader(ruta_completa)
            docs = loader.load()
            for doc in docs:
                texto_original = doc.page_content
                texto_traducido = traducir_texto(texto_original)
                doc.page_content = texto_traducido
                documentos.append(doc)
    return documentos


In [None]:
# ======================================
# üì¶ 6. Ejecutamos la carga total del corpus
# ======================================
documentos_es = cargar_documentos_desde_carpeta([carpetas_es])
documentos_en = traducir_documentos_en_ingles(carpeta_en)

documentos = documentos_es + documentos_en

CHUNKING (Divisi√≥n en fragmentos)

In [None]:
# üìå VALIDACIONES previas antes del chunking

print("üîé Validando el corpus final...")

# 1. ¬øQu√© tipo de objeto es el corpus?
print(f"Tipo de corpus_completo: {type(documentos)}")

# 2. ¬øCu√°ntos documentos contiene?
print(f"üìö Total de documentos: {len(documentos)}")

# 3. ¬øQu√© tipo de objeto es cada documento?
if documentos:
    print(f"Ejemplo de tipo de documento: {type(documentos[0])}")

# 4. Mostrar los primeros 500 caracteres del primer documento
if documentos and hasattr(documentos[0], "page_content"):
    print("\nüìù Vista previa del primer documento:")
    print(documentos[0].page_content[:500])
else:
    print("‚ö†Ô∏è No se encontr√≥ texto en el primer documento.")


CHUNKING (Divisi√≥n en fragmentos)

In [None]:
# ‚úÖ Importamos la herramienta para dividir documentos en fragmentos/chunks
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [None]:
# ‚úÖ Configuramos el splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # Cantidad m√°xima de caracteres por fragmento
    chunk_overlap=50,      # Cu√°ntos caracteres se solapan entre fragmentos
    separators=["\n\n", "\n", ".", " ", ""],  # Orden de preferencia para cortar texto
)


In [None]:
# ‚úÖ Aplicar el splitter a todos los documentos
chunks = text_splitter.split_documents(documentos)


In [None]:
from pathlib import Path

# ‚úÖ Enriquecer y simplificar la metadata de cada chunk
for chunk in chunks:
    metadata = chunk.metadata

    # Extraer nombre de archivo limpio
    file_name = Path(metadata.get("file_path", "desconocido")).stem

    # Agregar nombre simple
    metadata["nombre_documento"] = file_name

    # Agregar categor√≠a manual seg√∫n carpeta origen
    if "corpus_base" in metadata.get("file_path", ""):
        metadata["categoria"] = "base_tecnica"
        metadata["idioma"] = "es"
    elif "complementos_tecnicos" in metadata.get("file_path", ""):
        metadata["categoria"] = "complemento"
        metadata["idioma"] = "en"
    else:
        metadata["categoria"] = "otro"
        metadata["idioma"] = "desconocido"

    # Limpiar metadata innecesaria
    for campo in ["producer", "creator", "format", "encryption", "trapped", "moddate", "creationdate", "title", "author", "subject", "keywords"]:
        metadata.pop(campo, None)


In [None]:
# Validar resultados del chunking
print(f"üìÑ Total de chunks generados: {len(chunks)}")
print("\nüìù Primer chunk:")
print(chunks[0].page_content[:500])


In [None]:
# Revisar la metadata de los primeros 3 chunks
for i, chunk in enumerate(chunks[:3]):
    print(f"\nüßæ Chunk {i+1} - Metadata:")
    print(chunk.metadata)


EMBEDDINGS

In [None]:
# ==========================
# Paso 3.1: Cargar modelo de embeddings en espa√±ol
# ==========================

from langchain_huggingface import HuggingFaceEmbeddings # Updated import

# Definir el modelo de embeddings
modelo_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

In [None]:

# ===============================================
# üß† Paso 3.2: Vectorizaci√≥n de Chunks con ChromaDB
# ===============================================

# Ruta donde se almacenar√° la base vectorial
persistencia_vectores = "db_vectores"

# Crear base de datos vectorial con los embeddings
chroma_db = Chroma.from_documents(
    documents=chunks,
    embedding=modelo_embeddings,
    persist_directory="db_vectores"
)

# Guardar la base persistente en disco
chroma_db.persist()

# Validaci√≥n visual
print("‚úÖ Base de datos vectorial creada con √©xito y guardada en:", persistencia_vectores)



In [None]:
# ====================================================
# üß† Paso 5.1: Cargar base vectorial persistente y preparar el Retriever
# ====================================================

from langchain_community.vectorstores import Chroma

# üîÑ Ruta donde guardaste la base de datos vectorial
persistencia_vectores = "db_vectores"

# üóÉÔ∏è Cargar la base vectorial persistente desde el disco
chroma_db = Chroma(
    persist_directory=persistencia_vectores,
    embedding_function=modelo_embeddings
)

# üîç Crear un Retriever para realizar b√∫squedas por similitud
retriever = chroma_db.as_retriever(search_kwargs={"k": 3})

# ‚úÖ Validaci√≥n
print("‚úÖ Retriever creado correctamente. Listo para recuperar chunks similares.")


In [None]:
# =============================================
# ∆á Paso 5.2: Consulta de Prueba y Recuperaci√≥n
# =============================================

# ‚úÖ Imports necesarios para este paso
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain_core.documents import Document


# ∆á Cargamos la base vectorial persistida
chroma_db = Chroma(
    persist_directory="db_vectores",
    embedding_function=modelo_embeddings
)

# ∆á Creamos el retriever (mecanismo de recuperaci√≥n)
retriever = chroma_db.as_retriever(
    search_type="similarity",  # Tambi√©n puedes usar "mmr" (Maximal Marginal Relevance)
    search_kwargs={"k": 3}      # N√∫mero de documentos m√°s similares que queremos recuperar
)

# ∆á Definimos una pregunta de prueba
pregunta_prueba = "¬øQu√© es un reservorio no convencional?"

# ∆á Recuperamos los documentos m√°s relevantes
resultados = retriever.get_relevant_documents(pregunta_prueba)

# ∆á Mostramos los resultados
print("∆í Resultados de la recuperaci√≥n:\n")
for i, doc in enumerate(resultados, 1):
    print(f"∆í Documento {i}:")
    print(doc.page_content[:500])  # Muestra los primeros 500 caracteres
    print("∆í Metadata:", doc.metadata)
    print("-" * 80)

In [None]:
# Paso previo: cargar el modelo de lenguaje LLM desde Hugging Face
from langchain.llms import HuggingFaceHub
import os
from getpass import getpass

# ‚ö†Ô∏è Agrega tu token personal de Hugging Face
os.environ["HUGGINGFACEHUB_API_TOKEN"] = getpass("üîë Ingresa tu token de Hugging Face: ")

# ‚úÖ Carga del modelo (puedes cambiar por otro compatible)
llm_model = HuggingFaceHub(
    repo_id="google/flan-t5-base",  # Otro modelo posible: "mistralai/Mistral-7B-Instruct-v0.1"
    model_kwargs={"temperature": 0.1, "max_length": 512}
)

# ‚úÖ Ahora s√≠ puedes crear tu cadena RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=llm_model,
    retriever=retriever,
    return_source_documents=True,
    chain_type="stuff",
    chain_type_kwargs={"prompt": prompt_personalizado}
)
