# 📦 Instalación de dependencias
Es necesario instalar las librerías de Python que usaremos en este proyecto, entre ellas:  
- `lxml` y `beautifulsoup4` → para hacer web scraping y analizar el contenido HTML  
- `requests` → para descargar información desde la web  
- `langchain`, `langchain-community`, `langchain_huggingface` → para el procesamiento de documentos y la implementación del pipeline RAG  
- `huggingface-hub` → para acceder a modelos preentrenados de Hugging Face  
- `faiss-cpu` → para el almacenamiento vectorial y la búsqueda semántica  
- `replicate` → para ejecutar el modelo LLaMA-2 mediante la API de Replicate  
- `pypdf` → para la carga y análisis de documentos PDF  


In [None]:
pip install lxml requests beautifulsoup4 langchain-community langchain huggingface-hub faiss-cpu replicate pypdf langchain_huggingface

Collecting langchain-community
  Downloading langchain_community-0.3.24-py3-none-any.whl.metadata (2.5 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Collecting replicate
  Downloading replicate-1.0.6-py3-none-any.whl.metadata (29 kB)
Collecting pypdf
  Downloading pypdf-5.5.0-py3-none-any.whl.metadata (7.2 kB)
Collecting deep-translator
  Downloading deep_translator-1.11.4-py3-none-any.whl.metadata (30 kB)
Collecting langchain_huggingface
  Downloading langchain_huggingface-0.2.0-py3-none-any.whl.metadata (941 bytes)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.9.1-py3-none-any.whl.metadata (3.8 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Col

# 📌 Instalación e importación de librerías
En esta celda importamos todas las librerías necesarias para:
- Web scraping (`requests`, `BeautifulSoup`, `RecursiveUrlLoader`)
- Procesamiento de texto (`langchain`, `deep_translator`)
- Creación de embeddings y almacenamiento vectorial (`HuggingFaceEmbeddings`, `FAISS`)
- LLM para Q&A (`Replicate`)

In [None]:
import os
import requests
from bs4 import BeautifulSoup
from langchain_community.document_loaders.recursive_url_loader import RecursiveUrlLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.vectorstores.base import VectorStoreRetriever
from langchain_community.llms import Replicate
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA
from langchain.document_loaders import PyPDFLoader
from deep_translator import GoogleTranslator

# 🔍 Función auxiliar
Creamos una función para verificar si un string contiene números.
Esto puede ser útil para identificar enlaces de artículos que suelen incluir años o IDs numéricos.

In [None]:
def has_numbers(inputString):
    return any(char.isdigit() for char in inputString)

# 🌐 Web scraping
Definimos la URL base y una función para extraer texto con BeautifulSoup.  
Luego, usamos `RecursiveUrlLoader` para recorrer la web y cargar los documentos.

In [None]:
url = "https://cs.uns.edu.ar/~dcm/home/"

def custom_extractor(html_content):
    soup = BeautifulSoup(html_content, "lxml")
    return soup.get_text()

loader = RecursiveUrlLoader(url=url, extractor=custom_extractor, max_depth=2)

web_docs = loader.load()

# 📄 Descarga y procesamiento de PDFs
Aquí descargamos algunos PDFs de la página, los guardamos localmente, extraemos su texto y les agregamos metadatos (el nombre del archivo de origen).


In [None]:
pdf_urls = [
    "https://cs.uns.edu.ar/~dcm/downloads/Pautas%20Examen%20Final%20Cursado%202017.pdf",
    "https://cs.uns.edu.ar/~dcm/downloads/Pautas%20Examen%20Final%20Cursado%202016.pdf",
    "https://cs.uns.edu.ar/~dcm/downloads/PautasExamenLibreTdP.pdf"
]
pdf_docs = []

for pdf_url in pdf_urls:
    pdf_filename = pdf_url.split("/")[-1]

    response = requests.get(pdf_url)

    if response.status_code == 200:
        with open(pdf_filename, "wb") as f:
            f.write(response.content)

        pdf_loader = PyPDFLoader(pdf_filename)
        pdf_docs.extend(pdf_loader.load())
    else:
        print(f"Error al descargar el PDF: {pdf_url}")

# 📚 Unificación de documentos
Combinamos los documentos obtenidos del scraping y los PDFs en una sola lista para procesarlos juntos.


In [None]:
docs = web_docs + pdf_docs

# ✂️ División de texto
Partimos los documentos en fragmentos más pequeños con `RecursiveCharacterTextSplitter`.  
Esto es importante porque los modelos manejan mejor bloques cortos de texto.

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=75, chunk_overlap=10)
all_splits = text_splitter.split_documents(docs)

# 🧠 Vectorización con FAISS
Creamos embeddings con `HuggingFaceEmbeddings` y los almacenamos en una base vectorial FAISS.


In [None]:
model_name="BAAI/bge-m3"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}

hf = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

vectorstore = FAISS.from_documents(documents=docs, embedding=hf)
retriever = VectorStoreRetriever(vectorstore=vectorstore, search_kwargs={"k":3})

# 🤖 Configuración del LLM (Replicate)
Se define el modelo LLaMA-2 a través de la API de Replicate.  
**Nota**: es necesario tener configurada la variable de entorno `REPLICATE_API_TOKEN`.


In [None]:
os.environ["REPLICATE_API_TOKEN"] = env.REPLICATE_API_TOKEN

llm = Replicate(
    model="meta/llama-2-7b-chat",
    model_kwargs={
        "temperature": 0.75,
        "max_length": 500,
        "top_p": 1,
        "language": "es"
)

# 📝 Definición del prompt
Creamos una plantilla de prompt para que el modelo responda siempre en español, de forma breve y precisa.


In [None]:
template = """Usa el siguiente contexto para responder siempre en español.
Se breve y conciso, máximo tres oraciones y responde solo a la pregunta, no des info adicional.
Es la página de un profesor. Habla en tercera persona.

Si la info es incorrecta o no está clara, menciona que no tienes suficiente info.

{context}
Question: {question}
Helpful Answer:"""

QA_CHAIN_PROMPT = PromptTemplate.from_template(template)

# 🔗 Cadena de Preguntas y Respuestas (Q&A)
Se construye la cadena `RetrievalQA` con el LLM y el retriever definido.


In [None]:
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=retriever,
    chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
)

# 🎯 Ejemplo de consulta
Ahora probamos el sistema preguntando por los contenidos de los exámenes.


In [None]:
query = "¿Cuáles son los contenidos del primer y segundo examen escrito del examen libre de Tecnología de Programación?"
response = qa_chain.invoke(query)
print(response['result'])

 ¡Hola! Según la información proporcionada en la página, los contenidos del primer y segundo examen escrito del examen libre de Tecnología de Programación son los siguientes:

Primer Examen Escrito:

* Ingeniería de Software. Proceso y Ciclo de Vida.
* Reusabilidad y Extendibilidad.
* Confiabilidad.
* Conceptos avanzados de herencia.
* Componentes.
* Discusión de artículos científicos.

Segundo Examen Escrito:

* Diseño reutilizable: patrones de diseño.
* Antipatrones - refactoring.
* Implementación: concurrencia.
* Implementación: frameworks orientados a objetos.
* Implementación: comunicación hombre-máquina.
* Implementación: sistemas con requerimientos especiales.
* Discusión de artículos científicos.

Es importante mencionar que los contenidos pueden variar según la versión del examen, por lo que es recomendable consultar la página personal del profesor para obtener la información más actualizada.
