<a href="https://colab.research.google.com/github/Mueble2/NLP-ChatBot-TA/blob/main/ChatBot_TA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

🤖 **Chatbot Académico: Historia del Perú**

In [1]:
!pip install sentence-transformers chromadb langchain langchain-community

Collecting chromadb
  Downloading chromadb-1.0.15-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.0 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting pybase64>=1.4.1 (from chromadb)
  Downloading pybase64-1.4.1-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.4 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb)
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.22.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.6 kB)
Collecting opentelemetry-api>=1.2.0 (from chromadb)
  Downloading opentelemetry_api-1.35.0-py3-none-any.whl.metadata (1.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.35.0-py3-none-any.whl.metadata (2.4 kB)
Collecting opent

In [2]:
# 📡 Carga de contenido web
import requests
from bs4 import BeautifulSoup
import re
# 🧠 Modelo de embedding (sentence transformers)
from sentence_transformers import SentenceTransformer
# 🧠 Embeddings y Vector Store
from langchain.embeddings import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma
from chromadb.config import Settings
import chromadb
# 📄 Procesamiento de documentos
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
# 🔍 Motor de recuperación de información
from langchain.chains import RetrievalQA
# 🤖 LLM vía Ollama
from langchain_community.llms import Ollama



In [3]:
def extraer_texto(url):
    try:
        resp = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout=10)
        resp.raise_for_status()  # Lanza excepción si falla (4xx/5xx)
    except requests.RequestException as e:
        print(f"❌ Error al acceder a {url}: {e}")
        return ""
    soup = BeautifulSoup(resp.text, "html.parser")
    # Elimina etiquetas no deseadas
    for tag in soup(["script", "style", "sup", "img", "figure", "table", "noscript"]):
        tag.decompose()
    # Extrae texto limpio
    texto = soup.get_text(separator=' ')
    texto = re.sub(r'\s+', ' ', texto)
    return texto.strip()

urls = [
    "https://es.wikipedia.org/wiki/Batalla_de_Ayacucho",
    "https://en.wikipedia.org/wiki/Battle_of_Ayacucho",
    "https://www.encyclopedia.com/humanities/encyclopedias-almanacs-transcripts-and-maps/ayacucho-battle",
    "https://www.britannica.com/topic/Battle-of-Ayacucho",
    "https://www.britannica.com/place/Ayacucho-Peru",
    "https://www.tierrasvivas.com/en/ayacucho-battle",
    "https://es.wikipedia.org/wiki/Capitulaci%C3%B3n_de_Ayacucho",
    "https://es.wikipedia.org/wiki/Santuario_hist%C3%B3rico_de_la_Pampa_de_Ayacucho",
    "https://elpais.com/america/2024-12-09/ayacucho-diciembre-9-1824-el-final-de-un-imperio-y-el-inicio-de-america-latina.html"
]

documentos = [extraer_texto(url) for url in urls]
print(f"✅ Se extrajeron {sum(1 for d in documentos if d)} documentos válidos.")

✅ Se extrajeron 9 documentos válidos.


In [5]:
# 1. Embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# 2. Chunking por oraciones
def dividir_en_chunks(texto, max_len=400):
    oraciones = re.split(r'(?<=[.?!])\s+', texto)
    chunks, actual = [], ""
    for oracion in oraciones:
        if len(actual) + len(oracion) <= max_len:
            actual += " " + oracion
        else:
            chunks.append(actual.strip())
            actual = oracion
    if actual:
        chunks.append(actual.strip())
    return chunks

# 3. Procesar todos los documentos
chunks = []
for doc in documentos:
    if doc:  # evita errores por documentos vacíos
        chunks.extend(dividir_en_chunks(doc))

# 4. Generar embeddings
vectores = embedding_model.encode(chunks)

# 5. Crear cliente Chroma
chroma_client = chromadb.Client(Settings(anonymized_telemetry=False))

# Crear colección nueva
collection = chroma_client.get_or_create_collection("batalla_ayacucho_rag")

# 6. Cargar datos
for i, chunk in enumerate(chunks):
    collection.add(documents=[chunk], ids=[f"chunk_{i}"], embeddings=[vectores[i].tolist()])

print(f"✅ {len(chunks)} chunks embebidos y cargados en Chroma.")

✅ 488 chunks embebidos y cargados en Chroma.


In [6]:
#Descarga de OLlama
!curl -fsSL https://ollama.com/install.sh | sh  # Solo una vez

>>> Installing ollama to /usr/local
>>> Downloading Linux amd64 bundle
######################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.


In [7]:
#Lanzar servidor de OLlama en local
!ollama serve > /dev/null 2>&1 &
!sleep 10

In [8]:
#Descarga del modelo y librerías
!ollama pull phi3.5:latest
!pip install -U langchain-ollama

[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l[A[1G[?25h[?2026l[?2026h[?25l

In [10]:
# Carga del modelo
from langchain_ollama import OllamaLLM
llm = OllamaLLM(
    model="phi3.5:latest",
    temperature=0.3,
    num_gpu=40,
    system=""
)

In [15]:
def responder_pregunta(pregunta: str, k=3, max_chars=1500) -> str:
    # Embedding de la pregunta
    query_emb = embedding_model.encode(pregunta).tolist()

    # Recuperar documentos similares
    resultados = collection.query(
        query_embeddings=[query_emb],
        n_results=k
    )

    # Construcción de contexto
    contextos = resultados["documents"][0]
    contexto = "\n\n".join(contextos)[:max_chars]

    # Prompt para Ollama + phi3.5
    prompt = f"""Responde en español a la siguiente pregunta sobre historia peruana.

Contexto histórico:
{contexto}

Pregunta: {pregunta}
Respuesta:"""

    # Llamada al modelo local
    return llm.invoke(prompt).strip()


In [16]:
pregunta = "¿Qué consecuencias tuvo la Batalla de Ayacucho?"
respuesta = responder_pregunta(pregunta)

print("🧠 Pregunta:", pregunta)
print("📘 Respuesta:", respuesta)

🧠 Pregunta: ¿Qué consecuencias tuvo la Batalla de Ayacucho?
📘 Respuesta: La Batalla de Ayacucho, considerada un combate civil fundamental en la historia peruana, tuvo varias importantes consecuencias. Primero, marcó el fin efectivo del dominio español en Sudamérica y consolidó la independencia de los países que formaban parte del Virreinato del Perú: Perú, Bolivia, Chile y Colombia (entonces conocida como Nueva Granada). La victoria peruana fue decisiva para liberar a estos territorios de la dominación colonial española.

Segundo, esta batalla contribuyó significativamente al proceso identitario en los países involucrados; se convirtió en un símbolo del triunfo sobre las fuerzas extranjeras y el fin del dominio español, lo que fortaleció la conciencia nacional.

Tercero, Ayacucho estableció a Perú como una potencia regional importante tras su independencia; se convirtió en un centro de poder político e influyó notablemente sobre las relaciones internacionales sudamericanas durante el s