In [2]:
import os
from pathlib import Path
from typing import List

# -------  LangChain & utils  -------
from langchain_community.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document
from langchain_core.prompts import PromptTemplate
from langchain.chains import RetrievalQA

# Embeddings (sentence-transformers)
from langchain_huggingface import HuggingFaceEmbeddings

# LLM v√≠a Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline
from langchain_community.llms import HuggingFacePipeline

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# Carpeta con tus documentos (txt/pdf). Para el demo, crearemos unos .txt.
DOCS_DIR = Path("docs")
DOCS_DIR.mkdir(exist_ok=True)

def ensure_sample_docs():
    """Crea algunos documentos de ejemplo si la carpeta est√° vac√≠a."""
    if any(DOCS_DIR.iterdir()):
        return

    (DOCS_DIR / "planes.txt").write_text(
        "Planes de Internet:\n"
        "- Plan 50 Mbps: ideal para hogares peque√±os.\n"
        "- Plan 100 Mbps: uso intensivo, streaming HD.\n"
        "- Plan 300 Mbps: m√∫ltiples dispositivos y teletrabajo.\n"
        "Velocidad m√≠nima garantizada: 25 Mbps en horarios no pico (8:00-18:00)."
    )

    (DOCS_DIR / "soporte.txt").write_text(
        "Soporte t√©cnico:\n"
        "1) Reinicie el router por 30 segundos.\n"
        "2) Verifique cables y luz de Internet.\n"
        "3) Si sigue el problema, cont√°ctenos con su correo o tel√©fono para validar la cuenta."
    )

    (DOCS_DIR / "contrato.txt").write_text(
        "Contrato del servicio:\n"
        "La cl√°usula 5 indica la velocidad m√≠nima garantizada. Las interrupciones programadas ser√°n notificadas.\n"
        "Para cambios de plan, el titular debe identificarse con correo o tel√©fono."
    )


In [4]:
def load_documents() -> List[Document]:
    """Carga archivos .txt (y f√°cilmente extensible a PDF) como Documentos LangChain."""
    docs: List[Document] = []
    for p in DOCS_DIR.glob("*.txt"):
        text = p.read_text(encoding="utf-8")
        docs.append(Document(page_content=text, metadata={"source": str(p)}))
    return docs

In [12]:
# Modelo de embeddings (r√°pido y bueno)
EMBEDDING_MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"

# Elige uno de estos LLMs (aseg√∫rate de tener acceso/aceptar la licencia en HF):
# - "meta-llama/Llama-2-7b-chat-hf"  (requiere acceso en HF)
# - "google/gemma-2b-it"             (m√°s liviano)
# - "meta-llama/Llama-3.1-8B-Instruct" (si tienes acceso)
LLM_MODEL_NAME = os.environ.get("RAG_LLM_MODEL", "tiiuae/Falcon-E-3B-Instruct")

# Modo CPU por defecto; ajusta si tienes GPU
DEVICE = "cuda"  # "cpu" √≥ "cuda" si tienes GPU y drivers

In [6]:
def build_vectorstore(documents: List[Document]) -> FAISS:
    """Crea el √≠ndice FAISS a pHuggingFaceTB/SmolLM3-3Bartir de documentos con embeddings de sentence-transformers."""
    embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_NAME)
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=600, chunk_overlap=80, separators=["\n\n", "\n", ". ", " "]
    )
    chunks = text_splitter.split_documents(documents)
    return FAISS.from_documents(chunks, embedding=embeddings)

In [7]:
ensure_sample_docs()
docs = load_documents()
vs = build_vectorstore(docs)

In [None]:
"""Carga el LLM con Transformers y lo envuelve para LangChain."""

print(f"Cargando LLM: {LLM_MODEL_NAME}")
bnb_config = BitsAndBytesConfig(load_in_8bit=True)  # int8 works on your GPU
tok = AutoTokenizer.from_pretrained(LLM_MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(LLM_MODEL_NAME, trust_remote_code=True).to(
    DEVICE
)

Cargando LLM: tiiuae/Falcon-E-3B-Instruct


You have loaded a BitNet model on CPU and have a CUDA device available, make sure to set your model on a GPU device in order to run your model.


cuda:0


In [20]:
# Check that the model is on GPU
print(next(model.parameters()).device)

cuda:0


In [21]:
def load_llm() -> HuggingFacePipeline:
    gen = pipeline(
        "text-generation",
        model=model,
        tokenizer=tok,
        max_new_tokens=50,
        temperature=0.8,
        top_p=0.9,
        do_sample=True,
        device=0 if DEVICE == "cuda" else -1,
    )
    return HuggingFacePipeline(pipeline=gen)

In [22]:
llm = load_llm()

Device set to use cuda:0


In [23]:
def build_rag_chain(vs: FAISS, llm: HuggingFacePipeline):
    """Crea una cadena RetrievalQA con un prompt controlado."""
    retriever = vs.as_retriever(search_kwargs={"k": 4})

    prompt_tmpl = PromptTemplate.from_template(
        (
            "Eres un asistente de soporte al cliente salvadore√±o: responde claro, breve y humano.\n"
            "Usa SOLAMENTE la informaci√≥n proporcionada en el contexto.\n"
            "Si algo no aparece, di que no est√° en los documentos.\n\n"
            "Contexto:\n{context}\n\n"
            "Pregunta del usuario:\n{question}\n\n"
            "Respuesta (tuteo suave, tono cercano salvadore√±o):"
        )
    )

    # RetrievalQA ya maneja pasar {context} con los docs recuperados
    qa = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type="stuff",
        chain_type_kwargs={"prompt": prompt_tmpl},
        return_source_documents=True,
    )
    return qa

In [24]:
def ask(qa_chain, query: str):
    """Consulta al RAG y muestra respuesta + fuentes."""
    res = qa_chain({"query": query})
    answer = res["result"]
    sources = [d.metadata.get("source") for d in res.get("source_documents", [])]
    print("\nüó£Ô∏è  Usuario:", query)
    print("\nü§ñ  Bot:", answer.strip())
    print("\nüìö  Fuentes:", list(dict.fromkeys(sources)))  # √∫nicas

In [18]:
qa = build_rag_chain(vs, llm)

In [25]:
# Pruebas
ask(qa, "¬øCu√°l es la velocidad m√≠nima garantizada?")
ask(qa, "¬øQu√© pasos recomiendas para soporte t√©cnico si no tengo internet?")
ask(qa, "¬øCu√°les planes tienen y para qu√© uso sirven?")

Setting `pad_token_id` to `eos_token_id`:11 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:11 for open-end generation.



üó£Ô∏è  Usuario: ¬øCu√°l es la velocidad m√≠nima garantizada?

ü§ñ  Bot: Eres un asistente de soporte al cliente salvadore√±o: responde claro, breve y humano.
Usa SOLAMENTE la informaci√≥n proporcionada en el contexto.
Si algo no aparece, di que no est√° en los documentos.

Contexto:
Contrato del servicio:
La cl√°usula 5 indica la velocidad m√≠nima garantizada. Las interrupciones programadas ser√°n notificadas.
Para cambios de plan, el titular debe identificarse con correo o tel√©fono.

Soporte t√©cnico:
1) Reinicie el router por 30 segundos.
2) Verifique cables y luz de Internet.
3) Si sigue el problema, cont√°ctenos con su correo o tel√©fono para validar la cuenta.

Planes de Internet:
- Plan 50 Mbps: ideal para hogares peque√±os.
- Plan 100 Mbps: uso intensivo, streaming HD.
- Plan 300 Mbps: m√∫ltiples dispositivos y teletrabajo.
Velocidad m√≠nima garantizada: 25 Mbps en horarios no pico (8:00-18:00).

Pregunta del usuario:
¬øCu√°l es la velocidad m√≠nima garantizada?

Respuesta 

Setting `pad_token_id` to `eos_token_id`:11 for open-end generation.



üó£Ô∏è  Usuario: ¬øQu√© pasos recomiendas para soporte t√©cnico si no tengo internet?

ü§ñ  Bot: Eres un asistente de soporte al cliente salvadore√±o: responde claro, breve y humano.
Usa SOLAMENTE la informaci√≥n proporcionada en el contexto.
Si algo no aparece, di que no est√° en los documentos.

Contexto:
Soporte t√©cnico:
1) Reinicie el router por 30 segundos.
2) Verifique cables y luz de Internet.
3) Si sigue el problema, cont√°ctenos con su correo o tel√©fono para validar la cuenta.

Contrato del servicio:
La cl√°usula 5 indica la velocidad m√≠nima garantizada. Las interrupciones programadas ser√°n notificadas.
Para cambios de plan, el titular debe identificarse con correo o tel√©fono.

Planes de Internet:
- Plan 50 Mbps: ideal para hogares peque√±os.
- Plan 100 Mbps: uso intensivo, streaming HD.
- Plan 300 Mbps: m√∫ltiples dispositivos y teletrabajo.
Velocidad m√≠nima garantizada: 25 Mbps en horarios no pico (8:00-18:00).

Pregunta del usuario:
¬øQu√© pasos recomiendas para so