## 0. Setup

In [1]:
import os
import json
from pathlib import Path
from typing import List, Dict, Any
from datetime import datetime

# LangChain core
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document

# Vector store (usando la versi√≥n community en lugar de langchain_chroma)
from langchain_community.vectorstores import Chroma

# Loaders
from langchain_community.document_loaders import PyPDFLoader, TextLoader, UnstructuredFileLoader

# OpenAI
from langchain_openai import OpenAIEmbeddings, ChatOpenAI

In [2]:
# Configuraci√≥n de la API Key de OpenAI
import os

# üîë Opci√≥n 1: Def√≠nela manualmente aqu√≠ (no recomendado en notebooks p√∫blicos)
# os.environ["OPENAI_API_KEY"] = "tu_api_key_aqui"

# üîë Opci√≥n 2 (recomendada): si est√°s en Colab, usa el gestor de secretos
try:
    from google.colab import userdata
    openai_api_key = userdata.get("OPENAI_API_KEY")
    os.environ["OPENAI_API_KEY"] = openai_api_key
except Exception as e:
    # Si no est√°s en Colab, intenta leer de variable local
    openai_api_key = os.getenv("OPENAI_API_KEY", "")
    if not openai_api_key:
        raise ValueError("‚ùå No se encontr√≥ OPENAI_API_KEY. Def√≠nela antes de continuar.")

print("‚úÖ API Key configurada correctamente")

‚úÖ API Key configurada correctamente


## 1. Extracting files

In [3]:
# Definir directorios de trabajo

# Carpeta donde estar√°n los documentos (definida en Celda 4 tambi√©n)
DATA_DIR = Path("./data")
DATA_DIR.mkdir(exist_ok=True)

# Carpeta donde se guardar√° la base vectorial Chroma
PERSIST_DIR = Path("./data/chroma")
PERSIST_DIR.mkdir(exist_ok=True, parents=True)

print("‚úÖ Directorios listos")
print("üìÇ DATA_DIR:", DATA_DIR.resolve())
print("üìÇ PERSIST_DIR:", PERSIST_DIR.resolve())

‚úÖ Directorios listos
üìÇ DATA_DIR: /content/data
üìÇ PERSIST_DIR: /content/data/chroma


In [4]:
import os
from pathlib import Path

# Carpeta donde deben estar tus documentos (PDF, DOCX, TXT, MD, HTML)
DATA_DIR = Path("./data")
DATA_DIR.mkdir(exist_ok=True)

print("‚úÖ Entorno listo. Los documentos se tomar√°n desde:", DATA_DIR.resolve())

# Listar archivos encontrados en ./data
print("üì¶ Archivos detectados en ./data:")
for p in DATA_DIR.glob("*"):
    if p.suffix.lower() in [".pdf", ".docx", ".doc", ".txt", ".md", ".html", ".htm"]:
        print(" -", p.name)

‚úÖ Entorno listo. Los documentos se tomar√°n desde: /content/data
üì¶ Archivos detectados en ./data:


In [6]:
# üöÄ Opci√≥n A: clonar tu repo y copiar documentos a ./data

# 1) Clonar tu repositorio desde GitHub
!rm -rf repo
!git clone https://github.com/RocioPortillo86/SoporteTecnico-Rag.git repo

# 2) Crear carpeta ./data si no existe
!mkdir -p data

# 3) Copiar documentos relevantes desde el repo a ./data
!find repo -type f \( -iname "*.pdf" -o -iname "*.docx" -o -iname "*.doc" -o -iname "*.txt" -o -iname "*.md" -o -iname "*.html" -o -iname "*.htm" \) -exec cp -v {} data/ \;

# 4) Verificaci√≥n visual r√°pida
!ls -la data | head -n 50

Cloning into 'repo'...
remote: Enumerating objects: 93, done.[K
remote: Counting objects: 100% (93/93), done.[K
remote: Compressing objects: 100% (81/81), done.[K
remote: Total 93 (delta 36), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (93/93), 1.79 MiB | 4.71 MiB/s, done.
Resolving deltas: 100% (36/36), done.
'repo/data/GuiÃÅa de problemas frecuentes con equipo de coÃÅmputo.pdf' -> 'data/GuiÃÅa de problemas frecuentes con equipo de coÃÅmputo.pdf'
'repo/data/Guia Win10 Win11.pdf' -> 'data/Guia Win10 Win11.pdf'
'repo/data/PR-TI-SP-001 Procedimiento de Recepcion Diagnostico de Equipos de computo.pdf' -> 'data/PR-TI-SP-001 Procedimiento de Recepcion Diagnostico de Equipos de computo.pdf'
'repo/requirements.txt' -> 'data/requirements.txt'
'repo/README.md' -> 'data/README.md'
total 2044
drwxr-xr-x 3 root root    4096 Sep 15 23:38 .
drwxr-xr-x 1 root root    4096 Sep 15 23:38 ..
drwxr-xr-x 2 root root    4096 Sep 15 23:32 chroma
-rw-r--r-- 1 root root   64818 Sep

In [7]:
import os
from glob import glob
from langchain_community.document_loaders import PyPDFLoader, TextLoader, UnstructuredFileLoader
from langchain.docstore.document import Document

folder_path = str(DATA_DIR)  # <-- usamos la carpeta definida en la celda 4

# Buscar archivos comunes (recursivo)
patterns = ["**/*.pdf", "**/*.txt", "**/*.md", "**/*.docx", "**/*.html", "**/*.htm"]
file_paths = []
for p in patterns:
    file_paths.extend(glob(os.path.join(folder_path, p), recursive=True))

if not file_paths:
    raise FileNotFoundError(
        f"No se encontraron archivos en {folder_path}. "
        "Coloca tus documentos en ./data."
    )

docs = []
for path in file_paths:
    try:
        low = path.lower()
        if low.endswith(".pdf"):
            loader = PyPDFLoader(path)
        elif low.endswith(".txt") or low.endswith(".md"):
            loader = TextLoader(path)
        else:
            loader = UnstructuredFileLoader(path)  # Para DOCX/HTML
        docs.extend(loader.load())
    except Exception as e:
        print(f"‚ö†Ô∏è Error cargando {os.path.basename(path)}: {e}")

print(f"‚úÖ Se cargaron {len(docs)} fragmentos desde {len(file_paths)} archivos")



‚úÖ Se cargaron 30 fragmentos desde 5 archivos


## 2. Text Splitting into Chunks

In [8]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Definir par√°metros de fragmentaci√≥n
CHUNK_SIZE = 1000
CHUNK_OVERLAP = 200

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP
)

# Dividir los documentos cargados en fragmentos
split_docs = text_splitter.split_documents(docs)

print(f"‚úÖ Se crearon {len(split_docs)} fragmentos (chunk_size={CHUNK_SIZE}, overlap={CHUNK_OVERLAP})")

# Mostrar vista previa del primer fragmento
if split_docs:
    print("Ejemplo de fragmento:")
    print("Archivo:", split_docs[0].metadata.get("filename", "desconocido"))
    print("Texto:", split_docs[0].page_content[:200].replace("\n", " "), "...")

‚úÖ Se crearon 51 fragmentos (chunk_size=1000, overlap=200)
Ejemplo de fragmento:
Archivo: desconocido
Texto: Gu√≠a rapida de problemas frecuentes con equipo de c√≥mputo  Fuente de alimentaci√≥n  Problema: El ordenador se apaga de repente sin raz√≥n y hace mucho ruido  Soluci√≥n: Limpiar la fuente de poder por den ...


## 3. Embedding

In [9]:
from langchain_openai import OpenAIEmbeddings

# Crear embeddings con el modelo moderno (m√°s r√°pido y econ√≥mico que ada-002)
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small",
    api_key=openai_api_key   # aseg√∫rate que tu API Key est√° cargada en la celda 1
)

print("‚úÖ Embeddings listos con text-embedding-3-small")

‚úÖ Embeddings listos con text-embedding-3-small


## 4. Vector Stores

In [10]:
from langchain_chroma import Chroma
from pathlib import Path

# Carpeta donde se guardar√° la base vectorial
PERSIST_DIR = Path("./data/chroma")
PERSIST_DIR.mkdir(exist_ok=True, parents=True)

# Crear y persistir el vector store con los fragmentos y los embeddings ya definidos
vectordb = Chroma.from_documents(
    documents=split_docs,      # viene de la celda 8
    embedding=embeddings,      # viene de la celda 10
    persist_directory=str(PERSIST_DIR)
)


print(f"‚úÖ Vector store creado y guardado en: {PERSIST_DIR.resolve()}")

‚úÖ Vector store creado y guardado en: /content/data/chroma


## 5. Retriving from the Persistant Vector Datastore

In [11]:
from langchain_chroma import Chroma

# Reabrir Chroma desde disco usando los mismos embeddings
vectordb = Chroma(
    persist_directory=str(PERSIST_DIR),
    embedding_function=embeddings
)

# Preparar el retriever (k=4 por defecto)
retriever = vectordb.as_retriever(search_kwargs={"k": 4})

print("‚úÖ Chroma reabierto desde:", PERSIST_DIR.resolve())
print("üîé Retriever listo (k=4)")

‚úÖ Chroma reabierto desde: /content/data/chroma
üîé Retriever listo (k=4)


## 6. Retrivers in Langchain

In [None]:
# --- Autorecuperaci√≥n de qa si no existe ---
import os

def _ensure_qa():
    global qa
    try:
        qa  # ya existe
        return
    except NameError:
        pass  # no existe, lo creamos

    # Imports necesarios
    from langchain_openai import ChatOpenAI, OpenAIEmbeddings
    try:
        # preferible si NO tienes langchain-chroma instalado
        from langchain_community.vectorstores import Chroma
    except Exception:
        # alternativa si usas el paquete separado
        from langchain_chroma import Chroma
    from langchain.chains import RetrievalQA

    # Par√°metros desde env (√∫tiles en GitHub Actions); pon por defecto si no hay env
    PERSIST_DIR = os.getenv("PERSIST_DIR", "data/chroma")
    EMB_MODEL   = os.getenv("MODEL_EMB", "text-embedding-3-small")
    LLM_MODEL   = os.getenv("LLM_MODEL", "gpt-4o-mini")
    OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
    assert OPENAI_API_KEY, "Falta OPENAI_API_KEY"

    # Reabrir base y crear retriever + chain
    embeddings = OpenAIEmbeddings(model=EMB_MODEL, api_key=OPENAI_API_KEY)
    vectordb   = Chroma(persist_directory=PERSIST_DIR, embedding_function=embeddings)
    retriever  = vectordb.as_retriever(search_kwargs={"k": 4})

    llm = ChatOpenAI(model=LLM_MODEL, temperature=0, api_key=OPENAI_API_KEY)
    qa = RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        return_source_documents=True,
        chain_type="stuff"
    )

_ensure_qa()


from pathlib import Path

preguntas = [
    "La computadora se apaga de repente, ¬øqu√© reviso?",
    "La impresora atasca las hojas, ¬øc√≥mo lo soluciono?",
    "¬øC√≥mo restablecer la conexi√≥n a internet si no funciona?",
    "¬øQu√© hacer si la computadora hace mucho ruido?",
    "¬øQu√© informaci√≥n principal contienen estos documentos?"
]

def _cite(meta: dict) -> str:
    page = meta.get("page") or meta.get("page_number") or meta.get("source_page") or "?"
    fn = Path(meta.get("filename", meta.get("source","doc"))).name
    return f"[{fn}:{page}]"

result_rows = []
for i, q in enumerate(preguntas, 1):
    out = qa.invoke({"query": q})
    answer  = out.get("result","")
    sources = out.get("source_documents", []) or []
    if "_Citas_:" not in answer and sources:
        cites = " ".join(_cite(d.metadata) for d in sources[:3])
        answer += f"\n\n_Citas_: {cites}"
    result_rows.append({"#": i, "pregunta": q, "respuesta": answer})

print(f"‚úÖ Generadas {len(result_rows)} respuestas")



‚ùì Pregunta 1: La computadora se apaga de repente, ¬øqu√© reviso?
**Diagn√≥stico breve**
- La computadora puede estar experimentando sobrecalentamiento de la fuente de alimentaci√≥n o desgaste de la misma.

**Pasos para resolver**
1. Limpiar la fuente de poder por dentro para eliminar el polvo que puede estar causando el sobrecalentamiento.
2. Verificar si la parte trasera de la fuente est√° sobrecalentada y mantener las tomas de aire limpias.
3. Si el problema persiste, considerar el desgaste de la fuente y evaluar la posibilidad de cambiarla.

**Verificaci√≥n**
- Asegurarse de que la computadora encienda correctamente despu√©s de realizar la limpieza y verificar que no se apague de nuevo.

**Notas / Advertencias**
- Si la limpieza no resuelve el problema, puede ser necesario reemplazar la fuente de alimentaci√≥n.

_Citas_: [archivo:p√°gina] [archivo:p√°gina]

‚ùì Pregunta 2: La impresora atasca las hojas, ¬øc√≥mo lo soluciono?
**Diagn√≥stico breve**
- El papel se traba siempre en l

In [None]:
# ‚úÖ 5 preguntas ‚Üí guarda MD/CSV en carpeta results/ (sin git push aqu√≠)

from pathlib import Path
from datetime import datetime
import pandas as pd

preguntas = [
    "La computadora se apaga de repente, ¬øqu√© reviso?",
    "La impresora atasca las hojas, ¬øc√≥mo lo soluciono?",
    "¬øC√≥mo restablecer la conexi√≥n a internet si no funciona?",
    "¬øQu√© hacer si la computadora hace mucho ruido?",
    "¬øQu√© informaci√≥n principal contienen estos documentos?"
]

# --- hacer preguntas con qa ---
from pathlib import Path as _P
def _cite(meta: dict) -> str:
    page = meta.get("page") or meta.get("page_number") or meta.get("source_page") or "?"
    fn = _P(meta.get("filename", meta.get("source","doc"))).name
    return f"[{fn}:{page}]"

assert "qa" in globals(), "Falta el objeto `qa` antes de esta celda."

result_rows = []
for i, q in enumerate(preguntas, 1):
    out = qa.invoke({"query": q})
    answer  = out.get("result","")
    sources = out.get("source_documents", []) or []
    if "_Citas_:" not in answer and sources:
        cites = " ".join(_cite(d.metadata) for d in sources[:3])
        answer += f"\n\n_Citas_: {cites}"
    result_rows.append({"#": i, "pregunta": q, "respuesta": answer})

# --- guardar en results/ ---
now = datetime.now().strftime("%Y%m%d_%H%M")
results_dir = Path("results")
results_dir.mkdir(parents=True, exist_ok=True)

md_path  = results_dir / f"QA_results_{now}.md"
csv_path = results_dir / f"QA_results_{now}.csv"

with open(md_path, "w", encoding="utf-8") as f:
    f.write(f"# Resultados QA Soporte T√©cnico ‚Äî {now}\n\n")
    for row in result_rows:
        f.write(f"## ‚ùì Pregunta {row['#']}\n{row['pregunta']}\n\n")
        f.write(f"**Respuesta**\n\n{row['respuesta']}\n\n---\n\n")

pd.DataFrame(result_rows).to_csv(csv_path, index=False, encoding="utf-8")

print("‚úÖ Archivos generados:", md_path, csv_path)


‚úÖ Resultados subidos a https://github.com/RocioPortillo86/SoporteTecnico-Rag/tree/main/results
