<a href="https://colab.research.google.com/github/davidlealo/vocacional-test/blob/main/notebooks/03_vocacional_assistant.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Asistente Vocacional FPUC ‚Äî Colab

Este notebook implementa un **asistente vocacional** usando **Azure OpenAI** con:
- Embeddings (`emb-vocatest`) para b√∫squeda sem√°ntica sobre *Binder1.pdf*
- Chat (`phi4mini-chat`) para respuestas contextuales
- Variables seguras desde `.env` con *fallback* a `getpass()`

> **Requisitos previos**  
> 1) Tener un recurso Azure OpenAI con deployments: `phi4mini-chat` y `emb-vocatest`  
> 2) Subir tu archivo `Binder1.pdf` a la carpeta `data/` de este entorno  
> 3) (Opcional) Subir `.env` en la ra√≠z del proyecto con tus credenciales


In [None]:
# ‚¨áÔ∏è Instalaci√≥n de dependencias
!pip -q install pdfplumber python-dotenv requests tqdm scikit-learn pandas numpy

[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.8/42.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m48.5/48.5 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m60.0/60.0 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m5.6/5.6 MB[0m [31m78.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.8/2.8 MB[0m [31m89.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# üîê Carga de variables de entorno desde .env y fallback interactivo
import os
from getpass import getpass

try:
    from dotenv import load_dotenv
    load_dotenv()
except Exception as e:
    print("python-dotenv no disponible, se usar√° solo input interactivo.")

if not os.getenv("AZURE_OPENAI_KEY"):
    os.environ["AZURE_OPENAI_KEY"] = getpass("Introduce AZURE_OPENAI_KEY: ")

if not os.getenv("AZURE_OPENAI_ENDPOINT"):
    os.environ["AZURE_OPENAI_ENDPOINT"] = input("Introduce AZURE_OPENAI_ENDPOINT (ej: https://oai-vocatest.services.ai.azure.com/): ").strip()

if not os.getenv("AZURE_OPENAI_DEPLOYMENT"):
    os.environ["AZURE_OPENAI_DEPLOYMENT"] = input("Introduce AZURE_OPENAI_DEPLOYMENT (ej: phi4mini-chat): ").strip()

if not os.getenv("AZURE_OPENAI_EMBEDDING"):
    os.environ["AZURE_OPENAI_EMBEDDING"] = input("Introduce AZURE_OPENAI_EMBEDDING (ej: emb-vocatest): ").strip()

print("‚úÖ Variables cargadas.")

‚úÖ Variables cargadas.


In [None]:
# üìö Importaciones y helpers
import pdfplumber
import re
import json
import requests
import numpy as np
import pandas as pd
from tqdm import tqdm
from sklearn.metrics.pairwise import cosine_similarity

API_KEY = os.environ["AZURE_OPENAI_KEY"]
ENDPOINT = os.environ["AZURE_OPENAI_ENDPOINT"]
CHAT_DEPLOYMENT = os.environ["AZURE_OPENAI_DEPLOYMENT"]
EMB_DEPLOYMENT  = os.environ["AZURE_OPENAI_EMBEDDING"]

CHAT_URL = f"{ENDPOINT}openai/deployments/{CHAT_DEPLOYMENT}/chat/completions?api-version=2024-05-01-preview"
EMB_URL  = f"{ENDPOINT}openai/deployments/{EMB_DEPLOYMENT}/embeddings?api-version=2024-05-01-preview"

HEADERS = {"Content-Type": "application/json", "api-key": API_KEY}

def clean_text(t: str) -> str:
    t = re.sub(r"[\u0000-\u001F]+", " ", t)
    t = re.sub(r"\s+", " ", t)
    return t.strip()

def chunk_text(text: str, max_chars: int = 5000, overlap: int = 500):
    # max_chars ~ aprox 800-1000 tokens seg√∫n idioma; ajustable
    chunks = []
    i = 0
    while i < len(text):
        chunk = text[i:i+max_chars]
        chunks.append(chunk.strip())
        i += max_chars - overlap
    return [c for c in chunks if c]

In [None]:
# üìÑ Extraer texto desde Binder1.pdf (sube tu archivo a ./data/Binder1.pdf)
from pathlib import Path

pdf_path = Path("data/Binder1.pdf")
assert pdf_path.exists(), "‚ùå No se encontr√≥ data/Binder1.pdf. Sube el archivo a la carpeta data/."

pages_text = []
with pdf_path.open("rb") as f:
    with pdfplumber.open(f) as pdf:
        for page in pdf.pages:
            txt = page.extract_text() or ""
            pages_text.append(txt)

full_text = clean_text("\n".join(pages_text))
print("‚úÖ Texto extra√≠do. Longitud de caracteres:", len(full_text))

# Dividir en chunks
chunks = chunk_text(full_text, max_chars=5000, overlap=500)
print(f"‚úÖ Chunks generados: {len(chunks)}")

‚úÖ Texto extra√≠do. Longitud de caracteres: 62401
‚úÖ Chunks generados: 14


In [None]:
# üß† Generar embeddings de todos los chunks (puede tardar unos minutos seg√∫n largo)
def get_embeddings(text_list):
    resp = requests.post(EMB_URL, headers=HEADERS, data=json.dumps({"input": text_list}))
    if resp.status_code != 200:
        raise RuntimeError(f"Error embeddings: {resp.status_code} {resp.text}")
    data = resp.json()["data"]
    return [d["embedding"] for d in data]

# Procesar por lotes para evitar payloads grandes
batch_size = 16
all_embeddings = []
for i in tqdm(range(0, len(chunks), batch_size), desc="Embedding batches"):
    batch = chunks[i:i+batch_size]
    embs = get_embeddings(batch)
    all_embeddings.extend(embs)

emb_arr = np.array(all_embeddings, dtype=np.float32)
print("‚úÖ Matriz de embeddings:", emb_arr.shape)

# Guardar a disco
out_df = pd.DataFrame({"chunk": chunks, "embedding": list(all_embeddings)})
out_df.to_pickle("binder_embeddings.pkl")
print("üíæ Guardado: binder_embeddings.pkl")

Embedding batches: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:01<00:00,  1.25s/it]

‚úÖ Matriz de embeddings: (14, 1536)
üíæ Guardado: binder_embeddings.pkl





In [None]:
# üîç B√∫squeda sem√°ntica (top-k)
def retrieve_context(query: str, top_k: int = 3):
    r = requests.post(EMB_URL, headers=HEADERS, data=json.dumps({"input": query}))
    if r.status_code != 200:
        raise RuntimeError(f"Error embedding query: {r.status_code} {r.text}")
    q_emb = np.array(r.json()["data"][0]["embedding"], dtype=np.float32).reshape(1, -1)
    db = pd.read_pickle("binder_embeddings.pkl")
    M = np.vstack(db["embedding"].values)
    sims = cosine_similarity(q_emb, M)[0]
    idxs = sims.argsort()[::-1][:top_k]
    hits = db.iloc[idxs]
    # devolver texto concatenado
    context = "\n\n---\n\n".join(hits["chunk"].tolist())
    return context, hits[["chunk"]]

# Peque√±a prueba de recuperaci√≥n
ctx, refs = retrieve_context("¬øQu√© es la gratuidad y c√≥mo postular?")
print(ctx[:500], "...")

necer al 60% de menores ingresos. Gratuidad Requisito institucional: Instituciones acreditadas y adscritas a la gratuidad. Es importante que sepas que para obtener la gratuidad no se necesita ning√∫n requisito acad√©mico, aunque s√≠ ser√°n requeridos para poder matricularse en las distintas institu- ciones. Beneficio destinado a estudiantes egresados de ense√±anza media con rendimiento acad√©mico meritorio. Financia el arancel referencial de tu carrera. Beca Requisito econ√≥mico: Pertenecer al 70% de l ...


In [None]:
# üßæ Carga autom√°tica del prompt institucional desde archivo (local o Colab)
from pathlib import Path

# Detecta si est√°s en Colab o en entorno local
try:
    import google.colab  # noqa
    running_in_colab = True
except ImportError:
    running_in_colab = False

# Posibles rutas del archivo
possible_paths = [
    Path("prompt_vocacional.txt"),                  # misma carpeta del notebook (Colab)
    Path("/content/prompt_vocacional.txt"),         # ruta absoluta com√∫n en Colab
    Path("../prompt_vocacional.txt"),               # ra√≠z del proyecto local (VS Code)
    Path("../../prompt_vocacional.txt"),            # un nivel m√°s arriba
]

# Busca el primer archivo existente
prompt_file = next((p for p in possible_paths if p.exists()), None)

if prompt_file:
    with open(prompt_file, "r", encoding="utf-8") as f:
        PROMPT_SISTEMA = f.read()
    print(f"‚úÖ Prompt cargado desde: {prompt_file}")
else:
    print("‚ö†Ô∏è No se encontr√≥ 'prompt_vocacional.txt'. Se usar√° versi√≥n reducida por defecto.")
    PROMPT_SISTEMA = """
    Este asistente est√° dise√±ado para ayudar a postulantes a carreras universitarias o t√©cnicas en Chile
    a tomar decisiones informadas sobre su futuro acad√©mico y profesional. Trabaja en colaboraci√≥n con la
    Fundaci√≥n Por Una Carrera y la ONG Innovacien. Proporciona orientaci√≥n sobre admisi√≥n, becas, beneficios
    y vida universitaria de manera inclusiva y clara.
    """

print(PROMPT_SISTEMA[:250] + "...\n")  # muestra una vista previa


‚úÖ Prompt cargado desde: prompt_vocacional.txt
Este asistente est√° dise√±ado para ayudar a postulantes a carreras universitarias o t√©cnicas en Chile a tomar decisiones informadas sobre su futuro acad√©mico y profesional. Trabaja en colaboraci√≥n con la Fundaci√≥n Por Una Carrera y la ONG Innovacien, ...



In [None]:
# üßæ Prompt institucional (puedes editarlo o cargarlo desde prompt_vocacional.txt)
PROMPT_SISTEMA = """Este asistente est√° dise√±ado para ayudar a postulantes a carreras universitarias o t√©cnicas en Chile a tomar decisiones informadas sobre su futuro acad√©mico y profesional. Trabaja en colaboraci√≥n con la Fundaci√≥n Por Una Carrera y la ONG Innovacien, por lo que su enfoque es inclusivo, confiable, claro y siempre centrado en el bienestar del estudiante.

Proporciona orientaci√≥n sobre procesos de admisi√≥n, requisitos de postulaci√≥n, becas y beneficios estatales, opciones acad√©micas, vida universitaria y decisiones vocacionales.

El asistente incorpora preguntas frecuentes y actividades de autoconocimiento extra√≠das del material educativo de Fundaci√≥n Por Una Carrera (Binder1.pdf) y recursos oficiales del DEMRE/FUAS. Debe citar o recomendar recursos cuando corresponda.

El asistente debe:
- Explicar con claridad y sin tecnicismos innecesarios.
- Adaptar sus respuestas a la realidad chilena actual.
- Mostrar sensibilidad frente a contextos de vulnerabilidad social y educativa.
- Proporcionar enlaces, fuentes oficiales y recursos cuando est√©n disponibles.
- Promover la toma de decisiones informadas sin imponer opciones.

Debe evitar:
- Reemplazar la orientaci√≥n profesional presencial.
- Dar consejos cerrados o categ√≥ricos que limiten opciones.
- Suponer informaci√≥n sin fundamentos o sin contexto.

Al comenzar, saluda indicando que esta es una iniciativa conjunta entre la Fundaci√≥n Por Una Carrera (https://www.instagram.com/porunacarrera) e Innovacien (https://www.instagram.com/innovacien), e invita a seguir ambas cuentas en Instagram y a compartir su experiencia con el chat.
"""

In [None]:
# üí¨ Funci√≥n de respuesta con contexto
def chat_with_context(user_query: str, top_k: int = 3, temperature: float = 0.4, max_tokens: int = 600):
    context, refs = retrieve_context(user_query, top_k=top_k)
    payload = {
        "messages": [
            {"role": "system", "content": PROMPT_SISTEMA},
            {"role": "user", "content": f"Contexto relevante:\n{context}\n\nPregunta del usuario: {user_query}"},
        ],
        "temperature": temperature,
        "max_tokens": max_tokens
    }
    resp = requests.post(CHAT_URL, headers=HEADERS, data=json.dumps(payload))
    if resp.status_code != 200:
        raise RuntimeError(f"Error chat: {resp.status_code} {resp.text}")
    answer = resp.json()["choices"][0]["message"]["content"]
    return answer, refs

# Prueba r√°pida
ans, refs = chat_with_context("¬øC√≥mo postulo a beneficios estudiantiles del Estado?")
print("ü§ñ Respuesta:\n", ans[:800], "...")

ü§ñ Respuesta:
 Para postular a beneficios estudiantiles del Estado en Chile, generalmente debes seguir estos pasos:

1. **Identifica los beneficios a los que est√°s calificado**: Revisa la informaci√≥n disponible sobre los diferentes beneficios estatales, como la Gratuidad, Becas de la Bicentenario, Becas Vocacionales, Becas de Arancel, y otros. Cada uno tiene requisitos espec√≠ficos en cuanto a nivel socioecon√≥mico, rendimiento acad√©mico y instituci√≥n educativa.

2. **Consulta el formulario de solicitud**: El Ministerio de Educaci√≥n proporciona un formulario √∫nico de acreditaci√≥n socioecon√≥mica (FUA) para la postulaci√≥n a beneficios estatales. Este formulario te permite declarar tu situaci√≥n socioecon√≥mica y acad√©mica, y es el primer paso para acceder a los beneficios.

3. **Re√∫ne la documentaci√≥n necesari ...


In [None]:
# üßë‚Äçüíª Interfaz simple de conversaci√≥n (ejecuta esta celda y luego llama a chat_with_context)
q = "Quiero estudiar pedagog√≠a pero no s√© si califico para gratuidad. ¬øQu√© debo revisar?"
ans, refs = chat_with_context(q, top_k=3)
print("üßç Usuario:", q)
print("\nü§ñ Asistente:\n", ans)
print("\nüîé Fragmentos usados (primeros 200 chars de cada uno):")
for i, ch in enumerate(refs["chunk"].tolist(), 1):
    print(f"[{i}] {ch[:200]}...")

üßç Usuario: Quiero estudiar pedagog√≠a pero no s√© si califico para gratuidad. ¬øQu√© debo revisar?

ü§ñ Asistente:
 Para determinar si calificas para la gratuidad en una carrera de pedagog√≠a en Chile, necesitas revisar los siguientes requisitos:

1. Requisito Institucional: La instituci√≥n donde deseas estudiar debe estar acreditada. Puedes verificar la acreditaci√≥n de la instituci√≥n visitando el sitio web del Ministerio de Educaci√≥n o consultando el Sistema Nacional de Acreditaci√≥n (SINA).

2. Requisito Econ√≥mico: Debes pertenecer al 60% de menores ingresos del pa√≠s. Para comprobar tu situaci√≥n econ√≥mica, puedes solicitar una evaluaci√≥n del Ministerio de Educaci√≥n. Ellos te ayudar√°n a determinar si calificas para la gratuidad basada en tu situaci√≥n familiar.

3. Requisito Acad√©mico: Para la gratuidad, no hay un requisito acad√©mico espec√≠fico, pero es importante tener en cuenta que tu puntaje en las pruebas obligatorias (Competencia Lectora y Competencia Matem√°tica

In [None]:
# üí¨ Realizar una pregunta al asistente vocacional y mostrar respuesta
import os
import json
import requests
from dotenv import load_dotenv

# === CARGAR VARIABLES DE ENTORNO ===
load_dotenv()

API_KEY = os.getenv("AZURE_OPENAI_KEY")
ENDPOINT = os.getenv("AZURE_OPENAI_ENDPOINT")
DEPLOYMENT = os.getenv("AZURE_OPENAI_DEPLOYMENT")

if not all([API_KEY, ENDPOINT, DEPLOYMENT]):
    raise ValueError("‚ùå Faltan variables de entorno: revisa tu archivo .env o define las variables manualmente.")

# === CONSTRUIR ENDPOINT DE CHAT ===
CHAT_URL = f"{ENDPOINT}openai/deployments/{DEPLOYMENT}/chat/completions?api-version=2024-05-01-preview"

# === CABECERAS ===
headers = {
    "Content-Type": "application/json",
    "api-key": API_KEY
}

# === HACER UNA PREGUNTA ===
pregunta_usuario = input("üéì Ingresa tu pregunta vocacional: ")

data = {
    "messages": [
        {"role": "system", "content": PROMPT_SISTEMA},
        {"role": "user", "content": pregunta_usuario}
    ],
    "temperature": 0.7,
    "max_tokens": 500
}

# === SOLICITUD A AZURE ===
response = requests.post(CHAT_URL, headers=headers, data=json.dumps(data))

if response.status_code == 200:
    respuesta = response.json()["choices"][0]["message"]["content"]
    print("\nüß≠ Respuesta del asistente:\n")
    print(respuesta)
else:
    print("‚ùå Error:", response.status_code)
    print(response.text)


üéì Ingresa tu pregunta vocacional: Estoy en mi segunda carrera y quiero seguir estudiando con gratuidad

üß≠ Respuesta del asistente:

Es fant√°stico saber que est√°s adelante con tu educaci√≥n y buscas continuar con un grado en gratuidad. Aqu√≠ te dejo algunos consejos y recursos que podr√≠an ayudarte a seguir tu camino en la gratuidad:

1. **Investiga Instituciones Gratuitas**: Existen muchas universidades y universidades p√∫blicas en M√©xico que ofrecen programas de grado gratis. Algunos de estos son la Universidad Nacional Aut√≥noma de M√©xico (UNAM), la Universidad de Guadalajara, la Universidad Aut√≥noma de Nuevo Le√≥n, entre otras. Revisa las p√°ginas oficiales de estas instituciones para encontrar programas que se ajusten a tus intereses.

2. **Verifica los Requisitos**: Cada instituci√≥n tiene sus propios requisitos para ingresar a programas de grado gratuito. Esto puede incluir haber cursado una carrera preparatoria, tener calificaciones espec√≠ficas, no haber cursado una 