
# Avance 6. Conclusiones clave

**Institución:** Tecnológico de Monterrey  
**Materia/Curso:** Proyecto integrador  
**Equipo:** 41  
**Fecha:** 2025-11-01  

### Integrantes
- Benitez Ortega, Luis Ángel — **A01795165**  
- Del Valle Azuara, Claudio Luis — **A01795773**  
- Islas Blanco, Alejandra — **A01794452**  


## Contexto y Recomendación de la Asesora
En conversación con nuestra **asesora académica**, se acordó **comparar** tres enfoques para la tarea de clasificación de texto:
1. **Modelo simple local** (baseline eficiente en costo) — TF‑IDF + clasificador lineal.
2. **Pequeño LLM local** (sin depender de la nube) — p. ej., **Ollama** con un modelo de 3B–7B.
3. **Gemini (API)** — referencia de desempeño con un LLM comercial.



## Setup & Verificación de Datos
Archivos esperados:
- `datos_text.csv` → columnas: `id, user_text, y_true`
- (Opcional) `inference_demo.csv` → columnas `user_text` (+ opcional `y_true`)


In [65]:

from pathlib import Path
import pandas as pd

DATA_PATH = Path("datos_text.csv")
DEMO_PATH = Path("inference_demo.csv")

print("¿Existe datos_text.csv?:", DATA_PATH.exists())
if DATA_PATH.exists():
    df = pd.read_csv(DATA_PATH)
    df = df.dropna(subset=["user_text"]).reset_index(drop=True)
    display(df.head(5))
    print("Filas:", len(df), "| Columnas:", list(df.columns))
else:
    raise FileNotFoundError("No se encontró datos_text.csv. Crea el archivo con columnas: id,user_text,y_true")

print("\n¿Existe inference_demo.csv?:", DEMO_PATH.exists())
if DEMO_PATH.exists():
    demo = pd.read_csv(DEMO_PATH)
    display(demo.head(5))


¿Existe datos_text.csv?: True


Unnamed: 0,id,user_text,y_true
0,1,Quiero reservar un vuelo a Cancún para la próx...,clarify
1,2,"para 2 adultos, del 10 al 15 de oct",continue
2,3,How much is the total for my cart? Include taxes.,continue
3,4,"El pago no pasa, me sale un error raro",handoff
4,5,info sobre políticas de cancelación,continue


Filas: 161 | Columnas: ['id', 'user_text', 'y_true']

¿Existe inference_demo.csv?: True


Unnamed: 0,id,user_text,y_true
0,1,"Quiero cambiar mi cita al 15 de diciembre, ¿ha...",continue
1,2,"Pásame el enlace de pago, voy a depositar $120...",continue
2,3,"Hola, solo necesito información general del pr...",continue



## Esquema de Etiquetas
Usaremos las etiquetas 'continue', 'clarify' y 'handoff' y construimos un mapeo **id↔label**.  
Todos los modelos deben devolver **labels** (strings) del conjunto permitido.


In [66]:
import numpy as np
import re

# Derivar conjunto de etiquetas
labels_sorted = sorted(df["y_true"].astype(str).unique().tolist())
label2id = {lbl: i for i, lbl in enumerate(labels_sorted)}
id2label = {i: lbl for lbl, i in label2id.items()}


def normalize_label(s):
    # Normaliza etiqueta: minúsculas, sin espacios extra.
    if s is None:
        return None
    s = str(s).strip().lower()
    return s


# Tablas auxiliares de normalización (lower) para matching flexible
labels_norm = [normalize_label(x) for x in labels_sorted]
norm2label = {normalize_label(x): x for x in labels_sorted}

print("Etiquetas permitidas:", labels_sorted)


def allowed_labels_for_prompt():
    try:
        return ", ".join([f'"{x}"' for x in labels_sorted])
    except Exception:
        return ""


FEW_SHOT_EXAMPLES = [
    # CLARIFY: pedir más contexto, repetir info, dudas específicas
    {
        "message": "¿Podrías confirmar el número de pedido? No lo encuentro.",
        "label": "clarify",
    },
    {
        "message": "No entiendo el último paso, ¿me lo explicas otra vez?",
        "label": "clarify",
    },
    # CONTINUE: seguir/aceptar/confirmar; “ok”, “sí, continúa”, “dale”
    {"message": "Sí, continúa por favor.", "label": "continue"},
    {"message": "Ok, sigue con el proceso.", "label": "continue"},
    # HANDOFF: transferir a humano / canal alterno; alta fricción o riesgo
    {"message": "Esto es urgente, quiero hablar con un agente ya.", "label": "handoff"},
    {
        "message": "Necesito que me contacten por teléfono, es un tema sensible.",
        "label": "handoff",
    },
]


def _format_few_shots(examples):
    return "\n".join(
        [f'- input: "{ex["message"]}" -> label: "{ex["label"]}"' for ex in examples]
    )


PROMPT_CLASSIFY = (
    "Eres un clasificador para un chatbot de soporte al cliente en español. "
    "Asigna **una única etiqueta** al mensaje del usuario a partir del conjunto permitido.\n\n"
    "Conjunto de etiquetas (usa el texto exacto): [{allowed}]\n\n"
    "Guías del dominio:\n"
    "- **clarify**: el usuario pide aclaración, más datos, repetir/precisar información.\n"
    "- **continue**: el usuario indica seguir/continuar/aceptar el siguiente paso.\n"
    "- **handoff**: el usuario requiere derivación a un humano o canal alterno (urgencia, complejidad, sensibilidad).\n\n"
    "Regla de desempate si hay múltiples señales: handoff > clarify > continue\n\n"
    "Responde **solo** con JSON **estricto** (sin markdown): claves `prediction` (string) y `confidence` (float [0,1]).\n\n"
    "Ejemplos:\n"
    "{examples}\n\n"
    "Mensaje del usuario:\n"
    "{message}\n\n"
    'Responde en formato JSON: {{"prediction": "<clarify|continue|handoff>", "confidence": 0.xx}}\n'
)

Etiquetas permitidas: ['clarify', 'continue', 'handoff']



## Paso C — Baseline Local (TF‑IDF + LinearSVC calibrado)
Entrenamos un modelo **solo texto**:
- **Features**: `TfidfVectorizer` de palabras (1–2) + caracteres (3–5).
- **Modelo**: `LinearSVC(class_weight='balanced')` + `CalibratedClassifierCV` para probabilidades.
- **Métrica**: `F1 (weighted)` y también Accuracy/Precision/Recall.


In [67]:

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.svm import LinearSVC
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report
import joblib

X = df["user_text"].astype(str).values
y = df["y_true"].astype(str).values  # Forzamos a string labels

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

word_tfidf = TfidfVectorizer(ngram_range=(1,2), min_df=2)
char_tfidf = TfidfVectorizer(analyzer="char", ngram_range=(3,5), min_df=2)

feat_union = FeatureUnion([
    ("word", word_tfidf),
    ("char", char_tfidf),
])

base_clf = LinearSVC(class_weight="balanced", max_iter=5000)

# Compatibilidad de versiones: estimator vs base_estimator
use_estimator_kw = True
try:
    _ = CalibratedClassifierCV(estimator=base_clf, method="sigmoid", cv=3)
except TypeError:
    use_estimator_kw = False

if use_estimator_kw:
    cal_clf = CalibratedClassifierCV(estimator=base_clf, method="sigmoid", cv=3)
else:
    cal_clf = CalibratedClassifierCV(base_estimator=base_clf, method="sigmoid", cv=3)

pipe = Pipeline([
    ("tfidf", feat_union),
    ("clf", cal_clf),
])

c_key = "clf__estimator__C" if use_estimator_kw else "clf__base_estimator__C"
param_grid = {
    "tfidf__word__min_df": [1, 2],
    "tfidf__char__min_df": [1, 2],
    c_key: [0.5, 1.0, 2.0],
}

gs = GridSearchCV(
    pipe,
    param_grid=param_grid,
    n_jobs=-1,
    cv=3,
    scoring="f1_weighted",
    verbose=0,
)
gs.fit(X_train, y_train)

best = gs.best_estimator_
y_pred = best.predict(X_test)

acc = accuracy_score(y_test, y_pred)
f1  = f1_score(y_test, y_pred, average="weighted")
prec = precision_score(y_test, y_pred, average="weighted", zero_division=0)
rec  = recall_score(y_test, y_pred, average="weighted")

print(f"Baseline Local — Accuracy: {acc:.3f}  F1(weighted): {f1:.3f}  Precision: {prec:.3f}  Recall: {rec:.3f}")
print("Best params:", gs.best_params_)
print("\nReport:\n", classification_report(y_test, y_pred, zero_division=0))

joblib.dump(best, "/mnt/data/text_only_model_baseline.joblib")


Baseline Local — Accuracy: 0.633  F1(weighted): 0.602  Precision: 0.635  Recall: 0.633
Best params: {'clf__estimator__C': 0.5, 'tfidf__char__min_df': 1, 'tfidf__word__min_df': 2}

Report:
               precision    recall  f1-score   support

     clarify       0.67      0.31      0.42        13
    continue       0.64      0.91      0.75        23
     handoff       0.60      0.46      0.52        13

    accuracy                           0.63        49
   macro avg       0.63      0.56      0.56        49
weighted avg       0.63      0.63      0.60        49



['/mnt/data/text_only_model_baseline.joblib']


### Inferencia con un único texto
Definimos `local_model_predict(text)` para tener la misma interfaz (label + probabilidad).


In [68]:

import joblib

_text_model = joblib.load("/mnt/data/text_only_model_baseline.joblib")

def local_model_predict(text: str):
    pred = _text_model.predict([text])[0]  # ya es string label si entrenamos con y como string
    proba = None
    if hasattr(_text_model, "predict_proba"):
        try:
            import numpy as np
            proba = float(np.max(_text_model.predict_proba([text])[0]))
        except Exception:
            proba = None
    return {"prediction": str(pred), "probability": proba}



## Paso D — Conector **LLM Local (Ollama)**
Requiere **Ollama** corriendo en `http://localhost:11434`.  
Usa el mismo prompt JSON y devuelve **labels** (strings) y `confidence`.

> Si prefieres simular, pon `DRY_RUN_LOCAL_LLM = True`.


In [69]:
import re, json, os, requests


def local_llm_predict_text(
    message: str,
    endpoint: str = "http://localhost:11434/api/generate",
    model: str = "llama3.2:3b",
):
    """
    Llama a un LLM local vía Ollama con el prompt JSON.
    Retorna: {"prediction": "<label>", "confidence": float}
    """

    def _postprocess_label(value):
        # Convierte ints a label y normaliza strings
        try:
            if isinstance(value, (int,)) or (
                isinstance(value, str) and re.fullmatch(r"\d+", value)
            ):
                i = int(value)
                return id2label.get(i, None)
        except Exception:
            pass
        s = normalize_label(value)
        return norm2label.get(s, None)

    prompt = PROMPT_CLASSIFY.format(
    allowed=allowed_labels_for_prompt(),
    examples=_format_few_shots(FEW_SHOT_EXAMPLES),
    message=message,
)
    # Llamada real a Ollama
    payload = {"model": model, "prompt": prompt, "stream": False}
    r = requests.post(endpoint, json=payload, timeout=60)
    r.raise_for_status()
    txt = r.json().get("response", "").strip()
    m = re.search(r"\{[\s\S]*\}", txt)
    if not m:
        raise ValueError(f"LLM local no devolvió JSON: {txt[:200]}")
    data = json.loads(m.group(0))
    pred = _postprocess_label(data.get("prediction"))
    if pred is None:
        raise ValueError(f"Predicción no mapeable a etiqueta: {data.get('prediction')}")
    return {"prediction": pred, "confidence": float(data.get("confidence", 0.0))}


## Conector **Gemini API**
1) **Configura tu API Key** en la celda siguiente o como variable de entorno `GEMINI_API_KEY`  
2) Se usa el **mismo prompt JSON** (labels + confidence)


In [70]:

GEMINI_API_KEY = "AIzaSyAs0jHBnNLVUjpw9Gf5oLT-UIBC8MZjgiI"  # <-- esta API key ya no estara activa
import os
if GEMINI_API_KEY:
    os.environ["GEMINI_API_KEY"] = GEMINI_API_KEY


In [71]:
import os, json, re


def gemini_predict_text(message: str, model_name: str = "gemini-flash-latest"):
    """
    Llama a Gemini con el prompt JSON.
    Retorna: {"prediction": "<label>", "confidence": float}
    """

    def _postprocess_label(value):
        try:
            if isinstance(value, (int,)) or (
                isinstance(value, str) and re.fullmatch(r"\d+", value)
            ):
                i = int(value)
                return id2label.get(i, None)
        except Exception:
            pass
        s = normalize_label(value)
        return norm2label.get(s, None)

    try:
        import google.generativeai as genai
    except Exception as e:
        raise RuntimeError(
            "Falta instalar google-generativeai: pip install google-generativeai"
        ) from e

    api_key = os.getenv("GEMINI_API_KEY")
    if not api_key:
        raise RuntimeError(
            "Falta GEMINI_API_KEY. Define la variable en la celda previa o en tu entorno."
        )

    genai.configure(api_key=api_key)
    model = genai.GenerativeModel(model_name)

    prompt = PROMPT_CLASSIFY.format(
        allowed=allowed_labels_for_prompt(),
        examples=_format_few_shots(FEW_SHOT_EXAMPLES),
        message=message,
    )
    resp = model.generate_content(prompt)
    txt = resp.text.strip()
    m = re.search(r"\{[\s\S]*\}", txt)
    if not m:
        raise ValueError(f"Gemini no devolvió JSON: {txt[:200]}")
    data = json.loads(m.group(0))
    pred = _postprocess_label(data.get("prediction"))
    if pred is None:
        raise ValueError(f"Predicción no mapeable a etiqueta: {data.get('prediction')}")
    return {"prediction": pred, "confidence": float(data.get("confidence", 0.0))}


## Comparación
- Comparamos **Local**, **LLM Local** y **Gemini** sobre `inference_demo.csv`.  
- Calculamos métricas si `y_true` está presente.  
- Hacemos **ensamble por voto mayoritario** entre los tres predictores.


In [72]:

import pandas as pd
from collections import Counter
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from pathlib import Path

demo_path = Path("inference_demo.csv")
if demo_path.exists():
    demo = pd.read_csv(demo_path)
    if "user_text" not in demo.columns:
        demo = pd.DataFrame({"user_text": demo.iloc[:,0].astype(str)})
else:
    demo = pd.DataFrame({
        "user_text": [
            "Quiero cambiar mi cita al 15 de diciembre, ¿hay costo extra?",
            "Pásame el enlace de pago, voy a depositar $1200 MXN hoy.",
            "Hola, solo necesito información general del proceso."
        ]
    })

rows = []
for s in demo["user_text"].astype(str).tolist():
    # Local baseline
    try:
        lm = local_model_predict(s)
    except NotImplementedError:
        lm = {"prediction": None, "probability": None}
    # LLM local
    sm = local_llm_predict_text(s)
    # Gemini
    gm = gemini_predict_text(s)

    # En caso de empate, prioriza modelo local
    votes = [lm["prediction"], sm.get("prediction"), gm.get("prediction")]
    vote_counts = Counter(votes)
    top = vote_counts.most_common()
    if len(top) > 1 and top[0][1] == top[1][1]:
        # Empate: usa pred local como desempate
        ens = lm["prediction"]
    else:
        ens = top[0][0]

    rows.append({
        "user_text": s,
        "local_label": lm["prediction"], "local_prob": lm["probability"],
        "local_llm_label": sm.get("prediction"), "local_llm_conf": sm.get("confidence"),
        "gemini_label": gm.get("prediction"), "gemini_conf": gm.get("confidence"),
        "ensemble_label": ens
    })

cmp_df = pd.DataFrame(rows)
display(cmp_df)

# Métricas si y_true está presente
if "y_true" in demo.columns and demo["y_true"].notna().any():
    y_true = demo["y_true"].astype(str).values

    def safe_metric(name, yhat):
        mask = pd.Series(yhat).notna().values
        if not mask.any():
            return (name, None, None, None, None)
        y_true_masked = y_true[mask]
        yhat_masked = pd.Series(yhat)[mask].astype(str).values
        return (
            name,
            accuracy_score(y_true_masked, yhat_masked),
            f1_score(y_true_masked, yhat_masked, average="weighted"),
            precision_score(y_true_masked, yhat_masked, average="weighted", zero_division=0),
            recall_score(y_true_masked, yhat_masked, average="weighted")
        )

    metrics = []
    metrics.append(safe_metric("Local", cmp_df["local_label"].tolist()))
    metrics.append(safe_metric("LLM Local", cmp_df["local_llm_label"].tolist()))
    metrics.append(safe_metric("Gemini", cmp_df["gemini_label"].tolist()))
    metrics.append(safe_metric("Ensemble (Voto)", cmp_df["ensemble_label"].tolist()))

    met_df = pd.DataFrame(metrics, columns=["Modelo", "Accuracy", "F1_weighted", "Precision", "Recall"])
    display(met_df)

# Exportar comparación a CSV
out_csv = Path("comparacion_final.csv")
cmp_df.to_csv(out_csv, index=False)
print("Guardado:", out_csv)


Unnamed: 0,user_text,local_label,local_prob,local_llm_label,local_llm_conf,gemini_label,gemini_conf,ensemble_label
0,"Quiero cambiar mi cita al 15 de diciembre, ¿ha...",continue,0.581062,clarify,0.8,clarify,1.0,clarify
1,"Pásame el enlace de pago, voy a depositar $120...",continue,0.471761,continue,0.8,continue,0.98,continue
2,"Hola, solo necesito información general del pr...",continue,0.427133,clarify,0.8,clarify,1.0,clarify


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Unnamed: 0,Modelo,Accuracy,F1_weighted,Precision,Recall
0,Local,1.0,1.0,1.0,1.0
1,LLM Local,0.333333,0.5,1.0,0.333333
2,Gemini,0.333333,0.5,1.0,0.333333
3,Ensemble (Voto),0.333333,0.5,1.0,0.333333


Guardado: comparacion_final.csv
