
# **Cuaderno de Proyecto — Ciencia de Datos con YouTube**
**Curso:** SINT-200  
**Profesor:** Dr. Tomás de Camino Beck  
**Estudiante(s):** _Bernal Rojas Villalobos_  
**Fecha de entrega:** 21 de Octubre

---

## Instrucciones Generales

Reto: Exportar datos de tu actividad YouTube (Google Takeout), construir una matriz usuario-contenido con señales (vistas, likes, tiempo, etc.), hacer EDA de sesgos/“burbujas”, y entrenar dos recomendadores (colaborativo vs. basado en contenido). Comparar métricas (cosas como precision@k, recall@k, cobertura) y explicar errores.  



Este cuaderno sirve como **especificación y entregable** del proyecto. Debes completar cada sección marcada con **TODO** y dejar celdas de código **ejecutables** y **reproducibles**. El reto tiene dos proyectos:

1. **Proyecto 1 — Tu Huella YouTube: Recomendador y Análisis de Burbuja Algorítmica.**  
2. **Proyecto 2 — Detección de “Doomscrolling”: Predicción de sesiones extendidas.**

### Ética y Privacidad de Datos
- Puedes **anonimizar** tu información de YouTube (IDs, títulos, canales, tiempos) antes de subirla aquí.  
- Alternativamente, puedes usar datos de otra persona **con su consentimiento informado** y **anonimizados**.  
- No incluyas PII (información personal identificable) ni material sensible.  
- Incluye un **Anexo de Privacidad** explicando qué datos usaste, cómo los obtuviste y cómo los protegiste.

### Entregables
- Este **cuaderno de Colab** completo y ejecutable.  
- Carpeta `data/` con **muestras** de los datos (o datos sintéticos/anonimizados).  
- **Diccionario de datos** (descripción de campos, tipos, unidades, supuestos).  
- **Resultados y visualizaciones** dentro del notebook.  
- **Conclusiones** + **Recomendaciones** (acciones sugeridas) + **Limitaciones** + **Trabajo futuro**.
- Repositorio con estructura mínima:  
  ```
  README.md
  data/        # muestras o datos anonimizados
  notebooks/   # este cuaderno
  src/         # funciones reutilizables
  reports/     # figuras / tablas clave
  ```

### Rúbrica (100 pts)
- **Charter/Problema y utilidad (10 pts)**: objetivos claros, hipótesis, valor para el usuario.  
- **Adquisición y calidad de datos (10 pts)**: trazabilidad, permisos, limpieza básica.  
- **EDA y visualizaciones (20 pts)**: distribución, outliers, correlaciones, sesgos/segmentos.  
- **Baselines y metodología (10 pts)**: definición de referencia simple y por qué.  
- **Modelado (20 pts)**: al menos **2 enfoques** comparados, justificación.  
- **Evaluación (15 pts)**: métricas adecuadas, validación (temporal cuando aplique), error analysis.  
- **Reproducibilidad (5 pts)**: semillas, funciones, estructura clara.  
- **Conclusiones & ética (10 pts)**: hallazgos accionables y reflexiones de privacidad/sesgo.

---



## 0. Preparación del entorno (ejecutar una vez)


In [1]:
# Clonar tu repositorio
!git clone https://github.com/brojas7/AnaliticaHistorialYoutube.git

# Ir al directorio del proyecto
%cd AnaliticaHistorialYoutube

# TODO: Ajusta versiones si lo necesitas. Evita dependencias innecesarias.
!pip -q install pandas numpy matplotlib scikit-learn textblob python-dateutil tqdm dateparser google-generativeai

Cloning into 'AnaliticaHistorialYoutube'...
remote: Enumerating objects: 26, done.[K
remote: Counting objects: 100% (26/26), done.[K
remote: Compressing objects: 100% (19/19), done.[K
remote: Total 26 (delta 8), reused 17 (delta 3), pack-reused 0 (from 0)[K
Receiving objects: 100% (26/26), 2.34 MiB | 4.25 MiB/s, done.
Resolving deltas: 100% (8/8), done.
/content/AnaliticaHistorialYoutube
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m315.5/315.5 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
# Imports base y configuración
import os, json, math, random, itertools, collections, gzip, re, string, time, zipfile, io
from datetime import datetime, timedelta
from dateutil import parser as dateparser
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, TimeSeriesSplit
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score, roc_auc_score,
    confusion_matrix, mean_absolute_error, mean_squared_error
)

import sys
sys.path.append('/content/AnaliticaHistorialYoutube/src')

from youtube_utils import load_watch_history, anonymize_df, sessionize

# Reproducibilidad
SEED = 42
random.seed(SEED)
np.random.seed(SEED)

pd.set_option("display.max_columns", 120)
pd.set_option("display.max_rows", 200)

print("Entorno listo. Versión de pandas:", pd.__version__)


Entorno listo. Versión de pandas: 2.2.2



## 1. Anexo de Privacidad y Origen de Datos (obligatorio)
**TODO:** Explicar:
- Fuente de datos (Google Takeout, exportación manual, datos de tercero con consentimiento, etc.).  
- Estrategia de **anonimización** (por ejemplo: hashing de IDs/URLs, truncado de timestamps, agrupación por hora/día).  
- Contenido eliminado o agregado (p. ej., datos sintéticos para completar campos).  
- Limitaciones y riesgos residuales.



## 2. Selección de Proyecto
**Marca con una X**

- [ ] **Proyecto 1 — Recomendador YouTube & Burbuja Algorítmica**  
- [ ] **Proyecto 2 — Detección de Doomscrolling (clasificación temporal)**



## 3. Utilidades comunes para YouTube (ingesta y parsing)

Para **Proyecto 1** y **Proyecto 2** puedes usar datos de **Google Takeout**:  
- `watch-history.json` (o `watch-history.html` en exportaciones antiguas)  
- `search-history.json` (opcional)  
- `likes.csv` / `subscriptions.csv` (según disponibilidad)

> **Nota:** Los formatos de Takeout pueden cambiar con el tiempo. Ajusta el parser según tu exportación.



# **Limpieza, Enriquecimiento y Transformación del dataset**


In [7]:
# Ejemplo de uso
df_search = load_watch_history('data/historial-de-búsqueda.json')
df_watch = load_watch_history('data/historial-de-reproducciones.json')
df_suscipciones = pd.read_csv('data/subscriptions.csv')

#df = anonymize_df(df)
#df = sessionize(df)
print(df_search.shape)
print(df_watch.shape)
print("Eventos:", len(df_watch), "Rango:", df_watch['timestamp'].min(), "->", df_watch['timestamp'].max())

                          timestamp                      title channel  \
0  2018-04-14 03:50:32.842000+00:00           Buscaste bella c    None   
1  2018-04-14 03:50:35.809000+00:00          Buscaste bella ci    None   
2  2018-04-14 03:50:38.384000+00:00         Buscaste bella cio    None   
3  2018-04-14 03:50:41.624000+00:00        Buscaste bella cio     None   
4  2018-04-14 16:27:00.660000+00:00  Buscaste sobredosis romeo    None   

  channel_id video_id                                                url  
0       None     None  https://www.youtube.com/results?search_query=b...  
1       None     None  https://www.youtube.com/results?search_query=b...  
2       None     None  https://www.youtube.com/results?search_query=b...  
3       None     None  https://www.youtube.com/results?search_query=b...  
4       None     None  https://www.youtube.com/results?search_query=s...  
                          timestamp  \
0  2018-02-22 02:05:35.427000+00:00   
1  2018-02-22 03:49:54.0960

In [15]:
# Copia base
df_watch_clean = df_watch.copy()

# Limpieza del título (remover "Has visto")
df_watch_clean['video_title'] = df_watch_clean['title'].str.replace(r'^Has visto\s+', '', regex=True)

# Convertir timestamps
df_watch_clean['watched_at'] = pd.to_datetime(df_watch_clean['timestamp'], utc=True)

# Variables derivadas
df_watch_clean['weekday'] = df_watch_clean['watched_at'].dt.day_name()
df_watch_clean['hour'] = df_watch_clean['watched_at'].dt.hour
df_watch_clean['hour_group'] = pd.cut(df_watch_clean['hour'],
                                      bins=[-1,6,12,18,24],
                                      labels=['madrugada','mañana','tarde','noche'])

In [17]:
df_suscripciones_clean = df_suscipciones.rename(columns={
    "Título del canal": "channel_title",
    "URL del canal": "channel_url",
    "ID del canal": "channel_id"
})

In [19]:
df_search_clean = df_search.copy()
df_search_clean['timestamp'] = pd.to_datetime(df_search_clean['timestamp'], utc=True)
df_search_clean['search_terms'] = df_search_clean['title'].str.replace('Buscaste', '').str.strip()

Enlace entre vistas y suscripciones

In [26]:
# Renombramos la columna 'channel' en el historial para igualarla con suscripciones
df_watch_clean = df_watch_clean.rename(columns={'channel': 'channel_title'})

df_main = df_watch_clean.merge(
    df_suscripciones_clean[['channel_title', 'channel_id']],
    on='channel_title',
    how='left',
    indicator=True
)

df_main['is_subscribed'] = (df_main['_merge'] == 'both').astype(int)
df_main.drop(columns=['_merge'], inplace=True)

3️Señales de interacción (para matriz usuario–contenido)

In [27]:
df_main['interaction_score'] = 1.0
df_main.loc[df_main['is_subscribed'] == 1, 'interaction_score'] += 0.5

Valores nulos en canal
son anuncios i videos borrados

In [28]:
df_main.shape

(36842, 14)

In [40]:
df_main[df_main['channel_title'].isna()][['video_title', 'url']].head(10)


Unnamed: 0,video_title,url
3,https://www.youtube.com/watch?v=l8dasJTQdw8,https://www.youtube.com/watch?v=l8dasJTQdw8
9,https://www.youtube.com/watch?v=Qh8vqGj_Dbg,https://www.youtube.com/watch?v=Qh8vqGj_Dbg
16,https://www.youtube.com/watch?v=vxDjs9wQrhw,https://www.youtube.com/watch?v=vxDjs9wQrhw
21,https://www.youtube.com/watch?v=09wmbNmZsbc,https://www.youtube.com/watch?v=09wmbNmZsbc
33,https://www.youtube.com/watch?v=or6p6659Jrg,https://www.youtube.com/watch?v=or6p6659Jrg
75,https://www.youtube.com/watch?v=vxDjs9wQrhw,https://www.youtube.com/watch?v=vxDjs9wQrhw
77,https://www.youtube.com/watch?v=UZwXbecjg1Y,https://www.youtube.com/watch?v=UZwXbecjg1Y
81,https://www.youtube.com/watch?v=09wmbNmZsbc,https://www.youtube.com/watch?v=09wmbNmZsbc
97,https://www.youtube.com/watch?v=EM9OG65ccVI,https://www.youtube.com/watch?v=EM9OG65ccVI
185,https://www.youtube.com/watch?v=educpLKQbEg,https://www.youtube.com/watch?v=educpLKQbEg


In [41]:
mask_valid = df_main['channel_title'].notna() & ~df_main['video_title'].str.contains("anuncio", case=False, na=False)
df_main_clean = df_main[mask_valid].copy()

In [43]:
df_ads = df_main[~mask_valid]
df_ads.to_csv("data/df_ads_removed.csv", index=False)

Fase 1 — Enriquecimiento semántico con LLM (Gemini o GPT-5)

In [52]:
import google.generativeai as genai
genai.configure(api_key="")
model = genai.GenerativeModel("gemini-1.5-flash")
print(model.generate_content("Hola").text)




NotFound: 404 POST https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?%24alt=json%3Benum-encoding%3Dint: models/gemini-1.5-flash is not found for API version v1beta, or is not supported for generateContent. Call ListModels to see the list of available models and their supported methods.

In [48]:
import json
import google.generativeai as genai
genai.configure(api_key="")

def classify_with_gemini(title, channel):
    prompt = f"""
    Analiza este video de YouTube:
    - Título: {title}
    - Canal: {channel}

    Devuelve un JSON con las claves:
    category, subtopic, format, keywords (lista corta)
    """
    try:
        model = genai.GenerativeModel("gemini-1.5-flash")
        response = model.generate_content(prompt)
        text = response.text.strip()
        return json.loads(text)
    except Exception as e:
        return {"category":"otros","subtopic":"otros","format":"desconocido","keywords":[]}

In [49]:
enriched = df_main.apply(
    lambda r: classify_with_gemini(r.video_title, r.channel_title), axis=1
)
df_enrich = pd.concat([df_main, pd.json_normalize(enriched)], axis=1)



KeyboardInterrupt: 

In [38]:
df_main.sample()

Unnamed: 0,timestamp,title,channel_title,channel_id_x,video_id,url,video_title,watched_at,weekday,hour,hour_group,channel_id_y,is_subscribed,interaction_score
36568,2025-09-22 00:52:46.796000+00:00,Has visto Slow Blues & Soulful Guitar 🎸 Whiske...,Pon the Riddim,,8IaXaQ6UyDo,https://www.youtube.com/watch?v=8IaXaQ6UyDo,Slow Blues & Soulful Guitar 🎸 Whiskey Nights P...,2025-09-22 00:52:46.796000+00:00,Monday,0,madrugada,,0,1.0



# **Proyecto 1 — Tu Huella YouTube: Recomendador & Burbuja Algorítmica**

### Objetivo
1) Construir **dos recomendadores** con tus datos de visualización:  
   - **Baseline de popularidad** (o popularidad por canal/categoría).  
   - **Modelo basado en contenido** (TF‑IDF/embeddings por título/canal) **o** **colaborativo** (si tienes interacciones de múltiples usuarios/fuentes).  
2) Medir **Precision@k, Recall@k y Coverage** (y *diversidad*) en un esquema **offline**.  
3) Analizar posibles **sesgos o “burbujas”** (temas/canales dominantes por hora, día, duración).  

### Requisitos mínimos
- **EDA**: distribución de vistas por canal, hora del día, día de semana, duración de sesiones, *top‑k* temas.  
- **Ingeniería de features** (ej.: tokenización títulos, lematización opcional, normalización de canales).  
- **Comparación de al menos 2 enfoques** de recomendación.  
- **Evaluación offline** con *train/test split temporal*.  
- **Análisis de errores** y discusión de sesgos/limitaciones.

---

## 4. Charter del Proyecto 1 (llenar)
**TODO:** Define el propósito, preguntas clave y utilidad (qué decisiones permitirán tus hallazgos).



## 5. Carga de datos (Proyecto 1)
**TODO:** Sube tu `watch-history.json` (anonimizado si aplica) a `data/` y cárgalo.



## 6. EDA (Proyecto 1)
**TODO:** Explora sesgos por canal/tema/horario. Muestra tablas y gráficos clave.


In [None]:

# TODO: EDA — ejemplos
# Conteos por canal
if 'channel' in df_watch.columns:
    print(df_watch['channel'].value_counts().head(15))

# Distribución por hora (si hay timestamps)
df_watch['hour'] = df_watch['timestamp'].dt.hour
print(df_watch['hour'].value_counts().sort_index())

# (Agrega visualizaciones y tablas adicionales)


channel
Respuesta: Ninguna de las anteriores    1
Name: count, dtype: int64
hour
0     589
1     607
2     561
3     589
4     486
5     311
6     186
7      99
8      41
9      47
10     40
11     78
12    354
13    738
14    671
15    717
16    648
17    719
18    988
19    779
20    707
21    668
22    635
23    832
Name: count, dtype: int64



## 7. Partición temporal y definición de tareas (Proyecto 1)
**TODO:** Define ventana de entrenamiento y de evaluación para recomendación **offline**.


In [None]:

# Split temporal: por ejemplo, último 20% del tiempo como test
cut_ts = df_watch['timestamp'].quantile(0.8)
train = df_watch[df_watch['timestamp'] <= cut_ts].copy()
test  = df_watch[df_watch['timestamp'] >  cut_ts].copy()

print("train:", train['timestamp'].min(), "->", train['timestamp'].max(), "n=", len(train))
print("test :", test['timestamp'].min(),  "->", test['timestamp'].max(),  "n=", len(test))



## 8. Baseline de popularidad (Proyecto 1)
Genera recomendaciones **sin personalización** como referencia.


In [None]:

# Top-N por popularidad (baseline)
K = 10  # tamaño de recomendación
top_items = train['video_id'].value_counts().head(100).index.tolist()

def recommend_popularity(k=K):
    return top_items[:k]

# Conjunto de ítems verdaderos en test (lo visto en test)
true_items = set(test['video_id'].dropna().unique().tolist())

def precision_at_k(recommended, true_set):
    if len(recommended) == 0: return 0.0
    hit = sum(1 for x in recommended if x in true_set)
    return hit / len(recommended)

def recall_at_k(recommended, true_set):
    if len(true_set) == 0: return 0.0
    hit = sum(1 for x in recommended if x in true_set)
    return hit / len(true_set)

# Eval baseline
rec = recommend_popularity(K)
p = precision_at_k(rec, true_items)
r = recall_at_k(rec, true_items)
coverage = len(set(top_items)) / max(1, df_watch['video_id'].nunique())

print(f"Baseline Popularidad -> P@{K}={p:.3f}  R@{K}={r:.3f}  Cobertura={coverage:.3f}")


## 9. Recomendador basado en contenido **(ejemplo TF-IDF por título/canal)**
**TODO:** Implementa TF‑IDF (o embeddings) y calcula similitud contenido‑a‑contenido para recomendar.


In [None]:

# EJEMPLO ESQUELETO (completa con TF-IDF real si lo deseas)
# Aquí usamos una heurística mínima por canal/tokens de título para ilustrar el flujo.

from collections import Counter

def tokenize_title(s):
    if pd.isna(s): return []
    s = s.lower()
    s = re.sub(r"[^a-z0-9áéíóúüñ\s]", " ", s)
    tok = [t for t in s.split() if len(t) > 2]
    return tok

train = train.copy()
train['tokens'] = train['title'].apply(tokenize_title)

# "Perfil" de intereses por tokens (muy básico)
profile = Counter(itertools.chain.from_iterable(train['tokens'].tolist()))
top_terms = [t for t, _ in profile.most_common(50)]

def recommend_content_based(k=10):
    # Recomienda ítems del set de entrenamiento por coincidencia con términos del perfil
    scores = []
    for vid, grp in train.groupby('video_id'):
        toks = list(itertools.chain.from_iterable(grp['tokens'].tolist()))
        score = sum(1 for t in toks if t in top_terms)
        scores.append((vid, score))
    scores.sort(key=lambda x: x[1], reverse=True)
    return [vid for vid, s in scores[:k]]

rec_cb = recommend_content_based(K)
p_cb = precision_at_k(rec_cb, true_items)
r_cb = recall_at_k(rec_cb, true_items)
cov_cb = len(set(train['video_id'])) / max(1, df_watch['video_id'].nunique())
print(f"Contenido (heurístico) -> P@{K}={p_cb:.3f}  R@{K}={r_cb:.3f}  Cobertura={cov_cb:.3f}")

# TODO: Sustituir por TF-IDF/embeddings reales y mejorar evaluación (por usuario/ventanas).



## 10. Análisis de burbuja/sesgo (Proyecto 1)
**TODO:** Mide concentración por canal/tema, horarios de consumo, diversidad de recomendaciones.
Propón **intervenciones** para aumentar diversidad sin perder pertinencia.



## 11. Conclusiones y trabajo futuro (Proyecto 1)
**TODO:** Resume hallazgos, limitaciones y siguientes pasos.



# **Proyecto 2 — Detección de “Doomscrolling” (Clasificación Temporal)**

### Objetivo
Predecir si una **sesión** de consumo (YouTube u otra plataforma) terminará en **scroll extendido** o **consumo prolongado** (> X minutos o > Y videos).

### Requisitos mínimos
- **Definición de etiqueta** (doomscroll = 1 si supera umbral de tiempo o conteo).  
- **Sessionization** con ventana de inactividad (p. ej., 30 minutos).  
- **Features temporales** (hora/día, ritmos, gaps), contextuales (tema/canal) y de **acumulación**.  
- **Validación temporal** (e.g., TimeSeriesSplit) para evitar *leakage*.  
- **Comparación de al menos 2 clasificadores** (baseline + modelo).  
- **Métricas**: precisión, recall, F1, ROC‑AUC, matriz de confusión por segmento.  
- **Error analysis** e importancia de variables.

---

## 12. Charter del Proyecto 2 (llenar)
**TODO:** Propósito, hipótesis y utilidad (p. ej., alertas o cortes saludables de uso).



## 13. Carga de datos (Proyecto 2)
**TODO:** Reutiliza `watch-history.json` u otra fuente y genera sesiones.


In [None]:

# Ejemplo de carga y sessionization
PATH_WATCH = "data/watch-history.json"  # TODO: cambia si es necesario
df_watch = load_watch_history(PATH_WATCH)

# Crea sesiones (ajusta gap si aplica)
df_sess = sessionize(df_watch, gap_minutes=30)

# Etiqueta doomscrolling: duración > umbral (estimación proxy por número de eventos)
UMBRAL_VIDEOS = 8  # TODO: ajusta criterio (o usa tiempo real si lo tienes)
sess_counts = df_sess.groupby('session_id').size().rename('n_events')
df_labels = sess_counts.to_frame().assign(doom=lambda x: (x['n_events'] >= UMBRAL_VIDEOS).astype(int)).reset_index()

print(df_labels['doom'].value_counts())
df_labels.head()



## 14. Features y partición temporal (Proyecto 2)
**TODO:** Crear variables por sesión (hora de inicio, día de semana, gaps promedio, temas/canales dominantes, ritmo).  
Usa **TimeSeriesSplit** o una corte temporal para evaluación.


In [None]:

# Construcción simple de features por sesión (extiende según tus datos)
def build_session_features(df_watch, df_sess):
    # Hora de inicio de la sesión, día de semana, tamaño de sesión, ritmo aproximado
    start_ts = df_sess.groupby('session_id')['timestamp'].min().rename('start_ts')
    end_ts   = df_sess.groupby('session_id')['timestamp'].max().rename('end_ts')
    n_events = df_sess.groupby('session_id').size().rename('n_events')

    base = pd.concat([start_ts, end_ts, n_events], axis=1).reset_index()
    base['duration_min'] = (base['end_ts'] - base['start_ts']).dt.total_seconds() / 60.0
    base['hour'] = base['start_ts'].dt.hour
    base['dow'] = base['start_ts'].dt.dayofweek  # 0=Lunes
    base['events_per_min'] = base['n_events'] / base['duration_min'].replace(0, np.nan)

    # (Opcional) top canal por sesión
    top_channel = (
        df_sess.groupby(['session_id','channel']).size()
        .reset_index(name='cnt')
        .sort_values(['session_id','cnt'], ascending=[True, False])
        .drop_duplicates('session_id')
        .set_index('session_id')['channel']
        .rename('top_channel')
    )
    base = base.merge(top_channel, left_on='session_id', right_index=True, how='left')

    # Codificación simple de canal principal (dummy)
    if 'top_channel' in base.columns:
        dummies = pd.get_dummies(base['top_channel'], prefix='ch', dummy_na=True)
        base = pd.concat([base.drop(columns=['top_channel']), dummies], axis=1)

    return base

df_feat = build_session_features(df_watch, df_sess)
df_all = df_feat.merge(df_labels, on='session_id', how='inner')

# Partición temporal (último 20% del tiempo como test)
cut_ts = df_all['start_ts'].quantile(0.8)
train = df_all[df_all['start_ts'] <= cut_ts].copy()
test  = df_all[df_all['start_ts'] >  cut_ts].copy()

y_train = train['doom'].values
y_test  = test['doom'].values

X_train = train.drop(columns=['doom','start_ts','end_ts'])
X_test  = test.drop(columns=['doom','start_ts','end_ts'])

print("Train/Test shapes:", X_train.shape, X_test.shape)



## 15. Baseline y Modelo(s) (Proyecto 2)
**TODO:** Compara un baseline (mayoría/clasificador trivial) con al menos **un modelo** (p. ej., Árboles/GBM/RegLog).


In [None]:

# Baseline: clase mayoritaria
from collections import Counter
majority = Counter(y_train).most_common(1)[0][0]
y_pred_base = np.full_like(y_test, fill_value=majority)
print("Baseline (mayoría) -> acc=%.3f  prec=%.3f  rec=%.3f  f1=%.3f" % (
    accuracy_score(y_test, y_pred_base),
    precision_score(y_test, y_pred_base, zero_division=0),
    recall_score(y_test, y_pred_base, zero_division=0),
    f1_score(y_test, y_pred_base, zero_division=0)
))

# Modelo ejemplo: Regresión Logística (puedes sustituir por otro)
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(max_iter=1000, random_state=SEED)
clf.fit(X_train.fillna(0), y_train)
y_proba = clf.predict_proba(X_test.fillna(0))[:,1]
y_pred = (y_proba >= 0.5).astype(int)

print("LogReg -> acc=%.3f  prec=%.3f  rec=%.3f  f1=%.3f  roc=%.3f" % (
    accuracy_score(y_test, y_pred),
    precision_score(y_test, y_pred, zero_division=0),
    recall_score(y_test, y_pred, zero_division=0),
    f1_score(y_test, y_pred, zero_division=0),
    roc_auc_score(y_test, y_proba) if len(np.unique(y_test))>1 else float('nan')
))



## 16. Análisis de errores e importancia de variables (Proyecto 2)
**TODO:** Muestra matriz de confusión, curvas y comenta falsos positivos/negativos por segmento.


In [None]:

# Matriz de confusión (numérica)
cm = confusion_matrix(y_test, y_pred)
cm



## 17. Conclusiones y trabajo futuro (Proyecto 2)
**TODO:** Resume hallazgos, utilidad práctica (alertas, límites de tiempo, recomendaciones) y próximos pasos.



---

## 18. Limitaciones generales y reflexiones éticas
**TODO:** Reflexiona sobre sesgos, representatividad de datos personales, efectos de recomendación, privacidad y seguridad.

## 19. Checklist final
- [ ] El cuaderno **corre desde cero** (Runtime -> Restart & Run All).  
- [ ] Incluye **diccionario de datos** y **anexo de privacidad**.  
- [ ] Tiene **baselines** y **≥2 modelos** comparados (según el proyecto).  
- [ ] Reporta **métricas** adecuadas y **análisis de errores**.  
- [ ] Conclusiones accionables y **trabajo futuro**.

