# Ejercicios: Clasificación Binaria con Datos Reales

## Introducción

En estos ejercicios practicarás **clasificación binaria** usando datos reales.

### Objetivos:
- Preparar datos para clasificación
- Entrenar modelos de regresión logística
- Evaluar con precisión, recall, F1-score
- Interpretar resultados

### Recordatorio:
- **Clasificación binaria** = Dos posibles resultados (Sí/No)
- **LogisticRegression** = Mejor modelo para este tipo de problemas
- **Métricas principales** = Accuracy, Precision, Recall, F1-score, AUC

---

## Importar Librerías

In [2]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score
)
import warnings
warnings.filterwarnings('ignore')

print("✓ Librerías importadas")

✓ Librerías importadas


---

# EJERCICIO 1: Predecir Supervivencia en el Titanic

**Objetivo:** Predecir si un pasajero sobrevivió basándose en su edad.

**Variable objetivo:** `Survived` (1=Sobrevivió, 0=No sobrevivió)

**Variable predictora:** `Age` (edad del pasajero)

**Pregunta:** ¿Los pasajeros más jóvenes tuvieron más probabilidad de sobrevivir?

In [3]:
# TODO 1: Cargar los datos del Titanic
# Pista: Usa pd.read_csv() con la ruta 'Datos/titanic.csv'
df = pd.read_csv("./0.Datos/titanic.csv")

print(f"Datos cargados: {df.shape[0]} pasajeros")
print(f"Columnas: {df.columns.tolist()}")

Datos cargados: 891 pasajeros
Columnas: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


In [4]:
# TODO 2: Preparar los datos
# Pista: Selecciona 'Age' y 'Survived', elimina NaN con .dropna()

# variables seleccionadas
datos = df[["Age","Survived"]].dropna()

# Separar X e y
# X = predictor (Age)
# y = objetivo (Survived)
# TODO: Crear X reshapeado (-1, 1) e y
X = datos[["Age"]]
y = datos["Survived"]


print(f"Registros válidos: {len(X)}")
print(f"Distribución de clases: {np.bincount(y)}")

Registros válidos: 714
Distribución de clases: [424 290]


In [5]:
# TODO 3: Dividir en entrenamiento y prueba
# Pista: Usa train_test_split() con test_size=0.2 y random_state=42
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42)

print(f"Datos entrenamiento: {len(X_train)}")
print(f"Datos prueba: {len(X_test)}")

Datos entrenamiento: 571
Datos prueba: 143


In [6]:
# TODO 4: Entrenar el modelo
# Pista: Usa LogisticRegression() y fit(X_train, y_train)
modelo = LogisticRegression()

modelo.fit(X_train,y_train)

print("✓ Modelo entrenado")

✓ Modelo entrenado


In [7]:
# TODO 5: Hacer predicciones
# Pista: Usa modelo.predict() en X_test

y_pred = modelo.predict(X_test)

print(f"Predicciones (primeras 10): {y_pred[:10]}")

Predicciones (primeras 10): [0 1 0 0 0 1 0 0 0 0]


In [8]:
# TODO 6: Calcular métricas
# Pista: Usa accuracy_score(), precision_score(), recall_score(), f1_score()

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1-Score:  {f1:.4f}")
print(f"\nInterpretación:")
print(f"  Accuracy: {accuracy*100:.1f}% de predicciones correctas")
print(f"  Precision: De los que predijimos 'sobrevivió', {precision*100:.1f}% realmente sobrevivieron")
print(f"  Recall: Capturamos el {recall*100:.1f}% de los verdaderos supervivientes")

Accuracy:  0.6014
Precision: 0.4615
Recall:    0.1071
F1-Score:  0.1739

Interpretación:
  Accuracy: 60.1% de predicciones correctas
  Precision: De los que predijimos 'sobrevivió', 46.2% realmente sobrevivieron
  Recall: Capturamos el 10.7% de los verdaderos supervivientes


In [9]:
# TODO 7: Interpretar resultados
# Pista: ¿Qué significa cada métrica?

print(f"\n✓ MODELO ENTRENADO Y EVALUADO")
print(f"\nInterpretación de resultados:")
print(f"  • Accuracy {accuracy:.1%}: {accuracy*100:.1f}% de predicciones correctas")
print(f"  • Precision {precision:.1%}: De los que predijimos 'sobrevivió', {precision*100:.1f}% realmente lo hicieron")
print(f"  • Recall {recall:.1%}: Capturamos el {recall*100:.1f}% de los verdaderos supervivientes")
print(f"  • F1-Score {f1:.1%}: Balance entre precisión y cobertura")


✓ MODELO ENTRENADO Y EVALUADO

Interpretación de resultados:
  • Accuracy 60.1%: 60.1% de predicciones correctas
  • Precision 46.2%: De los que predijimos 'sobrevivió', 46.2% realmente lo hicieron
  • Recall 10.7%: Capturamos el 10.7% de los verdaderos supervivientes
  • F1-Score 17.4%: Balance entre precisión y cobertura


In [10]:
# Visualizar
x_range = np.linspace(X_test.min(), X_test.max(), 100).reshape(-1, 1)
y_proba = modelo.predict_proba(x_range)[:, 1]

fig = go.Figure()

# Puntos: No sobrevivió
fig.add_trace(go.Scatter(
    x=X_test[y_test == 0].values.flatten(),
    y=y_test[y_test == 0],
    mode='markers',
    name='No sobrevivió',
    marker=dict(size=8, color='#EF553B', opacity=0.6),
    hovertemplate='<b>Edad:</b> %{x:.1f} años<br><b>Sobrevivió:</b> No<extra></extra>'
))

# Puntos: Sobrevivió
fig.add_trace(go.Scatter(
    x=X_test[y_test == 1].values.flatten(),
    y=y_test[y_test == 1],
    mode='markers',
    name='Sobrevivió',
    marker=dict(size=8, color='#636EFA', opacity=0.6),
    hovertemplate='<b>Edad:</b> %{x:.1f} años<br><b>Sobrevivió:</b> Sí<extra></extra>'
))

# Curva de probabilidad
fig.add_trace(go.Scatter(
    x=x_range.flatten(),
    y=y_proba,
    mode='lines',
    name='Curva de probabilidad',
    line=dict(color='#FF6B6B', width=3),
    hovertemplate='<b>Edad:</b> %{x:.1f}<br><b>Prob. Supervivencia:</b> %{y:.2%}<extra></extra>'
))

# Línea de umbral (0.5)
fig.add_hline(y=0.5, line_dash='dash', line_color='gray', opacity=0.5,
              annotation_text='Umbral (0.5)', annotation_position='right')

fig.update_layout(
    title='<b>EJERCICIO 1: Edad vs Supervivencia en Titanic</b>',
    xaxis_title='<b>Edad (años)</b>',
    yaxis_title='<b>Probabilidad de Sobrevivencia</b>',
    hovermode='closest',
    template='plotly_white',
    height=500,
    width=1000,
    font=dict(size=11)
)

fig.show()

print("✓ Gráfico generado")

✓ Gráfico generado


---

# EJERCICIO 2: Predecir Género basado en Tarifa (Titanic)

**Objetivo:** Predecir si un pasajero es mujer basándose en la tarifa pagada.

**Variable objetivo:** `Sex` (convertir a binaria: 1=Mujer, 0=Hombre)

**Variable predictora:** `Fare` (precio del boleto)

**Pregunta:** ¿Las mujeres pagaron más por sus boletos que los hombres?

In [11]:
# TODO 1: Preparar datos
# Pista: Crea variable binaria donde 'female'=1, 'male'=0
# Puedes usar: df['Sex'].map({'female': 1, 'male': 0})

datos_ej2 = df['Sex'].dropna().map({'female': 1, 'male': 0})
X_ej2 = df[['Fare']].dropna()
y_ej2 = datos_ej2
# TODO: Convertir Sex a binaria


print(f"Registros válidos: {len(datos_ej2)}")
print(f"Distribución: {np.bincount(y_ej2)}")

Registros válidos: 891
Distribución: [577 314]


In [12]:
# TODO 2: Separar features y target, hacer split
# Similar al ejercicio 1
X_train_ej2, X_test_ej2, y_train_ej2, y_test_ej2 = train_test_split(X_ej2,y_ej2, test_size=0.2, random_state=42)

print(f"Datos entrenamiento: {len(X_train_ej2)}")
print(f"Datos prueba: {len(X_test_ej2)}")

Datos entrenamiento: 712
Datos prueba: 179


In [13]:
# TODO 3: Entrenar modelo
modelo_ej2 = LogisticRegression()

modelo_ej2.fit(X_train_ej2,y_train_ej2)

print("✓ Modelo entrenado")

✓ Modelo entrenado


In [14]:
# TODO 4: Predicciones y métricas
y_pred_ej2 = modelo_ej2.predict(X_test_ej2)

accuracy_ej2 = accuracy_score(y_test_ej2, y_pred_ej2)
precision_ej2 = precision_score(y_test_ej2, y_pred_ej2)
recall_ej2 = recall_score(y_test_ej2, y_pred_ej2)
f1_ej2 = f1_score(y_test_ej2, y_pred_ej2)

print(f"Accuracy:  {accuracy_ej2:.4f}")
print(f"Precision: {precision_ej2:.4f}")
print(f"Recall:    {recall_ej2:.4f}")
print(f"F1-Score:  {f1_ej2:.4f}")

Accuracy:  0.6313
Precision: 0.8000
Recall:    0.0580
F1-Score:  0.1081


In [15]:
# TODO 5: Interpretar resultados del Ejercicio 2

print(f"\n✓ MODELO ENTRENADO Y EVALUADO")
print(f"\nResultados Ejercicio 2 vs Ejercicio 1:")
print(f"  Ej.1 (Edad→Supervivencia):")
print(f"    • Accuracy: {accuracy:.4f}")
print(f"    • F1-Score: {f1:.4f}")
print(f"  Ej.2 (Tarifa→Género):")
print(f"    • Accuracy: {accuracy_ej2:.4f}")
print(f"    • F1-Score: {f1_ej2:.4f}")
print(f"\n¿Cuál problema es más fácil de clasificar? ¿Por qué?")


✓ MODELO ENTRENADO Y EVALUADO

Resultados Ejercicio 2 vs Ejercicio 1:
  Ej.1 (Edad→Supervivencia):
    • Accuracy: 0.6014
    • F1-Score: 0.1739
  Ej.2 (Tarifa→Género):
    • Accuracy: 0.6313
    • F1-Score: 0.1081

¿Cuál problema es más fácil de clasificar? ¿Por qué?


In [16]:
# Visualizar
x_range_ej2 = np.linspace(X_test_ej2.min(), X_test_ej2.max(), 100).reshape(-1, 1)
y_proba_ej2 = modelo_ej2.predict_proba(x_range_ej2)[:, 1]

fig = go.Figure()

# Puntos: Hombre
fig.add_trace(go.Scatter(
    x=X_test_ej2[y_test_ej2 == 0].values.flatten(),
    y=y_test_ej2[y_test_ej2 == 0],
    mode='markers',
    name='Hombre',
    marker=dict(size=8, color='#EF553B', opacity=0.6),
    hovertemplate='<b>Tarifa:</b> £%{x:.2f}<br><b>Género:</b> Hombre<extra></extra>'
))

# Puntos: Mujer
fig.add_trace(go.Scatter(
    x=X_test_ej2[y_test_ej2 == 1].values.flatten(),
    y=y_test_ej2[y_test_ej2 == 1],
    mode='markers',
    name='Mujer',
    marker=dict(size=8, color='#636EFA', opacity=0.6),
    hovertemplate='<b>Tarifa:</b> £%{x:.2f}<br><b>Género:</b> Mujer<extra></extra>'
))

# Curva de probabilidad
fig.add_trace(go.Scatter(
    x=x_range_ej2.flatten(),
    y=y_proba_ej2,
    mode='lines',
    name='Curva de probabilidad',
    line=dict(color='#FF6B6B', width=3),
    hovertemplate='<b>Tarifa:</b> £%{x:.2f}<br><b>Prob. Mujer:</b> %{y:.2%}<extra></extra>'
))

# Línea de umbral (0.5)
fig.add_hline(y=0.5, line_dash='dash', line_color='gray', opacity=0.5,
              annotation_text='Umbral (0.5)', annotation_position='right')

fig.update_layout(
    title='<b>EJERCICIO 2: Tarifa vs Género en Titanic</b>',
    xaxis_title='<b>Tarifa (£)</b>',
    yaxis_title='<b>Probabilidad de Ser Mujer</b>',
    hovermode='closest',
    template='plotly_white',
    height=500,
    width=1000,
    font=dict(size=11)
)

fig.show()

print("✓ Gráfico generado")

✓ Gráfico generado


---

# EJERCICIO 3: Predecir si Viajaba en Familia (Titanic)

**Objetivo:** Predecir si un pasajero viajaba con familia basándose en su clase de pasajero.

**Variable objetivo:** `Con_familia` (1=Viajaba con familia, 0=Viajaba solo)

**Variable predictora:** `Pclass` (clase de pasajero: 1, 2 o 3)

**Pregunta:** ¿Los pasajeros de primera clase viajaban más frecuentemente en familia?

In [17]:
# TODO 1: Crear variable "Con_familia"
# Pista: Sum de SibSp (hermanos/esposo) y Parch (padres/hijos)
# Si suma > 0: viajaba con familia (1), si no (0)

df['Con_familia'] = ((df['SibSp'] + df['Parch']) > 0).astype(int)

datos_ej3 = df[["Con_familia","Pclass"]].dropna()
# TODO: Separar X e y en base a 'Pclass' y 'Con_familia' y eliminar filas con NaN 
X_ej3 = datos_ej3[["Pclass"]]
y_ej3 = datos_ej3["Con_familia"]

print(f"Registros válidos: {len(datos_ej3)}")
print(f"Distribución: {np.bincount(y_ej3)}")

Registros válidos: 891
Distribución: [537 354]


In [18]:
# TODO 2: Dividir datos en entrenamiento y prueba
X_train_ej3, X_test_ej3, y_train_ej3, y_test_ej3 = train_test_split(X_ej3,y_ej3, test_size=0.2, random_state=42)

print(f"Datos entrenamiento: {len(X_train_ej3)}")

Datos entrenamiento: 712


In [19]:
# TODO 3: Entrenar, predecir, evaluar
# Paso 1: Entrenar el modelo de regresión logística con ambas features (Pclass y Con_famil
modelo_ej3 = LogisticRegression()
modelo_ej3.fit(X_train_ej3,y_train_ej3)

# Paso 2: Hacer predicciones en los datos de prueba
y_pred_ej3 = modelo_ej3.predict(X_test_ej3)

# Paso 3: Calcular todas las métricas de evaluación
accuracy_ej3 = accuracy_score(y_pred_ej3, y_test_ej3)
precision_ej3 = precision_score(y_pred_ej3, y_test_ej3)
recall_ej3 = recall_score(y_pred_ej3, y_test_ej3)
f1_ej3 = f1_score(y_pred_ej3, y_test_ej3)


print(f"Accuracy:  {accuracy_ej3:.4f}")
print(f"F1-Score:  {f1_ej3:.4f}")

Accuracy:  0.5978
F1-Score:  0.4194


In [20]:
# TODO 4: Analizar resultados

print(f"\n✓ MODELO ENTRENADO Y EVALUADO")
print(f"\nResultados Ejercicio 3:")
print(f"  • Accuracy: {accuracy_ej3:.4f}")
print(f"  • Precision: {precision_ej3:.4f}")
print(f"  • Recall: {recall_ej3:.4f}")
print(f"  • F1-Score: {f1_ej3:.4f}")
print(f"\n¿Los pasajeros de primera clase viajaban más en familia?")


✓ MODELO ENTRENADO Y EVALUADO

Resultados Ejercicio 3:
  • Accuracy: 0.5978
  • Precision: 0.3662
  • Recall: 0.4906
  • F1-Score: 0.4194

¿Los pasajeros de primera clase viajaban más en familia?


In [21]:
# Visualizar
x_range_ej3 = np.array([1, 2, 3]).reshape(-1, 1)
y_proba_ej3 = modelo_ej3.predict_proba(x_range_ej3)[:, 1]

fig = go.Figure()

# Puntos: Viajó solo
fig.add_trace(go.Scatter(
    x=X_test_ej3[y_test_ej3 == 0].values.flatten(),
    y=y_test_ej3[y_test_ej3 == 0] + np.random.normal(0, 0.02, sum(y_test_ej3 == 0)),
    mode='markers',
    name='Viajó solo',
    marker=dict(size=8, color='#EF553B', opacity=0.6),
    hovertemplate='<b>Clase:</b> %{x}<br><b>Con familia:</b> No<extra></extra>'
))

# Puntos: Con familia
fig.add_trace(go.Scatter(
    x=X_test_ej3[y_test_ej3 == 1].values.flatten(),
    y=y_test_ej3[y_test_ej3 == 1] + np.random.normal(0, 0.02, sum(y_test_ej3 == 1)),
    mode='markers',
    name='Con familia',
    marker=dict(size=8, color='#636EFA', opacity=0.6),
    hovertemplate='<b>Clase:</b> %{x}<br><b>Con familia:</b> Sí<extra></extra>'
))

# Curva de probabilidad
fig.add_trace(go.Scatter(
    x=x_range_ej3.flatten(),
    y=y_proba_ej3,
    mode='lines',
    name='Curva de probabilidad',
    line=dict(color='#FF6B6B', width=3),
    hovertemplate='<b>Clase:</b> %{x}<br><b>Prob. Con familia:</b> %{y:.2%}<extra></extra>'
))

# Línea de umbral (0.5)
fig.add_hline(y=0.5, line_dash='dash', line_color='gray', opacity=0.5,
              annotation_text='Umbral (0.5)', annotation_position='right')

fig.update_layout(
    title='<b>EJERCICIO 3: Clase de Pasajero vs Viaje en Familia</b>',
    xaxis_title='<b>Clase de Pasajero</b>',
    yaxis_title='<b>Probabilidad de Viajar con Familia</b>',
    xaxis=dict(tickvals=[1, 2, 3], ticktext=['1ª Clase', '2ª Clase', '3ª Clase']),
    hovermode='closest',
    template='plotly_white',
    height=500,
    width=1000,
    font=dict(size=11)
)

fig.show()

print("✓ Gráfico generado")

✓ Gráfico generado


---

# EJERCICIO 4: Predecir Especie de Iris

**Objetivo:** Clasificar flores de Iris como Virginica vs Otras.

**Variable objetivo:** `Species` (1=Virginica, 0=Otra especie)

**Variable predictora:** `SepalLength` (longitud del sépalo)

**Pregunta:** ¿Las flores Virginica tienen sépalos significativamente más largos?

In [22]:
# TODO 1: Cargar datos de Iris
# Pista: Usa 'Datos/iris.csv'
df_iris = pd.read_csv("./0.Datos/iris.csv")

print(f"Datos cargados: {df_iris.shape[0]} flores")
print(df_iris.head())

Datos cargados: 150 flores
   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa


In [23]:
# TODO 2: Crear variable binaria
# Pista: 1 si Species == 'Virginica', 0 en caso contrario
df_iris['Species'] = (df_iris['variety'] != 'Virginica').astype(int)

datos_ej4= df_iris[['Species','sepal.length']].dropna()
# TODO: Separar X e y

X_ej4 = datos_ej4[['sepal.length']]
y_ej4 = datos_ej4['Species']

print(f"Registros válidos: {len(datos_ej4)}")

Registros válidos: 150


In [24]:
# TODO 3: Dividir, entrenar, evaluar
# Similar a los ejercicios anteriores

# Dividir datos en entrenamiento y prueba
X_train_ej4, X_test_ej4, y_train_ej4, y_test_ej4 = train_test_split(X_ej4,y_ej4, test_size=0.2, random_state=42)

# Entrenar modelo de regresión logística modelo_ej4 =...
modelo_ej4 = LogisticRegression()
modelo_ej4.fit(X_train_ej4,y_train_ej4)

# Hacer predicciones y_pred_ej4 =...
y_pred_ej4 = modelo_ej4.predict(X_test_ej4)

accuracy_ej4 = accuracy_score(y_pred_ej4, y_test_ej4)
precision_ej4 = precision_score(y_pred_ej4, y_test_ej4)
recall_ej4 = recall_score(y_pred_ej4, y_test_ej4)
f1_ej4 = f1_score(y_pred_ej4, y_test_ej4)

print(f"Accuracy:  {accuracy_ej4:.4f}")
print(f"F1-Score:  {f1_ej4:.4f}")


Accuracy:  0.9333
F1-Score:  0.9474


In [25]:
# Visualizar
x_range_ej4 = np.linspace(X_test_ej4.min(), X_test_ej4.max(), 100).reshape(-1, 1)
y_proba_ej4 = modelo_ej4.predict_proba(x_range_ej4)[:, 1]

fig = go.Figure()

# Puntos: Otra especie
fig.add_trace(go.Scatter(
    x=X_test_ej4[y_test_ej4 == 0].values.flatten(),
    y=y_test_ej4[y_test_ej4 == 0],
    mode='markers',
    name='Otra especie',
    marker=dict(size=8, color='#EF553B', opacity=0.6),
    hovertemplate='<b>Sépalo:</b> %{x:.2f}<br><b>Especie:</b> Otra<extra></extra>'
))

# Puntos: Virginica
fig.add_trace(go.Scatter(
    x=X_test_ej4[y_test_ej4 == 1].values.flatten(),
    y=y_test_ej4[y_test_ej4 == 1],
    mode='markers',
    name='Virginica',
    marker=dict(size=8, color='#636EFA', opacity=0.6),
    hovertemplate='<b>Sépalo:</b> %{x:.2f}<br><b>Especie:</b> Virginica<extra></extra>'
))

# Curva de probabilidad
fig.add_trace(go.Scatter(
    x=x_range_ej4.flatten(),
    y=y_proba_ej4,
    mode='lines',
    name='Curva de probabilidad',
    line=dict(color='#9B59B6', width=3),
    hovertemplate='<b>Sépalo:</b> %{x:.2f}<br><b>Prob. Virginica:</b> %{y:.2%}<extra></extra>'
))

# Línea de umbral (0.5)
fig.add_hline(y=0.5, line_dash='dash', line_color='gray', opacity=0.5,
              annotation_text='Umbral (0.5)', annotation_position='right')

fig.update_layout(
    title='<b>EJERCICIO 4: Longitud del Sépalo vs Especie de Iris</b>',
    xaxis_title='<b>Longitud del Sépalo</b>',
    yaxis_title='<b>Probabilidad de ser Virginica</b>',
    hovermode='closest',
    template='plotly_white',
    height=500,
    width=1000,
    font=dict(size=11)
)

fig.show()

print("✓ Gráfico generado")

✓ Gráfico generado


---

# EJERCICIO 5: Desafío - Comparar todos los modelos y Analizar Rendimiento

In [26]:
# TODO 2: Crear tabla comparativa con todas las métricas
# Pista: Usa pd.DataFrame() con listas de resultados para cada métrica

# resultados_ej5 = # TODO pd.DataFrame({
#    'Modelo': [...],
#    'Accuracy': [...],
#    'Precision': [...],
#    'Recall': [...],
#    'F1-Score': [...]
# })

resultados_ej5 = pd.DataFrame({
    'Modelo': ["modelo","modelo_ej2","modelo_ej3","modelo_ej4"],
    'Accuracy': [accuracy,accuracy_ej2,accuracy_ej3,accuracy_ej4],
    'Precision': [precision,precision_ej2,precision_ej3,precision_ej4],
    'Recall': [recall,recall_ej2,recall_ej3,recall_ej4],
    'F1-Score': [f1,f1_ej2,f1_ej3,f1_ej4]
 })

print("\nCOMPARACIÓN DE TODOS LOS MODELOS")
print("="*100)
print(resultados_ej5.to_string(index=False))
print("="*100)


COMPARACIÓN DE TODOS LOS MODELOS
    Modelo  Accuracy  Precision   Recall  F1-Score
    modelo  0.601399   0.461538 0.107143  0.173913
modelo_ej2  0.631285   0.800000 0.057971  0.108108
modelo_ej3  0.597765   0.366197 0.490566  0.419355
modelo_ej4  0.933333   0.947368 0.947368  0.947368


In [27]:
# Crear gráficos comparativos con Plotly
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Accuracy (% Aciertos)', 'Precision (Fiabilidad Positivos)',
                    'Recall (Cobertura)', 'F1-Score (Balance)'),
    specs=[[{'type': 'bar'}, {'type': 'bar'}],
           [{'type': 'bar'}, {'type': 'bar'}]]
)

modelos_nombres = ['Ej.1', 'Ej.2', 'Ej.3', 'Ej.4']
colores = ['#636EFA', '#EF553B', '#00CC96', '#AB63FA']

# Gráfico 1: Accuracy
fig.add_trace(
    go.Bar(x=modelos_nombres, y=resultados_ej5['Accuracy'], 
           marker=dict(color=colores), name='Accuracy',
           hovertemplate='<b>%{x}</b><br>Accuracy: %{y:.3f}<extra></extra>'),
    row=1, col=1
)
fig.add_hline(y=0.7, line_dash='dash', line_color='green', opacity=0.5, row=1, col=1)

# Gráfico 2: Precision
fig.add_trace(
    go.Bar(x=modelos_nombres, y=resultados_ej5['Precision'],
           marker=dict(color=colores), name='Precision',
           hovertemplate='<b>%{x}</b><br>Precision: %{y:.3f}<extra></extra>'),
    row=1, col=2
)
fig.add_hline(y=0.7, line_dash='dash', line_color='green', opacity=0.5, row=1, col=2)

# Gráfico 3: Recall
fig.add_trace(
    go.Bar(x=modelos_nombres, y=resultados_ej5['Recall'],
           marker=dict(color=colores), name='Recall',
           hovertemplate='<b>%{x}</b><br>Recall: %{y:.3f}<extra></extra>'),
    row=2, col=1
)
fig.add_hline(y=0.7, line_dash='dash', line_color='green', opacity=0.5, row=2, col=1)

# Gráfico 4: F1-Score
fig.add_trace(
    go.Bar(x=modelos_nombres, y=resultados_ej5['F1-Score'],
           marker=dict(color=colores), name='F1-Score',
           hovertemplate='<b>%{x}</b><br>F1-Score: %{y:.3f}<extra></extra>'),
    row=2, col=2
)
fig.add_hline(y=0.7, line_dash='dash', line_color='green', opacity=0.5, row=2, col=2)

# Actualizar layout
fig.update_yaxes(range=[0, 1])
fig.update_layout(
    title_text='<b>Comparación de Modelos de Clasificación</b>',
    showlegend=False,
    height=800,
    width=1200,
    template='plotly_white',
    font=dict(size=11)
)

fig.show()

print("✓ Gráficos comparativos generados")

✓ Gráficos comparativos generados


In [28]:
# COMPLETA ESTE CÓDIGO:

# 1. Recopilar resultados de los 4 ejercicios anteriores
# Tenemos estos valores disponibles:
# - resultados_ej1, resultados_ej2, resultados_ej3, resultados_ej4
# Estos son DataFrames con las métricas de cada ejercicio

# 2. Función auxiliar para clasificar la calidad del modelo
# TODO: crea una función que clasifique el F1-Score como 'Excelente' (>0.75), 'Bueno' (>0.6) o 'Regular' (≤0.6)
# def clasificar_calidad(f1_valor): ...
def clasificar_calidad(f1_valor):
    if f1_valor > 0.75:
        return "Excelente"
    elif f1_valor > 0.6:
        return "Bueno"
    else:
        return "Regular"

# 3. Crear tabla comparativa
# TODO: crea un DataFrame llamado 'resultados_comparacion' con:
#   - Una fila por ejercicio (Ej.1, Ej.2, Ej.3, Ej.4)
#   - Columnas: 'Modelo', 'Accuracy', 'Precision', 'Recall', 'F1-Score', 'Calidad'
# resultados_comparacion = pd.DataFrame({...})
resultados_ej5["Calidad"] = resultados_ej5['F1-Score'].map(clasificar_calidad)

# 4. Mostrar tabla
# TODO: imprime la tabla comparativa de resultados
print("\n╔════════════════════════════════════════════════════════════╗")
print("║        COMPARACIÓN DE 4 MODELOS DE CLASIFICACIÓN           ║")
print("╚════════════════════════════════════════════════════════════╝")
# print(resultados_comparacion.to_string(index=False))
print(resultados_ej5.to_string(index=False))

# 5. Análisis y conclusiones
# TODO: encuentra el índice del modelo con mejor F1-Score
# mejor_idx = ...
mejor_idx = resultados_ej5['F1-Score'].idxmax()

# TODO: extrae el nombre y F1-Score del mejor modelo
# mejor_modelo = ...
# mejor_f1 = ...

mejor_modelo = resultados_ej5.loc[mejor_idx, 'Modelo']
mejor_f1 = resultados_ej5.loc[mejor_idx, 'F1-Score']

# TODO: imprime los resultados del mejor modelo
print(f"\n✓ Mejor modelo: {mejor_modelo}")
print(f"  F1-Score: {mejor_f1:.4f}")

# TODO: proporciona un resumen interpretativo de los resultados
print(f"\nResumen:")
print(f"  - Los mejores modelos tienen F1-Score > 0.75 (Excelente)")
print(f"  - Modelos competentes tienen 0.6 < F1-Score < 0.75 (Bueno)")
print(f"  - Modelos débiles tienen F1-Score < 0.6 (Regular)")
print(f"  - El F1-Score equilibra Precision y Recall para una evaluación justa")


╔════════════════════════════════════════════════════════════╗
║        COMPARACIÓN DE 4 MODELOS DE CLASIFICACIÓN           ║
╚════════════════════════════════════════════════════════════╝
    Modelo  Accuracy  Precision   Recall  F1-Score   Calidad
    modelo  0.601399   0.461538 0.107143  0.173913   Regular
modelo_ej2  0.631285   0.800000 0.057971  0.108108   Regular
modelo_ej3  0.597765   0.366197 0.490566  0.419355   Regular
modelo_ej4  0.933333   0.947368 0.947368  0.947368 Excelente

✓ Mejor modelo: modelo_ej4
  F1-Score: 0.9474

Resumen:
  - Los mejores modelos tienen F1-Score > 0.75 (Excelente)
  - Modelos competentes tienen 0.6 < F1-Score < 0.75 (Bueno)
  - Modelos débiles tienen F1-Score < 0.6 (Regular)
  - El F1-Score equilibra Precision y Recall para una evaluación justa


---

# REFLEXIÓN Y CONCLUSIONES

In [29]:
print("\n" + "="*80)
print("PREGUNTAS DE REFLEXIÓN")
print("="*80)

print("\n1. ¿Cuál fue el modelo con mejor desempeño y por qué?")
print("   → Responde basándote en los resultados anteriores")
print("   → Considera: ¿Fue por Accuracy, AUC, o F1-Score?")

print("\n2. ¿Qué diferencia hay entre Accuracy y Precision?")
print("   → Accuracy: % de predicciones correctas en total")
print("   → Precision: De los que predijimos positivo, ¿cuántos realmente lo fueron?")
print("   → En tu caso: ¿Cuál fue mejor? ¿Por qué?")

print("\n3. ¿Qué es el Recall y por qué es importante?")
print("   → Recall: De los verdaderos positivos, ¿cuántos capturamos?")
print("   → Importante cuando: Falsos negativos son costosos")
print("   → Ejemplo: En detección de enfermedades, queremos alto recall")

print("\n" + "="*80)


PREGUNTAS DE REFLEXIÓN

1. ¿Cuál fue el modelo con mejor desempeño y por qué?
   → Responde basándote en los resultados anteriores
   → Considera: ¿Fue por Accuracy, AUC, o F1-Score?

2. ¿Qué diferencia hay entre Accuracy y Precision?
   → Accuracy: % de predicciones correctas en total
   → Precision: De los que predijimos positivo, ¿cuántos realmente lo fueron?
   → En tu caso: ¿Cuál fue mejor? ¿Por qué?

3. ¿Qué es el Recall y por qué es importante?
   → Recall: De los verdaderos positivos, ¿cuántos capturamos?
   → Importante cuando: Falsos negativos son costosos
   → Ejemplo: En detección de enfermedades, queremos alto recall



El modelo del ejercicio 4 con un f1 de 94%

Depende del caso, algunos son mejores detectando positivos porque se arriesgan a más falsos positivos

El recall es la cobertura de positivos y es necesario en casos en los que el coste de un falso positivo sea neglegible