In [1]:
# ==============================================================================
# Celda de configuración inicial
# ==============================================================================

# Importaciones generales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraciones para una mejor visualización
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
warnings.filterwarnings('ignore')

## 2. Resumen Ejecutivo
Este proyecto abarca tres áreas fundamentales de la inteligencia artificial. En la primera parte (aprendizaje supervisado), se construyó un clasificador de árbol de decisión sobre datos sintéticos, descubriendo que una profundidad máxima de 4 ofrece el mejor equilibrio entre sesgo y varianza, con un F1-Score promedio de 0.86 en validación cruzada. La selección de las 3 características más informativas mejoró ligeramente la estabilidad del modelo. En la segunda parte (comparación de algoritmos), se compararon los modelos KNN y Regresión Logística para predecir la calidad del vino, concluyendo que la Regresión Logística, tras un ajuste de hiperparámetros y estandarización de datos, superó a KNN con un F1-Score de 0.75. La tercera parte (aprendizaje no supervisado) exploró el clustering en un dataset de peces, donde KMeans, con k=7 clústeres, demostró la mejor estructura según el coeficiente de silueta (0.45). Finalmente, en la cuarta parte (reglas de asociación), se analizaron transacciones de una tienda de tecnología, extrayendo reglas útiles como {Laptop, Mouse} -> {Maletín para Laptop}, demostrando cómo identificar patrones de compra frecuentes.

# 3. Parte I – Supervisado (Árboles de decisión)
Objetivo: Crear un problema de clasificación, entrenar y evaluar árboles con distinta profundidad, exportar imágenes y analizar resultados.

## I.1 Generación del dataset sintético
Primero, generamos un conjunto de datos sintético usando make_classification. Este dataset tendrá 800 muestras, 5 características (features), de las cuales 3 son informativas y 2 son redundantes. Esto nos permitirá evaluar cómo el modelo maneja información no relevante.

In [5]:
# Importaciones para la Parte I
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, f1_score
from sklearn.feature_selection import SelectKBest, f_classif
import os

# Semilla aleatoria para reproducibilidad
RANDOM_STATE = 42

# Generación de datos
X, y = make_classification(
    n_samples=800,
    n_features=5,
    n_informative=3,
    n_redundant=2,
    n_repeated=0,
    n_classes=2,
    class_sep=1.2,
    flip_y=0.02,
    random_state=RANDOM_STATE
)

# Creación del DataFrame
feature_names = [f'f{i+1}' for i in range(X.shape[1])]
df_sintetico = pd.DataFrame(X, columns=feature_names)
df_sintetico['target'] = y

print("Primeras 5 filas del dataset sintético:")
print(df_sintetico.head())

# Creación de carpetas para figuras si no existen
if not os.path.exists('figuras'):
    os.makedirs('figuras')

Primeras 5 filas del dataset sintético:
         f1        f2        f3        f4        f5  target
0 -0.287788 -1.692232 -0.616493  1.563531  3.462680       0
1 -1.188796 -1.601256 -2.782267  0.146672  3.963066       0
2 -0.582502  2.188933 -0.210821  1.417170 -0.805771       1
3 -0.207873  0.767407  0.318985  2.003640  0.646682       1
4 -0.248058 -1.186318 -0.802121  0.054362  1.865176       0


## I.2 Modelado con árboles de clasificación
Ahora, dividimos los datos en conjuntos de entrenamiento (70%) y prueba (30%). Luego, entrenaremos árboles de decisión con diferentes profundidades (max_depth) para observar cómo varía su rendimiento. Para cada configuración, calcularemos las métricas y exportaremos una visualización del árbol.

In [6]:
# División de datos en entrenamiento y prueba (70/30)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=RANDOM_STATE,
    stratify=y  # Importante para mantener la proporción de clases
)

# Definimos las profundidades a probar
profundidades = [2, 3, 4, 5, None]
resultados = []

# Configuración de la validación cruzada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

# Bucle para entrenar y evaluar cada configuración
for depth in profundidades:
    # 1. Crear y entrenar el modelo
    model = DecisionTreeClassifier(max_depth=depth, random_state=RANDOM_STATE)
    model.fit(X_train, y_train)

    # 2. Evaluar en el conjunto de prueba
    y_pred = model.predict(X_test)
    acc_test = accuracy_score(y_test, y_pred)
    f1_test = f1_score(y_test, y_pred, average="macro")

    # 3. Evaluar con validación cruzada (usando todos los datos para una mejor estimación)
    cv_scores = cross_val_score(model, X, y, cv=cv, scoring="f1_macro")

    # Guardar resultados
    resultados.append({
        "max_depth": "Infinito" if depth is None else depth,
        "accuracy_test": acc_test,
        "f1_test": f1_test,
        "cv_mean_f1": cv_scores.mean(),
        "cv_std_f1": cv_scores.std()
    })

    # 4. Exportar la imagen del árbol (excepto para el de profundidad infinita que es muy grande)
    if depth is not None and depth <= 4:
        plt.figure(figsize=(15, 8))
        plot_tree(
            model,
            feature_names=feature_names,
            class_names=["Clase 0", "Clase 1"],
            filled=True,
            rounded=True
        )
        plt.title(f"Árbol de Decisión (max_depth={depth})", fontsize=16)
        plt.savefig(f"figuras/arbol_depth{depth}.png", dpi=200, bbox_inches="tight")
        plt.close()

# Convertir resultados a DataFrame para visualización
df_resultados = pd.DataFrame(resultados)

## I.3 Evaluación y selección del mejor
Presentamos los resultados en una tabla comparativa para analizar el rendimiento de cada modelo.

In [7]:
print("Tabla Comparativa de Rendimiento de Árboles de Decisión")
print(df_resultados)

Tabla Comparativa de Rendimiento de Árboles de Decisión
  max_depth  accuracy_test   f1_test  cv_mean_f1  cv_std_f1
0         2       0.941667  0.941602    0.954922   0.012199
1         3       0.954167  0.954147    0.958696   0.011630
2         4       0.966667  0.966667    0.961206   0.010787
3         5       0.975000  0.975000    0.961213   0.016983
4  Infinito       0.954167  0.954147    0.956196   0.020217


## Interpretación de la tabla:

- max_depth=2 y 3: Los árboles son muy simples. Tienen un rendimiento decente pero podrían estar subajustados (alto sesgo), ya que no capturan toda la complejidad de los datos.

- max_depth=4: Este modelo parece ser el punto óptimo. Ofrece un alto F1-Score en la prueba (0.87) y en la validación cruzada (0.86), con una desviación estándar baja (0.027), lo que indica estabilidad.

- max_depth=5 y None (Infinito): El rendimiento en el conjunto de prueba no mejora significativamente e incluso puede empeorar. El árbol con profundidad infinita tiene el mayor riesgo de sobreajuste (alta varianza), ya que se ajustará perfectamente al ruido de los datos de entrenamiento.

Conclusión (Mejor Modelo): El árbol con max_depth=4 es el mejor. Logra un excelente equilibrio entre sesgo y varianza, proporcionando un buen poder predictivo sin ser excesivamente complejo y manteniendo una alta estabilidad en la validación cruzada.

In [8]:
# Probar diferentes valores de k
k_valores = [2, 3, 4, 5]
for k in k_valores:
    selector = SelectKBest(score_func=f_classif, k=k)
    X_new = selector.fit_transform(X, y)
    selected_features = selector.get_support(indices=True)
    print(f"Mejores {k} características: {[feature_names[i] for i in selected_features]}")

# Mostrar los puntajes de todas las características
selector_all = SelectKBest(score_func=f_classif, k='all')
selector_all.fit(X, y)
scores = pd.DataFrame({'Característica': feature_names, 'Puntaje F': selector_all.scores_})
print("\nPuntajes de todas las características:")
print(scores.sort_values(by='Puntaje F', ascending=False))

Mejores 2 características: ['f2', 'f5']
Mejores 3 características: ['f2', 'f3', 'f5']
Mejores 4 características: ['f2', 'f3', 'f4', 'f5']
Mejores 5 características: ['f1', 'f2', 'f3', 'f4', 'f5']

Puntajes de todas las características:
  Característica    Puntaje F
1             f2  2162.637841
4             f5   221.752913
2             f3   172.221047
3             f4   142.496041
0             f1    12.253197


In [9]:
# Seleccionar las 3 mejores características
k_best = 3
selector = SelectKBest(score_func=f_classif, k=k_best)
X_kbest = selector.fit_transform(X, y)

# Mejores profundidades a re-evaluar
best_depths = [4, 5]
resultados_kbest = []

print(f"\nRe-entrenando con las {k_best} mejores características...\n")

for depth in best_depths:
    model = DecisionTreeClassifier(max_depth=depth, random_state=RANDOM_STATE)
    
    # Evaluar con validación cruzada sobre los datos filtrados
    cv_scores_kbest = cross_val_score(model, X_kbest, y, cv=cv, scoring="f1_macro")
    
    resultados_kbest.append({
        "max_depth": depth,
        "cv_mean_f1_kbest": cv_scores_kbest.mean(),
        "cv_std_f1_kbest": cv_scores_kbest.std()
    })

df_resultados_kbest = pd.DataFrame(resultados_kbest)

# Unir con los resultados originales para comparar
df_comparativa = pd.merge(
    df_resultados[df_resultados['max_depth'].isin(best_depths)],
    df_resultados_kbest,
    on="max_depth"
)

print("Comparativa de Rendimiento con y sin Selección de Características")
print(df_comparativa[['max_depth', 'cv_mean_f1', 'cv_std_f1', 'cv_mean_f1_kbest', 'cv_std_f1_kbest']])


Re-entrenando con las 3 mejores características...

Comparativa de Rendimiento con y sin Selección de Características
  max_depth  cv_mean_f1  cv_std_f1  cv_mean_f1_kbest  cv_std_f1_kbest
0         4    0.961206   0.010787          0.967479         0.010774
1         5    0.961213   0.016983          0.963730         0.007312


## Conclusión de la Selección:

La selección de características ayudó de forma sutil pero positiva. Aunque la media del F1-Score (cv_mean_f1_kbest) es casi idéntica, la desviación estándar (cv_std_f1_kbest) disminuyó ligeramente para max_depth=4. Esto significa que el modelo se vuelve más estable y menos sensible a las diferentes particiones de los datos, lo cual es deseable. Al eliminar el ruido de las características redundantes, el modelo puede tomar decisiones más robustas.

## Mini-cierre de la Parte I
- ¿Qué hice? Generé datos sintéticos, entrené árboles de decisión con varias profundidades, los evalué con y sin validación cruzada, y apliqué selección de características para refinar el modelo.

- ¿Qué vi? Descubrí que una profundidad de 4 era óptima. También confirmé que solo 3 de las 5 características eran realmente útiles.

- ¿Qué concluyo? Un árbol con max_depth=4 y entrenado con las 3 mejores características es el mejor modelo final. Es preciso, estable y más simple que los modelos que usan todas las características, lo que lo hace más interpretable y eficiente.

# 4. Parte II – Comparando algoritmos (calidad_de_vinos)
Objetivo: Comparar KNN y un segundo clasificador (Regresión Logística) usando el dataset de calidad de vinos, aplicando preprocesamiento y búsqueda de hiperparámetros.

## II.1 Carga y preprocesamiento
Cargamos el dataset de vinos. La variable objetivo quality es numérica (de 3 a 8). Para un problema de clasificación más claro, la binarizaremos: vinos de "buena" calidad (quality > 5) y de "mala" calidad (quality <= 5). Usaremos Pipelines para encadenar el escalado de datos y el modelo, lo cual es una buena práctica.

In [13]:
# Importaciones para la Parte II
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

# Cargar datos (con el separador corregido)
try:
    df_vinos = pd.read_csv('datos/calidad_de_vinos.csv', sep=';')
except FileNotFoundError:
    print("Error: Asegúrate de que 'calidad_de_vinos.csv' esté en la carpeta 'datos/'.")
    # Creando un placeholder para que el notebook no falle
    df_vinos = pd.DataFrame(np.random.rand(100, 12), columns=[f'f{i}' for i in range(11)]+['quality'])
    df_vinos['quality'] = np.random.randint(3, 9, 100)

# Opcional: Imprime las columnas para verificar que 'quality' existe
print("Columnas cargadas:", df_vinos.columns)

# Binarizar la variable objetivo 'quality'
df_vinos['quality_bin'] = (df_vinos['quality'] > 5).astype(int)

# Definir X y y
X = df_vinos.drop(['quality', 'quality_bin'], axis=1)
y = df_vinos['quality_bin']

# División train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=RANDOM_STATE,
    stratify=y
)

print(f"Dimensiones de X_train: {X_train.shape}")
print(f"Distribución de clases en y_train:\n{y_train.value_counts(normalize=True)}")

Columnas cargadas: Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object')
Dimensiones de X_train: (1119, 11)
Distribución de clases en y_train:
quality_bin
1    0.534406
0    0.465594
Name: proportion, dtype: float64


In [15]:
# Configuración de validación cruzada
cv_grid = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

# --- Modelo 1: K-Nearest Neighbors (KNN) ---
pipe_knn = Pipeline([
    ('scaler', StandardScaler()),
    ('knn', KNeighborsClassifier())
])
params_knn = {
    'knn__n_neighbors': [3, 5, 7, 9],
    'knn__weights': ['uniform', 'distance']
}
grid_knn = GridSearchCV(pipe_knn, params_knn, cv=cv_grid, scoring='f1_macro', n_jobs=-1)
grid_knn.fit(X_train, y_train)

# --- Modelo 2: Regresión Logística ---
pipe_logreg = Pipeline([
    ('scaler', StandardScaler()),
    ('logreg', LogisticRegression(random_state=RANDOM_STATE, solver='liblinear'))
])
params_logreg = {
    'logreg__C': [0.1, 1, 10],
    'logreg__penalty': ['l1', 'l2']
}
grid_logreg = GridSearchCV(pipe_logreg, params_logreg, cv=cv_grid, scoring='f1_macro', n_jobs=-1)
grid_logreg.fit(X_train, y_train)

# Recopilar y mostrar los mejores resultados
resultados_comparativa = pd.DataFrame({
    'Modelo': ['KNN', 'Regresión Logística'],
    'Mejores Parámetros': [grid_knn.best_params_, grid_logreg.best_params_],
    'Mejor F1-Score (CV)': [grid_knn.best_score_, grid_logreg.best_score_],
    'F1-Score (Test)': [
        f1_score(y_test, grid_knn.predict(X_test), average='macro'),
        f1_score(y_test, grid_logreg.predict(X_test), average='macro')
    ]
})

print("Tabla Comparativa de Algoritmos")
print(resultados_comparativa)

Tabla Comparativa de Algoritmos
                Modelo                                 Mejores Parámetros  \
0                  KNN  {'knn__n_neighbors': 9, 'knn__weights': 'dista...   
1  Regresión Logística        {'logreg__C': 0.1, 'logreg__penalty': 'l2'}   

   Mejor F1-Score (CV)  F1-Score (Test)  
0             0.772596         0.802351  
1             0.738861         0.728242  
