### División de Datos en Clasificación

Para entrenar modelos de clasificación de forma robusta, generalmente dividimos el dataset en tres partes:

1.  **Entrenamiento (Train):** Usado para que el modelo aprenda los patrones.
2.  **Validación/Sintonización (Val/Tune):** Usado para ajustar hiperparámetros y evitar el sobreajuste (overfitting).
3.  **Prueba (Test):** Usado únicamente al final para evaluar el rendimiento real con datos que el modelo nunca vio.

**Estratificación (`stratify`):**
Es crucial en clasificación para asegurar que la proporción de cada clase (por ejemplo, los tipos de vino) se mantenga igual en todos los subconjuntos. Esto evita que un conjunto se quede sin ejemplos de una categoría específica.

In [1]:
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

# 1. Cargar el dataset
wine = load_wine()
X = pd.DataFrame(wine.data, columns=wine.feature_names)
y = wine.target

# Helper function to format value counts with percentages
def format_counts_with_percentage(series, total_length):
    counts = series.value_counts()
    formatted_lines = []
    for index, count in counts.items():
        percentage = (count / total_length) * 100
        formatted_lines.append(f"{index}    {count} ({percentage:.2f}%)")
    return "\n".join(formatted_lines)

# 2. Definir los tamaños de las divisiones
# Queremos: 70% Train, 15% Validation (Tune), 15% Test
# Primero separamos el Test del resto (85% para el resto, 15% para Test)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.15, random_state=42, stratify=y
)

# Ahora dividimos el 'temp' en Train y Validation
# 0.15 / 0.85 ≈ 0.176 para que el 15% original sea el de validación
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.176, random_state=42, stratify=y_temp
)

# 3. Mostrar los resultados de la división
print(f"Total de registros: {len(X)}")
print("\nDistribución de clases en el dataset original:")
print(format_counts_with_percentage(pd.Series(y), len(y)))
print(f"---")
print(f"Entrenamiento (Train):   {len(X_train)} muestras (70%)")
print(f"Sintonización (Tune/Val): {len(X_val)} muestras (15%)")
print(f"Evaluación final (Test):  {len(X_test)} muestras (15%)")

# Verificación de estratificación (proporción de tipos de uva)
print("\nDistribución de clases en Entrenamiento (cantidad y porcentaje):")
print(format_counts_with_percentage(pd.Series(y_train), len(y_train)))
print("\nDistribución de clases en Validación (cantidad y porcentaje):")
print(format_counts_with_percentage(pd.Series(y_val), len(y_val)))
print("\nDistribución de clases en Prueba (Test) (cantidad y porcentaje):")
print(format_counts_with_percentage(pd.Series(y_test), len(y_test)))

Total de registros: 178

Distribución de clases en el dataset original:
1    71 (39.89%)
0    59 (33.15%)
2    48 (26.97%)
---
Entrenamiento (Train):   124 muestras (70%)
Sintonización (Tune/Val): 27 muestras (15%)
Evaluación final (Test):  27 muestras (15%)

Distribución de clases en Entrenamiento (cantidad y porcentaje):
1    49 (39.52%)
0    41 (33.06%)
2    34 (27.42%)

Distribución de clases en Validación (cantidad y porcentaje):
1    11 (40.74%)
0    9 (33.33%)
2    7 (25.93%)

Distribución de clases en Prueba (Test) (cantidad y porcentaje):
1    11 (40.74%)
0    9 (33.33%)
2    7 (25.93%)
