## Explicación de los modelos balanceados

En los siguientes bloques se presentan cinco modelos de clasificación (Regresión Logística, KNN, Naive Bayes, LDA y QDA) aplicados sobre datos balanceados. El balanceo se realiza únicamente sobre el conjunto de entrenamiento, utilizando la técnica de sobremuestreo (RandomOverSampler), para corregir el desbalance de clases en la variable respuesta.

**¿Por qué balancear?**

En problemas de clasificación con clases desbalanceadas, los modelos tienden a favorecer la clase mayoritaria, lo que puede ocultar un mal desempeño en las clases minoritarias. Balancear el conjunto de entrenamiento permite que el modelo aprenda de manera más equitativa sobre todas las clases, mejorando la capacidad de predecir correctamente las clases menos representadas.

**¿Cómo se implementa el balanceo aquí?**

1. Primero, se divide el dataset en entrenamiento (80%) y prueba (20%) usando `train_test_split`.
2. Solo el 80% de entrenamiento se balancea con RandomOverSampler, generando copias sintéticas de las clases minoritarias hasta igualar la cantidad de muestras de la clase mayoritaria.
3. El 20% de prueba se mantiene intacto y representa la distribución real de los datos, permitiendo evaluar el desempeño del modelo en un escenario realista.
4. Se entrena cada modelo sobre el set balanceado y se evalúa sobre el set de prueba original.

**Ventajas de este enfoque:**
- Permite comparar el desempeño de los modelos con y sin balanceo.
- Mejora la sensibilidad y el recall en las clases minoritarias.
- La métrica de exactitud (accuracy) en test sigue siendo representativa, ya que el test no está balanceado artificialmente.

**Modelos balanceados incluidos:**
- Regresión Logística Multinomial (balanceada)
- KNN (balanceado)
- Naive Bayes (balanceado)
- LDA (balanceado)
- QDA (balanceado)

Cada bloque de código correspondiente incluye una nota aclaratoria sobre el procedimiento de balanceo y la división 80/20.



### Informe individual: Regresión Logística Multinomial (balanceada)

La regresión logística multinomial balanceada permite modelar la probabilidad de pertenencia a cada clase de calidad de vino, considerando todas las clases simultáneamente. Al balancear el set de entrenamiento, el modelo aprende de manera equitativa sobre todas las calidades, evitando el sesgo hacia la clase mayoritaria. 

- **Exactitud en test:** Indica el porcentaje de vinos correctamente clasificados sobre el conjunto de prueba real (no balanceado artificialmente).
- **Reporte de clasificación:** Muestra precisión, recall y F1-score para cada clase, permitiendo analizar el desempeño en clases minoritarias.
- **Validación cruzada:** El accuracy promedio en 5 folds sobre el set balanceado da una idea de la robustez del modelo.
- **Matriz de confusión:** Permite visualizar los aciertos y errores de predicción para cada clase.

Este modelo es útil cuando se busca una clasificación general robusta y se quiere evitar el sesgo hacia la clase más frecuente.

### Informe individual: KNN (balanceado)

El modelo KNN (K-Nearest Neighbors) balanceado clasifica cada vino según la mayoría de sus vecinos más cercanos en el espacio de características, considerando la misma cantidad de ejemplos de cada clase gracias al balanceo.

- **Exactitud en test:** Refleja la proporción de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificación:** Permite analizar el comportamiento del modelo en cada clase, especialmente en las menos representadas.
- **Validación cruzada:** El accuracy promedio en 5 folds sobre el set balanceado muestra la estabilidad del modelo ante diferentes particiones.
- **Matriz de confusión:** Visualiza los aciertos y errores de predicción por clase.

KNN balanceado es útil cuando se espera que la proximidad en el espacio de variables sea relevante para la clasificación y se quiere evitar el sesgo hacia la clase mayoritaria.

### Informe individual: Naive Bayes (balanceado)

El modelo Naive Bayes balanceado asume independencia entre las variables predictoras y utiliza la probabilidad condicional para clasificar cada vino. El balanceo del set de entrenamiento permite que el modelo aprenda de manera justa sobre todas las clases, mejorando la predicción de las menos frecuentes.

- **Exactitud en test:** Mide el porcentaje de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificación:** Permite evaluar precisión, recall y F1-score para cada clase, mostrando el desempeño en clases minoritarias.
- **Validación cruzada:** El accuracy promedio en 5 folds sobre el set balanceado indica la robustez del modelo.
- **Matriz de confusión:** Muestra los aciertos y errores de predicción por clase.

Naive Bayes balanceado es especialmente útil cuando se busca un modelo simple, rápido y que no requiera muchas suposiciones sobre la relación entre variables.

### Informe individual: LDA (balanceado)

El modelo LDA (Análisis Discriminante Lineal) balanceado busca encontrar combinaciones lineales de las variables predictoras que mejor separen las clases de calidad de vino. El balanceo del set de entrenamiento permite que el modelo aprenda fronteras de decisión más justas para todas las clases.

- **Exactitud en test:** Indica la proporción de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificación:** Permite analizar el desempeño en cada clase, especialmente en las menos representadas.
- **Validación cruzada:** El accuracy promedio en 5 folds sobre el set balanceado muestra la estabilidad del modelo.
- **Matriz de confusión:** Visualiza los aciertos y errores de predicción por clase.

LDA balanceado es útil cuando se espera que las clases sean separables linealmente y se busca mejorar la predicción en clases minoritarias.

### Informe individual: QDA (balanceado)

El modelo QDA (Análisis Discriminante Cuadrático) balanceado permite que las fronteras de decisión entre clases sean curvas, adaptándose mejor a relaciones no lineales entre las variables y la calidad del vino. El balanceo del set de entrenamiento asegura que el modelo aprenda de manera justa sobre todas las clases.

- **Exactitud en test:** Refleja el porcentaje de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificación:** Permite analizar precisión, recall y F1-score para cada clase, mostrando el desempeño en clases minoritarias.
- **Validación cruzada:** El accuracy promedio en 5 folds sobre el set balanceado indica la robustez del modelo.
- **Matriz de confusión:** Visualiza los aciertos y errores de predicción por clase.

QDA balanceado es especialmente útil cuando se sospecha que las clases no son separables linealmente y se busca mejorar la predicción en clases menos frecuentes.

## Comparación de modelos balanceados y elección del mejor

A continuación se comparan los cinco modelos de clasificación balanceados aplicados al dataset de calidad de vinos:

**1. Regresión Logística Multinomial (balanceada):**
- Suele ofrecer buen desempeño general y métricas equilibradas en todas las clases.
- Es robusta y fácil de interpretar, pero puede verse limitada si las relaciones entre variables y clases no son lineales.

**2. KNN (balanceado):**
- Su desempeño depende mucho de la elección de k y de la escala de los datos.
- Puede captar relaciones no lineales, pero es sensible al ruido y a la cantidad de datos.

**3. Naive Bayes (balanceado):**
- Es muy rápido y simple, pero su supuesto de independencia entre variables rara vez se cumple en la práctica.
- Puede funcionar bien si las variables son poco correlacionadas.

**4. LDA (balanceado):**
- Busca separar las clases mediante combinaciones lineales de variables.
- Es efectivo si las clases son separables linealmente y las covarianzas son similares.

**5. QDA (balanceado):**
- Permite fronteras de decisión curvas, adaptándose mejor a relaciones complejas.
- Puede sobreajustar si hay pocas muestras por clase, pero es potente si hay suficiente información.

### ¿Cómo elegir el mejor modelo?

Para elegir el mejor modelo, se deben comparar principalmente:
- **Exactitud en test:** Qué porcentaje de vinos clasifica correctamente el modelo sobre datos reales.
- **Recall y F1-score en clases minoritarias:** Indican la capacidad de detectar correctamente las clases menos frecuentes.
- **Robustez (validación cruzada):** Qué tan estable es el modelo ante diferentes particiones de los datos.

### Recomendación final

En la mayoría de los casos prácticos con este tipo de datos, **la Regresión Logística Multinomial balanceada** suele ser la mejor opción por su equilibrio entre interpretabilidad, robustez y buen desempeño en todas las clases, especialmente cuando el dataset no es muy grande y las relaciones no son extremadamente complejas. Además, su exactitud y métricas suelen ser competitivas o superiores a las alternativas, y es menos propensa al sobreajuste que QDA.

**Por lo tanto, para tu TP, recomiendo utilizar la Regresión Logística Multinomial balanceada como modelo principal de clasificación.**

No obstante, si observas que QDA o KNN logran métricas significativamente mejores en recall/F1 para las clases minoritarias (y no hay sobreajuste), podrías considerarlos como alternativas. Pero en general, la regresión logística balanceada es la opción más sólida y defendible para tu informe.


# 📘 Informe Técnico: Comparación de Modelos de Clasificación Multiclase Balanceados

## 🧪 Contexto del Estudio

Este análisis se realizó sobre el dataset `winequality-red.csv`, que contiene características fisicoquímicas de vinos tintos y su calidad (variable multiclase). El objetivo fue comparar cinco modelos de clasificación bajo condiciones controladas:

- División 80/20 con `stratify=y`
- Balanceo con `RandomOverSampler` aplicado solo al conjunto de entrenamiento
- Escalado con `StandardScaler`
- Evaluación sobre el conjunto de test original (sin balancear)
- Métricas utilizadas: Accuracy, Precision, Recall, F1-score (macro) + Validación cruzada (CV)

## 🧠 Modelos evaluados

- Regresión Logística (multinomial)
- K-Nearest Neighbors (KNN)
- Naive Bayes (GaussianNB)
- Linear Discriminant Analysis (LDA)
- Quadratic Discriminant Analysis (QDA)

import pandas as pd

# Crear tabla desde metricas_modelos
tabla_test = pd.DataFrame.from_dict(metricas_modelos, orient='index')
tabla_test.index.name = "Modelo"
tabla_test = tabla_test.reset_index()

# Ordenar por F1 Score
tabla_test_ordenada = tabla_test.sort_values(by="F1 Score", ascending=False).reset_index(drop=True)
tabla_test_ordenada

# Asegurarse de tener estas variables definidas previamente
cv_scores = {
    "Regresión Logística": scores_log_bal,
    "KNN": scores_knn_bal,
    "Naive Bayes": scores_nb_bal,
    "LDA": scores_lda_bal,
    "QDA": scores_qda_bal
}

# Crear tabla de CV Accuracy
tabla_cv = pd.DataFrame({
    "Modelo": list(cv_scores.keys()),
    "CV Accuracy (media)": [cv_scores[m].mean() for m in cv_scores]
})

# Ordenar por rendimiento
tabla_cv.sort_values(by="CV Accuracy (media)", ascending=False).reset_index(drop=True)

## 📈 Análisis gráfico

### 1. Boxplot de Accuracy (Validación Cruzada)
- KNN: caja estrecha, sin outliers → comportamiento confiable
- QDA: buena mediana, pero más dispersión
- Logística y Naive Bayes: baja mediana, mayor ruido
- LDA: intermedio

### 2. Gráfico de Barras (Métricas en Test)
- QDA tiene las barras más altas en todas las métricas
- KNN lo sigue de cerca, especialmente en Accuracy y F1
- Naive Bayes queda rezagado en todas las métricas

## ✅ Conclusión

**🏆 Mejor modelo: QDA (Quadratic Discriminant Analysis)**  
- Mejor rendimiento en test (todas las métricas)
- Mayor capacidad de generalización multiclase
- Buen balance entre precisión y cobertura

**🥈 Segundo lugar: KNN**  
- Excelente estabilidad en validación cruzada
- Buen rendimiento general, aunque con menor Recall

## 📌 Recomendaciones

- Explorar ajustes de hiperparámetros en QDA y KNN
- Evaluar curvas ROC por clase para análisis más fino
- Probar modelos ensemble (Random Forest, AdaBoost) como siguiente paso