## Explicaci√≥n de los modelos balanceados

En los siguientes bloques se presentan cinco modelos de clasificaci√≥n (Regresi√≥n Log√≠stica, KNN, Naive Bayes, LDA y QDA) aplicados sobre datos balanceados. El balanceo se realiza √∫nicamente sobre el conjunto de entrenamiento, utilizando la t√©cnica de sobremuestreo (RandomOverSampler), para corregir el desbalance de clases en la variable respuesta.

**¬øPor qu√© balancear?**

En problemas de clasificaci√≥n con clases desbalanceadas, los modelos tienden a favorecer la clase mayoritaria, lo que puede ocultar un mal desempe√±o en las clases minoritarias. Balancear el conjunto de entrenamiento permite que el modelo aprenda de manera m√°s equitativa sobre todas las clases, mejorando la capacidad de predecir correctamente las clases menos representadas.

**¬øC√≥mo se implementa el balanceo aqu√≠?**

1. Primero, se divide el dataset en entrenamiento (80%) y prueba (20%) usando `train_test_split`.
2. Solo el 80% de entrenamiento se balancea con RandomOverSampler, generando copias sint√©ticas de las clases minoritarias hasta igualar la cantidad de muestras de la clase mayoritaria.
3. El 20% de prueba se mantiene intacto y representa la distribuci√≥n real de los datos, permitiendo evaluar el desempe√±o del modelo en un escenario realista.
4. Se entrena cada modelo sobre el set balanceado y se eval√∫a sobre el set de prueba original.

**Ventajas de este enfoque:**
- Permite comparar el desempe√±o de los modelos con y sin balanceo.
- Mejora la sensibilidad y el recall en las clases minoritarias.
- La m√©trica de exactitud (accuracy) en test sigue siendo representativa, ya que el test no est√° balanceado artificialmente.

**Modelos balanceados incluidos:**
- Regresi√≥n Log√≠stica Multinomial (balanceada)
- KNN (balanceado)
- Naive Bayes (balanceado)
- LDA (balanceado)
- QDA (balanceado)

Cada bloque de c√≥digo correspondiente incluye una nota aclaratoria sobre el procedimiento de balanceo y la divisi√≥n 80/20.



### Informe individual: Regresi√≥n Log√≠stica Multinomial (balanceada)

La regresi√≥n log√≠stica multinomial balanceada permite modelar la probabilidad de pertenencia a cada clase de calidad de vino, considerando todas las clases simult√°neamente. Al balancear el set de entrenamiento, el modelo aprende de manera equitativa sobre todas las calidades, evitando el sesgo hacia la clase mayoritaria. 

- **Exactitud en test:** Indica el porcentaje de vinos correctamente clasificados sobre el conjunto de prueba real (no balanceado artificialmente).
- **Reporte de clasificaci√≥n:** Muestra precisi√≥n, recall y F1-score para cada clase, permitiendo analizar el desempe√±o en clases minoritarias.
- **Validaci√≥n cruzada:** El accuracy promedio en 5 folds sobre el set balanceado da una idea de la robustez del modelo.
- **Matriz de confusi√≥n:** Permite visualizar los aciertos y errores de predicci√≥n para cada clase.

Este modelo es √∫til cuando se busca una clasificaci√≥n general robusta y se quiere evitar el sesgo hacia la clase m√°s frecuente.

### Informe individual: KNN (balanceado)

El modelo KNN (K-Nearest Neighbors) balanceado clasifica cada vino seg√∫n la mayor√≠a de sus vecinos m√°s cercanos en el espacio de caracter√≠sticas, considerando la misma cantidad de ejemplos de cada clase gracias al balanceo.

- **Exactitud en test:** Refleja la proporci√≥n de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificaci√≥n:** Permite analizar el comportamiento del modelo en cada clase, especialmente en las menos representadas.
- **Validaci√≥n cruzada:** El accuracy promedio en 5 folds sobre el set balanceado muestra la estabilidad del modelo ante diferentes particiones.
- **Matriz de confusi√≥n:** Visualiza los aciertos y errores de predicci√≥n por clase.

KNN balanceado es √∫til cuando se espera que la proximidad en el espacio de variables sea relevante para la clasificaci√≥n y se quiere evitar el sesgo hacia la clase mayoritaria.

### Informe individual: Naive Bayes (balanceado)

El modelo Naive Bayes balanceado asume independencia entre las variables predictoras y utiliza la probabilidad condicional para clasificar cada vino. El balanceo del set de entrenamiento permite que el modelo aprenda de manera justa sobre todas las clases, mejorando la predicci√≥n de las menos frecuentes.

- **Exactitud en test:** Mide el porcentaje de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificaci√≥n:** Permite evaluar precisi√≥n, recall y F1-score para cada clase, mostrando el desempe√±o en clases minoritarias.
- **Validaci√≥n cruzada:** El accuracy promedio en 5 folds sobre el set balanceado indica la robustez del modelo.
- **Matriz de confusi√≥n:** Muestra los aciertos y errores de predicci√≥n por clase.

Naive Bayes balanceado es especialmente √∫til cuando se busca un modelo simple, r√°pido y que no requiera muchas suposiciones sobre la relaci√≥n entre variables.

### Informe individual: LDA (balanceado)

El modelo LDA (An√°lisis Discriminante Lineal) balanceado busca encontrar combinaciones lineales de las variables predictoras que mejor separen las clases de calidad de vino. El balanceo del set de entrenamiento permite que el modelo aprenda fronteras de decisi√≥n m√°s justas para todas las clases.

- **Exactitud en test:** Indica la proporci√≥n de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificaci√≥n:** Permite analizar el desempe√±o en cada clase, especialmente en las menos representadas.
- **Validaci√≥n cruzada:** El accuracy promedio en 5 folds sobre el set balanceado muestra la estabilidad del modelo.
- **Matriz de confusi√≥n:** Visualiza los aciertos y errores de predicci√≥n por clase.

LDA balanceado es √∫til cuando se espera que las clases sean separables linealmente y se busca mejorar la predicci√≥n en clases minoritarias.

### Informe individual: QDA (balanceado)

El modelo QDA (An√°lisis Discriminante Cuadr√°tico) balanceado permite que las fronteras de decisi√≥n entre clases sean curvas, adapt√°ndose mejor a relaciones no lineales entre las variables y la calidad del vino. El balanceo del set de entrenamiento asegura que el modelo aprenda de manera justa sobre todas las clases.

- **Exactitud en test:** Refleja el porcentaje de vinos correctamente clasificados en el conjunto de prueba real.
- **Reporte de clasificaci√≥n:** Permite analizar precisi√≥n, recall y F1-score para cada clase, mostrando el desempe√±o en clases minoritarias.
- **Validaci√≥n cruzada:** El accuracy promedio en 5 folds sobre el set balanceado indica la robustez del modelo.
- **Matriz de confusi√≥n:** Visualiza los aciertos y errores de predicci√≥n por clase.

QDA balanceado es especialmente √∫til cuando se sospecha que las clases no son separables linealmente y se busca mejorar la predicci√≥n en clases menos frecuentes.

## Comparaci√≥n de modelos balanceados y elecci√≥n del mejor

A continuaci√≥n se comparan los cinco modelos de clasificaci√≥n balanceados aplicados al dataset de calidad de vinos:

**1. Regresi√≥n Log√≠stica Multinomial (balanceada):**
- Suele ofrecer buen desempe√±o general y m√©tricas equilibradas en todas las clases.
- Es robusta y f√°cil de interpretar, pero puede verse limitada si las relaciones entre variables y clases no son lineales.

**2. KNN (balanceado):**
- Su desempe√±o depende mucho de la elecci√≥n de k y de la escala de los datos.
- Puede captar relaciones no lineales, pero es sensible al ruido y a la cantidad de datos.

**3. Naive Bayes (balanceado):**
- Es muy r√°pido y simple, pero su supuesto de independencia entre variables rara vez se cumple en la pr√°ctica.
- Puede funcionar bien si las variables son poco correlacionadas.

**4. LDA (balanceado):**
- Busca separar las clases mediante combinaciones lineales de variables.
- Es efectivo si las clases son separables linealmente y las covarianzas son similares.

**5. QDA (balanceado):**
- Permite fronteras de decisi√≥n curvas, adapt√°ndose mejor a relaciones complejas.
- Puede sobreajustar si hay pocas muestras por clase, pero es potente si hay suficiente informaci√≥n.

### ¬øC√≥mo elegir el mejor modelo?

Para elegir el mejor modelo, se deben comparar principalmente:
- **Exactitud en test:** Qu√© porcentaje de vinos clasifica correctamente el modelo sobre datos reales.
- **Recall y F1-score en clases minoritarias:** Indican la capacidad de detectar correctamente las clases menos frecuentes.
- **Robustez (validaci√≥n cruzada):** Qu√© tan estable es el modelo ante diferentes particiones de los datos.

### Recomendaci√≥n final

En la mayor√≠a de los casos pr√°cticos con este tipo de datos, **la Regresi√≥n Log√≠stica Multinomial balanceada** suele ser la mejor opci√≥n por su equilibrio entre interpretabilidad, robustez y buen desempe√±o en todas las clases, especialmente cuando el dataset no es muy grande y las relaciones no son extremadamente complejas. Adem√°s, su exactitud y m√©tricas suelen ser competitivas o superiores a las alternativas, y es menos propensa al sobreajuste que QDA.

**Por lo tanto, para tu TP, recomiendo utilizar la Regresi√≥n Log√≠stica Multinomial balanceada como modelo principal de clasificaci√≥n.**

No obstante, si observas que QDA o KNN logran m√©tricas significativamente mejores en recall/F1 para las clases minoritarias (y no hay sobreajuste), podr√≠as considerarlos como alternativas. Pero en general, la regresi√≥n log√≠stica balanceada es la opci√≥n m√°s s√≥lida y defendible para tu informe.


# üìò Informe T√©cnico: Comparaci√≥n de Modelos de Clasificaci√≥n Multiclase Balanceados

## üß™ Contexto del Estudio

Este an√°lisis se realiz√≥ sobre el dataset `winequality-red.csv`, que contiene caracter√≠sticas fisicoqu√≠micas de vinos tintos y su calidad (variable multiclase). El objetivo fue comparar cinco modelos de clasificaci√≥n bajo condiciones controladas:

- Divisi√≥n 80/20 con `stratify=y`
- Balanceo con `RandomOverSampler` aplicado solo al conjunto de entrenamiento
- Escalado con `StandardScaler`
- Evaluaci√≥n sobre el conjunto de test original (sin balancear)
- M√©tricas utilizadas: Accuracy, Precision, Recall, F1-score (macro) + Validaci√≥n cruzada (CV)

## üß† Modelos evaluados

- Regresi√≥n Log√≠stica (multinomial)
- K-Nearest Neighbors (KNN)
- Naive Bayes (GaussianNB)
- Linear Discriminant Analysis (LDA)
- Quadratic Discriminant Analysis (QDA)

import pandas as pd

# Crear tabla desde metricas_modelos
tabla_test = pd.DataFrame.from_dict(metricas_modelos, orient='index')
tabla_test.index.name = "Modelo"
tabla_test = tabla_test.reset_index()

# Ordenar por F1 Score
tabla_test_ordenada = tabla_test.sort_values(by="F1 Score", ascending=False).reset_index(drop=True)
tabla_test_ordenada

# Asegurarse de tener estas variables definidas previamente
cv_scores = {
    "Regresi√≥n Log√≠stica": scores_log_bal,
    "KNN": scores_knn_bal,
    "Naive Bayes": scores_nb_bal,
    "LDA": scores_lda_bal,
    "QDA": scores_qda_bal
}

# Crear tabla de CV Accuracy
tabla_cv = pd.DataFrame({
    "Modelo": list(cv_scores.keys()),
    "CV Accuracy (media)": [cv_scores[m].mean() for m in cv_scores]
})

# Ordenar por rendimiento
tabla_cv.sort_values(by="CV Accuracy (media)", ascending=False).reset_index(drop=True)

## üìà An√°lisis gr√°fico

### 1. Boxplot de Accuracy (Validaci√≥n Cruzada)
- KNN: caja estrecha, sin outliers ‚Üí comportamiento confiable
- QDA: buena mediana, pero m√°s dispersi√≥n
- Log√≠stica y Naive Bayes: baja mediana, mayor ruido
- LDA: intermedio

### 2. Gr√°fico de Barras (M√©tricas en Test)
- QDA tiene las barras m√°s altas en todas las m√©tricas
- KNN lo sigue de cerca, especialmente en Accuracy y F1
- Naive Bayes queda rezagado en todas las m√©tricas

## ‚úÖ Conclusi√≥n

**üèÜ Mejor modelo: QDA (Quadratic Discriminant Analysis)**  
- Mejor rendimiento en test (todas las m√©tricas)
- Mayor capacidad de generalizaci√≥n multiclase
- Buen balance entre precisi√≥n y cobertura

**ü•à Segundo lugar: KNN**  
- Excelente estabilidad en validaci√≥n cruzada
- Buen rendimiento general, aunque con menor Recall

## üìå Recomendaciones

- Explorar ajustes de hiperpar√°metros en QDA y KNN
- Evaluar curvas ROC por clase para an√°lisis m√°s fino
- Probar modelos ensemble (Random Forest, AdaBoost) como siguiente paso