## Reto 4: Validación Cruzada

### 1. Objetivos:
    - Aplicar la técnica de validación cruzada para evaluar un modelo de Regresión Lineal Múltiple

---
    
### 2. Desarrollo:

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Para este Reto vamos a utilizar el mismo dataset que en el Reto anterior. Elige las variables con las que obtuviste un mejor resultado. Utilizando esas variables realiza los siguientes procesos:

1. Entrena un modelo de Regresión Lineal Múltiple utilizando validación cruzada de K-iteraciones.
2. Obtén el promedio de tus scores y el nivel de incertidumbre.
3. Compara tu resultado con el resultado obtenido en el Reto anterior.
4. Comparte tus hallazgos con tus compañeros.

In [None]:
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
import pandas as pd
from google.colab import userdata

In [None]:
ruta = userdata.get('ruta')

df = pd.read_csv(ruta + 'wine_quality_red-clean.csv', index_col=0)

df.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [None]:
# Eliminar filas con valores nulos en las variables seleccionadas
df = df[['citric_acid', 'density', 'fixed_acidity']].dropna()

In [None]:
# Convertir fixed_acidity a categorías discretas
df['fixed_acidity_category'] = pd.cut(df['fixed_acidity'], bins=[0, 7, 10, float('inf')], labels=[0, 1, 2])

# Definir las variables predictoras y objetivo
X_case1 = df[['citric_acid', 'density']]
y_case1 = df['fixed_acidity_category']  # Ahora es categórica

# Configurar validación cruzada
kf = KFold(n_splits=100, shuffle=True, random_state=42)

# Modelo de regresión logística
model = LogisticRegression(max_iter=1000)

# Validación cruzada para clasificación
cv_scores_case1 = cross_val_score(model, X_case1, y_case1, cv=kf, scoring='accuracy')

In [None]:
# Resultados
resultados = pd.DataFrame({
    "Caso": ["Acido citrico y Densidad"],
    "Accuracy Promedio": [cv_scores_case1.mean()],
    "Desviación Estándar": [cv_scores_case1.std()]
})

print(f"Resultados de la validación cruzada:")
resultados

Resultados de la validación cruzada:


Unnamed: 0,Caso,Accuracy Promedio,Desviación Estándar
0,Acido citrico y Densidad,0.642333,0.116141
