# Introducción
* El aprendizaje automático es un proceso iterativo.
* Tendrá que elegir:
  * qué variables predictivas utilizar,
  * qué tipos de modelos utilizar,
  * qué argumentos proporcionar a esos modelos, etc.
* Hasta ahora, **ha tomado estas decisiones basándose en datos midiendo la calidad del modelo con una validación** ( o reserva) configurado.
* Pero este enfoque tiene algunos inconvenientes.
* Para ver esto, imaginemos que se tiene un conjunto de datos con 5000 filas.
* Normalmente se mantendrá aproximadamente el 20% de los datos como conjunto de datos de validación, o 1000 filas.
* Pero **esto deja cierta posibilidad aleatoria a la hora de determinar las puntuaciones del modelo**.
* Es decir, un modelo podría funcionar bien en un conjunto de 1000 filas, incluso si sería inexacto en 1000 filas diferentes.
* En un caso extremo, podría imaginarse tener solo 1 fila de datos en el conjunto de validación.
* Si se comparan modelos alternativos, cuál hace las mejores predicciones sobre un único punto de datos será principalmente una cuestión de suerte.
* En general, **cuanto mayor sea el conjunto de validación, menos aleatoriedad (también conocida como "ruido") habrá en nuestra medida de la calidad del modelo y más confiable será**.
* Desafortunadamente, solo podemos obtener un conjunto de validación grande eliminando filas de nuestros datos de entrenamiento, ¡**y conjuntos de datos de entrenamiento más pequeños significan peores modelos!**

# ¿Qué es la validación cruzada?
* En la validación cruzada, ejecutamos nuestro **proceso de modelado en diferentes subconjuntos de datos para obtener múltiples medidas de la calidad del modelo**.
* Por ejemplo, podríamos comenzar dividiendo los datos en 5 partes, cada una de las cuales representa el 20% del conjunto de datos completo. En este caso decimos que hemos dividido los datos en 5 "pliegues".
* En este caso, tendriamos 5 experimentos, cada uno utilizando una parte como datos de validacion y el resto como datos de entrenamientos.

Luego, realizamos un experimento para cada pliegue:

* En el **Experimento 1**, utilizamos el primer pliegue como conjunto de validación (o reserva) y todo lo demás como datos de entrenamiento.
* Esto nos da una medida de la calidad del modelo basada en un conjunto de reservas del 20%.
* En el **Experimento 2**, guardamos datos del segundo pliegue (y usamos todo excepto el segundo pliegue para entrenar el modelo).
* Luego, el conjunto de validación (reservas) se utiliza para obtener una segunda estimación de la calidad del modelo.
* Repetimos este proceso, usando cada pliegue una vez como conjunto de reserva.
* En conjunto, el 100% de los datos se usa como validación (reserva) en algún momento, y terminamos con una medida de la calidad del modelo que se basa en todas las filas del conjunto de datos (incluso si no usamos todas las filas simultáneamente) .

## ¿Cuándo debería utilizar la validación cruzada?
* La validación cruzada brinda una medida más precisa de la calidad del modelo, lo cual es especialmente importante si se toman muchas decisiones de modelado.
* Sin embargo, puede tardar más en ejecutarse porque estima varios modelos (uno para cada pliegue).
* Entonces, dadas estas compensaciones, **¿cuándo debería utilizar cada enfoque?**
  * Para **conjuntos de datos pequeños**, donde la carga computacional adicional no es gran cosa, **debe ejecutar una validación cruzada**.
  * Para **conjuntos de datos más grandes**, **un único conjunto de validación es suficiente.**
* Su código se ejecutará más rápido y es posible que tenga suficientes datos como para que no sea necesario reutilizar algunos de ellos para reservarlos.
* No existe un umbral sencillo para determinar qué constituye un conjunto de datos grande o pequeño.
* Pero **si su modelo tarda un par de minutos o menos en ejecutarse**, probablemente valga la pena **cambiar a la validación cruzada**.
* Alternativamente, puede ejecutar una validación cruzada y ver si las puntuaciones de cada experimento parecen cercanas.
* Si cada experimento arroja los mismos resultados, probablemente un único conjunto de validación sea suficiente.

## Validación cruzada y la función cross_val_score()
* Obtenemos las puntuaciones de validación cruzada con la función **cross_val_score()** de scikit-learn.
* Establecemos el número de pliegues con el parámetro cv.

**Utilidad de cross_val_score()**

* La función cross_val_score() de Scikit-Learn se utiliza para evaluar el rendimiento de un modelo de Machine Learning utilizando validación cruzada.
* La validación cruzada es una técnica que divide el conjunto de datos en múltiples subconjuntos (folds) para entrenar y evaluar el modelo de manera iterativa, asegurando que cada subconjunto se utilice tanto para el entrenamiento como para la evaluación.
* Esto proporciona una estimación más robusta del rendimiento del modelo comparado con un simple split de entrenamiento y prueba.

**Ventajas de cross_val_score()**

* **Estimación Más Robusta**: Al evaluar el modelo en múltiples subconjuntos de los datos, se obtiene una estimación del rendimiento que es menos dependiente de una sola partición de datos.
* **Reducción del Overfitting**: Ayuda a detectar y reducir el overfitting, ya que el modelo se entrena y se evalúa en diferentes porciones del conjunto de datos.
* **Uso Eficiente de los Datos**: Aprovecha todo el conjunto de datos tanto para el entrenamiento como para la evaluación, lo que es particularmente útil cuando se dispone de un conjunto de datos limitado.
* **Comparación de Modelos**: Permite comparar diferentes modelos o configuraciones de modelos de manera justa, usando el mismo esquema de validación.

**Desventajas de cross_val_score()**

* **Mayor Costo Computacional**: Requiere entrenar y evaluar el modelo múltiples veces (una vez por cada fold), lo que puede ser computacionalmente costoso, especialmente con modelos complejos o grandes conjuntos de datos.
* **Configuración del Modelo**: Puede ser complicado seleccionar los parámetros adecuados para la validación cruzada (e.g., número de folds).
* **Varianza en los Resultados**: Aunque reduce la varianza respecto a una simple partición de datos, los resultados de cross-validation pueden aún mostrar variabilidad significativa, especialmente con conjuntos de datos pequeños.

**Parámetro scoring y el neg_mean_absolute_error**
* En cross_val_score(), el parámetro **scoring** se utiliza para especificar la métrica de evaluación del modelo.
* Cuando se utiliza **neg_mean_absolute_error**, se está indicando que se debe usar el error absoluto medio (MAE, por sus siglas en inglés) como métrica, pero en forma negativa.
* Esto se hace porque Scikit-Learn espera que las métricas de evaluación a maximizar sean positivas (como precisión, R^2, etc.).
* Dado que MAE es una métrica de error, menor es mejor, y por ello se usa el valor negativo para que un MAE menor (mejor) se traduzca en un valor negativo más alto (menos negativo).

* El uso de la validación cruzada produce una medida mucho mejor de la calidad del modelo, con el beneficio adicional de limpiar nuestro código: tenga en cuenta que ya no necesitamos realizar un seguimiento de los conjuntos de capacitación y validación por separado.
* Entonces, especialmente para conjuntos de datos pequeños, ¡es una buena mejora!
* **No se necesita hacer la partición en X_train, X_valid, y_train, y_valid**. Se trabaja directamente sobre X, y definidos.

# Modelo de Machine Learning para estimar pecios de viviendas

* Se utliza los datos de la Competencia de precios de vivienda para usuarios de Kaggle Learn(https://www.kaggle.com/c/home-data-for-ml-course), donde utilizará 79 variables explicativas diferentes (como el tipo de techo, la cantidad de dormitorios y la cantidad de baños) para predecir los precios de las viviendas.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 1. Leer los datos
train_data = pd.read_csv('train.csv', index_col='Id')
test_data = pd.read_csv('test.csv', index_col='Id')

# 2. Eliminar filas con valores faltantes en la variable objetivo
train_data.dropna(axis=0, subset=['SalePrice'], inplace=True)

# 2.1 Separar variable objetivo de las predictoras
y = train_data.SalePrice
train_data.drop(['SalePrice'], axis=1, inplace=True)

In [3]:
# 2.2 Tamaño de los dataframe
print(f"El tamaño de train_data: {train_data.shape}")
print(f"El tamaño de test_data: {test_data.shape}")

El tamaño de train_data: (1460, 79)
El tamaño de test_data: (1459, 79)


In [4]:
# 3. "Cardinalidad" significa la cantidad de valores únicos en una columna
# Seleccione columnas categóricas con cardinalidad relativamente baja (conveniente pero arbitraria)
categorical_cols = [cname for cname in train_data.columns if
                    train_data[cname].nunique() < 10 and
                    train_data[cname].dtype == "object"]

# 4. Selecciona columnas numéricas
numerical_cols = [cname for cname in train_data.columns if
                train_data[cname].dtype in ['int64', 'float64']]

# 5. Mantenga solo las columnas seleccionadas
my_cols = categorical_cols + numerical_cols
X = train_data[my_cols].copy()
X_test =test_data[my_cols].copy()

In [6]:
# Tamaño de los dataframe despues de aplicar cardinalidad
print(f"El tamaño de X: {X.shape}")
print(f"El tamaño de X_test : {X_test.shape}")

El tamaño de X: (1460, 76)
El tamaño de X_test : (1459, 76)


## Construccion de Pipeline
* Construir pipeline con scikit-learn.
* El siguiente Pipeline utilizará SimpleImputer() para reemplazar los valores faltantes en los datos (numéricos y categóricos), antes de usar RandomForestRegressor() para entrenar un modelo de bosque aleatorio y luego hacer las predicciones.
* Establecemos la cantidad de árboles en el modelo de bosque aleatorio con el parámetro n_estimators, y establecer random_state garantiza la reproducibilidad.

In [15]:
# 1. Pipeline para reemplazar valores faltantes y modelar con RandomForestRegressor()

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder


# 1. Preprocesamiento de datos numéricos
numerical_transformer = SimpleImputer(strategy='median')

# 2. Preprocesamiento de datos categóricos
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# 3. Preprocesamiento de paquetes para datos numéricos y categóricos
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

# 4. Definir el modelo de Machine Learning
model = RandomForestRegressor(n_estimators=100, random_state=0)

# 5. Agrupar código de preprocesamiento y modelado en una canalización
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                      ('model', model)
                     ])


## Validación cruzada
* El siguiente código utiliza la función **cross_val_score()** para obtener el error absoluto medio (MAE), promediado en cinco pliegues diferentes.
* El número de pliegues se configura con el parámetro cv.

In [16]:
# Validadción Cruzada_Calculo del MAE
from sklearn.model_selection import cross_val_score

# Multiply by -1 since sklearn calculates *negative* MAE
scores = -1 * cross_val_score(my_pipeline, X, y,
                              cv=5,
                              scoring='neg_mean_absolute_error')

print("Average MAE score:", scores.mean())

Average MAE score: 17684.78860958904


## Preprocesamiento de datos de prueba. X_test

In [17]:
# 1. Ajustar el pipeline completo con todo el conjunto de entrenamiento
my_pipeline.fit(X, y)

# 2. Predecir con los datos de prueba
preds_test = my_pipeline.predict(X_test)

# 3. Mostrar las predicciones
preds_test


array([127898.5 , 154677.4 , 178920.4 , ..., 152289.58, 111723.25,
       226310.29])

In [18]:
# 4. Guardar predicciones en un archivo
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)