# Variables categóricas
* Hay muchos datos no numéricos por ahí. 
* Aquí se explican tres enfoques de cómo gestionar estas variables para el aprendizaje automático.

**Introducción**
* Una variable categórica toma sólo un número limitado y normalmente fijo de valores discretos.
* Las variables categóricas pueden ser de dos tipos: **nominales** y **ordinales**
  * **Variables Nominales**: Estas no tienen un orden intrínseco. Por ejemplo, colores como "rojo", "verde" y "azul".
  * **Variables Ordinales**: Estas tienen un orden natural. Por ejemplo, tamaños de camiseta como "pequeño", "mediano" y "grande".
Consideremos una encuesta que pregunte la frecuencia con que se desayuna y ofrece cuatro opciones:
 * "**Nunca**",
 * "**Rara vez**",
 * "**La mayoría de los días**"
 * "**Todos los días**".
* En este caso, los datos son categóricos, porque **las respuestas se clasifican en un conjunto fijo de categorías.**
* Si las personas respondieran a una encuesta sobre qué marca de automóvil poseen, las respuestas se clasificarían en categorías como:
  * "**Honda**",
  * "**Toyota**"
  * "**Ford**".
* En este caso, los datos también son categóricos.
* **Advertencia**: Recibirá un error si intenta conectar estas variables en la mayoría de los modelos de aprendizaje automático en Python sin preprocesarlas primero.
* En este apartado compararemos tres enfoques que se pueden utilizar para preparar los datos categóricos.

# Enfoques para abordar Variables categóricas

## 1.Eliminar variables categóricas
* El enfoque más sencillo para tratar con variables categóricas es simplemente eliminarlas del conjunto de datos.
* Este enfoque sólo funcionará bien si las columnas no contienen información útil.

## 2.Codificación ordinal: OrdinalEncoder()
* El método **OrdinalEncoder** de scikit-learn se utiliza para **convertir variables categóricas ordinales** en **números enteros** que reflejan su orden.
* Por ejemplo, si tienes una variable ordinal con los valores ["bajo", "medio", "alto"], el OrdinalEncoder puede mapear estos valores a [0, 1, 2], respectivamente. Este enfoque es útil porque conserva la relación de orden entre las categorías.


* La codificación ordinal "**OrdinalEncoder**" de scikit-learn se utiliza para convertir variables categóricas ordinales en números enteros que reflejan su orden, asignando **cada valor único** a un número entero diferente.
* Siguiendo con el ejemplo de la encuesta ["nunca", "rara vez", "La mayoría de las verces", "Todos los días"] se puede mapear a los valores a [0, 1, 2, 3],:
  * asigna **0** a "**Nunca**",
  * asigna **1** a "**Rara vez**",
  * asigna **2** a "**La mayoría de los días**"
  * asigna **3** a "**Todos los días**".
* Este enfoque **supone un orden de las categorías**: "Nunca" (0) < "Rara vez" (1) < "La mayoría de los días" (2) < "Todos los días" (3).
* Esta suposición tiene sentido en este ejemplo, porque existe una clasificación indiscutible de las categorías.
* **Recordar que No todas las variables categóricas tienen un orden claro en los valores**. Las que lo tienen se denominan como **variables ordinales**.
* Para los modelos basados en árboles (como árboles de decisión y bosques aleatorios), se puede esperar que la codificación ordinal funcione bien con variables ordinales.

## 3.Codificación en one-hot: One-HotEncoder()
* La codificación One-Hot es una técnica utilizada para convertir **variables categóricas nominales** en una forma que puede ser proporcionada a algoritmos de aprendizaje automático para hacer una mejor predicción.
* La idea es transformar cada categoría en una nueva columna binaria (dummy variable), que tiene un valor de 1 si la instancia pertenece a esa categoría, y 0 en caso contrario.
* La codificación **one-hot** crea nuevas columnas que indican la presencia (o ausencia) de cada valor posible en los datos originales.
Para entender esto, ilustremos un ejemplo.
* Supongase un dataset, donde "**Color**" es una variable categórica nominal con tres categorías: ["**Rojo**", "**Amarillo**", "**Verde**"].
* El One-Hot Encoding transformaría esta variable en tres columnas:
  * Color_rojo
  * Color_amarillo
  * Color_verde
* La codificación one-hot correspondiente contiene una columna para cada valor posible (rojo, amarillo, verde)
* Cada fila representa una observación y, en cada fila, solo una de las columnas binarias tendrá un valor de 1, indicando la categoría a la que pertenece esa observación.
* Siempre que el valor original fuera "Rojo", ponemos un 1 en la columna "Rojo"; si el valor original era "Amarillo", ponemos un 1 en la columna "Amarillo", y así sucesivamente.
* Este enfoque de codificación binaria garantiza que cada categoría tenga una representación única y distintiva en el conjunto de datos codificado
* A diferencia de la codificación ordinal, **la codificación one-hot no supone un ordenamiento** de las categorías.
* Por lo tanto, puede esperar que este enfoque funcione particularmente bien si no hay un orden claro en los datos categóricos (por ejemplo, "Rojo" no es ni más ni menos que "Amarillo").
* Recordemos que las variables categóricas sin una clasificación intrínseca se denominan **variables nominales**.
* La codificación one-hot generalmente no funciona bien si la variable categórica toma una gran cantidad de valores (es decir, generalmente no la usará para variables que toman más de 15 valores diferentes).

¿Por qué se llama "One-Hot"?
* El término "one-hot" se refiere a la representación en la que "uno" (one) indica la presencia de una categoría específica y "cero" se usa en todas las otras categorías, es decir, solo una de las variables es "hot" (activa) a la vez. **one-hot = una - activa**

**Conclusion**
* Para variables ordinales(suponen orden entre ellas), funciona la codificación ordinal
* Para variables nominales (No suponen orden entre ellas), funciona la codificación one-hot.

## Carga de los datos

In [1]:
import pandas as pd

# Leer los datos
X = pd.read_csv('train.csv', index_col='Id')
X_test = pd.read_csv('test.csv', index_col='Id')

* Los conjuntos de entrenamiento y validación se cargaran en **X_train, X_valid, y_train e y_valid**.
* El conjunto de prueba se carga en **X_test**.

In [2]:
# 1. Revisemos nuestro dataframe X, X_test
X.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1460 entries, 1 to 1460
Data columns (total 80 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   MSSubClass     1460 non-null   int64  
 1   MSZoning       1460 non-null   object 
 2   LotFrontage    1201 non-null   float64
 3   LotArea        1460 non-null   int64  
 4   Street         1460 non-null   object 
 5   Alley          91 non-null     object 
 6   LotShape       1460 non-null   object 
 7   LandContour    1460 non-null   object 
 8   Utilities      1460 non-null   object 
 9   LotConfig      1460 non-null   object 
 10  LandSlope      1460 non-null   object 
 11  Neighborhood   1460 non-null   object 
 12  Condition1     1460 non-null   object 
 13  Condition2     1460 non-null   object 
 14  BldgType       1460 non-null   object 
 15  HouseStyle     1460 non-null   object 
 16  OverallQual    1460 non-null   int64  
 17  OverallCond    1460 non-null   int64  
 18  YearBuil

* Se observa un dataset con 1460 entradas y 80 columnas.
* Existen columnas con valores nulos,
* 37 variables numéricas(tipo=int64, float64)
* 43 variables categóricas(tipo=object).

In [3]:
# 1.1 Revisemos X_test
X_test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1459 entries, 1461 to 2919
Data columns (total 79 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   MSSubClass     1459 non-null   int64  
 1   MSZoning       1455 non-null   object 
 2   LotFrontage    1232 non-null   float64
 3   LotArea        1459 non-null   int64  
 4   Street         1459 non-null   object 
 5   Alley          107 non-null    object 
 6   LotShape       1459 non-null   object 
 7   LandContour    1459 non-null   object 
 8   Utilities      1457 non-null   object 
 9   LotConfig      1459 non-null   object 
 10  LandSlope      1459 non-null   object 
 11  Neighborhood   1459 non-null   object 
 12  Condition1     1459 non-null   object 
 13  Condition2     1459 non-null   object 
 14  BldgType       1459 non-null   object 
 15  HouseStyle     1459 non-null   object 
 16  OverallQual    1459 non-null   int64  
 17  OverallCond    1459 non-null   int64  
 18  YearB

* Se observa un dataset con 1459 entradas y 79 columnas.
* Existen columnas con valores nulos,
* 36 variables numéricas(25 int64 + 11 float64)
* 43 variables categóricas(tipo=object).

## Columnas con valores faltantes

In [4]:
# Función de utilidad para contar columnas con valores nulos
def informar_columnas_nulas(dataframe, nombre_dataframe):
    # Contamos las columnas que tienen al menos un valor nulo
    columnas_con_nulos = dataframe.isnull().any(axis=0).sum()

    # Imprimimos el resultado
    print(f"El dataframe {nombre_dataframe} tiene {columnas_con_nulos} columnas con valores nulos.")

In [5]:
# 2.1 Contar columnas con valores faltantes en X
informar_columnas_nulas(X, "X")

El dataframe X tiene 19 columnas con valores nulos.


In [6]:
# 2.2 Contar columnas con valores faltantes en X_test
informar_columnas_nulas(X_test, "X_test")

El dataframe X_test tiene 33 columnas con valores nulos.


## Eliminar valores faltantes en la variable objetivo

In [7]:
# En el df X, se eliminan filas con valores faltantes en la variable objetivo "SalePrice"
X.dropna(axis=0, subset=['SalePrice'], inplace=True)

## Definción de variable objetivo y predictoras

In [8]:
# Definición de la varaible objetivo
y = X.SalePrice

In [9]:
# Separar varaible objetivo de las predictoras
X.drop(['SalePrice'], axis=1, inplace=True)

## Gestión de Valores faltantes
* En este caso, usaremos el enfoque más simple: Eliminar columnas con valores faltantes tanto en X como en X_test.

In [10]:
# Valores faltantes en X: Trabajaremos con columnas completas, sin valores faltantes.
# Identificamos en "cols_with_missing" las columnas con valores faltantes para luego eliminarlas
cols_with_missing = [col for col in X.columns
                     if X[col].isnull().any()]
cols_with_missing

['LotFrontage',
 'Alley',
 'MasVnrType',
 'MasVnrArea',
 'BsmtQual',
 'BsmtCond',
 'BsmtExposure',
 'BsmtFinType1',
 'BsmtFinType2',
 'Electrical',
 'FireplaceQu',
 'GarageType',
 'GarageYrBlt',
 'GarageFinish',
 'GarageQual',
 'GarageCond',
 'PoolQC',
 'Fence',
 'MiscFeature']

In [11]:
# Eliminaremos las columnas con valores faltantes tanto en X como en X_test
X.drop(cols_with_missing, axis=1, inplace=True)
X_test.drop(cols_with_missing, axis=1, inplace=True)

In [12]:
# Tamaño de X, X_test despues de eliminar columnas con valores faltantes
print(f"El tamaño de X: (filas, columnas) es: {X.shape}")
print(f"El tamaño de X_test: (filas, columnas) es: {X_test.shape}")

El tamaño de X: (filas, columnas) es: (1460, 60)
El tamaño de X_test: (filas, columnas) es: (1459, 60)


In [13]:
# Contar columnas con valores faltantes en X
informar_columnas_nulas(X, "X")

El dataframe X tiene 0 columnas con valores nulos.


In [14]:
# Contar columnas con valores faltantes en X
informar_columnas_nulas(X_test, "X_test")

El dataframe X_test tiene 15 columnas con valores nulos.


* Se han eliminados las columnas con valores faltantes de X.
* Esas mismas columnas se ha eliminado tambien de X_test. 
* Sin embargo, no olvidemos que aun quedan columnas con valores vacios en X_test. 
* Al preprocesar X_test, las columnas con valores faltantes se deben imputar, más no eliminarse. 

## Separe el conjunto de validación de los datos de entrenamiento.

In [15]:
# Separar el conjunto de validación del conjunto de entrenamiento
from sklearn.model_selection import train_test_split
X_train, X_valid, y_train, y_valid = train_test_split(X, y,
                                                      train_size=0.8, test_size=0.2,
                                                      random_state=0)

In [16]:
# Imprimimos las primeras cinco filas de datos.
X_train.head()

Unnamed: 0_level_0,MSSubClass,MSZoning,LotArea,Street,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,...,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SaleType,SaleCondition
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
619,20,RL,11694,Pave,Reg,Lvl,AllPub,Inside,Gtl,NridgHt,...,108,0,0,260,0,0,7,2007,New,Partial
871,20,RL,6600,Pave,Reg,Lvl,AllPub,Inside,Gtl,NAmes,...,0,0,0,0,0,0,8,2009,WD,Normal
93,30,RL,13360,Pave,IR1,HLS,AllPub,Inside,Gtl,Crawfor,...,0,44,0,0,0,0,8,2009,WD,Normal
818,20,RL,13265,Pave,IR1,Lvl,AllPub,CulDSac,Gtl,Mitchel,...,59,0,0,0,0,0,7,2008,WD,Normal
303,20,RL,13704,Pave,IR1,Lvl,AllPub,Corner,Gtl,CollgCr,...,81,0,0,0,0,0,1,2006,WD,Normal


* Se observa que el conjunto de datos **contiene variables numéricas y categóricas.**
* El siguiente paso es **codificar los datos categóricos antes de entrenar un modelo.**
* **Se compararan** los diferentes modelos, con la función **score_dataset()**.
* Esta función informa el error absoluto medio (MAE) de un modelo de bosque aleatorio.

## Función para comparar los diferentes modelos para tratar datos categóricos

In [17]:
# Función para comparar los diferentes modelos para tratar datos categóricos
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# function for comparing different approaches
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

## Enfoques para gestionar datos categóricos

## Enfoque 1: Eliminar columnas con datos *categóricos*
* Este es el enfoque más sencillo.

**Paso 1**
* Se preprocesan los datos en **X_train y X_valid** para eliminar columnas con datos categóricos (dtypes = 'object')
* Recordemos que el tipo de dato **"object"** indica que una columna tiene texto (en teoría, hay otras cosas que podrían ser, pero eso no es importante para nuestros propósitos).
* Se establecen los DataFrames preprocesados en **drop_X_train** y **drop_X_valid**, respectivamente

**Paso 2**
* Se obtiene el MAE para este enfoque a traves de la funcion **"score_dataset"** y los df **drop_X_train** y **drop_X_valid**

In [18]:
# 1. Elimnamos las columnas con valores categoricos (dtypes=object) en X_train y X_valid, con el método select_dtypes().
drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

In [19]:
# 1.1 Tamaño de X_train, X_valid despues de eliminar columnas con valores categóricos
print(f"El tamaño de drop_X_train: (filas, columnas) es: {drop_X_train.shape}")
print(f"El tamaño de drop_X_valid: (filas, columnas) es: {drop_X_valid.shape}")

El tamaño de drop_X_train: (filas, columnas) es: (1168, 33)
El tamaño de drop_X_valid: (filas, columnas) es: (292, 33)


* Del total de 60 columnas, quedan solo las numericas (33).
* El resto, 27 columnas categoricas, fueron eliminadas.
* Con esta data se correrá el primer enfoque.

In [20]:
# 2. Obtener el MAE para este enfoque.
print("MAE from Approach 1 (Eliminar variables categóricas):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

MAE from Approach 1 (Eliminar variables categóricas):
17837.82570776256


## Enfoque 2: codificación ordinal
### **Parte A**: X_valid subconjunto de X_train
* El conjunto de valores categoricos de validación debe estar contenido en el conjunto de valores categoricos de entrenamiento.
* Esto es, revisar que los datos de validación contengan los mismos valores categoricos que aparecen en los datos de entrenamiento.
* Antes de pasar al enfoque **codificación ordinal**, preprocesamos los conjuntos de datos.
* Ajustar un codificador ordinal a una columna de los datos de entrenamiento crea una etiqueta de valor entero correspondiente para cada valor único que aparece en los datos de entrenamiento.
* El codificador ordinal actua como una función que asigna una etiqueta de valor entero para cada valor unico que aparece en los datos de entrenamiento.  
* En el caso de que los datos de validación contengan valores que no aparecen también en los datos de entrenamiento, el codificador arrojará un error, porque estos valores no tendrán un número entero asignado.
* Como ejemplo, observamos que la columna '**Condición2**' en los datos de validación contiene los valores **'RRAn' y 'RRNn'**, pero estos no aparecen en los datos de entrenamiento; por lo tanto, si intentamos usar un codificador ordinal con scikit-learn, el código arrojará el error: "se encontraron categorías desconocidas durante la transformación." ['RRNn', 'RRAn']

In [21]:
print("Unique values in 'Condition2' column in training data:", X_train['Condition2'].unique())
print("\nUnique values in 'Condition2' column in validation data:", X_valid['Condition2'].unique())

Unique values in 'Condition2' column in training data: ['Norm' 'PosA' 'Feedr' 'PosN' 'Artery' 'RRAe']

Unique values in 'Condition2' column in validation data: ['Norm' 'RRAn' 'RRNn' 'Artery' 'Feedr' 'PosN']


* Este es un problema común y existen muchos enfoques para solucionarlo.
* Por ejemplo, se puede escribir un codificador ordinal personalizado para manejar nuevas categorías.
* Sin embargo, el enfoque más sencillo es **eliminar las columnas categóricas problemáticas.**

Pasos:
  * Listamos todas las columnas categóricas de los datos de entrenamiento.
  * Guardamos en una lista de Python las columnas que pueden codificarse como ordinal de forma segura en **good_label_cols**.
  * Del mismo modo, las columnas problemáticas se almacenan en la lista **bad_label_cols.**, para luego ser eliminadas.

### Preprocesamiento de datos: Determinar columnas categóricas seguras.

In [23]:
# 1. Hallar todas las Columnas categóricas en los datos de entrenamiento.
object_cols = [col for col in X_train.columns
               if X_train[col].dtype == "object"]


# 2. Columnas a las que se puede aplicar codificación ordinal de forma segura
# Asegurar que el dataset de Validacion es subconjunto del dataset de entrenamiento.
good_label_cols = [col for col in object_cols if
                   set(X_valid[col]).issubset(set(X_train[col]))]

# 3. Columnas problemáticas que se eliminarán del conjunto de datos
bad_label_cols = list(set(object_cols)-set(good_label_cols))

In [24]:
print('Columnas categóricas que se codificarán como ordinales:', good_label_cols)
print('\nColumnas categóricas que se eliminarán del conjunto de datos:', bad_label_cols)

Columnas categóricas que se codificarán como ordinales: ['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'BldgType', 'HouseStyle', 'RoofStyle', 'Exterior1st', 'Exterior2nd', 'ExterQual', 'ExterCond', 'Foundation', 'Heating', 'HeatingQC', 'CentralAir', 'KitchenQual', 'PavedDrive', 'SaleType', 'SaleCondition']

Columnas categóricas que se eliminarán del conjunto de datos: ['Condition2', 'Functional', 'RoofMatl']


* Ya tenemos identificadas las columnas que se utilizaran para el metodo de codificaciòn ordinal. (Las columnas good_label_cols)

### Parte B : codificar ordinalmente los datos en X_train y X_valid.
Se trabaja sobre los conjuntos de datos: **X_train y X_valid**.

1. Se eliminan las columnas categóricas en **bad_label_cols** del conjunto de datos, preprocesando **X_train** y **X_valid** en **label_X_train** y **label_X_valid**, respectivamente. 
2. Se codifica de forma ordinal las columnas categóricas en **good_label_cols**.

In [25]:
# 1. Eliminar columnas categóricas que no serán codificadas (bad_label_cols)
# Guardar label_X_train y label_X_valid, respectivamente. 

label_X_train = X_train.drop(bad_label_cols, axis=1)
label_X_valid = X_valid.drop(bad_label_cols, axis=1)

In [26]:
# 1.1 Tamaño label_X_train y label_X_valid despues de eliminar columnas categóricas problemáticas.
print(f"El tamaño de label_X_train: (filas, columnas) es: {label_X_train.shape}")
print(f"El tamaño de label_X_valid: (filas, columnas) es: {label_X_valid.shape}")

El tamaño de label_X_train: (filas, columnas) es: (1168, 57)
El tamaño de label_X_valid: (filas, columnas) es: (292, 57)


* Se ha eliminado las tres columnas problemáticas: ['Condition2', 'Functional', 'RoofMatl']

In [27]:
# 2. Aplicar codificador ordinal a las columnas buenas.(good_label_cols)
from sklearn.preprocessing import OrdinalEncoder

ordinal_encoder = OrdinalEncoder()

label_X_train[good_label_cols] = ordinal_encoder.fit_transform(X_train[good_label_cols])
label_X_valid[good_label_cols] = ordinal_encoder.transform(X_valid[good_label_cols])

In [28]:
# 3. Obtener el MAE para este enfoque.
print("MAE from Approach 2 (Ordinal Encoding):")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))

MAE from Approach 2 (Ordinal Encoding):
17098.01649543379


## Enfoque 3: codificaciòn one-hot.
* Hasta ahora, se han probado dos enfoques diferentes para tratar con variables categóricas.
* Y se ha visto que codificar datos categóricos produce mejores resultados que eliminar columnas del conjunto de datos.
* Antes de **probar la codificación one-hot**, hay un tema previo: **la cardinalidad**.
* Esto es, la cantidad de entradas únicas en cada columna con datos categóricos.

### **Parte A**. Investigar la cardinalidad

In [29]:
# 1. Cradinalidad: Obtener la cantidad de entradas únicas en cada columna con datos categóricos
object_nunique = list(map(lambda col: X_train[col].nunique(), object_cols))
d = dict(zip(object_cols, object_nunique))

# 1.1 Imprimir el número de entradas únicas por columna, en orden ascendente
sorted(d.items(), key=lambda x: x[1])

[('Street', 2),
 ('Utilities', 2),
 ('CentralAir', 2),
 ('LandSlope', 3),
 ('PavedDrive', 3),
 ('LotShape', 4),
 ('LandContour', 4),
 ('ExterQual', 4),
 ('KitchenQual', 4),
 ('MSZoning', 5),
 ('LotConfig', 5),
 ('BldgType', 5),
 ('ExterCond', 5),
 ('HeatingQC', 5),
 ('Condition2', 6),
 ('RoofStyle', 6),
 ('Foundation', 6),
 ('Heating', 6),
 ('Functional', 6),
 ('SaleCondition', 6),
 ('RoofMatl', 7),
 ('HouseStyle', 8),
 ('Condition1', 9),
 ('SaleType', 9),
 ('Exterior1st', 15),
 ('Exterior2nd', 16),
 ('Neighborhood', 25)]

* Las 27 columnas con sus respectivos valores unicos en cada una de ellas.(Cardinalidad)

* El resultado anterior muestra, para cada columna con datos categóricos, el número de valores únicos en la columna.
* Por ejemplo, la columna "Street" en los datos de entrenamiento tiene dos valores únicos: "Grvl" y "Pave", correspondientes a un camino de grava y un camino pavimentado, respectivamente.
* Nos referimos al número de entradas únicas de una variable categórica como la cardinalidad de esa variable categórica.
* Por ejemplo, la variable 'Street' tiene cardinalidad 2 y one-hot ceará 2 columnas adicionales, una por cada categoría de la variable.
* En ese sentido, para codificar con one-hot la variable Neighborhood, se necesitan 25 nuevas columnas. 
* Para codificar una columna categórica con codificación one-hot, se crea una nueva columna binaria para cada valor único en la columna original

### **Parte B**.  Seleccionar columnas con cardinalidad menor que 10 para codificarlas con one-hot.
* Para conjuntos de datos grandes con muchas filas, la codificación one-hot puede ampliar considerablemente el tamaño del conjunto de datos.
* Por esta razón, normalmente solo codificaremos con **one-hot** columnas con una **cardinalidad relativamente baja**.
* Luego, las columnas de **alta cardinalidad** se pueden eliminar del conjunto de datos o podemos **usar codificación ordinal**.
* En este sentido, en lugar de codificar todas las variables categóricas en el conjunto de datos, **solo se creará una codificación única para columnas con cardinalidad menor que 10**.
* Para ello, se configura **low_cardinality_cols** en una lista de Python que contenga las columnas que se codificarán con one-hot.
* Asimismo, **high_cardinality_cols** contiene una lista de columnas categóricas que se eliminarán del conjunto de datos.

In [30]:
# 1. Columnas que se codificarán con one-hot (cardinalidad menor que 10)
low_cardinality_cols = [col for col in object_cols
                        if X_train[col].nunique() < 10]

# 2. Columnas que se eliminarán del conjunto de datos (cardinalidad mayor que 10)
high_cardinality_cols = list(set(object_cols)-set(low_cardinality_cols))

In [31]:
print('Columnas categóricas que se codificarán con one-hot:', low_cardinality_cols)
print('\nColumnas que se eliminarán del conjunto de datos:', high_cardinality_cols)

Columnas categóricas que se codificarán con one-hot: ['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'ExterQual', 'ExterCond', 'Foundation', 'Heating', 'HeatingQC', 'CentralAir', 'KitchenQual', 'Functional', 'PavedDrive', 'SaleType', 'SaleCondition']

Columnas que se eliminarán del conjunto de datos: ['Exterior1st', 'Neighborhood', 'Exterior2nd']


### Parte C: codificación one-hot

* Usamos la clase **OneHotEncoder** de scikit-learn para obtener codificaciones one-hot.
* Hay una serie de parámetros que se pueden utilizar para personalizar su comportamiento.
* Configuramos **handle_unknown='ignore'** para evitar errores cuando los datos de validación contienen clases que no están representadas en los datos de entrenamiento, y establecer **sparse=False** garantiza que las columnas codificadas se devuelvan como una matriz numerosa (en lugar de una matriz dispersa).
* Para usar el codificador, **proporcionamos solo las columnas categóricas que queremos que se codifiquen como one-hot**.
* Por ejemplo, para codificar los datos de entrenamiento, proporcionamos X_train[object_cols]. (object_cols es una lista de los nombres de columnas con datos categóricos, por lo que X_train[object_cols] contiene todos los datos categóricos en el conjunto de entrenamiento).

**Funcionamiento**:
* Esta clase de scikit-learn transforma variables categóricas en un conjunto de variables binarias, donde cada categoría se representa con una columna que toma valores binarios (0 ó 1).

**Mejores prácticas**:
* Adecuado cuando las variables categóricas no tienen un orden natural o cuando se quiere evitar la introducción de un orden artificial.

**Ventajas**:
* Evita la asignación de un orden artificial a las categorías y es compatible con una amplia gama de modelos de aprendizaje automático.

**Desventajas**:
* Puede generar un gran número de columnas adicionales, lo que aumenta la complejidad del conjunto de datos y puede afectar el rendimiento de ciertos modelos, especialmente si tienes muchas categorías únicas.

Pasos:

* Como sabemos, se codifica con one-hot los datos en **X_train** y **X_valid**.
* 1. Una vez definido OneHotEncoder(), se aplica tanto a **X_train** como en **X_valid** solo a las columnas columnas categóricas definidas en la lista **low_cardinality_cols**, y se guardan en **OH_cols_train** y **OH_cols_valid**, respectivamente.
* 2. Luego, se renombran las columnas resultantes despues de la codificación.
* 3. Se seleccionan las columnas numéricas, (tipo 'int64' / 'float64') preprocesandolas en **num_X_train** y **num_X_valid**, eliminando el resto de todas las demás columnas categóricas del conjunto de datos.
* 4. Se juntan en **OH_X_train** y **OH_X_valid**, respectivamente, las columnas codificadas one-hot(OH_cols_train y OH_cols_valid) a las funciones numéricas(num_X_train y num_X_valid)
* 5. Asegurarse de que todas las columnas tengan tipo string (str)

In [32]:
# 1. Aplicar codificador one-hot a cada columna con datos categóricos con cardinalidad menor que 10
from sklearn.preprocessing import OneHotEncoder

OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False) # `sparse` was renamed to `sparse_output`

OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[low_cardinality_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[low_cardinality_cols]))

# 2. Se renombran las columnas (one-hot elimina los nombres)
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# 3. Defnir variables numéricas en num_X_train, num_X_valid
# Eliminando de X_train y X_valid, el resto de columnas categoricas

num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# 4. Juntar las columnas codificadas one-hot(OH_cols_train y OH_cols_valid) a las funciones numéricas
# 4.bis Almacenarlas en las nuevas variables: OH_X_train y OH_X_valid

OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

# 5. Asegúrese de que todas las columnas tengan tipo string (str)
OH_X_train.columns = OH_X_train.columns.astype(str)
OH_X_valid.columns = OH_X_valid.columns.astype(str)

# 6. Obtener el MAE para este enfoque.
print("MAE from Approach 3 (One_Hot):")
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

MAE from Approach 3 (One_Hot):
17525.345719178084


## Conclusiones

In [33]:
# MAE para enfoque Drop categorical variables
print("MAE from Approach 1 (Drop categorical variables):")
print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid))

# MAE para enfoque Ordinal Encoding
print("MAE from Approach 2 (Ordinal Encoding):")
print(score_dataset(label_X_train, label_X_valid, y_train, y_valid))

# MAE para enfoque One_Hot.
print("MAE from Approach 3 (One_Hot):")
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

MAE from Approach 1 (Drop categorical variables):
17837.82570776256
MAE from Approach 2 (Ordinal Encoding):
17098.01649543379
MAE from Approach 3 (One_Hot):
17525.345719178084


* El enfoque que generó menor MAE fue **Ordinal Encoding**

# Generar predicciones de prueba. (X_test)

##  Parte A. Preprocesar los datos de entrenamiento y validación.
* Utilizar un método que coincida con la forma en que se procesó previamente los datos de entrenamiento y validación.
  * En este caso, utilizamos el enfoque para tratar variables categóricas que resultó con menor valor MAE:  **codificación ordinal**
  * Recordemos que sus variables son **label_X_train** y **label_X_valid**
  * La codificación ordinal se ejecutó sobre las columnas buenas contenidas en la lista: **good_label_cols**
* Utilizar las funciones de validación y entrenamiento ya preprocesadas.
* Establezca los DataFrames preprocesados en **final_X_train** y **final_X_valid**.

In [34]:
# 1. Los resultados obtenidas por el enfoque de codificación ordinal fueron los mejores.
# Los elegimos para nuestro modelo final y se definen las variables finales.
final_X_train = label_X_train
final_X_valid = label_X_valid

In [35]:
# 2.1 Revisar las mismas columnas en los dataframe de entrenamiento y validación
# Función para comparar columnas en dos dataframe

def comparar_columnas(df_a, df_b, nombre_df_a, nombre_df_b, considerar_orden=False):
    """
    Compara si dos DataFrames tienen los mismos nombres de columnas.

    Parámetros:
    df_a (pd.DataFrame): Primer DataFrame.
    df_b (pd.DataFrame): Segundo DataFrame.
    nombre_df_a (str): Nombre del primer DataFrame para imprimir en el mensaje.
    nombre_df_b (str): Nombre del segundo DataFrame para imprimir en el mensaje.
    considerar_orden (bool): Si se debe considerar el orden de las columnas.

    Retorna:
    bool: True si los DataFrames tienen las mismas columnas, False en caso contrario.
    """
    if considerar_orden:
        # Verificar si el orden de las columnas es el mismo
        mismas_columnas = list(df_a.columns) == list(df_b.columns)
    else:
        # Verificar si los conjuntos de columnas son iguales, sin considerar el orden
        mismas_columnas = set(df_a.columns) == set(df_b.columns)

    if mismas_columnas:
        print(f"Los DataFrames '{nombre_df_a}' y '{nombre_df_b}' tienen las mismas columnas iguales a {df_a.shape[1]}.")
    else:
        columnas_df_a = set(df_a.columns)
        columnas_df_b = set(df_b.columns)
        columnas_faltantes_a = columnas_df_b - columnas_df_a
        columnas_faltantes_b = columnas_df_a - columnas_df_b

        print(f"Los DataFrames '{nombre_df_a}' y '{nombre_df_b}' NO tienen las mismas columnas.")
        if columnas_faltantes_a:
            print(f"Columnas en '{nombre_df_b}' que faltan en '{nombre_df_a}': {columnas_faltantes_a}")
        if columnas_faltantes_b:
            print(f"Columnas en '{nombre_df_a}' que faltan en '{nombre_df_b}': {columnas_faltantes_b}")


In [36]:
# 2.1 Revisar las mismas columnas en los dataframe de entrenamiento y validación
comparar_columnas(final_X_train, final_X_valid, 'final_X_train', 'final_X_valid')

Los DataFrames 'final_X_train' y 'final_X_valid' tienen las mismas columnas iguales a 57.


In [37]:
# 2.2 Revisar que no existan valores faltantes en los dataframe
# Función para verificar valores fantanes en un dataframe
def verificar_valores_faltantes(df, nombre_df ):
    # Verificar si hay valores faltantes en el DataFrame
    faltantes = df.isnull().values.any()

    # Imprimir resultado
    if not faltantes:
        print(f"El DataFrame '{nombre_df}' no tiene valores faltantes.")
    else:
        print(f"El DataFrame '{nombre_df}' tiene valores faltantes.")

In [38]:
verificar_valores_faltantes(final_X_train, "final_X_train")
verificar_valores_faltantes(final_X_valid, "final_X_valid")

El DataFrame 'final_X_train' no tiene valores faltantes.
El DataFrame 'final_X_valid' no tiene valores faltantes.


In [39]:
# 3.Revisar que final_X_train tiene el mismo número de filas que y_train
print(f"final_X_train tiene {final_X_train.shape[0]} filas")
print(f"y_train tiene {y_train.shape[0]} filas")

final_X_train tiene 1168 filas
y_train tiene 1168 filas


In [40]:
# 4. Revisar que final_X_valid tiene el mismo número de filas que y_valid
print(f"final_X_valid tiene {final_X_valid.shape[0]} filas")
print(f"y_valid tiene {y_valid.shape[0]} filas")

final_X_valid tiene 292 filas
y_valid tiene 292 filas


## Parte B: Entrenar y validar el modelo final de ML (Random Forest)

In [41]:
# 5. Definir y ajustar las variables finales en el modelo entrenado
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(final_X_train, y_train)

In [42]:
# 6. Obtener predicciones de validación y MAE
preds_valid = model.predict(final_X_valid)
print("MAE (Codificación Ordinal):")
print(mean_absolute_error(y_valid, preds_valid))

MAE (Codificación Ordinal):
17098.01649543379


## Parte C. Preprocesar los datos de prueba (X_test)

1. Utilizar un método que coincida con la forma en que procesó previamente los datos de entrenamiento y validación.
  * En este caso, recordemos que utilizamos el enfoque para tratar variables categóricas que resultó con menor valor MAE:  **codificación ordinal**
  * Sus variables son **label_X_train** y **label_X_valid**
  * La codificación ordinal se ejecutó sobre las columnas buenas contenidas en la lista: **good_label_cols**
2. Configure las funciones de prueba preprocesadas en **final_X_test**.
3. Utilice las funciones de prueba preprocesadas y el modelo entrenado para generar predicciones de prueba en **preds_test**.
4. Asegurarse de:

  4.1 el DataFrame de prueba preprocesado no tiene valores faltantes,

  4.2 final_X_test tiene el mismo número de filas que X_test.

In [92]:
# 1 Tamaño de X_test
print(f"X_test, tiene {X_test.shape[0]} filas y {X_test.shape[1]} columnas")

X_test, tiene 1459 filas y 60 columnas


In [93]:
# 2. Eliminar de X_test las columnas categoricas "bad_label_cols" que se eliminaron para entrenar el modelo
bad_label_cols = list(set(object_cols)-set(good_label_cols))
bad_label_cols

['Condition2', 'Functional', 'RoofMatl']

In [94]:
# 2.1 Eliminar en X_test, las columnas categóricas que no serán codificadas (bad_label_cols)
# El resultado se almacena en X_test_0

X_test_0 = X_test.drop(bad_label_cols, axis=1)

In [95]:
# Tamaño de X_test_0
print(f"X_test_0, tiene {X_test_0.shape[0]} filas y {X_test_0.shape[1]} columnas")

X_test_0, tiene 1459 filas y 57 columnas


In [78]:
# Los dataframe label_X_train, X_test_0 tienen las mismas columnas
comparar_columnas(label_X_train, X_test_0, 'label_X_train', 'X_test_0')

Los DataFrames 'label_X_train' y 'X_test_0' tienen las mismas columnas iguales a 57.


In [79]:
# 2 Buscar columnas con valores faltantes en X_test_0
informar_columnas_nulas(X_test_0, 'X_test_0')

El dataframe X_test_0 tiene 14 columnas con valores nulos.


* El modelo fue entrenado con las 57 columnas que ambos dataframe comparten. 
* En este sentido, no aplica eliminar columnas con valores faltantes en X_test_0, ya que ellas definieron al modelo ya definido de ML.
* Se debe aplicar tratamiento de valores faltantes a traves del metodo de imputación.

## Gestión de valores faltantes en el dataframe X_test_0: Método de imputación. 

In [106]:
# 1. Se imputa sobre X_test_0 y se guardan los resultados en imputed_X_test

from sklearn.impute import SimpleImputer
mi_imputacion = SimpleImputer(strategy='most_frequent') # strategy='most_frequent', dado que aplica tanto para var numéricas y categóricas. 

imputed_X_test = pd.DataFrame(mi_imputacion.fit_transform(X_test_0))

# 2. Devolver nombre a columnas eliminadas por la imputación.

imputed_X_test.columns = X_test_0.columns


In [107]:
# 3. Tamaño de imputed_X_test
print(f"imputed_X_test, tiene {imputed_X_test.shape[0]} filas y {imputed_X_test.shape[1]} columnas")

imputed_X_test, tiene 1459 filas y 57 columnas


In [108]:
# 4. revisar columnas con valores faltantes en imputed_X_test
informar_columnas_nulas(imputed_X_test, 'imputed_X_test')

El dataframe imputed_X_test tiene 0 columnas con valores nulos.


## Aplicar OrdinalEncoder() en el dataframe imputed_X_test

In [109]:
# 1. Identificar las columnas categóricas en imputed_X_test
object_cols_test = [col for col in imputed_X_test.columns
                    if imputed_X_test[col].dtype == "object"]
object_cols_test

['MSSubClass',
 'MSZoning',
 'LotArea',
 'Street',
 'LotShape',
 'LandContour',
 'Utilities',
 'LotConfig',
 'LandSlope',
 'Neighborhood',
 'Condition1',
 'BldgType',
 'HouseStyle',
 'OverallQual',
 'OverallCond',
 'YearBuilt',
 'YearRemodAdd',
 'RoofStyle',
 'Exterior1st',
 'Exterior2nd',
 'ExterQual',
 'ExterCond',
 'Foundation',
 'BsmtFinSF1',
 'BsmtFinSF2',
 'BsmtUnfSF',
 'TotalBsmtSF',
 'Heating',
 'HeatingQC',
 'CentralAir',
 '1stFlrSF',
 '2ndFlrSF',
 'LowQualFinSF',
 'GrLivArea',
 'BsmtFullBath',
 'BsmtHalfBath',
 'FullBath',
 'HalfBath',
 'BedroomAbvGr',
 'KitchenAbvGr',
 'KitchenQual',
 'TotRmsAbvGrd',
 'Fireplaces',
 'GarageCars',
 'GarageArea',
 'PavedDrive',
 'WoodDeckSF',
 'OpenPorchSF',
 'EnclosedPorch',
 '3SsnPorch',
 'ScreenPorch',
 'PoolArea',
 'MiscVal',
 'MoSold',
 'YrSold',
 'SaleType',
 'SaleCondition']

In [110]:
# 2 Verificar que los dataframe 'label_X_train' y 'imputed_X_test' tienen las mismas columnas.
# label_X_train fue el dataframe con el cual se definió el Modelo de ML final. 
comparar_columnas(label_X_train, imputed_X_test, 'label_X_train', 'imputed_X_test')

Los DataFrames 'label_X_train' y 'imputed_X_test' tienen las mismas columnas iguales a 57.


In [111]:
# 3 Revisar valores faltantes en imputed_X_test
informar_columnas_nulas(imputed_X_test,'imputed_X_test')

El dataframe imputed_X_test tiene 0 columnas con valores nulos.


In [112]:
# 4. Aplicar codificador ordinal en imputed_X_test a las columnas buenas del modelo entrenado.(good_label_cols)
from sklearn.preprocessing import OrdinalEncoder

ordinal_encoder = OrdinalEncoder()
imputed_X_test[good_label_cols] = ordinal_encoder.fit_transform(imputed_X_test[good_label_cols])

In [113]:
# 5. Preprocesar Data de prueba con el mismo método ya imputado
final_X_test = imputed_X_test

In [114]:
# 6.Obtener la prediciòn de prueba
preds_test = model.predict(final_X_test)
preds_test

array([127289.08, 156450.  , 179283.14, ..., 152192.4 , 110848.33,
       229718.22])

In [115]:
# 7. Guardar el archivo 
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)