<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>



# Laboratorio de Codificación de Variables Categóricas

AutoRenew, la empresa líder en la venta de coches de segunda mano, continúa con el desarrollo del modelo predictivo que ayudará a estimar el precio de los vehículos usados. Hasta ahora, has realizado un análisis exploratorio, gestionado los valores nulos y tratado los outliers en el conjunto de datos. El siguiente paso en el proceso de preprocesamiento es manejar las variables categóricas para que el modelo de machine learning pueda interpretarlas correctamente.

En este laboratorio, te centrarás en la **codificación de variables categóricas**. Dado que los modelos de machine learning requieren datos numéricos para funcionar, es crucial convertir las variables categóricas en un formato que los algoritmos puedan procesar. Trabajarás con el mismo conjunto de datos que has utilizado en los laboratorios anteriores, enfocándote ahora en transformar las columnas categóricas de manera efectiva.

**Instrucciones:**

1. **Identificación de Variables Categóricas:** Revisa el conjunto de datos e identifica las columnas que contienen variables categóricas. Estas son las columnas que contienen texto o categorías que necesitan ser transformadas en valores numéricos para ser utilizadas en el modelo de machine learning.

2. **Selección de Técnicas de Codificación:** Decide qué técnica(s) de codificación aplicar a cada variable categórica. Algunas de las opciones que tienes son:

   - **Label Encoding:** Asigna un número único a cada categoría dentro de una variable.

   - **One-Hot Encoding:** Crea nuevas columnas binarias (0/1) para cada categoría única en una variable.

   - **Target Encoding:** Utiliza la media del target (en este caso, el `price`) para codificar las categorías, si consideras que podría ser útil.

3. **Aplicación de la Codificación:** Implementa las técnicas seleccionadas en las variables categóricas. Asegúrate de revisar cómo estas transformaciones afectan el conjunto de datos y de mantener un registro de los cambios realizados.

4. **Verificación del Conjunto de Datos Transformado:** Una vez que hayas aplicado la codificación, verifica que el conjunto de datos resultante esté listo para ser utilizado en el modelo de machine learning. Asegúrate de que no queden variables categóricas sin codificar y que la estructura del conjunto de datos sea adecuada para el análisis.

**Nota:** Este laboratorio es parte de una serie continua en la que utilizas el mismo conjunto de datos a lo largo de la semana. Documenta bien los pasos que sigas, ya que esta codificación será clave para los modelos que desarrollarás más adelante.



In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importación de las clases creadas en nuestro archivo de soporte
# -----------------------------------------------------------------------
import sys
sys.path.append("../")
from src import soporte_encoding as spc

In [2]:
df = pd.read_csv("../data/autorenew_clean_estandar_sin_out.csv", index_col=0)

In [3]:
df.head()

Unnamed: 0,name,seller,offerType,abtest,vehicleType,gearbox,model,fuelType,brand,notRepairedDamage,dateCreated,lastSeen,price_knn,monthOfRegistration_knn,postalCode_knn,powerCV_estandar,kilometer_estandar,yearOfRegistration_estandar
0,Golf_3_1.6,private,offer,test,Unknown,manually,golf,petrol,volkswagen,Unknown,2016-03-24 00:00:00,2016-04-07 03:16:57,2990.0,6.0,49733.0,-0.052593,0.607813,-0.016995
1,A5_Sportback_2.7_Tdi,private,offer,test,coupe,manually,Unknown,diesel,audi,yes,2016-03-24 00:00:00,2016-04-07 01:46:50,18300.0,5.0,66954.0,0.385348,-0.015437,0.069147
2,"Jeep_Grand_Cherokee_""Overland""",private,offer,test,suv,automatic,grand,diesel,jeep,Unknown,2016-03-14 00:00:00,2016-04-05 12:47:46,9800.0,8.0,90480.0,0.248162,-0.015437,-0.006227
3,GOLF_4_1_4__3TÜRER,private,offer,test,small car,manually,golf,petrol,volkswagen,no,2016-03-17 00:00:00,2016-03-17 17:40:17,1500.0,6.0,91074.0,-0.210886,0.607813,-0.03853
4,Skoda_Fabia_1.4_TDI_PD_Classic,private,offer,test,small car,manually,fabia,diesel,skoda,no,2016-03-31 00:00:00,2016-04-06 10:17:21,3600.0,7.0,60437.0,-0.242544,-0.887987,0.036844


In [4]:
# primero vamos a sacar los nombres de las columnas que son de tipo categórico
lista_col_categ = df.select_dtypes(include = "O").columns.tolist()
lista_col_categ

['name',
 'seller',
 'offerType',
 'abtest',
 'vehicleType',
 'gearbox',
 'model',
 'fuelType',
 'brand',
 'notRepairedDamage',
 'dateCreated',
 'lastSeen']

In [5]:
lista_col_categ.remove('name')
lista_col_categ.remove('dateCreated')
lista_col_categ.remove('lastSeen')

In [6]:
lista_col_categ

['seller',
 'offerType',
 'abtest',
 'vehicleType',
 'gearbox',
 'model',
 'fuelType',
 'brand',
 'notRepairedDamage']

In [None]:
# # instanciamos la clase de Encoding
analisis_encoding = spc.Analisis_Visual_Encoding(variable_respuesta = "price_knn", dataframe = df, lista_variables_categorias = lista_col_categ)

# # llamamos al método para hacer las gráficas
analisis_encoding.crear_boxplot()

**No nos muestra informacion que podamos entender claramente, seguimos explorando**

In [None]:
# llamamos al método para hacer las gráficas
analisis_encoding.crear_barplot()

**Se observa que todas las variables categóricas, al ser contrastadas con la variable respuesta, muestran variaciones en sus magnitudes. Esta observación sugiere la posibilidad de una estructura ordenada en las variables.**

In [None]:
#instanciamos la clase de Asunciones, para poder decir qué método usar para el análisis estadístico
asunciones = spc.Asunciones(dataframe = df, columna_numerica = "price_knn")
print("\n-------------\n")


for categoria in lista_col_categ:   

    print(f"Estamos analizando la variable {categoria.upper()}")
    
    # comprobamos la asunción de normalidad
    asunciones.identificar_normalidad(metodo = "kolmogorov") 

    # comprobamos la homogeneidad de varianzas
    asunciones.identificar_homogeneidad(columna_categorica = categoria)

    # instanciamos la clase para evaluar si hay diferencias entre los distintos grupos de las variables categóricas
    test = spc.TestEstadisticos(df, "price_knn", categoria)
    test.run_all_tests()
    print("\n###########################\n")

In [10]:
# diccionario_encoding = {"onehot": [], # no metemos ninguna columna porque todas nuestras columnas tienen orden
#                         "dummies": [], # no metemos ninguna columna porque todas tienen orden
#                         'ordinal' : {}, # no metemos ninguna columna
#                         "label": [] , # no metemos ninguna columna porque no queremos en ningún caso que se asignen las categorías de forma aleatoria
#                         "frequency": [], # no metemos ninguna columna porque no coincide el orden del value counts con las categorias y la variable respuesta
#                         "target": ['seller','offerType','abtest','vehicleType','gearbox','model','fuelType','brand','notRepairedDamage']
#                         }

# diccionario_encoding = {"onehot": [], # no metemos ninguna columna porque todas nuestras columnas tienen orden
#                         "dummies": [], # no metemos ninguna columna porque todas tienen orden
#                         'ordinal' : {
#                                     },
#                         "label": [] , # no metemos ninguna columna porque no queremos en ningún caso que se asignen las categorías de forma aleatoria
#                         "frequency": [],
#                         "target": {'offerType':['offer','request']}
#                         }

# diccionario_encoding = {"onehot": [], # no metemos ninguna columna porque todas nuestras columnas tienen orden
#                         "dummies": [], # no metemos ninguna columna porque todas tienen orden
#                         'ordinal' : [],
#                         "label": [] , # no metemos ninguna columna porque no queremos en ningún caso que se asignen las categorías de forma aleatoria
#                         "target": {
#                                     'abtest': ['test', 'control'],
#                                     'vehicleType': ['coupe', 'suv', 'small car', 'Sin informacion', 'convertible', 'bus', 'combi', 'other'],
#                                     'yearOfRegistration': ['Moderno', 'Clásico', 'Reciente', 'Antiguo', 'Desconocido'],
#                                     'gearbox': ['manually', 'automatic', 'Sin informacion'],
#                                     'monthOfRegistration': ['5.0', '8.0', '6.0', '7.0', '10.0', '3.0', '12.0', '11.0', '2.0', '1.0', '4.0', '9.0'],
#                                     'fuelType': ['diesel', 'petrol', 'Sin informacion', 'lpg', 'other', 'hybrid', 'cng', 'electro'],
#                                     'brand': ['audi', 'jeep', 'volkswagen', 'skoda', 'bmw', 'peugeot', 'ford', 'mazda', 'nissan', 'renault', 'mercedes_benz', 'opel', 'citroen', 'honda', 'fiat', 'mini', 'smart', 'hyundai', 'seat', 'subaru', 'volvo', 'mitsubishi', 'alfa_romeo', 'kia', 'suzuki', 'lancia', 'porsche', 'toyota', 'chevrolet', 'sonstige_autos', 'dacia', 'daihatsu', 'chrysler', 'jaguar', 'daewoo', 'rover', 'saab', 'trabant', 'land_rover', 'lada'],
#                                     'notRepairedDamage': ['yes', 'Sin informacion', 'no']}}


diccionario_encoding = {"onehot": [], # no metemos ninguna columna porque todas nuestras columnas tienen orden
                        "dummies": [], # no metemos ninguna columna porque todas tienen orden
                        'ordinal' : [],
                        "label": [] , # no metemos ninguna columna porque no queremos en ningún caso que se asignen las categorías de forma aleatoria
                        "target": lista_col_categ}


In [11]:
# En caso de que queramos aplicar el método solo a una columna
encoding = spc.Encoding(df, diccionario_encoding, "price_knn")
df_hot_encoding = encoding.one_hot_encoding()
df_hot_encoding.head()

Unnamed: 0,name,seller,offerType,abtest,vehicleType,gearbox,model,fuelType,brand,notRepairedDamage,dateCreated,lastSeen,price_knn,monthOfRegistration_knn,postalCode_knn,powerCV_estandar,kilometer_estandar,yearOfRegistration_estandar
0,Golf_3_1.6,private,offer,test,Unknown,manually,golf,petrol,volkswagen,Unknown,2016-03-24 00:00:00,2016-04-07 03:16:57,2990.0,6.0,49733.0,-0.052593,0.607813,-0.016995
1,A5_Sportback_2.7_Tdi,private,offer,test,coupe,manually,Unknown,diesel,audi,yes,2016-03-24 00:00:00,2016-04-07 01:46:50,18300.0,5.0,66954.0,0.385348,-0.015437,0.069147
2,"Jeep_Grand_Cherokee_""Overland""",private,offer,test,suv,automatic,grand,diesel,jeep,Unknown,2016-03-14 00:00:00,2016-04-05 12:47:46,9800.0,8.0,90480.0,0.248162,-0.015437,-0.006227
3,GOLF_4_1_4__3TÜRER,private,offer,test,small car,manually,golf,petrol,volkswagen,no,2016-03-17 00:00:00,2016-03-17 17:40:17,1500.0,6.0,91074.0,-0.210886,0.607813,-0.03853
4,Skoda_Fabia_1.4_TDI_PD_Classic,private,offer,test,small car,manually,fabia,diesel,skoda,no,2016-03-31 00:00:00,2016-04-06 10:17:21,3600.0,7.0,60437.0,-0.242544,-0.887987,0.036844


In [16]:
df_target_enconding = encoding.target_encoding()
df_target_enconding.head()

Unnamed: 0,name,seller,offerType,abtest,vehicleType,gearbox,model,fuelType,brand,notRepairedDamage,dateCreated,lastSeen,price_knn,monthOfRegistration_knn,postalCode_knn,powerCV_estandar,kilometer_estandar,yearOfRegistration_estandar
0,Golf_3_1.6,10690.276627,10690.427773,10881.719377,11782.788729,7912.576455,19432.719222,8753.180097,14478.707539,20760.717591,2016-03-24 00:00:00,2016-04-07 03:16:57,2990.0,6.0,49733.0,-0.052593,0.607813,-0.016995
1,A5_Sportback_2.7_Tdi,10690.276627,10690.427773,10881.719377,24522.523514,7912.576455,22216.943078,10392.232891,12732.911834,6147.926747,2016-03-24 00:00:00,2016-04-07 01:46:50,18300.0,5.0,66954.0,0.385348,-0.015437,0.069147
2,"Jeep_Grand_Cherokee_""Overland""",10690.276627,10690.427773,10881.719377,13006.873725,13095.469467,9876.840722,10392.232891,11828.021066,20760.717591,2016-03-14 00:00:00,2016-04-05 12:47:46,9800.0,8.0,90480.0,0.248162,-0.015437,-0.006227
3,GOLF_4_1_4__3TÜRER,10690.276627,10690.427773,10881.719377,5558.219446,7912.576455,19432.719222,8753.180097,14478.707539,8559.11509,2016-03-17 00:00:00,2016-03-17 17:40:17,1500.0,6.0,91074.0,-0.210886,0.607813,-0.03853
4,Skoda_Fabia_1.4_TDI_PD_Classic,10690.276627,10690.427773,10881.719377,5558.219446,7912.576455,4127.675481,10392.232891,6310.378124,8559.11509,2016-03-31 00:00:00,2016-04-06 10:17:21,3600.0,7.0,60437.0,-0.242544,-0.887987,0.036844


In [17]:
df_target_enconding.shape[0]

371499

In [18]:
df_target_enconding.to_csv("../data/autorenew_clean_estandar_sin_out_enc.csv")