

```
# Tiene formato de código
```

# **Transformar datos categóricos**


La mayoría de los algoritmos de machine learning funcionan con datos numéricos. Pero algunos conjuntos de datos también contienen datos categóricos, para aplicar algoritmos de aprendizaje automático necesitamos convertir características categóricas en representación numérica, esta tarea se denomina *encoding*. En este sentido, consideramos dos tipos de escala categórica, nominal y ordinal.

## **Escala nominal**: 
La escala nominal se refiere a variables que solo se nombran. Estos nombres son etiquetas y su valor no tiene significado numérico, es decir, las operaciones matemáticas básicas no tienen ningún sentido. Por ejemplo, si **Sexo:** mujer=1 y hombre=2; mujer+hombre no tiene sentido.

## **Escala ordinal**: 
Una escala ordinal es cuando una variable tiene un valor con significado correspondiente a una etiqueta. Por ejemplo, una escala de Likert para la calidad de los productos: Mala=1, Regular=2, Buena=3, Excelente=4.

Cada tipo de escala tiene diferentes estrategias para codificar. Vamos a explicar 4 tipos: Codificación de etiquetas, Codificación One-hot, Codificación ordinal y Codificación binaria.

## **Estrategias para escala ordinal**:

In [1]:
#Vamos por el dataset de autos
import pandas as pd
import numpy as np
# Definir las cabeceras porque este data set no tiene
headers = ["symboling", "normalized_losses", "make", "fuel_type", "aspiration",
           "num_doors", "body_style", "drive_wheels", "engine_location",
           "wheel_base", "length", "width", "height", "curb_weight",
           "engine_type", "num_cylinders", "engine_size", "fuel_system",
           "bore", "stroke", "compression_ratio", "horsepower", "peak_rpm",
           "city_mpg", "highway_mpg", "price"]
# Leer desde la pagina de UCI
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data",
                  header=None, names=headers, na_values="?" )
df.head()

Unnamed: 0,symboling,normalized_losses,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,wheel_base,...,engine_size,fuel_system,bore,stroke,compression_ratio,horsepower,peak_rpm,city_mpg,highway_mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0



## 1.   **Encontrar y reemplazar:** 
Si los datos contienen nombres como "one", "two", "three"; es posible cambiar los valores categóricos a números como 1,2,3. Por ejemplo las columnas "num_puertas" y "num_cilindros".

In [2]:
# Hacemos el diccionario:
cleanup_nums = {"num_doors":     {"four": 4, "two": 2},
                "num_cylinders": {"four": 4, "six": 6, "five": 5, "eight": 8,
                                  "two": 2, "twelve": 12, "three":3 }}

In [3]:
#Usamos el comando "replace"
obj_df = df.select_dtypes(include=['object']).copy()
obj_df = obj_df.replace(cleanup_nums)
obj_df.head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,body_style,drive_wheels,engine_location,engine_type,num_cylinders,fuel_system
0,alfa-romero,gas,std,2.0,convertible,rwd,front,dohc,4,mpfi
1,alfa-romero,gas,std,2.0,convertible,rwd,front,dohc,4,mpfi
2,alfa-romero,gas,std,2.0,hatchback,rwd,front,ohcv,6,mpfi
3,audi,gas,std,4.0,sedan,fwd,front,ohc,4,mpfi
4,audi,gas,std,4.0,sedan,4wd,front,ohc,5,mpfi



## 2.   **Label encoding:** 
Para convertir categorías en números, podemos asignar valores numéricos automáticamente. Por ejemplo, la columna "body_style".

In [None]:
#Convertir los datos de columna en categorias
obj_df["body_style"] = obj_df["body_style"].astype('category')
#Para saber cuántas categorías existen, usamos count_values
obj_df["body_style"].value_counts()

sedan          96
hatchback      70
wagon          25
hardtop         8
convertible     6
Name: body_style, dtype: int64

In [None]:
#Con el comando "cat.codes" convertimos los nombres a valores
obj_df["body_style_cat"] = obj_df["body_style"].cat.codes
#Tenemos 5 categorias 
obj_df["body_style_cat"].value_counts()

3    96
2    70
4    25
1     8
0     6
Name: body_style_cat, dtype: int64

In [None]:
#Podemos usar tambien sklearn
from sklearn.preprocessing import OrdinalEncoder
ord_enc = OrdinalEncoder()
obj_df["make_code"] = ord_enc.fit_transform(obj_df[["make"]])
obj_df[["make", "make_code"]].value_counts()

make           make_code
toyota         19.0         32
nissan         12.0         18
mazda          8.0          17
mitsubishi     11.0         13
honda          5.0          13
volkswagen     20.0         12
subaru         18.0         12
peugot         13.0         11
volvo          21.0         11
dodge          4.0           9
mercedes-benz  9.0           8
bmw            2.0           8
audi           1.0           7
plymouth       14.0          7
saab           17.0          6
porsche        15.0          5
isuzu          6.0           4
jaguar         7.0           3
chevrolet      3.0           3
alfa-romero    0.0           3
renault        16.0          2
mercury        10.0          1
dtype: int64

No importa cuántos registros tenga cada categoría, el algoritmo le asigna un valor aleatorio y eso podría ser un problema. En algunos casos, es importante el valor que le vamos a dar a la categoría, por lo que si consideramos que alguna categoría merece una puntuación o no, tenemos que fijarnos en qué valor le vamos a dar. En la variable "body_style", en realidad no tiene sentido poner valores de ranking ya que "sedán (número 3) no es mejor que "wagon" (número 4), al menos que tengas un criterio para eso. Si no lo tienes Si no hay razón para asignar este ranking, es mejor usar otra estrategia, ya que estas variables son nominales y no ordinales.

## **Estrategias para escala Nominal**:

## 3.   **One hot encoding:** 
En lugar de asignar un valor a cada categoría, podemos agregar columnas según cada categoría, de esta manera todas las categorías tienen el mismo peso y el modelo no se considerará sobre otras debido al valor.

In [None]:
#Podemos usar get_dummies para hacer las otras columnas, una biblioteca de pandas
pd.get_dummies(obj_df, columns=["body_style", "drive_wheels"], prefix=["body", "drive"]).head()

Unnamed: 0,make,fuel_type,aspiration,num_doors,engine_location,engine_type,num_cylinders,fuel_system,body_style_cat,make_code,body_convertible,body_hardtop,body_hatchback,body_sedan,body_wagon,drive_4wd,drive_fwd,drive_rwd
0,alfa-romero,gas,std,2.0,front,dohc,4,mpfi,0,0.0,1,0,0,0,0,0,0,1
1,alfa-romero,gas,std,2.0,front,dohc,4,mpfi,0,0.0,1,0,0,0,0,0,0,1
2,alfa-romero,gas,std,2.0,front,ohcv,6,mpfi,2,0.0,0,0,1,0,0,0,0,1
3,audi,gas,std,4.0,front,ohc,4,mpfi,3,1.0,0,0,0,1,0,0,1,0
4,audi,gas,std,4.0,front,ohc,5,mpfi,3,1.0,0,0,0,1,0,1,0,0


In [None]:
#Tambien con sklearn
from sklearn.preprocessing import OneHotEncoder
oe_style = OneHotEncoder()
oe_results = oe_style.fit_transform(obj_df[["body_style"]])
pd.DataFrame(oe_results.toarray(), columns=oe_style.categories_).head()

Unnamed: 0,convertible,hardtop,hatchback,sedan,wagon
0,1.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0
3,0.0,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,1.0,0.0


## 4.   **Custom binary encoding:** 

El mismo principio de codificación One-hot, puede usar numpy para hacer *dummies*

In [None]:
obj_df["OHC_Code"] = np.where(obj_df["engine_type"].str.contains("ohc"), 1, 0)
obj_df[["make", "engine_type", "OHC_Code"]].head()

Unnamed: 0,make,engine_type,OHC_Code
0,alfa-romero,dohc,1
1,alfa-romero,dohc,1
2,alfa-romero,ohcv,1
3,audi,ohc,1
4,audi,ohc,1


**¿Qué pasa si usamos una estrategia ordinal con variables nominales?**: 🤔


Hagamos un ejemplo con el modelo de regresión lineal.



In [None]:
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_score
# para los fines de este análisis, solo use un pequeño subconjunto de características

feature_cols = [
    'fuel_type', 'make', 'aspiration', 'highway_mpg', 'city_mpg',
    'curb_weight', 'drive_wheels'
]

# Eliminar las filas de precios vacías
df_ml = df.dropna(subset=['price'])

X = df_ml[feature_cols]
y = df_ml['price']

In [None]:
#Aquí asignamos las variables nominales a valores de codificación one-hot para: fuel_type', 'make', 'drive_wheels', and Ordinal encoding for 'aspiration'
enc = make_column_transformer((OneHotEncoder(handle_unknown='ignore'),
                                        ['fuel_type', 'make', 'drive_wheels']),
                                      (OrdinalEncoder(), ['aspiration']),
                                      remainder='passthrough')

In [None]:
X_transform = enc.fit_transform(X)

# Aplica la regresion lineal
model = LinearRegression()
model.fit(X_transform, y)

LinearRegression()

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_transform, y, test_size=0.33, random_state=42)

In [None]:
model.fit(X_train,y_train)

LinearRegression()

In [None]:
y_pred=model.predict(X_test)

In [None]:
from sklearn import metrics
print(metrics.mean_absolute_percentage_error(y_test, y_pred))

0.1428145659901296


In [None]:
#Usando solo Ordinal encoder
enc = make_column_transformer((OrdinalEncoder(),
                                        ['fuel_type', 'make', 'drive_wheels']),
                                      (OrdinalEncoder(), ['aspiration']),
                                      remainder='passthrough')

In [None]:
X_transform = enc.fit_transform(X)

# aplica regresión lineal como quieras
model = LinearRegression()
model.fit(X_transform, y)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_transform, y, test_size=0.33, random_state=42)
model.fit(X_train,y_train)
y_pred=model.predict(X_test)

In [None]:
print(metrics.mean_absolute_percentage_error(y_test, y_pred))

0.1958340309713003


Como podemos ver, si tratamos las variables nominales como ordinales, el porcentaje de error aumenta. En el ejemplo, el error con codificación nominal es 0,14 y con ordinal es 0,19.

Adapted from: https://pbpython.com/categorical-encoding.html