# Tutorial: Técnicas para codificar las variables categóricas (II): codificación binaria y hashing

#### Importamos las librerías necesarias

In [1]:
import pandas as pd
from category_encoders import BinaryEncoder
from category_encoders import HashingEncoder

#### El dataset Adult
Cargamos el dataset Adult y le añadimos el nombre de las columnas.

In [2]:
# Cargamos el dataset
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'adult/adult.data', encoding = 'utf-8',header = None)

# Añadimos el nombre de cada variable
df.columns = ["age", "workclass", "fnlwgt", "education", "education-num", 
              "marital-status", "occupation", "relationship", "race", "sex", 
              "capital-gain", "capital-loss", "hours-per-week", 
              "native-country", "class"]

Echamos un primer vistazo a los datos mostramos las primeras cinco observaciones.

In [3]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Mostramos las variables y su tipo.

### Método 3: Codificación Binaria

Las categorías se almacenan primero como códigos binarios y por cada dígito se crea una columna.

In [5]:
# Creamos el codificador indicandole la columna
encoder = BinaryEncoder(cols=["native-country"])

# Ajustamos el codificador con la variable native-country y la transformamos
encoder.fit(df["native-country"])
df_binario = encoder.transform(df["native-country"])
df = pd.concat([df, df_binario], axis=1)

In [6]:
len(df["native-country"].value_counts())

42

Ahora mostramos la antigua variable native-country junto con las nuevas creadas para comparar.

In [7]:
df.loc[:, df.columns.str.startswith('native-country')].head()

Unnamed: 0,native-country,native-country_0,native-country_1,native-country_2,native-country_3,native-country_4,native-country_5,native-country_6
0,United-States,0,0,0,0,0,0,1
1,United-States,0,0,0,0,0,0,1
2,United-States,0,0,0,0,0,0,1
3,United-States,0,0,0,0,0,0,1
4,Cuba,0,0,0,0,0,1,0


Se han creado 7 nuevas columnas binarias para representar todos los países. BinaryEncoder nos crea la mayor parte de las veces una variable de más que no utiliza: native-country_0.

### Método 4: Codificación Hashing

Método que utiliza una función hash para asignar un número de longitud fija a cada categoría única.

In [8]:
# Creamos el codificador indicandole el número de columnas
encoder = HashingEncoder(n_components=6)

# Ajustamos el codificador con la variable native-country y la transformamos
encoder.fit(df["native-country"])
df_hash = encoder.transform(df["native-country"])
df = pd.concat([df, df_hash], axis=1)

Mostramos la variable native-country junto con las nuevas creadas.

In [9]:
df.loc[:, df.columns.str.startswith('col_') | 
       df.columns.str.startswith("native")].head(8)

Unnamed: 0,native-country,native-country_0,native-country_1,native-country_2,native-country_3,native-country_4,native-country_5,native-country_6,col_0,col_1,col_2,col_3,col_4,col_5
0,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
1,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
2,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
3,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
4,Cuba,0,0,0,0,0,1,0,0,1,0,0,0,0
5,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
6,Jamaica,0,0,0,0,0,1,1,0,0,1,0,0,0
7,United-States,0,0,0,0,0,0,1,0,0,0,0,1,0
