# Variables Categoricas

Una variable categórica solo puede tener un número limitado, y generalmente fijo, de valores posibles (categorías). Algunos ejemplos de variables de este tipo pueden ser el género y el tipo de sangre.
Pueden tener un orden (por ejemplo, 'muy de acuerdo' podría ir primero y 'muy en desacuerdo' podría ir en último lugar), pero las operaciones numéricas (sumas, restas, divisiones, ...) no son posibles.

In [1]:
import pandas as pd
import numpy as np

# Convertir una columna en variable categórica

## Convertir variable discreta

Como se puede observar en el siguiente dataset se encuentran varias columnas que podrian interpretarse como catrgoricas, nos centraremos en la columna color

In [7]:
df = pd.read_csv("adult+stretch.data", header=None, names = ["Color", "Size", "Other_column", "Age", "Target"])
df

Unnamed: 0,Color,Size,Other_column,Age,Target
0,YELLOW,SMALL,STRETCH,ADULT,T
1,YELLOW,SMALL,STRETCH,ADULT,T
2,YELLOW,SMALL,STRETCH,CHILD,F
3,YELLOW,SMALL,DIP,ADULT,F
4,YELLOW,SMALL,DIP,CHILD,F
5,YELLOW,LARGE,STRETCH,ADULT,T
6,YELLOW,LARGE,STRETCH,ADULT,T
7,YELLOW,LARGE,STRETCH,CHILD,F
8,YELLOW,LARGE,DIP,ADULT,F
9,YELLOW,LARGE,DIP,CHILD,F


Observamos el tipo de dato de cada columna

In [5]:
df.dtypes

Color           object
Size            object
Other_column    object
Age             object
Target          object
dtype: object

Podemos establecer un tipo de dato llamado "category" esto lo podemos hacer con astype

In [8]:
df["Color"] = df["Color"].astype("category")
df.dtypes

Color           category
Size              object
Other_column      object
Age               object
Target            object
dtype: object

## Convertir variable continua

A veces no tendremos una variable categorica en nuestros datos, por lo que seria conveniente pasar esa columna a una en la que podamos verla como una categoria, el siguiente ejemplo es sobre lo que podria ser una columna de edad

In [3]:
# Creamos un nuevo dataframe de solo una columna, 20 valores y todos aleatorios entre 0 y 100
df2 = pd.DataFrame({"Edad": np.random.randint(0, 100, 20)})
df2

Unnamed: 0,Edad
0,44
1,42
2,29
3,63
4,89
5,99
6,27
7,96
8,77
9,84


In [4]:
#Creamos una lista que contenga rangos de 10 valores
labels = ["{0} - {1}".format(i, i+9) for i in range(0,100,10)]
labels

['0 - 9',
 '10 - 19',
 '20 - 29',
 '30 - 39',
 '40 - 49',
 '50 - 59',
 '60 - 69',
 '70 - 79',
 '80 - 89',
 '90 - 99']

In [5]:
df2["Grupo_edad"] = pd.cut(df2.Edad, range(0,105,10), right = False, labels = labels)
df2

Unnamed: 0,Edad,Grupo_edad
0,44,40 - 49
1,42,40 - 49
2,29,20 - 29
3,63,60 - 69
4,89,80 - 89
5,99,90 - 99
6,27,20 - 29
7,96,90 - 99
8,77,70 - 79
9,84,80 - 89


# Renombrar categorías

Un poco mas arriba nosotros cambiamos el tipo de dato de la columna color de object a una columna de tipo category, esto hace que podamos usar metodos especiales para este tipo de dato

In [9]:
df.Color.unique()
#Observa lo que vienen debajo de la lista

['YELLOW', 'PURPLE']
Categories (2, object): ['PURPLE', 'YELLOW']

In [10]:
df.Color.cat.rename_categories({"YELLOW": "AMARILLO", "PURPLE": "MORADO"}, inplace=True) #Cambiar los nombres de las categorias

  df.Color.cat.rename_categories({"YELLOW": "AMARILLO", "PURPLE": "MORADO"}, inplace=True) #Cambiar los nombres de las categorias


In [11]:
df

Unnamed: 0,Color,Size,Other_column,Age,Target
0,AMARILLO,SMALL,STRETCH,ADULT,T
1,AMARILLO,SMALL,STRETCH,ADULT,T
2,AMARILLO,SMALL,STRETCH,CHILD,F
3,AMARILLO,SMALL,DIP,ADULT,F
4,AMARILLO,SMALL,DIP,CHILD,F
5,AMARILLO,LARGE,STRETCH,ADULT,T
6,AMARILLO,LARGE,STRETCH,ADULT,T
7,AMARILLO,LARGE,STRETCH,CHILD,F
8,AMARILLO,LARGE,DIP,ADULT,F
9,AMARILLO,LARGE,DIP,CHILD,F


# Añadir categorías

In [12]:
#Podemos añadir categorias aunque no tengamos ningun dato con esa categoria
df.Color.cat.add_categories("AZUL")

0     AMARILLO
1     AMARILLO
2     AMARILLO
3     AMARILLO
4     AMARILLO
5     AMARILLO
6     AMARILLO
7     AMARILLO
8     AMARILLO
9     AMARILLO
10      MORADO
11      MORADO
12      MORADO
13      MORADO
14      MORADO
15      MORADO
16      MORADO
17      MORADO
18      MORADO
19      MORADO
Name: Color, dtype: category
Categories (3, object): ['MORADO', 'AMARILLO', 'AZUL']

# Eliminar categorías

In [43]:
df.Color.cat.remove_unused_categories()

0     AMARILLO
1     AMARILLO
2     AMARILLO
3     AMARILLO
4     AMARILLO
5     AMARILLO
6     AMARILLO
7     AMARILLO
8     AMARILLO
9     AMARILLO
10      MORADO
11      MORADO
12      MORADO
13      MORADO
14      MORADO
15      MORADO
16      MORADO
17      MORADO
18      MORADO
19      MORADO
Name: Color, dtype: category
Categories (2, object): ['MORADO', 'AMARILLO']

# Ordenar por categoría

In [13]:
df.sort_values(by="Color", ascending=True)

Unnamed: 0,Color,Size,Other_column,Age,Target
19,MORADO,LARGE,DIP,CHILD,F
17,MORADO,LARGE,STRETCH,CHILD,F
16,MORADO,LARGE,STRETCH,ADULT,T
15,MORADO,LARGE,STRETCH,ADULT,T
14,MORADO,SMALL,DIP,CHILD,F
13,MORADO,SMALL,DIP,ADULT,F
12,MORADO,SMALL,STRETCH,CHILD,F
11,MORADO,SMALL,STRETCH,ADULT,T
10,MORADO,SMALL,STRETCH,ADULT,T
18,MORADO,LARGE,DIP,ADULT,F


In [14]:
df2.dtypes

Edad             int32
Grupo_edad    category
dtype: object

In [15]:
df2.sort_values(by="Grupo_edad", ascending=True)

Unnamed: 0,Edad,Grupo_edad
2,29,20 - 29
6,27,20 - 29
14,32,30 - 39
0,44,40 - 49
17,41,40 - 49
16,41,40 - 49
19,43,40 - 49
1,42,40 - 49
12,55,50 - 59
3,63,60 - 69


# Agrupar por categoría

In [16]:
df2.groupby("Grupo_edad").size()

Grupo_edad
0 - 9      0
10 - 19    0
20 - 29    2
30 - 39    1
40 - 49    5
50 - 59    1
60 - 69    1
70 - 79    3
80 - 89    3
90 - 99    4
dtype: int64

# Tratamiento de variables categóricas

## Eliminar variables categóricas

La manera más simple de atajar el problema de las variables categóricas consiste en eliminarlas del conjunto de datos. Sin embargo, este enfoque puede provocar una pérdida de información potencialmente valiosa para el modelo de Machine Learning.

## Método de label encoding

El método de label encoding (o codificación de etiqueta) consiste en asignar un número entero a cada valor diferente de una variable. El problema de este enfoque es que implica asumir un orden en las categorías, y las variables categóricas no siempre llevan implícito un orden claro. Por tanto, esta técnica es apropiada cuando se están tratando variables ordinales.

In [17]:
df

Unnamed: 0,Color,Size,Other_column,Age,Target
0,AMARILLO,SMALL,STRETCH,ADULT,T
1,AMARILLO,SMALL,STRETCH,ADULT,T
2,AMARILLO,SMALL,STRETCH,CHILD,F
3,AMARILLO,SMALL,DIP,ADULT,F
4,AMARILLO,SMALL,DIP,CHILD,F
5,AMARILLO,LARGE,STRETCH,ADULT,T
6,AMARILLO,LARGE,STRETCH,ADULT,T
7,AMARILLO,LARGE,STRETCH,CHILD,F
8,AMARILLO,LARGE,DIP,ADULT,F
9,AMARILLO,LARGE,DIP,CHILD,F


In [19]:
color_map = {"AMARILLO": 1, "MORADO": 2}
df["Color_numeric"] = df.Color.map(color_map)
df

Unnamed: 0,Color,Size,Other_column,Age,Target,Color_numeric
0,AMARILLO,SMALL,STRETCH,ADULT,T,1
1,AMARILLO,SMALL,STRETCH,ADULT,T,1
2,AMARILLO,SMALL,STRETCH,CHILD,F,1
3,AMARILLO,SMALL,DIP,ADULT,F,1
4,AMARILLO,SMALL,DIP,CHILD,F,1
5,AMARILLO,LARGE,STRETCH,ADULT,T,1
6,AMARILLO,LARGE,STRETCH,ADULT,T,1
7,AMARILLO,LARGE,STRETCH,CHILD,F,1
8,AMARILLO,LARGE,DIP,ADULT,F,1
9,AMARILLO,LARGE,DIP,CHILD,F,1


In [20]:
df.dtypes

Color            category
Size               object
Other_column       object
Age                object
Target             object
Color_numeric    category
dtype: object

Pandas genera codigos internos para las variables de tipo categoria

In [21]:
df.Color.cat.codes #Tipo categorico

0     1
1     1
2     1
3     1
4     1
5     1
6     1
7     1
8     1
9     1
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
dtype: int8

In [22]:
df["Color_codes"] = df.Color.cat.codes
df

Unnamed: 0,Color,Size,Other_column,Age,Target,Color_numeric,Color_codes
0,AMARILLO,SMALL,STRETCH,ADULT,T,1,1
1,AMARILLO,SMALL,STRETCH,ADULT,T,1,1
2,AMARILLO,SMALL,STRETCH,CHILD,F,1,1
3,AMARILLO,SMALL,DIP,ADULT,F,1,1
4,AMARILLO,SMALL,DIP,CHILD,F,1,1
5,AMARILLO,LARGE,STRETCH,ADULT,T,1,1
6,AMARILLO,LARGE,STRETCH,ADULT,T,1,1
7,AMARILLO,LARGE,STRETCH,CHILD,F,1,1
8,AMARILLO,LARGE,DIP,ADULT,F,1,1
9,AMARILLO,LARGE,DIP,CHILD,F,1,1


In [23]:
df.Color.cat.ordered

False

## Método de one-hot encoding

El método de one-hot encoding (o codificación one-hot) consiste en crear nuevas columnas indicando la presencia o ausencia de cada posible valor de una variable categórica.

One-hot encoding, al contrario que el método de label encoding, no implica asumir un orden en las categorías. Por tanto, esta técnica es apropiada para tratar variables nominales. Sin embargo, es importante tener en cuenta que el método de one-hot encoding no suele dar buenos resultados si hay muchos valores diferentes para la variable categórica que se está procesando (generalmente, más de 15).

In [25]:
pd.get_dummies(data=df, columns=["Color"]) #Elegir las columnas necesarias en este caso solo Color

Unnamed: 0,Size,Other_column,Age,Target,Color_numeric,Color_codes,Color_MORADO,Color_AMARILLO
0,SMALL,STRETCH,ADULT,T,1,1,0,1
1,SMALL,STRETCH,ADULT,T,1,1,0,1
2,SMALL,STRETCH,CHILD,F,1,1,0,1
3,SMALL,DIP,ADULT,F,1,1,0,1
4,SMALL,DIP,CHILD,F,1,1,0,1
5,LARGE,STRETCH,ADULT,T,1,1,0,1
6,LARGE,STRETCH,ADULT,T,1,1,0,1
7,LARGE,STRETCH,CHILD,F,1,1,0,1
8,LARGE,DIP,ADULT,F,1,1,0,1
9,LARGE,DIP,CHILD,F,1,1,0,1


In [17]:
df.dtypes

Color            category
Size               object
Other_column       object
Age                object
Target             object
Color_numeric    category
Color_codes          int8
dtype: object

In [18]:
pd.get_dummies(data=df)

Unnamed: 0,Color_codes,Color_PURPLE,Color_YELLOW,Size_LARGE,Size_SMALL,Other_column_DIP,Other_column_STRETCH,Age_ADULT,Age_CHILD,Target_F,Target_T,Color_numeric_2,Color_numeric_1
0,1,0,1,0,1,0,1,1,0,0,1,0,1
1,1,0,1,0,1,0,1,0,1,0,1,0,1
2,1,0,1,0,1,1,0,1,0,0,1,0,1
3,1,0,1,0,1,1,0,0,1,1,0,0,1
4,1,0,1,0,1,1,0,0,1,1,0,0,1
5,1,0,1,1,0,0,1,1,0,0,1,0,1
6,1,0,1,1,0,0,1,0,1,0,1,0,1
7,1,0,1,1,0,1,0,1,0,0,1,0,1
8,1,0,1,1,0,1,0,0,1,1,0,0,1
9,1,0,1,1,0,1,0,0,1,1,0,0,1
