# Introducción al manejo de datos categóricos

In [1]:
import pandas as pd
import numpy as nup
import matplotlib.pyplot as plt
import seaborn as sns

In [17]:
# Importar conjunto de datos para revisar manejor de datos categóricos

df = pd.read_csv(r"datos\adult.csv") # Se importa el conjunto de datos

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Age              32561 non-null  int64 
 1   Workclass        32561 non-null  object
 2   fnlgwt           32561 non-null  int64 
 3   Education        32561 non-null  object
 4   Education Num    32561 non-null  int64 
 5   Marital Status   32561 non-null  object
 6   Occupation       32561 non-null  object
 7   Relationship     32561 non-null  object
 8   Race             32561 non-null  object
 9   Sex              32561 non-null  object
 10  Capital Gain     32561 non-null  int64 
 11  Capital Loss     32561 non-null  int64 
 12  Hours/Week       32561 non-null  int64 
 13  Country          32561 non-null  object
 14  Above/Below 50k  32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


El conjunto de datos "adult" cuenta con 15 variables, donde aquellas de dtype = object se pueden pensar como categóricas (si es de tipo "object" no necesariamente es categórica). Se revisa a detalle la variable asociada a los ingresos superiores a 50k

In [16]:
print(df['Above/Below 50k'].describe())                           # Describe la serie "Above/Below 50k"
print("\n", df["Above/Below 50k"].value_counts())                 # Muestra tabla de frecuencias
print("\n", df["Above/Below 50k"].value_counts(normalize=True))   # Muestra tabla de frecuencias relativas

count      32561
unique         2
top        <=50K
freq       24720
Name: Above/Below 50k, dtype: object

  <=50K    24720
 >50K      7841
Name: Above/Below 50k, dtype: int64

  <=50K    0.75919
 >50K     0.24081
Name: Above/Below 50k, dtype: float64


### 1. Convertir las series "dtype = object" a "dtype = categorical"

Para facilitar el manejo de los datos categóricos se recomienda convertirlos a este tipo de tal manera que se pueda facilitar su manipulación desde pandas

In [27]:
# Existen diversas alternativas para convertir una serie a dtype=categorical

serie1 = pd.Series(df["Occupation"])    # Se crea una variable para almacenar la serie "Occupation"

print("Tipo:", serie1.dtype)                 # Imprimir el tipo de dato. "O" significa objeto
print("Número de bytes:", serie1.nbytes)     # Imprimir el número de bytes ocupados por la serie

Tipo: object
Número de bytes: 260488


In [29]:
serie2 = pd.Series(df["Occupation"], dtype="category")    # Se crea la serie2 pero ahora de tipo "category"

print("Tipo:", serie2.dtype)                              # Imprimir el tipo de dato. En este caso cambia a category
print("Número de bytes:", serie2.nbytes)                  # Imprimir el número de bytes ocupados por la serie

Tipo: category
Número de bytes: 32681


In [33]:
# Es posible cambiar de manera simultanea el tipo de varias columnas en un arreglo dataframe

adult_dtype = {"Workclass": "category",
               "Education": "category",
               "Relationship": "category",
               "Above/Below 50k": "category"}           # Se crea un diccionario para detallar las variables que son categóricas

df = pd.read_csv(r"datos\adult.csv", dtype=adult_dtype) # Se muestra la información de todas las variables
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype   
---  ------           --------------  -----   
 0   Age              32561 non-null  int64   
 1   Workclass        32561 non-null  category
 2   fnlgwt           32561 non-null  int64   
 3   Education        32561 non-null  category
 4   Education Num    32561 non-null  int64   
 5   Marital Status   32561 non-null  object  
 6   Occupation       32561 non-null  object  
 7   Relationship     32561 non-null  category
 8   Race             32561 non-null  object  
 9   Sex              32561 non-null  object  
 10  Capital Gain     32561 non-null  int64   
 11  Capital Loss     32561 non-null  int64   
 12  Hours/Week       32561 non-null  int64   
 13  Country          32561 non-null  object  
 14  Above/Below 50k  32561 non-null  category
dtypes: category(4), int64(6), object(5)
memory usage: 2.9+ MB


In [35]:
df["Above/Below 50k"].unique()

[' <=50K', ' >50K']
Categories (2, object): [' <=50K', ' >50K']

## 2. Agrupar datos por categoría 

In [39]:
# Para agrupar los datos por categorías se úede acudir a diversas estrategias: condicional y función groupby

A = df[df["Above/Below 50k"] == ' <=50K'] # Se establece una condición y se almacenan los valores
df.groupby(by="Above/Below 50k").count()  # Agrupa las observaciones por categoría y aplica la función count()

Unnamed: 0_level_0,Age,Workclass,fnlgwt,Education,Education Num,Marital Status,Occupation,Relationship,Race,Sex,Capital Gain,Capital Loss,Hours/Week,Country
Above/Below 50k,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
<=50K,24720,24720,24720,24720,24720,24720,24720,24720,24720,24720,24720,24720,24720,24720
>50K,7841,7841,7841,7841,7841,7841,7841,7841,7841,7841,7841,7841,7841,7841


In [47]:
gb = df.groupby(by=["Education", "Above/Below 50k"])["Hours/Week"].count() # Agrupar de acuerdo a dos categorías y filtrar
gb

Education      Above/Below 50k
 10th           <=50K              871
                >50K                62
 11th           <=50K             1115
                >50K                60
 12th           <=50K              400
                >50K                33
 1st-4th        <=50K              162
                >50K                 6
 5th-6th        <=50K              317
                >50K                16
 7th-8th        <=50K              606
                >50K                40
 9th            <=50K              487
                >50K                27
 Assoc-acdm     <=50K              802
                >50K               265
 Assoc-voc      <=50K             1021
                >50K               361
 Bachelors      <=50K             3134
                >50K              2221
 Doctorate      <=50K              107
                >50K               306
 HS-grad        <=50K             8826
                >50K              1675
 Masters        <=50K            