# Tratamiento de variables categóricas

In [2]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
df = pd.read_pickle("../data/interim/df_tipoDato.pkl")

In [3]:
var_categoricas = df.select_dtypes(include=['category']).columns
var_categoricas

Index(['campania', 'estudio', 'estado_civil', 'sexo',
       'calificacion_financiera', 'calificacion_financiera_moda',
       'bancarizado', 'region'],
      dtype='object')

In [4]:
df['campania'].value_counts()

campania
19    11579
20    11328
Name: count, dtype: int64

Excelente distribución de datos para ambas campañas.

In [5]:
df['region'].value_counts()

region
Piura    12677
Ica      10230
Name: count, dtype: int64

Excelente distribución de los datos para ambas regiones de cultivo.

In [7]:
df[['region', 'campania']].value_counts()

region  campania
Piura   19          6626
        20          6051
Ica     20          5277
        19          4953
Name: count, dtype: int64

Excelente distribución de los datos para ambas regiones de cultivo en ambos años de campaña.

*Nota.* Recuérdese que se aplicará el algoritmo para cada una de las regiones de cultivo considerando ambos años como uno solo.

In [9]:
df['estudio'].value_counts()

estudio
SECUNDARIA COMPLETA      7598
SECUNDARIA IMCOMPLETA    5781
PRIMARIA COMPLETA        2700
PRIMARIA INCOMPLETA      1814
ILETRADO                  462
SUPERIOR - TECNICO        304
EDUCACION ESPECIAL          1
Name: count, dtype: int64

Se recategoriza la categoría `EDUCACION ESPECIAL` a la categoría `ILETRADO`.

In [10]:
df.loc[df['estudio'] == 'EDUCACION ESPECIAL', 'estudio'] = 'ILETRADO'

In [14]:
df['estudio'] = df['estudio'].cat.remove_categories(['EDUCACION ESPECIAL'])

In [15]:
df['estudio'].value_counts()

estudio
SECUNDARIA COMPLETA      7598
SECUNDARIA IMCOMPLETA    5781
PRIMARIA COMPLETA        2700
PRIMARIA INCOMPLETA      1814
ILETRADO                  463
SUPERIOR - TECNICO        304
Name: count, dtype: int64

In [17]:
encoder = OrdinalEncoder()
df['estudio_encoded'] = encoder.fit_transform(df[['estudio']])

0        1.0
1        3.0
2        3.0
3        3.0
4        5.0
        ... 
22902    2.0
22903    4.0
22904    NaN
22905    1.0
22906    NaN
Name: estudio_encoded, Length: 22907, dtype: float64

In [18]:
categories = encoder.categories_
for i, category in enumerate(categories[0]):
    print(f"{category}: {i}")

ILETRADO: 0
PRIMARIA COMPLETA: 1
PRIMARIA INCOMPLETA: 2
SECUNDARIA COMPLETA: 3
SECUNDARIA IMCOMPLETA: 4
SUPERIOR - TECNICO: 5
nan: 6
