# Tratamiento de variables categóricas

In [4]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
df = pd.read_pickle("../data/interim/df_sin_valoresFaltantes.pkl")

In [5]:
df.drop('id_operario', axis=1, inplace=True)

In [6]:
var_categoricas = df.select_dtypes(include=['category']).columns
var_categoricas

Index(['campania', 'estado_civil', 'sexo', 'region'], dtype='object')

In [7]:
df['campania'].value_counts()

campania
19    11579
20    11328
Name: count, dtype: int64

Excelente distribución de datos para ambas campañas.

In [8]:
df['region'].value_counts()

region
Piura    12677
Ica      10230
Name: count, dtype: int64

Excelente distribución de los datos para ambas regiones de cultivo.

In [9]:
df[['region', 'campania']].value_counts()

region  campania
Piura   19          6626
        20          6051
Ica     20          5277
        19          4953
Name: count, dtype: int64

Excelente distribución de los datos para ambas regiones de cultivo en ambos años de campaña.

*Nota.* Recuérdese que se aplicará el algoritmo para cada una de las regiones de cultivo considerando ambos años como uno solo.

In [10]:
df['campania'].value_counts()

campania
19    11579
20    11328
Name: count, dtype: int64

In [11]:
# Realizar one-hot encoding de la columna estado_civil
campania_encoded = pd.get_dummies(df['campania'], prefix='campania')

# Ahora tienes un DataFrame con columnas binarias representando las categorías de estado civil
# Puedes unir este nuevo DataFrame con el original si necesitas mantener las otras columnas
df = pd.concat([df, campania_encoded], axis=1)

# Eliminar la columna original de estado_civil si ya no la necesitas
df.drop('campania', axis=1, inplace=True)

In [12]:
df['estado_civil'].value_counts()

estado_civil
Soltero(a)                          21056
Casado(a)/conviviente/unionlibre     1806
Viudo(a)                               27
Divorciado(a)/separado(a)              18
Name: count, dtype: int64

Se recategoriza las categorías `viudo(a)` y `Divorciado(a)/separado(a)` a la categoría `Soltero(a)`.

In [13]:
# Reemplazar las categorías 'viudo(a)' y 'Divorciado(a)/separado(a)' por 'Soltero(a)'
df['estado_civil'] = df['estado_civil'].replace(['Viudo(a)', 'Divorciado(a)/separado(a)'], 'Soltero(a)')

  df['estado_civil'] = df['estado_civil'].replace(['Viudo(a)', 'Divorciado(a)/separado(a)'], 'Soltero(a)')


In [14]:
df['estado_civil'].value_counts()

estado_civil
Soltero(a)                          21101
Casado(a)/conviviente/unionlibre     1806
Name: count, dtype: int64

In [15]:
# Realizar one-hot encoding de la columna estado_civil
estado_civil_encoded = pd.get_dummies(df['estado_civil'], prefix='estado_civil')

# Ahora tienes un DataFrame con columnas binarias representando las categorías de estado civil
# Puedes unir este nuevo DataFrame con el original si necesitas mantener las otras columnas
df = pd.concat([df, estado_civil_encoded], axis=1)

# Eliminar la columna original de estado_civil si ya no la necesitas
df.drop('estado_civil', axis=1, inplace=True)

In [16]:
df['sexo'].value_counts()

sexo
Mujer     12316
Hombre    10591
Name: count, dtype: int64

In [17]:
# Realizar one-hot encoding de la columna estado_civil
sexo_encoded = pd.get_dummies(df['sexo'], prefix='sexo')

# Ahora tienes un DataFrame con columnas binarias representando las categorías de estado civil
# Puedes unir este nuevo DataFrame con el original si necesitas mantener las otras columnas
df = pd.concat([df, sexo_encoded], axis=1)

# Eliminar la columna original de estado_civil si ya no la necesitas
df.drop('sexo', axis=1, inplace=True)

In [18]:
for columna in df.columns:
    if df[columna].dtype == 'bool':
        df[columna] = df[columna].astype('float64')

In [19]:
df.to_pickle("..\data\processed\df_processed")