## Análisis y gestión de nulos de las columnas categóricas

In [3]:
# Importaciones de paquetes
import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np
# Importaciones de unidades de soporte
import sys
sys.path.append("..")
from src import sp_nulos_cat as sp

In [4]:
# Leer el archivo
df_limpio = pd.read_excel("../data/datos_churn_limpios.xlsx")

### Análisis columnas categóricas

In [None]:
# Observación general de nulos
sp.calcular_nulos(df_limpio)

In [None]:
# Análisis general de las columnas categóricas
sp.analisis_general_cat(df_limpio)

In [None]:
# Graficar columnas categoricas
sp.subplot_col_cat(df_limpio)

## Gestión de nulos de las columnas categóricas

In [8]:
# Crear un dataframe solo con las columnas categóricas
df_cat = df_limpio[df_limpio.select_dtypes(include='O').columns]

In [None]:
# Observar los nulos de las columnas categóricas
sp.calcular_nulos(df_cat)

Identificamos tres columnas categóricas con valores nulos: **`payment_method`**  , **`churn_category`**  , **`churn_reason`** 

In [None]:
# Comprobar si alguna de estas columnas tiene un valor predominante, en ese caso rellenar los nulos con este.
sp.analisis_general_cat(df_cat)

En el caso de **`churn_category` y `churn_reason`**, aproximadamente el **74% de los valores están vacíos**. Dado que este porcentaje es muy alto, no tiene sentido rellenarlos con otra categoría, ya que podríamos introducir sesgos o información incorrecta.  

Por otro lado, **`payment_method`** tiene pocos valores nulos, pero no existe un método de pago predominante que podamos usar para rellenarlos sin afectar la integridad de los datos.  

Por esta razón, hemos decidido reemplazar los valores nulos en estas columnas con `"unknown"`, para mantener la consistencia sin distorsionar la información existente.  

In [None]:
# Reemplazar valores nulos en columnas categóricas con "unknown"
df_cat = df_cat.fillna('unknown')
df_limpio[df_limpio.select_dtypes(include='O').columns] = df_cat

In [None]:
# Verificar si quedan nulos en columnas categóricas después del reemplazo
sp.calcular_nulos(df_limpio)

In [13]:
# Guardar el archivo
df_limpio.to_excel('../data/datos_churn_limpios.xlsx', index=False)