# Gestión de nulos

In [1]:
# antes de empezar la lección tendremos que instalarunas librerías. Para ello tendreis que descomentar (una a una) la linea de abajo y ejecutar la celda
#!pip install scikit-learn
#!pip install seaborn
#!pip install matplotlib

In [2]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [3]:
# cargamos el dataframe creado en la lección anterior
df = pd.read_csv("bank-additional_clean.csv", index_col = 0)
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,No,No,No,telephone,261,1,,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores


# Estrategias para la imputación de nulos

En este punto, se nos puede pasar por la cabeza algo bastante intuitivo... Y es que podemos pensar que con la imputación nos estamos "inventando datos". Pero cuidado! Porque imputar valores es diferente de inventar datos: al inventar no usamos ningún criterio, y el valor asignado será totalmente arbitrario. Pero en la imputación lo que hacemos es mirar el comportamiento de los datos vecinos para poder estimar el valor del dato faltante.

Sigamos profundizando un poco más en la gestión de valores nulos, en este punto debemos tener en cuenta que no será lo mismo hacer una imputación de valores nulos en variables numéricas o categóricas, ya que podremos usar diferentes enfoques. Los enfoques más comunes son:


- **Para variables categóricas**

    - Imputación basada en la moda: Podemos reemplazar los valores nulos con la moda (valor más frecuente) de la variable. Esto se puede hacer utilizando el método `fillna()` de Pandas.

    - Imputación como una categoría especial: En algunos casos, podríamos querer mantener los valores nulos como una categoría especial si representan una condición específica en tus datos.
 
 

- **Para variables numéricas**

    - Imputación basada en estadísticos: Podemos utilizar la media, la mediana o la moda de la variable para reemplazar los valores nulos. Esto se puede hacer utilizando la clase `SimpleImputer` de Scikit-learn o el `fillna` de Pandas .

    - Imputación basada en modelos: Podemos utilizar modelos de regresión u otros modelos de aprendizaje automático para predecir los valores nulos basándote en las otras variables. Esto se puede hacer utilizando la clase `IterativeImputer` o el `KNNImputer`.

In [5]:
# lo primero que vamos a hacer es calcular el porcentaje de nulos que tenemos para cada columna
porc_nulos = (df.isnull().sum() / df.shape[0]) * 100
porc_nulos

income                0.000000
kidhome               0.000000
teenhome              0.000000
dt_customer           0.000000
numwebvisitsmonth     0.000000
id                    0.000000
age                  11.906977
job                   0.802326
marital               0.197674
education             4.202326
default              20.886047
housing               2.386047
loan                  2.386047
contact               0.000000
duration              0.000000
campaign              0.000000
pdays                96.306977
previous              0.000000
poutcome              0.000000
empvarrate            0.000000
conspriceidx          1.095349
consconfidx           0.000000
euribor3m            21.525581
nremployed            0.000000
y                     0.000000
date                  0.576744
latitude              0.000000
longitude             0.000000
contact_month         0.576744
contact_year          0.576744
age_cat               0.000000
dtype: float64

In [7]:
# lo convertimos a DataFrame
df_nulos = pd.DataFrame(porc_nulos, columns = ["%_nulos"])

# filtramos el DataFrame para quedarnos solo con aquellas columnas que tengan nulos
df_nulos[df_nulos["%_nulos"] > 0]

Unnamed: 0,%_nulos
age,11.906977
job,0.802326
marital,0.197674
education,4.202326
default,20.886047
housing,2.386047
loan,2.386047
pdays,96.306977
conspriceidx,1.095349
euribor3m,21.525581


Lo primero que vemos en este DataFrame de nulos, es que tenemos algunas columnas con un gran porcentaje de nulos. En este punto nos puede surgir la duda de **¿a partir de que porcentaje de nulos podemos eliminar una columna?** Para determinar si una columna debe ser eliminada debido a la cantidad de valores nulos que contiene, no hay un porcentaje fijo que se deba seguir. La decisión de eliminar una columna dependerá del contexto y del análisis que se esté realizando.
