# Manejo de datos faltantes

Muchas veces nos enfrentamos a situaciones en las que los datos con los que contamos poseen ausencias de determinados valores en sus columnas. Estas ausencias o datos faltantes son lo que se conoce como valores nulos, los cuales en los Dataframes los vemos reflejados como `NaN`.

Dependiendo el contexto y el propósito para el cual necesitemos estos datos en nuestros análisis o entrenamiento de machine learning, elegiremos una forma u otra para completar estos datos faltantes. A veces usaremos valores por defecto, y otras veces tal vez utilicemos ciertas medidas estadísticas como el promedio, la mediana o la moda, que son medidas de tendencia central.

Aquí abordaremos un ejemplo muy simple de estos casos.

In [1]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
datos = pd.read_csv("../datos/clientes.csv")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [3]:
datos[ datos["nombre"].isnull() ]

Unnamed: 0,nombre,edad,ingreso
2,,70.0,20000.0
4,,,


In [4]:
datos[ datos["nombre"].isna() ]

Unnamed: 0,nombre,edad,ingreso
2,,70.0,20000.0
4,,,


In [5]:
# devuelve df sin las filas que contengan alguna columna nula
datos.dropna()

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0


In [7]:
# deuelve df sin las filas que contengan algun valor nulo en las columans especificadas
# debe ir con parametro inplace=True para que elimine en df original
datos.dropna(subset=["nombre", "ingreso"]) 

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
3,Carmen,49.0,22000.0
5,Mario,30.0,15800.0
6,Pedro,,17400.0


In [8]:
# para rellenar valores nulos de todas las columnas con cero
datos.fillna(0)

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,0,70.0,20000.0
3,Carmen,49.0,22000.0
4,0,0.0,0.0
5,Mario,30.0,15800.0
6,Pedro,0.0,17400.0
7,Gustavo,27.0,0.0
8,Carlos,0.0,0.0


In [9]:
datos["nombre"].fillna("DESCONOCIDO")

0           Juan
1          Luisa
2    DESCONOCIDO
3         Carmen
4    DESCONOCIDO
5          Mario
6          Pedro
7        Gustavo
8         Carlos
Name: nombre, dtype: object

In [10]:
valores_por_defecto = {
    "nombre": "DESCONOCIDO",
    "edad": 18,
    "ingreso": 10000
}
datos.fillna(value=valores_por_defecto)

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,DESCONOCIDO,70.0,20000.0
3,Carmen,49.0,22000.0
4,DESCONOCIDO,18.0,10000.0
5,Mario,30.0,15800.0
6,Pedro,18.0,17400.0
7,Gustavo,27.0,10000.0
8,Carlos,18.0,10000.0


In [11]:
promedio = datos["ingreso"].mean()
mediana = datos["ingreso"].median()
moda = datos["ingreso"].mode()[0] # tomamos el primer valor porque puede haber mas de un valor que se repite el mismo maximo de veces

promedio, mediana, moda

(18000.0, 17200.0, 15800.0)

In [13]:
datos.fillna(value={"ingreso":moda})

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,15800.0
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,15800.0
8,Carlos,,15800.0
