# Manejo de datos faltantes

In [1]:
import pandas as pd

Cargamos los datos desde una carpeta a través de su ruta

In [4]:
datos = pd.read_csv("datos/clientes.csv")

In [5]:
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [7]:
# .isnull()   muestra los datos faltantes

In [8]:
print(datos["nombre"])
print(datos[ datos["nombre"].isnull() ])

0       Juan
1      Luisa
2        NaN
3     Carmen
4        NaN
5      Mario
6      Pedro
7    Gustavo
8     Carlos
Name: nombre, dtype: object
  nombre  edad  ingreso
2    NaN  70.0  20000.0
4    NaN   NaN      NaN


In [10]:
# .dropna   Borra los datos nulos
print(datos.dropna(subset=["nombre", "ingreso"], inplace=True))
print(datos)

None
   nombre  edad  ingreso
0    Juan  35.0  15800.0
1   Luisa  25.0  17000.0
3  Carmen  49.0  22000.0
5   Mario  30.0  15800.0
6   Pedro   NaN  17400.0


In [16]:
# .dropna   Borra los datos nulos
print(datos.dropna(subset=["nombre", "ingreso", "edad"], inplace=True)) # inplace=True es reemplazar
print(datos)

None
   nombre  edad  ingreso
0    Juan  35.0  15800.0
1   Luisa  25.0  17000.0
3  Carmen  49.0  22000.0
5   Mario  30.0  15800.0


Vuelvo a cargar los datos para ver nuevamente los datos faltantes

In [26]:
datos = pd.read_csv("datos/clientes.csv")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [27]:
print(datos.fillna(0))

    nombre  edad  ingreso
0     Juan  35.0  15800.0
1    Luisa  25.0  17000.0
2        0  70.0  20000.0
3   Carmen  49.0  22000.0
4        0   0.0      0.0
5    Mario  30.0  15800.0
6    Pedro   0.0  17400.0
7  Gustavo  27.0      0.0
8   Carlos   0.0      0.0


In [28]:
datos["nombre"] = datos["nombre"].fillna("DESCONOCIDO")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,DESCONOCIDO,70.0,20000.0
3,Carmen,49.0,22000.0
4,DESCONOCIDO,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [29]:
datos["edad"] = datos["edad"].fillna("Sin registro")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,DESCONOCIDO,70.0,20000.0
3,Carmen,49.0,22000.0
4,DESCONOCIDO,Sin registro,
5,Mario,30.0,15800.0
6,Pedro,Sin registro,17400.0
7,Gustavo,27.0,
8,Carlos,Sin registro,


In [30]:
datos = pd.read_csv("datos/clientes.csv")
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,,70.0,20000.0
3,Carmen,49.0,22000.0
4,,,
5,Mario,30.0,15800.0
6,Pedro,,17400.0
7,Gustavo,27.0,
8,Carlos,,


In [31]:
Val_defecto = {"nombre" : "Desconocido"
               , "edad" : 18,
              "ingreso" : 1000000}

In [32]:
datos = datos.fillna(value=Val_defecto)
datos

Unnamed: 0,nombre,edad,ingreso
0,Juan,35.0,15800.0
1,Luisa,25.0,17000.0
2,Desconocido,70.0,20000.0
3,Carmen,49.0,22000.0
4,Desconocido,18.0,1000000.0
5,Mario,30.0,15800.0
6,Pedro,18.0,17400.0
7,Gustavo,27.0,1000000.0
8,Carlos,18.0,1000000.0


Estadísticas

In [34]:
promedio = datos["ingreso"].mean()
mediana = datos["ingreso"].median()
moda = datos["ingreso"].mode()[0]
print(promedio, mediana, moda)

345333.3333333333 20000.0 1000000.0


In [35]:
print(datos["ingreso"].fillna(moda))

0      15800.0
1      17000.0
2      20000.0
3      22000.0
4    1000000.0
5      15800.0
6      17400.0
7    1000000.0
8    1000000.0
Name: ingreso, dtype: float64
