# Pérdida de datos

A veces al trabajar con `DataFrames` nos encontraremos que alguna información puede no cargarse como debería, vamos a ver cómo podemos tratar con esas situaciones. Más información sobre esto en la [documentación oficial](https://pandas.pydata.org/docs/user_guide/missing_data.html):

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
    'A':[7, 8, -6, 8],
    'B':[12, np.nan, 1, np.nan],
    'C':[4, np.nan, np.nan, np.nan],
    'D':[4, np.nan, -2, -10]})

df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [3]:
# Comprobar regitros nulos
df.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,True,True,True
2,False,False,True,False
3,False,True,True,False


In [4]:
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [8]:
# Descartar filas con registros nulos
df.dropna()

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0


In [9]:
# Descartar columnas con registros nulos
df.dropna(axis=1)

Unnamed: 0,A
0,7
1,8
2,-6
3,8


In [10]:
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [11]:
# Mostrar filas con un mínimo dos registros no nulos
df.dropna(thresh=2, axis=0)  # axis=0, filas

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
2,-6,1.0,,-2.0
3,8,,,-10.0


In [12]:
# Mostrar filas con un mínimo dos registros no nulos
df.dropna(thresh=2, axis=1)  # axis=1, columnas

Unnamed: 0,A,B,D
0,7,12.0,4.0
1,8,,
2,-6,1.0,-2.0
3,8,,-10.0


In [13]:
# Mostrar filas con mínimo de tres registros no nulos
df.dropna(thresh=3)

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
2,-6,1.0,,-2.0


In [14]:
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [15]:
# Rellenar los registros de las filas vacías con un valor
df.fillna(value='not')

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,not,not,not
2,-6,1.0,not,-2.0
3,8,not,not,-10.0


In [16]:
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,,,
2,-6,1.0,,-2.0
3,8,,,-10.0


In [28]:
df['B'].mean()

5.5

In [18]:
# Rellenar los registros de las filas vacías de B con el valor mínimo de B
df['B'].fillna(value=df['B'].min(), inplace=True)
df

Unnamed: 0,A,B,C,D
0,7,12.0,4.0,4.0
1,8,1.0,,
2,-6,1.0,,-2.0
3,8,1.0,,-10.0


In [None]:
df

El método `min` pertenece al conjunto de funciones de agregación para manejar agrupaciones, en la próxima lección aprenderemos más.