# Datos faltantes

Veamos varios métodos que son útiles para trabajar con datos faltantes en los DataFrames de Pandas:

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [3]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


## Quitando valores faltantes (NaN): dropna

In [4]:

# Elimina las filas que contengan algún NaN (inplace por defecto es False y axis por defecto es 0 - filas)

df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [5]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [6]:
df.dropna(axis=1)    # axis=1 columnas

Unnamed: 0,C
0,1
1,2
2,3


In [7]:
# Se puede definir un umbral para que mantega filas/cols que tengan un cierto mínimo de valores diferentes a NaN 
# El parámetro thresh sirve para esto
# En este ejemplo, se mantienen las filas que tengan mínimo 2 valores distintos a NaN (thresh=2)
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


## Reemplazando valores faltantes: fillna

In [8]:
# Reemplazando NaN por un valor fijo en el DataFrame

df.fillna(value='VALOR')

Unnamed: 0,A,B,C
0,1,5,1
1,2,VALOR,2
2,VALOR,VALOR,3


In [9]:
# En este caso, se usará la media de los valores de la Columna A para llenar sus valores faltantes:
df['A'].fillna(value=df['A'].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [10]:
df.fillna(value=df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,1.5,5.0,3
