

<img src="https://user-images.githubusercontent.com/7065401/39117440-24199c72-46e7-11e8-8ffc-25c6e27e07d4.jpg"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Manejo de datos faltantes con Pandas

Pandas toma prestadas todas las capacidades de Numpy y agrega una serie de métodos convenientes para manejar los valores faltantes.

![separator2](https://i.imgur.com/4gX5WFr.png)



In [3]:
import numpy as np
import pandas as pd

### Funciones de utilidad en Pandas

De manera similar a numpy, pandas también tiene algunas funciones para identificar y detectar valores nulos:

In [4]:
pd.isnull(np.nan)

True

In [5]:
pd.isnull(None)

True

In [6]:
pd.isna(np.nan)

True

In [7]:
pd.isna(None)

True

La función opuesta también existe:

In [8]:
pd.notnull(None)

False

In [9]:
pd.notnull(np.nan)

False

In [10]:
pd.notna(np.nan)

False

In [11]:
pd.notnull(3)

True

Estas funciones se pueden utilizar tanto en `Series` como en `DataFrame`s:

In [12]:
pd.isnull(pd.Series([1, np.nan, 7]))

Unnamed: 0,0
0,False
1,True
2,False


In [13]:
pd.notnull(pd.Series([1, np.nan, 7]))

Unnamed: 0,0
0,True
1,False
2,True


In [14]:
pd.isnull(pd.DataFrame({
    'Columna A': [1, np.nan, 7],
    'Columna B': [np.nan, 2, 3],
    'Columna C': [np.nan, 2, np.nan]
}))

Unnamed: 0,Columna A,Columna B,Columna C
0,False,True,True
1,True,False,False
2,False,False,True


![separator1](https://i.imgur.com/ZUWYTii.png)

### Operaciones con datos faltantes


Pandas administra los valores faltantes de una forma diferente a numpy. Los valores 'nan's ya no se comportarán como un "virus", y las operaciones simplemente los ignorarán por completo:

In [15]:
pd.Series([1, 2, np.nan]).count()

2

In [16]:
pd.Series([1, 2, np.nan]).sum()

3.0

In [17]:
pd.Series([2, 2, np.nan]).mean()

2.0

### Eliminando datos faltantes

Como vimos en numpy, podremos combinar la "seleccion booleana" + `pd.isnull` para filtrar los valores nulos y nan:

In [18]:
# definimos s
s = pd.Series([1, 2, 3, np.nan, np.nan, 4])

In [19]:
pd.notnull(s)

Unnamed: 0,0
0,True
1,True
2,True
3,False
4,False
5,True


In [20]:
pd.isnull(s)

Unnamed: 0,0
0,False
1,False
2,False
3,True
4,True
5,False


In [21]:
# cuantos no nulos
pd.notnull(s).sum()

4

In [22]:
# cuantos nulos
pd.isnull(s).sum()

2

In [23]:
# sin los nulos -- notar los indices
s[pd.notnull(s)]

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
5,4.0


Como ambos métodos `notnull` y `isnull` son métodos de `Series` y `DataFrame`s, podemos usarlos de la siguiente manera:

In [24]:
s.isnull()

Unnamed: 0,0
0,False
1,False
2,False
3,True
4,True
5,False


In [25]:
s.notnull()

Unnamed: 0,0
0,True
1,True
2,True
3,False
4,False
5,True


In [26]:
s[s.notnull()]

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
5,4.0


![separator1](https://i.imgur.com/ZUWYTii.png)

### Eliminando valores nulos en Series

En este caso podemos usar el método `dropna`:

In [27]:
s

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,
4,
5,4.0


In [28]:
s.dropna()

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
5,4.0


### Eliminando valores nulos en DataFrames

Vimos lo sencillo que fue eliminar los valores `na` en las Series. En los `DataFrame`s,
habra que considerar algunas cosas, porque no se pueden eliminar valores individuales. Se pueden eliminar filas o columnas. Veamos el siguiente `DataFrame`:

In [30]:
df = pd.DataFrame({
    'Columna A': [1, np.nan, 30, np.nan],
    'Columna B': [2, 8, 31, np.nan],
    'Columna C': [np.nan, 9, 32, 100],
    'Columna D': [5, 8, 34, 110],
})

In [31]:
df

Unnamed: 0,Columna A,Columna B,Columna C,Columna D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,34
3,,,100.0,110


In [32]:
df.shape

(4, 4)

In [33]:
# informacion de no nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Columna A  2 non-null      float64
 1   Columna B  3 non-null      float64
 2   Columna C  3 non-null      float64
 3   Columna D  4 non-null      int64  
dtypes: float64(3), int64(1)
memory usage: 260.0 bytes


In [34]:
df.isnull()

Unnamed: 0,Columna A,Columna B,Columna C,Columna D
0,False,False,True,False
1,True,False,False,False
2,False,False,False,False
3,True,True,False,False


In [35]:
df.isnull().sum()

Unnamed: 0,0
Columna A,2
Columna B,1
Columna C,1
Columna D,0


El comportamiento predeterminado de `dropna` eliminará todas las filas en las que este presente  _cualquier_ valor nulo:

In [None]:
df.dropna()

En este caso estamos quitando las **filas** que contienen valores nulos. Podemos utilizar el parámetros `axis` para eliminar las columnas que tienen valores nulos:

In [None]:
df.dropna(axis=1)  # axis='columns' tambien funciona

En este caso, se quitará cualquier fila o columna que contenga **al menos** un valor nulo. Lo cual puede ser, según el caso, demasiado extremo. Se puede controlar este comportamiento con el parámetro 'how'. Puede ser `'cualquiera'` or `'todos'`'':

In [None]:
df2 = pd.DataFrame({
    'Columna A': [1, np.nan, 30],
    'Columna B': [2, np.nan, 31],
    'Columna C': [np.nan, np.nan, 100]
})

In [None]:
df2

In [None]:
df2.dropna(how='all')

In [None]:
df2.dropna(how='any')  # default behavior

También se puede usar el parámetro `thresh` para indicar un umbral _threshold_ (numero minimo) de valores no nulos para la fila/columna que se pueden mantener:

In [None]:
df2

In [None]:
df2.dropna(thresh=3)

In [None]:
df2.dropna(thresh=3, axis='columns')

![separator1](https://i.imgur.com/ZUWYTii.png)

### Reemplazando los valores nulos

A veces, en lugar de eliminar los valores nulos, es posible que necesitemos reemplazarlos con algún otro valor. Esto depende en gran medida del contexto y del conjunto de datos con el que esté trabajando actualmente. A veces, un `nan` se puede reemplazar con un `0`, a veces se puede reemplazar con la `media` de la muestra, y otras veces se puede tomar el valor más cercano. De nuevo, depende del contexto. Le mostraremos los diferentes métodos y mecanismos y luego podrá aplicarlos a su propio problema.


In [None]:
s

**Completando valores nulos con valores arbitrarios**

In [None]:
# completa con 0
s.fillna(0)

In [None]:
s.fillna(s.mean())

In [None]:
s

**Completando valores nulos con valores cercanos**

El argumento `method` especifica con que valor cercano completar el valor nulo:

In [36]:
# Deprecado - si lo ven en alguna bibliografia
s.fillna(method='ffill')

  s.fillna(method='ffill')


Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,3.0
4,3.0
5,4.0


In [37]:
# rellena con el primer valor anterior al no nulo -- propaga hacia adelante
s.ffill()

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,3.0
4,3.0
5,4.0


In [None]:
s.fillna(method='bfill')

In [None]:
s

In [None]:
# lo opuesto a ffill
s.bfill()

Estos métodos pueden dejar valores nulos en los extremos de las Series/DataFrame:

In [None]:
pd.Series([np.nan, 3, np.nan, 9]).ffill()

In [None]:
pd.Series([1, np.nan, 3, np.nan, np.nan]).bfill()

In [None]:
pd.Series([1, np.nan, 3, np.nan, np.nan]).ffill()

### Completando valores nulos en DataFrames

El método `fillna` también funciona en `DataFrame's`.Las principales diferencias son que se puede especificar el `eje` (como de costumbre, filas o columnas) a usar para rellenar los valores.

In [None]:
df

In [None]:
df.fillna({'Columna A': 0, 'Columna B': 99, 'Columna C': df['Columna C'].mean()})

In [None]:
df

In [None]:
df.ffill(axis=0) # recorre filas y completa con valores de columnas

In [None]:
df

In [None]:
df.ffill(axis=1) # recorre columnas y completa con valores de filas

![separator1](https://i.imgur.com/ZUWYTii.png)

### Verificando si hay valores nulos (NAs)

La pregunta es: ¿Esta `Serie` o `DataFrame` contiene algún valor nulo? La respuesta debe ser sí o no: `Verdadero` o `Falso`. ¿Cómo puedes verificarlo?

**Ejemplo 1: comparando la longitud**

Si hay valores nulos, `s.dropna()` sera menor que `s`:

In [None]:
s

In [None]:
s.dropna().count()

In [None]:
len(s)

In [None]:
missing_values = len(s.dropna()) != len(s)
missing_values

El método `count` excluye los valores `nan`s en su respuesta:

In [None]:
len(s)

In [None]:
s.count()

Podríamos hacer:

In [None]:
missing_values = s.count() != len(s)
missing_values

**Otra forma**

Los métodos `any` y `all` verifican si `algun` valor es `True` en la Series o `todos` los valores son `True`.**bold text**

In [None]:
pd.Series([True, False, False]).any()

In [None]:
pd.Series([True, False, False]).all()

In [None]:
pd.Series([True, True, True]).all()

El método `isnull()` retorna una `Series` Booleana con valores `True` donde existe un valor `nan`:

In [None]:
s.isnull()

Podemos aplicar el método `any` a la matriz retornada en el paso anterior:

In [None]:
pd.Series([1, np.nan]).isnull().any()

In [None]:
pd.Series([1, 2]).isnull().any()

In [None]:
s.isnull().any()

Una versión mas estrica , verificaría solo los `valores` de la Serie:

In [None]:
s.isnull().values

In [None]:
s.isnull().values.any()

![separator2](https://i.imgur.com/4gX5WFr.png)