# 5.1. Limpieza y preparación de datos.

In [None]:
import pandas as pd
import numpy as np

## Tratamiento de datos en blanco (<i>missing values</i>)

- En la mayoría de los ficheros utilizados como fuente de datos, es muy común la existencia de valores nulos (en blanco, <i>missing</i>...). 
- Estos "huecos" en la información suelen ser muy problemáticos, ya que tiene un impacto importante a la hora de realizar cualquier tipo de cálculo numérico y son difícilmente interpretables.
- Uno de los objetivos de pandas es facilitar el tratamiento de este tipo de datos no existentes, ofreciendo múltiples funciones que permiten llevar a cabo tanto su detección, como su eliminación o imputación...

#### Detección de <i>missing values</i>

Pandas ofrece principalmente dos funciones para manejar la detección de valores nulos.<br/>
<ul>
<li><b>isnull:</b> Que devuelve una Serie o DataFrame booleano indicando qué elemetos son NaN o None.</li>
<li><b>notnull:</b> Que devuelve el inverso del anterior.</li>

In [None]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

In [None]:
string_data.isnull()

In [None]:
string_data[0] = None
string_data

In [None]:
string_data.isnull()

#### Eliminación de registros con <i>missing values</i>

- Conviene hacer un estudio cuidadoso del por qué y la casuística de los valores nulos.
- Uno de los posibles tratamientos a aplicar es su eliminación directa del set de datos.
- Pandas, nos ofrece el método <b>dropna</b> para llevar a cabo esta tarea.
- Eliminando toda la fila o columna que tenga un missing value
- Los parámetros de este método son:<br/>
<ul>
<li><b>axis:</b> Selección de eje sobre el que realizar la eliminación.</li>
<li><b>how:</b> Tomará posibles valores 'any' y 'all' e indica si se debe eliminar la fila o columna cuando haya uno o más valores NaN o cuando todos los valores sean NaN.</li>
<li><b>thresh:</b> Permite indicar, el número de observaciones no nulas que se deben tener para no realizar el borrado.</li>
</ul>

In [None]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data

In [None]:
data = pd.Series([1, None, 3.5, None, 7])
data

In [None]:
data.dropna()

In [None]:
data[data.notnull()]

In [None]:
data = pd.DataFrame([[1., 6.5, 3.],
                     [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan],
                     [np.nan, 6.5, 3.]])
data

In [None]:
cleaned = data.dropna()
cleaned

In [None]:
data

In [None]:
data.dropna(how='all')

In [None]:
data[4] = np.nan
data

In [None]:
data.dropna(axis=1, how='all')

In [None]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

In [None]:
df.dropna()

In [None]:
df.dropna(thresh=2)

#### Relleno de registros con <i>missing values</i>

- Existirán casos en los que no se desee (o no se pueda) eliminar los registros con valores nulos (p.e. podrían suponer un porcentaje demasiado elevado de nuestro set de datos). 
- En estos casos, habrá que realizar una imputación de los mismos a un valor preestablecidor.
- Para esta tarea Pandas incorpora el método <b>fillna</b>, que cuenta con los siguientes parámetros:<br/>
<ul>
<li><b>axis:</b> Que decide si aplicará el criterio de relleno por filas o columnas.</li>
<li><b>value:</b> Que rellena los valores nulos a un valor fijo.</li>
<li><b>method:</b> Que permitirá establecer un criterio de relleno de entre los siguientes:
<ul>
<li>ffill: Relleno en base a la observación de los últimos elementos no nulos.</li>
<li>bfill: Relleno en base a la observación de los próximos elementos no nulos.</li>
</ul>
<li><b>limit:</b> Contador máximo de elmentos imputados.</li>
</ul>

In [None]:
df

In [None]:
df.fillna(0)

In [None]:
{1: 0.5, 2: 0}

In [None]:
# Dictionario con el valo para cada columna
df.fillna({1: 0.5, 2: 0})

In [None]:
# Puede ser inplace
_ = df.fillna(0, inplace=True)
df

In [None]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan
df.iloc[4:, 2] = np.nan
df

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(method='ffill', limit=2)

In [None]:
df.mean()

In [None]:
df

In [None]:
df.fillna(df.mean())

In [None]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data

In [None]:
data.fillna(data.mean())

### Eliminación de duplicados

In [None]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                     'k2': [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
data.duplicated()

In [None]:
data.drop_duplicates()

In [None]:
data['v1'] = range(7)
data

In [None]:
data.drop_duplicates(['k1'])

In [None]:
data.drop_duplicates(['k1'], keep='last')

In [None]:
data.drop_duplicates(['k1', 'k2'], keep='last')

### Remplazamiento de valores

In [None]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

In [None]:
data.replace(-999, 10)

In [None]:
data.replace([-999, -1000], np.nan)

In [None]:
data

In [None]:
data.replace([-999, -1000], [np.nan, 0])

In [None]:
# podemos pasarle un diccionario
data.replace({-999: np.nan, -1000: 0})

In [None]:
?data.replace

___
# Ejercicios

**5.1.1.** Carga el fichero  train.csv.

**5.1.2.** Elimina todas las filas con NaN.

**5.1.3.** Elimina todos los registros donde la edad sea superior al tercer cuartil de esta.