# Limpieza de datos

Generalmente los datos de los que disponemos no vienen en un formato adecuado para trabajar con ellos y es necesario hacer cierta "limpieza". Entre estas tareas podemos mencionar:

* Los nombres de las variables no son las que necesitamos.
* Hay datos que faltan.
* Los valores nos están en las unidades requeridas.
* Las variables son qualitativas y se necesitan valores cuantitativos.
* Hay "ruido" en los datos.
* La información es de un tipo incorrecto
* Los datos no están normalizados.
* Los datos estan  duplicados.

Para que los datos se puedan considerar buenos, limpios y listos para analizar, deberían cumplir los siguientes requisitos:

* Cada variable en una columna
* Cada observación de la variable en una fila diferente.
* Debe haber una tabla para cada clase de variable.

Veremos como trabajar con `pandas` para limpiar los datos de los que dissponemos.


## Comenzando

Las importaciones necesarias para ttrabajar son:

In [2]:
# importamos numpy, pandas y datetime
import numpy as np
import pandas as pd
import datetime

## Trabajando con datos faltantes

Los datos faltantes en `pandas` se indican con el valor `NaN`. En `pandas` puede haber varios motivos por los que un valor puede ser `NaN`:

* La unión de dos conjuntos de datos tiene valores que no encajan entre sí.
* Recibimos datos incompletos de alguna fuente.
* El valor `NaN` es desconocido en algún instante de tiempo pero se puede determinar posteriormente.
* La forma de los datos ha cambiado y ahora quedan filas o columnas adicionales, que en el momento de la transformación no puderon determinarse.
* etc.

Para demostrar como podemos trabajar con datos faltantes usaremos un objeto del tipo DataFrame al que le falten algunos datos:

In [4]:
# Creamos unn DataFrame con 5 filas y 3 columnas
df  = pd.DataFrame(np.arange(0,15).reshape(5,3), index=['a','b','c','d','e'], columns=['c1','c2','c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


En esta tablano hay datos faltantes, agreguemos algunos:

In [5]:
# agregamos algunas columnas y filas al DataFrame
# columna c4 con valores NaN
df['c4'] = np.nan
# fila 'f' con 15 a 18
df.loc['f'] = np.arange(15,19)
# fila 'g' con todos NaN
df.loc['g'] = np.nan
# columna 'c5' con NaN:
df['c5'] = np.nan
# cambiamos de la columna 'c4, fila 'a'
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


Las características de este DataFrame 