# Preparación y limpieza de los datos

La mayor parte del trabajo de los especialistas en análisis de datos está relacionado con las tareas de carga, limpieza y transformación de los datos.

* El motivo es que en muchas ocasiones los datos se encuentran almacenados en ficheros o en bases de datos  en un formato que no se adapta exactamente al formato que necesitamos.

* Una vez más, pandas proporciona herramientas y algoritmos que permiten la transformación de los datos de forma eficiente sin mucho esfuerzo.



In [1]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt

%matplotlib inline

### Eliminación de duplicados

__Ejemplo__:

El siguiente dataset [islas.csv](./datos/islands.csv) recoge las islas que sobrepasan las 10.000 millas cuadradas.


In [2]:
islas = pd.read_csv('./datos/islands.csv',
                    skiprows = 1,
                   names = ['Nombre', 'Millas cuadradas'])
t = islas.iloc[:10]    # muestro solo las 10 primeras entradas
t

Unnamed: 0,Nombre,Millas cuadradas
0,Africa,11506
1,Africa,11506
2,Antarctica,5500
3,Asia,16988
4,Antarctica,5500
5,Australia,2968
6,Africa,11506
7,Baffin,184
8,Banks,23
9,Africa,10000


Para eliminar las filas duplicadas utilizamos la función __drop_duplicates__

In [3]:
t.drop_duplicates()

Unnamed: 0,Nombre,Millas cuadradas
0,Africa,11506
2,Antarctica,5500
3,Asia,16988
5,Australia,2968
7,Baffin,184
8,Banks,23
9,Africa,10000


También nos puede interesar eliminar filas si se repiten los datos de un subconjunto de columnas. En ese caso es necesario indicarlo como parámetro de la función.

### Aplicación de funciones

Al igual que en NumPy, en pandas es posible aplicar funciones a un DataFrame o a una Serie. Para la aplicación de funciones existen 3 posibilidades:
* __apply__: aplicable a Series (se aplica a filas o a columnas de un DataFrame).
* __applymap__: Se aplica solo a DataFrame (elemento a elemento).
* __map__: Se aplica elemento a elemento de una serie.

__Ejemplo__:

Supongamos que queremos transformar la tabla _islas_ añadiendo una nueva columna que sea una transformación de los datos que contiene la propia tabla. Por ejemplo queremos añadir el idioma de algunas de las islas.

In [4]:
idiomas = {'Africa' : 'Kongo',
           'Australia' : 'English'}

islas['Idioma'] = islas['Nombre'].map(idiomas)
islas[0:10]

Unnamed: 0,Nombre,Millas cuadradas,Idioma
0,Africa,11506,Kongo
1,Africa,11506,Kongo
2,Antarctica,5500,
3,Asia,16988,
4,Antarctica,5500,
5,Australia,2968,English
6,Africa,11506,Kongo
7,Baffin,184,
8,Banks,23,
9,Africa,10000,Kongo


__Ejemplo__:

Podemos añadir una columna con la conversión a kilómetros de las millas.

In [5]:
islas['Kilometros'] = islas['Millas cuadradas'].map(lambda x: x * 1.609344)
islas.head()

Unnamed: 0,Nombre,Millas cuadradas,Idioma,Kilometros
0,Africa,11506,Kongo,18517.112064
1,Africa,11506,Kongo,18517.112064
2,Antarctica,5500,,8851.392
3,Asia,16988,,27339.535872
4,Antarctica,5500,,8851.392


__Ejemplo__:

Podemos transformar todos los datos a mayúscula.

In [6]:
def mi_fun(x):
    if type(x) == str:
        return x.upper()
    else:
        return 0
    
t = islas.applymap(mi_fun)
t.head()

Unnamed: 0,Nombre,Millas cuadradas,Idioma,Kilometros
0,AFRICA,0,KONGO,0
1,AFRICA,0,KONGO,0
2,ANTARCTICA,0,0,0
3,ASIA,0,0,0
4,ANTARCTICA,0,0,0


### Pivoting

La operación pivot permite construir un nuevo dataframe a partir de otro, de forma que los valores de una columna pasen a ser nombres de columna del nuevo dataframe. Esta operación se usa habitualmente cuando se trabaja con bases de datos relacionales y tiene la misma funcionalidad que en otros lenguajes de análisis de datos. Lo veremos más claro con un ejemplo.

El siguiente dataframe recoge la información de varios pedidos.


In [7]:
datos = np.array([[101, 'p1', 2],
       [101, 'p2', 3],
       [101, 'p3', 4],
       [102, 'p3', 1],
       [102, 'p2', 2],
       [102, 'p4', 5],
       [103, 'p2', 1],
       [103, 'p1', 3],
       [103, 'p4', 2]])
pedidos = pd.DataFrame(datos, 
                       columns = ['Número_pedido', 'Producto', 'Cantidad'])
pedidos

Unnamed: 0,Número_pedido,Producto,Cantidad
0,101,p1,2
1,101,p2,3
2,101,p3,4
3,102,p3,1
4,102,p2,2
5,102,p4,5
6,103,p2,1
7,103,p1,3
8,103,p4,2


El método `pivot` de la clase Dataframe permite girar los datos y se invoca con al menos tres argumentos. El primer argumento `index` tiene como valor el nombre de la columna cuyos valores contituirán las etiquetas del índice del nuevo dataframe. El segundo argumento `columns` es el nombre de la columna cuyos valores constituirán las etiquetas del índice de las columnas del nuevo dataframe. Por último, el tercer argumento `values` es el nombre de la columna cuyos valores pasan a ser los valores del nuevo Dataframe.

In [8]:
pedidos.pivot(index = 'Número_pedido', columns = 'Producto', values = 'Cantidad')

Producto,p1,p2,p3,p4
Número_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,2.0,3,4.0,
102,,2,1.0,5.0
103,3.0,1,,2.0


El método `pivot` exige que no existan dos filas con los mismos valores para las columnas asociadas a los  dos  primeros argumentos (`index` y `columns`).  En este ejemplo, las columnas `Número_pedido` y `Producto` forman lo que en bases de datos relacionales llamamos *clave primaria*, es decir, no existen dos filas con el mismo número de pedido y el mismo producto. 

Si no se cumple la condicion, podemos usar el método `pivot_table` de la clase `DataFrame`. Su funcionamiento es similar a `pivot` con la ventaja de que permite aplicar funciones de agregación.

In [9]:
datos = [[2001, 1, 'p1', 100], 
         [2001, 2, 'p1', 50], 
         [2001, 3, 'p2', 20], 
         [2004, 1, 'p3', 100],
         [2004, 1, 'p1', 100], 
         [2004, 2, 'p1', 200], 
         [2007, 2, 'p1', 50], 
         [2007, 3, 'p1', 40]]

In [10]:
prod = pd.DataFrame(datos, columns = ['Ejercicio', 'Trimestre', 'Producto', 'Kg.'])
prod

Unnamed: 0,Ejercicio,Trimestre,Producto,Kg.
0,2001,1,p1,100
1,2001,2,p1,50
2,2001,3,p2,20
3,2004,1,p3,100
4,2004,1,p1,100
5,2004,2,p1,200
6,2007,2,p1,50
7,2007,3,p1,40


In [11]:
prod.pivot_table(index = 'Ejercicio', columns = 'Producto', values = 'Kg.', aggfunc = sum)

Producto,p1,p2,p3
Ejercicio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,150.0,20.0,
2004,300.0,,100.0
2007,90.0,,


En el ejemplo anterior, se aplica la función suma (`sum`), para sumar la cantidad de producto producida en cada ejercicio.

El argumento `fill_value` permite reemplazar los valores `NaN` por un valor por defecto.

In [12]:
prod.pivot_table(index = 'Ejercicio', columns = 'Producto', values = 'Kg.',
                 aggfunc = sum, fill_value = 0)

Producto,p1,p2,p3
Ejercicio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,150,20,0
2004,300,0,100
2007,90,0,0


### References



* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
