### Limpieza de datos 

#### Formatos no tidy

**Ejemplo 1**

Iniciaremos con un ejemplo de datos no tidy en donde existen columnas que deberían ser una sola columna. 

In [4]:
import pandas as pd
import numpy as np

In [5]:
non_tidy = pd.DataFrame({'country': ['Afghanistan', 'Brazil', 'Colombia', 'Costa Rica'],
                        '1990': [1500, 850, 3000, 2100],
                        '1995': [1700, 1300, 3200, 2300],
                        '2000': [2100, 1800, 4500, 3500]})

non_tidy

Unnamed: 0,country,1990,1995,2000
0,Afghanistan,1500,1700,2100
1,Brazil,850,1300,1800
2,Colombia,3000,3200,4500
3,Costa Rica,2100,2300,3500


Las columnas `1990`, `1995`, `2000` deben ser modificadas para que formen parte de una misma columna `year`.

In [6]:
tidy_data = non_tidy.melt(id_vars='country', value_vars=['1990', '1995', '2000'],
                         var_name="year", value_name="cases")
tidy_data

Unnamed: 0,country,year,cases
0,Afghanistan,1990,1500
1,Brazil,1990,850
2,Colombia,1990,3000
3,Costa Rica,1990,2100
4,Afghanistan,1995,1700
5,Brazil,1995,1300
6,Colombia,1995,3200
7,Costa Rica,1995,2300
8,Afghanistan,2000,2100
9,Brazil,2000,1800


**Ejemplo 2**

En el siguiente ejemplo tenemos información en una columna que debe ser dividida en varias columnas. 

In [7]:
no_tidy_2 = pd.DataFrame({'name': ['Aldo', 'Maria', 'Carlos', 'Julia','Mercedez'],
                         'var1': ['M.23', 'F.23', 'M.21', 'F.29', 'F.25']})
no_tidy_2

Unnamed: 0,name,var1
0,Aldo,M.23
1,Maria,F.23
2,Carlos,M.21
3,Julia,F.29
4,Mercedez,F.25


Se necesita separar la columna `var1` de tal forma que tengas por columna 1 sola información, por lo que la separaremos en `sex` y `age`.

In [None]:
x = no_tidy_2.var1.str.split('.', expand=True)
x 

Unnamed: 0,0,1
0,M,23
1,F,23
2,M,21
3,F,29
4,F,25


In [None]:
x.rename(columns={0: 'sex', 1: 'age'}, inplace=True)

In [None]:
x

Unnamed: 0,sex,age
0,M,23
1,F,23
2,M,21
3,F,29
4,F,25


In [None]:
tidy_2 = no_tidy_2.join(x)

In [None]:
tidy_2

Unnamed: 0,name,var1,sex,age
0,Aldo,M.23,M,23
1,Maria,F.23,F,23
2,Carlos,M.21,M,21
3,Julia,F.29,F,29
4,Mercedez,F.25,F,25


**Ejemplo 3** 

En el siguiente ejemplo, se necesitan generar más columnas a partir de una sola para que cada columna tenga solo 1 información.

In [None]:
no_tidy_3 = pd.DataFrame({'country': ['Afghanistan', 'Afghanistan', 'Brazil', 'Brazil', 'Colombia', 'Colombia'],
                         'var1': ['cases', 'rate', 'cases', 'rate', 'cases', 'rate'],
                         'var2': [1300, 3.5, 5000, 9, 3500, 7.5]})
no_tidy_3

Unnamed: 0,country,var1,var2
0,Afghanistan,cases,1300.0
1,Afghanistan,rate,3.5
2,Brazil,cases,5000.0
3,Brazil,rate,9.0
4,Colombia,cases,3500.0
5,Colombia,rate,7.5


En este ejemplo los valores menores a 10 corresponden a otra variable, imaginemos que es una tasa, por lo que tendremos que dividir la variable `var1` en las variables `cases` y `rate` que deberán tener como valor el contenido de la variable `var2` dependiendo de si se trata de casos o de la tasa. 

In [None]:
tidy_3 = no_tidy_3.pivot(index='country', columns='var1', values='var2')
tidy_3 

var1,cases,rate
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,1300.0,3.5
Brazil,5000.0,9.0
Colombia,3500.0,7.5
