## Parte I - Datos faltantes

Pandas provee un conjunto de métodos para trabajar con datos faltantes.
Los métodos reconocen como datos faltantes valores que pueden provenir de Numpy o de Python nativo. 

In [1]:
import pandas as pd

In [2]:
import numpy as np

#### Detección de datos faltantes

In [3]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

El método isnull() devuelve una **máscara booleana** para la serie que indica los datos faltantes. 

In [4]:
string_data = pd.Series([None, 'artichoke', np.nan, 'avocado'])
# El método reconoce también al valor faltante de Python nativo
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

Para encontrar los valores con datos faltantes, podemos filtrar la serie utilizando boolean indexing

In [5]:
# Filtro los valores nulos
print(string_data[string_data.isnull()])
# Filtro los valores no nulos
print(string_data[string_data.notnull()])

0    None
2     NaN
dtype: object
1    artichoke
3      avocado
dtype: object


A la hora de trabajar con dataframes, podemos seleccionar las filas o columnas que no contienen ningún valor faltante 

In [6]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,1.299712,-0.010691,-1.468156
1,-1.433935,0.535895,-0.181036
2,0.13081,1.865453,0.267149
3,-0.133972,-0.625572,-0.724546
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [7]:
# Ahora generamos algunos datos faltantes
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,1.299712,,
1,-1.433935,,
2,0.13081,,0.267149
3,-0.133972,,-0.724546
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [8]:
# Devuelve las filas completas
df.dropna()

Unnamed: 0,0,1,2
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [9]:
# Devuelve las columnas completas
df.dropna(axis=1)

Unnamed: 0,0
0,1.299712
1,-1.433935
2,0.13081
3,-0.133972
4,-0.062623
5,0.863646
6,-0.034621


#### Completar datos faltantes

In [10]:
df.columns = ['col1','col2','col3']
df

Unnamed: 0,col1,col2,col3
0,1.299712,,
1,-1.433935,,
2,0.13081,,0.267149
3,-0.133972,,-0.724546
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [11]:
# Completar con un escalar
# Este método devuelve un nuevo objeto. Para modificar df directamente se utiliza el parámetro inplace=True
df.fillna(0)

Unnamed: 0,col1,col2,col3
0,1.299712,0.0,0.0
1,-1.433935,0.0,0.0
2,0.13081,0.0,0.267149
3,-0.133972,0.0,-0.724546
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [12]:
# Completar con un diccionario
df.fillna({'col2': 0.5, 'col3': -1})

Unnamed: 0,col1,col2,col3
0,1.299712,0.5,-1.0
1,-1.433935,0.5,-1.0
2,0.13081,0.5,0.267149
3,-0.133972,0.5,-0.724546
4,-0.062623,0.808566,0.27547
5,0.863646,-0.25675,1.489091
6,-0.034621,0.054952,-1.20908


In [13]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan 
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.586289,-0.609314,-0.174291
1,-0.057983,-1.261693,-0.281101
2,0.40868,,-0.028198
3,0.852975,,-0.5029
4,-1.764415,,
5,0.135003,,


In [14]:
# Para completar en base a los últimos valores válidos, se puede utilizar el parámetro method = 'ffill'
df.fillna(method='ffill') 

Unnamed: 0,0,1,2
0,0.586289,-0.609314,-0.174291
1,-0.057983,-1.261693,-0.281101
2,0.40868,-1.261693,-0.028198
3,0.852975,-1.261693,-0.5029
4,-1.764415,-1.261693,-0.5029
5,0.135003,-1.261693,-0.5029


#### Completar por la media y la media condicionada

El método fillna también acepta un nuevo dataframe con índices coincidentes con los valores faltantes. 

In [15]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                    'data2': np.random.rand(6)}, columns=['key', 'data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,0.104354
1,B,1,0.807956
2,C,2,0.279716
3,A,3,0.399944
4,B,4,0.531545
5,C,5,0.62154


In [16]:
df.iloc[2:3, 1] = np.nan
df.iloc[3:4, 2] = np.nan
df

Unnamed: 0,key,data1,data2
0,A,0.0,0.104354
1,B,1.0,0.807956
2,C,,0.279716
3,A,3.0,
4,B,4.0,0.531545
5,C,5.0,0.62154


In [17]:
df.fillna(df.mean())

Unnamed: 0,key,data1,data2
0,A,0.0,0.104354
1,B,1.0,0.807956
2,C,2.6,0.279716
3,A,3.0,0.469022
4,B,4.0,0.531545
5,C,5.0,0.62154


In [18]:
# Veamos las medias por grupo
print(df)
df.groupby('key').transform('mean')

  key  data1     data2
0   A    0.0  0.104354
1   B    1.0  0.807956
2   C    NaN  0.279716
3   A    3.0       NaN
4   B    4.0  0.531545
5   C    5.0  0.621540


Unnamed: 0,data1,data2
0,1.5,0.104354
1,2.5,0.66975
2,5.0,0.450628
3,1.5,0.104354
4,2.5,0.66975
5,5.0,0.450628


In [19]:
df.fillna(df.groupby('key').transform('mean'))

Unnamed: 0,key,data1,data2
0,A,0.0,0.104354
1,B,1.0,0.807956
2,C,5.0,0.279716
3,A,3.0,0.104354
4,B,4.0,0.531545
5,C,5.0,0.62154


## Parte II - Tidy Data

Vamos a trabajar con algunos ejemplos de messy data que se encuentran en el trabajo original de Whickham. 
La idea es toparnos con datasets como podrían encontrarse en el mundo real y transformarlos a un formato que las herramientas estándar de minería de datos y visualización podrán trabajar mejor, siguiendo las reglas de "tidy data".

Vamos a trabajar con algunos tipos de datasets desordenados:

#### 1.1 - Los nombres de columnas son valores, no variables

In [20]:
import pandas as pd
import datetime
from os import listdir
from os.path import isfile, join
import glob
import re

df = pd.read_csv("pew-raw.csv")
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


In [21]:
# Para reorganizar el dataset utilizamos el método "melt"
# En los parámetros indicamos que la variable que vamos a conservar es "religion" (podrían ser más de una)
# Y que con el resto de las columnas vamos a construir una nueva variable donde cada columna es una categoría
df_ordenado = pd.melt(df,
                       ["religion"],
                       var_name="income",
                       value_name="freq")
df_ordenado = df_ordenado.sort_values(by=["religion"])
df_ordenado.head(10)

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76
50,Agnostic,$50-75k,137
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
41,Atheist,$40-50k,35
21,Atheist,$20-30k,37
11,Atheist,$10-20k,27
31,Atheist,$30-40k,52


#### 1.2 Más de un valor en una misma columna

A continuación vamos a utilizar datos de la OMS. El dataset consiste en la cantidad de casos de tuberculosis observados por país, año, sexo y edad.  

In [22]:
df = pd.read_csv("tb-raw.csv")
df

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


Para odenar este dataset vamos a extraer los valores de sexo y edad para organizarlos en una sola columna. 
Después vamos a crear tres columnas a partir del contenido: sexo, edad_desde y edad_hasta.

In [23]:
df = pd.melt(df, id_vars=["country","year"], value_name="cases", var_name="sex_and_age")
df.head()

Unnamed: 0,country,year,sex_and_age,cases
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0


In [24]:
# Extraigo las variables.
# Con la expresión regular, le estoy pidiendo a la función que parta el valor que recibe en tres partes:
# (\D): Una única letra o caracter no numérico 
# (\d+): Uno o más números (para dar cuenta de "edad desde")
# (\d{2}): Dos dígitos
tmp_df = df["sex_and_age"].str.extract("(\D)(\d+)(\d{2})",expand=False)    

In [25]:
pd.Series(['m014']).str.extract("(\D)(\d+)(\d{2})",expand=False)

Unnamed: 0,0,1,2
0,m,0,14


In [26]:
# Asignamos 
tmp_df.columns = ["sex", "age_lower", "age_upper"]

# Creamos la columna edad en base a age_lower y age_upper.
tmp_df["age"] = tmp_df["age_lower"] + "-" + tmp_df["age_upper"]


In [27]:
# Unimos los dos datasets 
df = pd.concat([df, tmp_df], axis=1)
df.head()

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
0,AD,2000,m014,0.0,m,0,14,0-14
1,AE,2000,m014,2.0,m,0,14,0-14
2,AF,2000,m014,52.0,m,0,14,0-14
3,AG,2000,m014,0.0,m,0,14,0-14
4,AL,2000,m014,2.0,m,0,14,0-14


In [28]:
df["age"].value_counts()

0-14     20
25-34    10
45-54    10
15-24    10
35-44    10
55-64    10
Name: age, dtype: int64

In [29]:
# Inspeccionar la presencia de valores faltante
np.sum(df.isnull())

country         0
year            0
sex_and_age     0
cases          17
sex            20
age_lower      20
age_upper      20
age            20
dtype: int64

In [30]:
# Explorando los casos faltantes, vemos que la expresión regular no funcionó para mujeres de más de 65 años 
# o de edad indefinida
df.loc[df['age'].isnull(), ]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
60,AD,2000,m65,0.0,,,,
61,AE,2000,m65,10.0,,,,
62,AF,2000,m65,80.0,,,,
63,AG,2000,m65,1.0,,,,
64,AL,2000,m65,16.0,,,,
65,AM,2000,m65,21.0,,,,
66,AN,2000,m65,0.0,,,,
67,AO,2000,m65,194.0,,,,
68,AR,2000,m65,330.0,,,,
69,AS,2000,m65,,,,,


In [31]:
df.loc[df['sex_and_age'] == 'm65', 'age'] = '65 or more'
df.loc[df['sex_and_age'] == 'm65', 'sex'] = 'm'
df.loc[df['age'].isnull(), ]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
70,AD,2000,mu,,,,,
71,AE,2000,mu,,,,,
72,AF,2000,mu,,,,,
73,AG,2000,mu,,,,,
74,AL,2000,mu,,,,,
75,AM,2000,mu,,,,,
76,AN,2000,mu,,,,,
77,AO,2000,mu,,,,,
78,AR,2000,mu,,,,,
79,AS,2000,mu,,,,,


In [32]:
# Nos deshacemos de las columnas sobrantes
df = df.drop(['sex_and_age',"age_lower","age_upper"], axis=1)
df.head()

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
1,AE,2000,2.0,m,0-14
2,AF,2000,52.0,m,0-14
3,AG,2000,0.0,m,0-14
4,AL,2000,2.0,m,0-14


In [33]:
# Como las personas de edad indefinida no presentan ningún caso, es correcto eliminar estos faltantes con dropna.
df = df.dropna()
df = df.sort_values(["country", "year", "sex", "age"])
df.head(10)

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
10,AD,2000,0.0,m,15-24
20,AD,2000,1.0,m,25-34
30,AD,2000,0.0,m,35-44
40,AD,2000,0.0,m,45-54
50,AD,2000,0.0,m,55-64
60,AD,2000,0.0,m,65 or more
81,AE,2000,3.0,f,0-14
1,AE,2000,2.0,m,0-14
11,AE,2000,4.0,m,15-24


## Parte III - Herramientas para manipulación de datos

Pandas cuenta con un conjunto de métodos que permiten operar sobre los elementos de un Dataframe o Serie.
Para aplicar la lógica deseada, podemos optar tanto por definir funciones con nombre como por utilizar expresiones lambda que luego no pueden reutilizarse.

    1)  pd.DataFrame.apply: Opera sobre filas o columnas completas
    2)  pd.DataFrame.applymap: Opera sobre cada uno de los elementos del Dataframe
    3)  pd.Series.apply: Opera sobre cada uno de los elementos de la Serie. 
    4)  pd.Series.map: Opera sobre cada uno de los elementos de la Serie, muy similar a Series.apply. 

La diferencia entre pd.Series.map y pd.Series.apply es que la segunda puede generar un Dataframe a partir de la serie, mientras que la primera si recibiera una serie como return de la función crearía una serie de series.

####  3.1 Función apply

La función apply de pandas permite realizar operaciones vectorizadas sobre los datasets tanto fila por fila como columna por columna.

In [34]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
0,0.327252,0.153187,1.748751,0.322529
1,-1.330464,2.415932,0.542635,0.627477
2,-0.709201,-1.161874,0.371789,-0.683474
3,0.341537,-0.022172,-0.795225,-0.580346
4,-0.941037,1.421074,0.134709,0.010631


Utilizamos `df.apply` para encontrar la raíz cuadrada de los elementos de cada columna. `NaN` significa "Not a Number" y es el valor asignado a operaciones inválidas como la raíz de un número negativo.

El parámetro `axis = 0` es por default la fila, ese es el eje que se reduce.

In [35]:
df.apply(np.sqrt)

Unnamed: 0,a,b,c,d
0,0.57206,0.391391,1.322403,0.567916
1,,1.554327,0.736638,0.792134
2,,,0.609745,
3,0.584411,,,
4,,1.192088,0.367028,0.103109


In [36]:
df.apply(np.mean)

a   -0.462383
b    0.561229
c    0.400532
d   -0.060637
dtype: float64

**  Buscamos la media de todas las filas **

El parámetro axis=1 indica que la función se aplica para cada fila. Notar que el apply anterior no modificó el dataset, sino que creó una copia y luego modificó la misma. El dataset original conserva el mismo valor.

In [37]:
df.apply(np.mean, axis=1)

0    0.637930
1    0.563895
2   -0.545690
3   -0.264052
4    0.156344
dtype: float64

`np.mean()` es una función que viene definida en numpy, pero podemos querer aplicar una función totalmente propia para, por ejemplo, crear una nueva columna que sea la suma entre las series a y d. Esto se puede hacer con expresiones lambda.

In [38]:
# Veamos primero cómo trabajan las expresiones lambda
df.apply(lambda x: print(type(x),'\n',x))
# El método apply le pasa a la función lambda una serie con cada una de las columnas.
# Si el parámetro axis es igual a 1, la función lambda recibirá una serie con cada una de las filas. 

<class 'pandas.core.series.Series'> 
 0    0.327252
1   -1.330464
2   -0.709201
3    0.341537
4   -0.941037
Name: a, dtype: float64
<class 'pandas.core.series.Series'> 
 0    0.153187
1    2.415932
2   -1.161874
3   -0.022172
4    1.421074
Name: b, dtype: float64
<class 'pandas.core.series.Series'> 
 0    1.748751
1    0.542635
2    0.371789
3   -0.795225
4    0.134709
Name: c, dtype: float64
<class 'pandas.core.series.Series'> 
 0    0.322529
1    0.627477
2   -0.683474
3   -0.580346
4    0.010631
Name: d, dtype: float64


a    None
b    None
c    None
d    None
dtype: object

Las funciones map(),apply() y applymap() son muy convenientes para utilizar en limpieza de datos. 
Por ejemplo, supongamos que queremos sacar todos los acentos y demás caracteres pripios del español de todos los strings de un Dataframe. Además queremos convertir todo a minúsculas.

In [39]:
data = pd.DataFrame({'nombre': ['Tomás','Carla','Paula'], 'apellido': ['Torres','López','Núñez']}, 
                    columns =['nombre','apellido'])
data

Unnamed: 0,nombre,apellido
0,Tomás,Torres
1,Carla,López
2,Paula,Núñez


In [40]:
import unidecode
def quitar_caracteres(entrada):
    return str.lower(unidecode.unidecode(entrada))

ModuleNotFoundError: No module named 'unidecode'

In [None]:
data.applymap(quitar_caracteres)