## Parte I - Datos faltantes

Pandas provee un conjunto de métodos para trabajar con datos faltantes.
Los métodos reconocen como datos faltantes valores que pueden provenir de Numpy o de Python nativo. 

In [98]:
import pandas as pd

In [99]:
import numpy as np

#### Detección de datos faltantes

In [100]:
string_data = pd.Series(['manzana', 'pera', np.nan, 'naranja'])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

El método isnull() devuelve una **máscara booleana** para la serie que indica los datos faltantes. 

In [101]:
string_data = pd.Series([None, 'pera', np.nan, 'naranja'])
# El método reconoce también al valor faltante de Python nativo
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

Para encontrar los valores con datos faltantes, podemos filtrar la serie utilizando boolean indexing

In [102]:
# Filtro los valores nulos
print(string_data[string_data.isnull()])
# Filtro los valores no nulos
print(string_data[string_data.notnull()])

0    None
2     NaN
dtype: object
1       pera
3    naranja
dtype: object


A la hora de trabajar con dataframes, podemos seleccionar las filas o columnas que no contienen ningún valor faltante 

In [103]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,-0.224412,0.726335,-0.235572
1,-0.493431,-0.398702,-1.657951
2,1.638298,-1.709915,2.189322
3,0.994504,-0.548288,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [104]:
# Ahora generamos algunos datos faltantes
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.224412,,
1,-0.493431,,
2,1.638298,,2.189322
3,0.994504,,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [105]:
# Devuelve las filas completas
df.dropna()

Unnamed: 0,0,1,2
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [106]:
# Devuelve las columnas completas
df.dropna(axis=1)

Unnamed: 0,0
0,-0.224412
1,-0.493431
2,1.638298
3,0.994504
4,0.796497
5,1.030398
6,0.463913


In [107]:
# imponemos la condición de que todos los elementos de la fila sean NaN para eliminarla
df.dropna(axis=0, how='all')

Unnamed: 0,0,1,2
0,-0.224412,,
1,-0.493431,,
2,1.638298,,2.189322
3,0.994504,,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [108]:
# imponemos la condición de que por lo menos haya 4 elementos que no sean NaN en la columna --valor minimo
df.dropna(axis=1, thresh=2)

Unnamed: 0,0,1,2
0,-0.224412,,
1,-0.493431,,
2,1.638298,,2.189322
3,0.994504,,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


#### Completar datos faltantes

In [109]:
df.columns = ['col1','col2','col3']
df

Unnamed: 0,col1,col2,col3
0,-0.224412,,
1,-0.493431,,
2,1.638298,,2.189322
3,0.994504,,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [110]:
# Completar con un escalar
# Este método devuelve un nuevo objeto. Para modificar df directamente se utiliza el parámetro inplace=True
df.fillna(0)

Unnamed: 0,col1,col2,col3
0,-0.224412,0.0,0.0
1,-0.493431,0.0,0.0
2,1.638298,0.0,2.189322
3,0.994504,0.0,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [111]:
# Completar con un diccionario
df.fillna({'col2': 0.5, 'col3': -1})

Unnamed: 0,col1,col2,col3
0,-0.224412,0.5,-1.0
1,-0.493431,0.5,-1.0
2,1.638298,0.5,2.189322
3,0.994504,0.5,1.933445
4,0.796497,-0.32828,-0.149636
5,1.030398,-0.890101,0.506038
6,0.463913,-0.400835,-1.009018


In [112]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan 
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,0.318274,-0.578416,-0.110254
1,0.082302,-1.027465,-0.173454
2,-1.854325,,-0.40138
3,0.839351,,-0.49424
4,2.326513,,
5,-0.99458,,


In [113]:
# Para completar en base a los últimos valores válidos, se puede utilizar el parámetro method = 'ffill'
df.fillna(method='ffill') 

Unnamed: 0,0,1,2
0,0.318274,-0.578416,-0.110254
1,0.082302,-1.027465,-0.173454
2,-1.854325,-1.027465,-0.40138
3,0.839351,-1.027465,-0.49424
4,2.326513,-1.027465,-0.49424
5,-0.99458,-1.027465,-0.49424


In [114]:
# Completamos con los últimos valores, pero ponemos un límite de 3 a los valores que se pueden completar.

df.fillna(method='ffill', limit=3) 

Unnamed: 0,0,1,2
0,0.318274,-0.578416,-0.110254
1,0.082302,-1.027465,-0.173454
2,-1.854325,-1.027465,-0.40138
3,0.839351,-1.027465,-0.49424
4,2.326513,-1.027465,-0.49424
5,-0.99458,,-0.49424


In [115]:
# Usamos un DataFrame para completar los datos faltantes. 

df_fill = pd.DataFrame(np.arange(8).reshape(4,2), index=np.arange(2,6), columns=[1,2])
df_fill
df.fillna(df_fill)

Unnamed: 0,0,1,2
0,0.318274,-0.578416,-0.110254
1,0.082302,-1.027465,-0.173454
2,-1.854325,0.0,-0.40138
3,0.839351,2.0,-0.49424
4,2.326513,4.0,5.0
5,-0.99458,6.0,7.0


#### Completar por la media y la media condicionada

El método fillna también acepta un nuevo dataframe con índices coincidentes con los valores faltantes. 

In [68]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                    'data2': np.random.rand(6)}, columns=['key', 'data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,0.827046
1,B,1,0.001712
2,C,2,0.850928
3,A,3,0.685563
4,B,4,0.897625
5,C,5,0.419045


In [69]:
df.iloc[2:3, 1] = np.nan
df.iloc[3:4, 2] = np.nan
df

Unnamed: 0,key,data1,data2
0,A,0.0,0.827046
1,B,1.0,0.001712
2,C,,0.850928
3,A,3.0,
4,B,4.0,0.897625
5,C,5.0,0.419045


In [70]:
df.fillna(df.mean())

Unnamed: 0,key,data1,data2
0,A,0.0,0.827046
1,B,1.0,0.001712
2,C,2.6,0.850928
3,A,3.0,0.599271
4,B,4.0,0.897625
5,C,5.0,0.419045


In [71]:
# Veamos las medias por grupo
print(df)
df.groupby('key').transform('mean')

  key  data1     data2
0   A    0.0  0.827046
1   B    1.0  0.001712
2   C    NaN  0.850928
3   A    3.0       NaN
4   B    4.0  0.897625
5   C    5.0  0.419045


Unnamed: 0,data1,data2
0,1.5,0.827046
1,2.5,0.449669
2,5.0,0.634986
3,1.5,0.827046
4,2.5,0.449669
5,5.0,0.634986


In [72]:
df.fillna(df.groupby('key').transform('mean'))

Unnamed: 0,key,data1,data2
0,A,0.0,0.827046
1,B,1.0,0.001712
2,C,5.0,0.850928
3,A,3.0,0.827046
4,B,4.0,0.897625
5,C,5.0,0.419045


## Parte II - Tidy Data

Vamos a trabajar con algunos ejemplos de messy data que se encuentran en el trabajo original de Whickham. 
La idea es toparnos con datasets como podrían encontrarse en el mundo real y transformarlos a un formato que las herramientas estándar de minería de datos y visualización podrán trabajar mejor, siguiendo las reglas de "tidy data".

Vamos a trabajar con algunos tipos de datasets desordenados:

#### 1.1 - Los nombres de columnas son valores, no variables

In [117]:
df = pd.read_csv("pew-raw.csv")
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


In [118]:
# Para reorganizar el dataset utilizamos el método "melt"
# En los parámetros indicamos que la variable que vamos a conservar es "religion" (podrían ser más de una)
# Y que con el resto de las columnas vamos a construir una nueva variable donde cada columna es una categoría
df_ordenado = pd.melt(df,
                       ["religion"],
                       var_name="income",
                       value_name="freq")
df_ordenado = df_ordenado.sort_values(by=["religion"])
df_ordenado.head(10)

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76
50,Agnostic,$50-75k,137
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
41,Atheist,$40-50k,35
21,Atheist,$20-30k,37
11,Atheist,$10-20k,27
31,Atheist,$30-40k,52


In [119]:
df_ordenado.head(10)

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76
50,Agnostic,$50-75k,137
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
41,Atheist,$40-50k,35
21,Atheist,$20-30k,37
11,Atheist,$10-20k,27
31,Atheist,$30-40k,52


#### 1.2 Más de un valor en una misma columna

A continuación vamos a utilizar datos de la OMS. El dataset consiste en la cantidad de casos de tuberculosis observados por país, año, sexo y edad.  

In [120]:
df = pd.read_csv("tb-raw.csv")
df

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


Para odenar este dataset vamos a extraer los valores de sexo y edad para organizarlos en una sola columna. 
Después vamos a crear tres columnas a partir del contenido: sexo, edad_desde y edad_hasta.

In [121]:
df = pd.melt(df, id_vars=["country","year"], var_name="sex_and_age", value_name="cases")

In [122]:
df.sample(10)

Unnamed: 0,country,year,sex_and_age,cases
53,AG,2000,m5564,0.0
27,AO,2000,m2534,1003.0
85,AM,2000,f014,1.0
62,AF,2000,m65,80.0
25,AM,2000,m2534,130.0
28,AR,2000,m2534,594.0
51,AE,2000,m5564,12.0
30,AD,2000,m3544,0.0
10,AD,2000,m1524,0.0
67,AO,2000,m65,194.0


In [123]:
# Extraigo las variables.
# Con la expresión regular, le estoy pidiendo a la función que parta el valor que recibe en tres partes:
# (\D): Una única letra o caracter no numérico 
# (\d+): Uno o más números (para dar cuenta de "edad desde")
# (\d{2}): Dos dígitos
tmp_df = df["sex_and_age"].str.extract("(\D)(\d+)(\d{2})",expand=False)   

In [79]:
tmp_df.sample(10)

Unnamed: 0,0,1,2
58,m,55.0,64.0
5,m,0.0,14.0
88,f,0.0,14.0
69,,,
31,m,35.0,44.0
47,m,45.0,54.0
26,m,25.0,34.0
80,f,0.0,14.0
3,m,0.0,14.0
63,,,


In [124]:
pd.Series(['m014']).str.extract("(\D)(\d+)(\d{2})",expand=False)

Unnamed: 0,0,1,2
0,m,0,14


In [125]:
# Asignamos 
tmp_df.columns = ["sex", "age_lower", "age_upper"]

# Creamos la columna edad en base a age_lower y age_upper.
tmp_df["age"] = tmp_df["age_lower"] + "-" + tmp_df["age_upper"]


In [126]:
# Unimos los dos datasets 
df = pd.concat([df, tmp_df], axis=1)
df.head()

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
0,AD,2000,m014,0.0,m,0,14,0-14
1,AE,2000,m014,2.0,m,0,14,0-14
2,AF,2000,m014,52.0,m,0,14,0-14
3,AG,2000,m014,0.0,m,0,14,0-14
4,AL,2000,m014,2.0,m,0,14,0-14


In [127]:
df["age"].value_counts()

0-14     20
35-44    10
55-64    10
15-24    10
25-34    10
45-54    10
Name: age, dtype: int64

In [84]:
# Inspeccionar la presencia de valores faltante
np.sum(df.isnull())

country         0
year            0
sex_and_age     0
cases          17
sex            20
age_lower      20
age_upper      20
age            20
dtype: int64

In [85]:
# Explorando los casos faltantes, vemos que la expresión regular no funcionó para hombres de más de 65 años 
# o de edad indefinida
df.loc[df['age'].isnull()]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
60,AD,2000,m65,0.0,,,,
61,AE,2000,m65,10.0,,,,
62,AF,2000,m65,80.0,,,,
63,AG,2000,m65,1.0,,,,
64,AL,2000,m65,16.0,,,,
65,AM,2000,m65,21.0,,,,
66,AN,2000,m65,0.0,,,,
67,AO,2000,m65,194.0,,,,
68,AR,2000,m65,330.0,,,,
69,AS,2000,m65,,,,,


In [86]:
df.loc[df['sex_and_age'] == 'm65', 'age'] = '65 or more'
df.loc[df['sex_and_age'] == 'm65', 'sex'] = 'm'
df.loc[df['sex_and_age'] == 'mu', 'sex'] = 'm'

In [87]:
df.loc[df['age'].isnull()]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
70,AD,2000,mu,,m,,,
71,AE,2000,mu,,m,,,
72,AF,2000,mu,,m,,,
73,AG,2000,mu,,m,,,
74,AL,2000,mu,,m,,,
75,AM,2000,mu,,m,,,
76,AN,2000,mu,,m,,,
77,AO,2000,mu,,m,,,
78,AR,2000,mu,,m,,,
79,AS,2000,mu,,m,,,


In [88]:
# Nos deshacemos de las columnas sobrantes
df = df.drop(['sex_and_age',"age_lower","age_upper"], axis=1)
df.head()

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
1,AE,2000,2.0,m,0-14
2,AF,2000,52.0,m,0-14
3,AG,2000,0.0,m,0-14
4,AL,2000,2.0,m,0-14


In [89]:
# Como las personas de edad indefinida no presentan ningún caso, es correcto eliminar estos faltantes con dropna.
df = df.dropna()
df = df.sort_values(["country", "year", "sex", "age"])
df.head(10)

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
10,AD,2000,0.0,m,15-24
20,AD,2000,1.0,m,25-34
30,AD,2000,0.0,m,35-44
40,AD,2000,0.0,m,45-54
50,AD,2000,0.0,m,55-64
60,AD,2000,0.0,m,65 or more
81,AE,2000,3.0,f,0-14
1,AE,2000,2.0,m,0-14
11,AE,2000,4.0,m,15-24


## Parte III - Herramientas para manipulación de datos

Pandas cuenta con un conjunto de métodos que permiten operar sobre los elementos de un Dataframe o Serie.
Para aplicar la lógica deseada, podemos optar tanto por definir funciones con nombre como por utilizar expresiones lambda que luego no pueden reutilizarse.

    1)  pd.DataFrame.apply: Opera sobre filas o columnas completas
    2)  pd.DataFrame.applymap: Opera sobre cada uno de los elementos del Dataframe
    3)  pd.Series.apply: Opera sobre cada uno de los elementos de la Serie. 
    4)  pd.Series.map: Opera sobre cada uno de los elementos de la Serie, muy similar a Series.apply. 

La diferencia entre pd.Series.map y pd.Series.apply es que la segunda puede generar un Dataframe a partir de la serie, mientras que la primera si recibiera una serie como return de la función crearía una serie de series.

####  3.1 Función apply

La función apply de pandas permite realizar operaciones vectorizadas sobre los datasets tanto fila por fila como columna por columna.

In [128]:
df = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
0,0.781556,-0.459508,0.197311,-0.883164
1,0.737801,-0.012796,-0.735954,-0.861333
2,0.587238,0.213715,2.023536,-2.26239
3,1.176168,0.781838,0.915672,-0.395577
4,0.24524,0.261442,-2.66194,1.637611


Utilizamos `df.applymap` para encontrar la raíz cuadrada de los elementos de cada columna. `NaN` significa "Not a Number" y es el valor asignado a operaciones inválidas como la raíz de un número negativo.

In [91]:
df.applymap(np.sqrt)

  return lib.map_infer(x.astype(object).values, func)


Unnamed: 0,a,b,c,d
0,0.952382,1.444128,,0.154724
1,,,1.557348,
2,,0.148655,,
3,0.375765,0.608355,0.530168,0.760073
4,,0.508116,,


> en este caso podríamos haber aplicado tambien 'df.apply' porque la operación de sqrt se aplicaría de todas formas a los elementos de la serie

**  Buscamos la media de todas las filas **

El parámetro por default es axis=0, por lo que va a iterar por las filas y darnos el valor de la media de la columnas

In [92]:
df.apply(np.mean)

a   -0.418324
b    0.107573
c    0.156340
d   -0.306818
dtype: float64

El parámetro axis=1 indica que la función se aplica para cada fila. Notar que el apply anterior no modificó el dataset, sino que creó una copia y luego modificó la misma. El dataset original conserva el mismo valor.

In [93]:
df.apply(np.mean, axis=1)

0    0.442603
1   -0.181929
2   -0.184683
3    0.342521
4   -0.995048
dtype: float64

In [129]:
df

Unnamed: 0,a,b,c,d
0,0.781556,-0.459508,0.197311,-0.883164
1,0.737801,-0.012796,-0.735954,-0.861333
2,0.587238,0.213715,2.023536,-2.26239
3,1.176168,0.781838,0.915672,-0.395577
4,0.24524,0.261442,-2.66194,1.637611


`np.mean()` es una función que viene definida en numpy, pero podemos querer aplicar una función totalmente propia para, por ejemplo, crear una nueva columna que sea la suma entre las series a y d. Esto se puede hacer con expresiones lambda.

In [130]:
# Veamos primero cómo trabajan las expresiones lambda
df.apply(lambda x: print(type(x),'\n',x))
# El método apply le pasa a la función lambda una serie con cada una de las columnas.
# Si el parámetro axis es igual a 1, la función lambda recibirá una serie con cada una de las filas. 

<class 'pandas.core.series.Series'> 
 0    0.781556
1    0.737801
2    0.587238
3    1.176168
4    0.245240
Name: a, dtype: float64
<class 'pandas.core.series.Series'> 
 0   -0.459508
1   -0.012796
2    0.213715
3    0.781838
4    0.261442
Name: b, dtype: float64
<class 'pandas.core.series.Series'> 
 0    0.197311
1   -0.735954
2    2.023536
3    0.915672
4   -2.661940
Name: c, dtype: float64
<class 'pandas.core.series.Series'> 
 0   -0.883164
1   -0.861333
2   -2.262390
3   -0.395577
4    1.637611
Name: d, dtype: float64


a    None
b    None
c    None
d    None
dtype: object



Podemos usar una función lambda para calcular el coeficiente de variación:

In [95]:
df.apply(lambda x: np.std(x)/np.mean(x))

a    -2.280901
b    12.696371
c     7.897340
d    -2.811827
dtype: float64

Las funciones map(),apply() y applymap() son muy convenientes para utilizar en limpieza de datos. 
Por ejemplo, supongamos que queremos sacar todos los acentos y demás caracteres propios del español de todos los strings de un Dataframe. Además queremos convertir todo a minúsculas.

In [96]:
data = pd.DataFrame({'nombre': ['Tomás','Carla','Paula'], 'apellido': ['Torres','López','Núñez']}, 
                    columns =['nombre','apellido'])
data

Unnamed: 0,nombre,apellido
0,Tomás,Torres
1,Carla,López
2,Paula,Núñez


In [132]:
import unidecode

def quitar_caracteres(entrada):
    return str.lower(unidecode.unidecode(entrada))

In [133]:
data.applymap(quitar_caracteres)

Unnamed: 0,nombre,apellido
0,tomas,torres
1,carla,lopez
2,paula,nunez
