## Parte I - Dados faltantes

O Pandas fornece um conjunto de métodos para trabalhar com dados faltantes.
Os métodos reconhecem como dados faltantes valores que podem vir de Numpy ou do Python nativo. 

In [1]:
import pandas as pd

In [2]:
import numpy as np

### Detecção de dados faltantes

In [3]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

O método isnull() retorna uma **máscara booleana** para a série que indica os dados faltantes. 

In [4]:
string_data = pd.Series([None, 'artichoke', np.nan, 'avocado'])
# O método também reconhece o valor faltante do Python nativo
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

Para encontrar os valores com dados faltantes, podemos filtrar la série usando boolean indexing

In [5]:
# Filtrem os valores nulos
print(string_data[string_data.isnull()])
# Filtrem os valores não nulos
print(string_data[string_data.notnull()])

0    None
2     NaN
dtype: object
1    artichoke
3      avocado
dtype: object


Na hora de trabalhar com dataframes, podemos selecionar as linhas ou colunas que não contêm nenhum valor faltante 

In [6]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,-0.071199,-0.199893,-0.847869
1,-0.089303,0.260957,0.419409
2,0.41498,-1.211713,0.437766
3,0.050182,0.700121,0.723886
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [7]:
# Agora, geramos alguns dados faltantes
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.071199,,
1,-0.089303,,
2,0.41498,,0.437766
3,0.050182,,0.723886
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [8]:
# Retorna as linhas completas
df.dropna()

Unnamed: 0,0,1,2
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [9]:
# Retorna as colunas completas
df.dropna(axis=1)

Unnamed: 0,0
0,-0.071199
1,-0.089303
2,0.41498
3,0.050182
4,1.071155
5,-0.052423
6,0.004416


#### Preenchimento de dados faltantes

In [10]:
df.columns = ['col1','col2','col3']
df

Unnamed: 0,col1,col2,col3
0,-0.071199,,
1,-0.089303,,
2,0.41498,,0.437766
3,0.050182,,0.723886
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [11]:
# Preenchimento com escalar
# Este método retorna um objeto novo. Para alterar df diretamente o parâmetro inplace=True é utilizado
df.fillna(0)

Unnamed: 0,col1,col2,col3
0,-0.071199,0.0,0.0
1,-0.089303,0.0,0.0
2,0.41498,0.0,0.437766
3,0.050182,0.0,0.723886
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [12]:
# Preenchimento com dicionário
df.fillna({'col2': 0.5, 'col3': -1})

Unnamed: 0,col1,col2,col3
0,-0.071199,0.5,-1.0
1,-0.089303,0.5,-1.0
2,0.41498,0.5,0.437766
3,0.050182,0.5,0.723886
4,1.071155,0.451407,0.731398
5,-0.052423,0.516031,1.447378
6,0.004416,1.541126,0.967511


In [13]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan 
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-1.566908,-0.725192,0.074816
1,0.39807,-0.590437,2.028223
2,1.851228,,0.073649
3,-0.24077,,0.602663
4,-0.167021,,
5,-0.386587,,


In [14]:
# Para preencher com base nos últimos valores válidos, é possível usar o parâmetro method = 'ffill'
df.fillna(method='ffill') 

Unnamed: 0,0,1,2
0,-1.566908,-0.725192,0.074816
1,0.39807,-0.590437,2.028223
2,1.851228,-0.590437,0.073649
3,-0.24077,-0.590437,0.602663
4,-0.167021,-0.590437,0.602663
5,-0.386587,-0.590437,0.602663


#### Preenchimento com a média e a média condicionada

O método fillna também aceita um novo dataframe com índices que coincidam com os valores faltantes. 

In [17]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data1': range(6),'data2': np.random.rand(6)}, columns=['key', 'data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,0.428857
1,B,1,0.378925
2,C,2,0.569517
3,A,3,0.073051
4,B,4,0.805379
5,C,5,0.113533


In [18]:
df.iloc[2:3, 1] = np.nan
df.iloc[3:4, 2] = np.nan
df

Unnamed: 0,key,data1,data2
0,A,0.0,0.428857
1,B,1.0,0.378925
2,C,,0.569517
3,A,3.0,
4,B,4.0,0.805379
5,C,5.0,0.113533


In [19]:
df.fillna(df.mean())

Unnamed: 0,key,data1,data2
0,A,0.0,0.428857
1,B,1.0,0.378925
2,C,2.6,0.569517
3,A,3.0,0.459242
4,B,4.0,0.805379
5,C,5.0,0.113533


In [20]:
# Vamos ver as médias para cada grupo
print(df)
df.groupby('key').transform('mean')

  key  data1     data2
0   A    0.0  0.428857
1   B    1.0  0.378925
2   C    NaN  0.569517
3   A    3.0       NaN
4   B    4.0  0.805379
5   C    5.0  0.113533


Unnamed: 0,data1,data2
0,1.5,0.428857
1,2.5,0.592152
2,5.0,0.341525
3,1.5,0.428857
4,2.5,0.592152
5,5.0,0.341525


In [21]:
df.fillna(df.groupby('key').transform('mean'))

Unnamed: 0,key,data1,data2
0,A,0.0,0.428857
1,B,1.0,0.378925
2,C,5.0,0.569517
3,A,3.0,0.428857
4,B,4.0,0.805379
5,C,5.0,0.113533


## Parte II - Tidy Data

Vamos trabalhar com alguns exemplos de messy data presentes no trabalho original de Whickham. 
A ideia é esbarrarmos com conjuntos de dados como eles poderiam existir no mundo real e passá-los para um formato com que as ferramentas padrão de mineração de dados e visualização possam trabalhar melhor, conforme as regras de "tidy data".

Vamos trabalhar com alguns tipos de conjuntos de dados desordenados:

#### 1.1 - Os nomes de colunas são valores, não variáveis

In [27]:
import pandas as pd
import datetime
from os import listdir
from os.path import isfile, join
import glob
import re

df = pd.read_csv("pew-raw.csv")
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


In [28]:
# Para reorganizar o conjunto de dados, utilizamos o método "melt"
# Nos parâmetros, indicamos que a variável que vamos conservar é “religion” (pode ser mais de uma)
# E que com o restante das colunas vamos construir uma nova variável onde cada coluna seja uma categoria
df_ordenado = pd.melt(df,
["religion"],var_name="income",value_name="freq")
df_ordenado = df_ordenado.sort_values(by=["religion"])
df_ordenado.head(10)

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
30,Agnostic,$30-40k,81
40,Agnostic,$40-50k,76
50,Agnostic,$50-75k,137
10,Agnostic,$10-20k,34
20,Agnostic,$20-30k,60
41,Atheist,$40-50k,35
21,Atheist,$20-30k,37
11,Atheist,$10-20k,27
31,Atheist,$30-40k,52


#### 1.2 Mais de um valor na mesma coluna

A seguir, vamos usar dados da OMS. O conjunto de dados é composto pela quantidade de casos de tuberculose observados por país, ano, sexo e idade.  

In [30]:
df = pd.read_csv("tb-raw.csv")
df

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


Para ordenar este conjunto de dados, vamos extrair os valores de sexo y idade, a fim de organizá-los em uma única coluna. 
Depois, vamos criar três colunas com base no conteúdo: sexo, idade_de e idade_até.

In [31]:
df = pd.melt(df, id_vars=["country","year"], value_name="cases", var_name="sex_and_age")
df.head()

Unnamed: 0,country,year,sex_and_age,cases
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0


In [32]:
# Extraiam as variáveis.
# Com a expressão regular, pedimos à função que ela divida o valor que recebe em três partes:
# (\D): Uma única letra ou caractere não numérico 
# (\d+): Um ou mais números (para dar conta de "idade de")
# (\d{2}): Dois dígitos
tmp_df = df["sex_and_age"].str.extract("(\D)(\d+)(\d{2})",expand=False)    

In [33]:
pd.Series(['m014']).str.extract("(\D)(\d+)(\d{2})",expand=False)

Unnamed: 0,0,1,2
0,m,0,14


In [34]:
# Atribuímos 
tmp_df.columns = ["sex", "age_lower", "age_upper"]

# Criamos a coluna idade com base em age_lower e age_upper.
tmp_df["age"] = tmp_df["age_lower"] + "-" + tmp_df["age_upper"]


In [35]:
# Unimos os dos conjuntos de dados 
df = pd.concat([df, tmp_df], axis=1)
df.head()

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
0,AD,2000,m014,0.0,m,0,14,0-14
1,AE,2000,m014,2.0,m,0,14,0-14
2,AF,2000,m014,52.0,m,0,14,0-14
3,AG,2000,m014,0.0,m,0,14,0-14
4,AL,2000,m014,2.0,m,0,14,0-14


In [36]:
df["age"].value_counts()

0-14     20
35-44    10
45-54    10
25-34    10
15-24    10
55-64    10
Name: age, dtype: int64

In [37]:
# Conferir a presença de valores faltantes
np.sum(df.isnull())

country         0
year            0
sex_and_age     0
cases          17
sex            20
age_lower      20
age_upper      20
age            20
dtype: int64

In [38]:
# Analisando os casos faltantes, observamos que a expressão regular não funcionou para mulheres com mais de 65 anos 
# ou de idade indefinida
df.loc[df['age'].isnull(), ]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
60,AD,2000,m65,0.0,,,,
61,AE,2000,m65,10.0,,,,
62,AF,2000,m65,80.0,,,,
63,AG,2000,m65,1.0,,,,
64,AL,2000,m65,16.0,,,,
65,AM,2000,m65,21.0,,,,
66,AN,2000,m65,0.0,,,,
67,AO,2000,m65,194.0,,,,
68,AR,2000,m65,330.0,,,,
69,AS,2000,m65,,,,,


In [39]:
df.loc[df['sex_and_age'] == 'm65', 'age'] = '65 or more'
df.loc[df['sex_and_age'] == 'm65', 'sex'] = 'm'
df.loc[df['age'].isnull(), ]

Unnamed: 0,country,year,sex_and_age,cases,sex,age_lower,age_upper,age
70,AD,2000,mu,,,,,
71,AE,2000,mu,,,,,
72,AF,2000,mu,,,,,
73,AG,2000,mu,,,,,
74,AL,2000,mu,,,,,
75,AM,2000,mu,,,,,
76,AN,2000,mu,,,,,
77,AO,2000,mu,,,,,
78,AR,2000,mu,,,,,
79,AS,2000,mu,,,,,


In [40]:
# Excluímos as colunas sobrantes
df = df.drop(['sex_and_age',"age_lower","age_upper"], axis=1)
df.head()

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
1,AE,2000,2.0,m,0-14
2,AF,2000,52.0,m,0-14
3,AG,2000,0.0,m,0-14
4,AL,2000,2.0,m,0-14


In [41]:
# Como as pessoas com idade indefinida não apresentam nenhum caso, é correto eliminar esses faltantes com dropna.
df = df.dropna()
df = df.sort_values(["country", "year", "sex", "age"])
df.head(10)

Unnamed: 0,country,year,cases,sex,age
0,AD,2000,0.0,m,0-14
10,AD,2000,0.0,m,15-24
20,AD,2000,1.0,m,25-34
30,AD,2000,0.0,m,35-44
40,AD,2000,0.0,m,45-54
50,AD,2000,0.0,m,55-64
60,AD,2000,0.0,m,65 or more
81,AE,2000,3.0,f,0-14
1,AE,2000,2.0,m,0-14
11,AE,2000,4.0,m,15-24


## Parte III - Ferramentas para manipulação de dados

O Pandas tem um conjunto de métodos que permitem operar sobre os elementos de um Dataframe ou uma Série.
Para aplicar a lógica desejada, podemos definir funções com nome ou utilizar expressões lambda que depois não podem ser reutilizadas.

    1) pd.DataFrame.apply: Opera sobre linhas ou colunas completas
    2) pd.DataFrame.applymap: Opera sobre cada um dos elementos do Dataframe
    3) pd.Series.apply: Opera sobre cada um dos elementos da Série. 
    4) pd.Series.map: Opera sobre cada um dos elementos da Serie, muito parecido com Series.apply. 

A diferença entre pd.Series.map e pd.Series.apply é que esta pode gerar um Dataframe a partir da série, ao passo que se aquela recebesse uma série como return da função, ela criaria uma série de séries.

#### 3.1 Função apply

A função apply do Pandas permite realizar operações vetorizadas sobre os conjuntos de dados tanto linha por linha quanto coluna por coluna.

In [42]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
0,0.354887,0.09767,1.117096,0.405425
1,-1.215197,1.3076,0.188754,-2.270122
2,0.03126,-0.848061,-1.018769,1.156322
3,-2.136744,-0.076106,-0.575295,-0.489465
4,-0.233211,0.339209,-0.981896,-0.076696


Utilizamos `df.apply` para encontrar a raiz quadrada dos elementos de cada coluna. `NaN` significa "Not a Number" e é o valor atribuído a operações inválidas, como a raiz de um número negativo.

O parâmetro `axis = 0` é por omissão a linha, esse é o eixo que é reduzido.

In [43]:
df.apply(np.sqrt)

Unnamed: 0,a,b,c,d
0,0.595724,0.312522,1.056928,0.63673
1,,1.143504,0.434458,
2,0.176806,,,1.075324
3,,,,
4,,0.582416,,


In [44]:
df.apply(np.mean)

a   -0.639801
b    0.164063
c   -0.254022
d   -0.254907
dtype: float64

** Procuramos a média de todas las linhas **

O parâmetro axis=1 indica que a função é aplicada a cada linha. Observar que o apply anterior não alterou o conjunto de dados, mas criou uma cópia e depois a alterou. O conjunto de dados original conserva o mesmo valor.

In [45]:
df.apply(np.mean, axis=1)

0    0.493770
1   -0.497241
2   -0.169812
3   -0.819402
4   -0.238149
dtype: float64

`np.mean()` é uma função que vem definida em numpy, mas podemos querer aplicar uma função totalmente própria para, por exemplo, criar uma nova coluna que seja a adição entre as séries a e d. Isso pode ser feito com expressões lambda.

In [46]:
# Vamos ver primeiro como as expressões lambda trabalham
df.apply(lambda x: print(type(x),'\n',x))
# O método apply passa para a função lambda uma série com cada una das colunas.
# Se o parâmetro axis for igual a 1, a função lambda receberá uma série com cada una das linhas. 

<class 'pandas.core.series.Series'> 
 0    0.354887
1   -1.215197
2    0.031260
3   -2.136744
4   -0.233211
Name: a, dtype: float64
<class 'pandas.core.series.Series'> 
 0    0.097670
1    1.307600
2   -0.848061
3   -0.076106
4    0.339209
Name: b, dtype: float64
<class 'pandas.core.series.Series'> 
 0    1.117096
1    0.188754
2   -1.018769
3   -0.575295
4   -0.981896
Name: c, dtype: float64
<class 'pandas.core.series.Series'> 
 0    0.405425
1   -2.270122
2    1.156322
3   -0.489465
4   -0.076696
Name: d, dtype: float64


a    None
b    None
c    None
d    None
dtype: object

As funções map(),apply() e applymap() são muito convenientes para usar na limpeza de dados. 
Por exemplo, vamos supor que queremos tirar todos os acentos e caracteres próprios do espanhol de todas as strings de um Dataframe. Além disso, queremos trocar tudo para minúscula.

In [48]:
data = pd.DataFrame({'nome': ['Tomás','Carla','Paula'], 'sobrenome': ['Torres','López','Núñez']}, 
columns =['nome','sobrenome'])
data

Unnamed: 0,nome,sobrenome
0,Tomás,Torres
1,Carla,López
2,Paula,Núñez


In [53]:
import unidecode

def quitar_caracteres(entrada):
    return str.lower(unidecode.unidecode(entrada))

In [54]:
data.applymap(quitar_caracteres)

Unnamed: 0,nome,sobrenome
0,tomas,torres
1,carla,lopez
2,paula,nunez
