# PRATICA GUIADA - Limpeza de dados.

#### O Pandas fornece um conjunto de métodos para trabalhar com dados faltantes. Os métodos reconhecem como dados faltantes valores que podem vir de Numpy ou do Python nativo. 

In [1]:
import pandas as pd
import numpy as np

## Detecção de dados faltantes

In [2]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

#### O método [.isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isnull.html) retorna uma máscara booleana para a série que indica os dados faltantes. ele também reconhece o valor faltante do Python nativo.

In [3]:
string_data = pd.Series([None, 'artichoke', np.nan, 'avocado'])
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

#### Para encontrar os valores com dados faltantes, podemos filtrar a série usando boolean indexing.

In [5]:
# Filtrem os valores nulos
print(string_data[string_data.isnull()])

0    None
2     NaN
dtype: object


In [6]:
# Filtrem os valores não nulos
print(string_data[string_data.notnull()])

1    artichoke
3      avocado
dtype: object


#### Na hora de trabalhar com dataframes, podemos selecionar as linhas ou colunas que não contêm nenhum valor faltante.

In [7]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,1.307094,-0.827807,0.790435
1,0.336829,-1.039422,-1.466016
2,1.326551,-0.652526,-0.520063
3,1.387542,-0.593751,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


In [16]:
# Agora, geramos alguns dados faltantes
df.iloc[:4, 1] = np.nan
df.iloc[2, 2] = None
df

Unnamed: 0,0,1,2
0,1.307094,,
1,0.336829,,
2,1.326551,,
3,1.387542,,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


#### É possível remover as linhas que apresentam `NaN`.

In [11]:
df.dropna(axis = 0)

Unnamed: 0,0,1,2
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


#### E é possível remover as colunas que apresentam `NaN`.

In [12]:
df.dropna(axis = 1)

Unnamed: 0,0
0,1.307094
1,0.336829
2,1.326551
3,1.387542
4,-0.313232
5,-0.199428
6,0.32394


* É possível definir um critério limitado para realizar o drop. Por exemplo, realizar o drop das linhas que são NaN na coluna 2.

In [17]:
df.dropna(axis = 0, subset=[2])

Unnamed: 0,0,1,2
3,1.387542,,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


In [18]:
df.dropna(axis = 1, subset=[3,4,5,6])

Unnamed: 0,0,2
0,1.307094,
1,0.336829,
2,1.326551,
3,1.387542,0.85019
4,-0.313232,0.906139
5,-0.199428,0.663557
6,0.32394,-1.109058


## Métodos de imputação, preenchimento de dados faltantes.

#### Para discutir o preenchimento dos dados faltantes, vamos primeiro renomer as colunas com o método [`.columns`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html). 

In [19]:
df.columns = ['col1','col2','col3']
df

Unnamed: 0,col1,col2,col3
0,1.307094,,
1,0.336829,,
2,1.326551,,
3,1.387542,,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


#### Podemos optar pelo preenchimento com um escalar, este método retorna um objeto novo. Para alterar dataframe diretamente o parâmetro `inplace = True` é utilizado [`.fillna`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html).

In [20]:
df.fillna(0)

Unnamed: 0,col1,col2,col3
0,1.307094,0.0,0.0
1,0.336829,0.0,0.0
2,1.326551,0.0,0.0
3,1.387542,0.0,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


In [21]:
df

Unnamed: 0,col1,col2,col3
0,1.307094,,
1,0.336829,,
2,1.326551,,
3,1.387542,,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


In [22]:
df.fillna(0, inplace = True)
df

Unnamed: 0,col1,col2,col3
0,1.307094,0.0,0.0
1,0.336829,0.0,0.0
2,1.326551,0.0,0.0
3,1.387542,0.0,0.85019
4,-0.313232,-0.507033,0.906139
5,-0.199428,-0.198216,0.663557
6,0.32394,-0.505079,-1.109058


#### O preenchimento dos dados faltantes pode ser feito com um dicionário.

In [23]:
df = pd.DataFrame(np.random.randn(7, 3), columns = ['col1','col2','col3'])
df.iloc[1:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,col1,col2,col3
0,0.672108,0.58628,
1,-0.319175,,
2,-1.008059,,-0.135284
3,-1.06864,,-0.103607
4,-0.458233,-0.979822,0.008086
5,-0.824385,-0.746557,-0.322528
6,0.043525,0.496107,-0.922869


In [24]:
df.fillna({'col2': 0.5, 'col3': -1})

Unnamed: 0,col1,col2,col3
0,0.672108,0.58628,-1.0
1,-0.319175,0.5,-1.0
2,-1.008059,0.5,-0.135284
3,-1.06864,0.5,-0.103607
4,-0.458233,-0.979822,0.008086
5,-0.824385,-0.746557,-0.322528
6,0.043525,0.496107,-0.922869


#### Para preencher com base nos últimos valores válidos, é possível usar a função [`.fillna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html), com o parâmetro method = 'ffill'.

In [25]:
df.fillna(method ='ffill') 

Unnamed: 0,col1,col2,col3
0,0.672108,0.58628,
1,-0.319175,0.58628,
2,-1.008059,0.58628,-0.135284
3,-1.06864,0.58628,-0.103607
4,-0.458233,-0.979822,0.008086
5,-0.824385,-0.746557,-0.322528
6,0.043525,0.496107,-0.922869


#### A função função [`.fillna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) também apresenta o parâmetro method = 'bfill'.


In [26]:
df.fillna(method ='bfill') 

Unnamed: 0,col1,col2,col3
0,0.672108,0.58628,-0.135284
1,-0.319175,-0.979822,-0.135284
2,-1.008059,-0.979822,-0.135284
3,-1.06864,-0.979822,-0.103607
4,-0.458233,-0.979822,0.008086
5,-0.824385,-0.746557,-0.322528
6,0.043525,0.496107,-0.922869


### Preenchimento com a média e a média condicionada

#### O método `.fillna()` também aceita um novo dataframe com índices que coincidam com os valores faltantes. 

In [27]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),'data2': np.random.rand(6)},
                  columns = ['key', 'data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,0.283584
1,B,1,0.098046
2,C,2,0.12098
3,A,3,0.309698
4,B,4,0.588828
5,C,5,0.67835


In [28]:
df.iloc[2:3, 1] = np.nan
df.iloc[3:4, 2] = np.nan
df

Unnamed: 0,key,data1,data2
0,A,0.0,0.283584
1,B,1.0,0.098046
2,C,,0.12098
3,A,3.0,
4,B,4.0,0.588828
5,C,5.0,0.67835


In [31]:
print(df.data1.mean())
df.data2.mean()

2.6


0.3539576619179329

In [29]:
df.fillna(df.mean())

Unnamed: 0,key,data1,data2
0,A,0.0,0.283584
1,B,1.0,0.098046
2,C,2.6,0.12098
3,A,3.0,0.353958
4,B,4.0,0.588828
5,C,5.0,0.67835


#### É possível calcular as médias do dataframe usando os métodos [`.groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby) e `.transform()`, agrupando o dataframe pela coluna `"key"`.

In [32]:
df.groupby(by = 'key').transform('mean')

Unnamed: 0,data1,data2
0,1.5,0.283584
1,2.5,0.343437
2,5.0,0.399665
3,1.5,0.283584
4,2.5,0.343437
5,5.0,0.399665


#### Também é possível realizar a utilizando o método `.fillna()`.

In [33]:
df.fillna(df.groupby('key').transform('mean'))

Unnamed: 0,key,data1,data2
0,A,0.0,0.283584
1,B,1.0,0.098046
2,C,5.0,0.12098
3,A,3.0,0.283584
4,B,4.0,0.588828
5,C,5.0,0.67835


## Tidy Data

Vamos trabalhar com alguns exemplos de messy data presentes no trabalho original de Whickham. 
A ideia é esbarrarmos com conjuntos de dados como eles poderiam existir no mundo real e passá-los para um formato com que as ferramentas padrão de mineração de dados e visualização possam trabalhar melhor, conforme as regras de "tidy data".

Vamos trabalhar com alguns tipos de conjuntos de dados desordenados:

#### Os nomes de colunas são valores, não variáveis

In [34]:
import pandas as pd
import datetime
from os import listdir
from os.path import isfile, join
import glob
import re


df = pd.read_csv("pew-raw.csv")
df

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40,$40-50,$50-75
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont Know / refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,224,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


#### Para reorganizar o conjunto de dados, utilizamos o método [`.melt()`](https://pandas.pydata.org/docs/reference/api/pandas.melt.html). Nos parâmetros, indicamos que a variável que vamos conservar é `"religion"` (é possível conservar mais variáveis). E que com o restante das colunas vamos construir uma nova variável onde cada coluna seja uma categoria.

In [35]:
df_ordenado = pd.melt(df, ["religion"], var_name = "income", value_name = "freq")
df_ordenado.head(10)

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Dont Know / refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovahs Witness,<$10k,20
9,Jewish,<$10k,19


* Para desfazer pode utilizar a função pivot_table
* Como a pivot_table usa o index do dataframe de saída como variável para a linha, é possível retornar os dados do índice para uma coluna usando a funcao reset_index

In [36]:
df_ordenado.pivot_table(index='religion',columns='income',values='freq').reset_index()

income,religion,$10-20k,$20-30k,$30-40,$40-50,$50-75,<$10k
0,Agnostic,34,60,81,76,137,27
1,Atheist,27,37,52,35,70,12
2,Buddhist,21,30,34,33,58,27
3,Catholic,617,732,670,638,1116,418
4,Dont Know / refused,14,15,11,10,35,15
5,Evangelical Prot,869,1064,982,881,1486,575
6,Hindu,9,7,9,11,34,1
7,Historically Black Prot,224,236,238,197,223,228
8,Jehovahs Witness,27,24,24,21,30,20
9,Jewish,19,25,25,30,95,19


#### Mais de um valor na mesma coluna

A seguir, vamos usar dados da OMS. O conjunto de dados é composto pela quantidade de casos de tuberculose observados por país, ano, sexo e idade.  

In [None]:
df = pd.read_csv("tb-raw.csv")
df

#### Para ordenar este conjunto de dados, vamos extrair os valores de sexo e idade, a fim de organizá-los em uma única coluna. Depois, vamos criar três colunas com base no conteúdo: sexo, idade_de e idade_até.

In [None]:
df = pd.melt(df, id_vars = ["country", "year"], value_name = "cases", var_name = "sex_and_age")
df.head()

#### Vamos realizar a extração de variáveis, com a ajudar das [expressões regulares](https://docs.python.org/3/library/re.html) e da função [`.str.extract()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.extract.html). Pedimos à função que ela divida o valor que recebe em três partes:
* (\D): Uma única letra ou caractere não numérico 
* (\d+): Um ou mais números (para dar conta de "idade de")
* (\d{2}): Dois dígitos

In [None]:
tmp_df = df["sex_and_age"].str.extract("(\D)(\d+)(\d{2})", expand = False)
tmp_df

In [None]:
pd.Series(['m014']).str.extract("(\D)(\d+)(\d{2})", expand = False)

#### Atribuímos os nomes `"sex"`, `"age_lower"` e  `"age_upper"` às colunas do dataframe `tmp_df`.

In [None]:
tmp_df.columns = ["sex", "age_lower", "age_upper"]
tmp_df

#### Criamos a coluna idade com base em `"age_lower"` e `"age_upper"`.

In [None]:
tmp_df["age"] = tmp_df["age_lower"] + "-" + tmp_df["age_upper"]
tmp_df

In [None]:
df

#### Unimos os dos conjuntos de dados com a ajuda da função [`.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html).

In [None]:
 df = pd.concat([df, tmp_df], axis = 1)
df.head()

In [None]:
df["age"].value_counts()

#### Conferimos a presença de valores faltantes.

In [None]:
np.sum(df.isnull())

#### Analisando os casos faltantes, observamos que a expressão regular não funcionou para mulheres com mais de 65 anos ou de idade indefinida.

In [None]:
df.loc[df['age'].isnull(), ]

In [None]:
df.loc[df['sex_and_age'] == 'm65', 'age'] = '65 or more'
df.loc[df['sex_and_age'] == 'm65', 'sex'] = 'm'
df.loc[df['age'].isnull(), ]
#df.tail()

#### Checamos se o número de nulos diminuiu.

In [None]:
np.sum(df.isnull())

#### Excluímos as colunas sobrantes.

In [None]:
df = df.drop(['sex_and_age',"age_lower","age_upper"], axis = 1)
df.head()

#### Como as pessoas com idade indefinida não apresentam nenhum caso, é correto eliminar esses faltantes com dropna.

In [None]:
df = df.dropna()
df = df.sort_values(["country", "year", "sex", "age"])
df.head(10)

## Ferramentas para a limpeza e manipulação de dados

#### O Pandas tem um conjunto de métodos que permitem operar sobre os elementos de um Dataframe ou uma Series. Para aplicar a lógica desejada, podemos definir funções com nome ou utilizar expressões lambda que depois não podem ser reutilizadas

* [pd.DataFrame.apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html): Opera sobre linhas ou colunas completas.
* [pd.DataFrame.applymap](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.applymap.html): Opera sobre cada um dos elementos do Dataframe.
* [pd.Series.apply](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html): Opera sobre cada um dos elementos da Série. 
* [pd.Series.map](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html): Opera sobre cada um dos elementos da Serie, muito parecido com Series.apply. 

### Função [`.apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html).

#### A função apply do Pandas permite realizar operações vetorizadas sobre os conjuntos de dados tanto linha por linha quanto coluna por coluna.

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 4), columns = ['a', 'b', 'c', 'd'])
df

#### Utilizamos `df.apply` para encontrar a raiz quadrada dos elementos de cada coluna. A quantidade `NaN` significa "Not a Number" e é o valor atribuído a operações inválidas, como a raiz de um número negativo. 

In [None]:
df.apply(np.sqrt)

#### O parâmetro `axis = 0` faz referência às colunas, esse é o eixo reduzido.

In [None]:
df.apply(np.mean, axis = 0)

#### Procuramos a média de todas as linhas, o parâmetro axis = 1 indica que a função é aplicada a cada linha. Observar que o apply anterior não alterou o conjunto de dados, mas criou uma cópia e depois a alterou. O conjunto de dados original conserva o mesmo valor.

In [None]:
df.apply(np.mean, axis = 1)

#### A função [`np.mean()`](https://numpy.org/doc/stable/reference/generated/numpy.mean.html) é uma função que vem definida em numpy, mas podemos querer aplicar uma função totalmente própria para, por exemplo, criar uma nova coluna que seja a adição entre as séries a e d. Isso pode ser feito com expressões lambda.

#### As funções map(), apply() e applymap() são muito convenientes para usar na limpeza de dados. 

#### Por exemplo, vamos supor que queremos tirar todos os acentos e caracteres próprios do espanhol de todas as strings de um Dataframe.

#### Além disso, queremos converter todas as letras para minúscula.

In [None]:
data = pd.DataFrame({'nome': ['Tomás','Carla','Paula'], 'sobrenome': ['Torres','López','Núñez']}, 
columns =['nome','sobrenome'])
data

In [None]:
#! conda install unidecode 
import unidecode
def quitar_caracteres(entrada):
    return str.lower(unidecode.unidecode(entrada))

In [None]:
data['sobrenome'].apply(quitar_caracteres)

In [None]:
data['sobrenome'].transform(quitar_caracteres)

In [None]:
data['sobrenome'].map(quitar_caracteres)

In [None]:
data.applymap(quitar_caracteres)