# Nesse código vou explorar um pouco da limpeza dos dados utilizando as bibliotecas do python

In [3]:
import numpy as np
from numpy import nan as NA
import pandas as pd

- Dropna: Filtra rótulos de eixos, baseado no fato de os valores para cada rótulo terem dados ausentes, com limites variados para a quantidade de dados ausentes a ser tolerada
- fillna: Preenche os dados ausentes com algum valor mencionado
- isnull: Devolve boleanos informando quais valores são null ou não
- notnull: o inverso do isnull

In [19]:
df = pd.Series([1,2,NA,4,5,6,NA])
df

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
5    6.0
6    NaN
dtype: float64

In [20]:
df.dropna()

0    1.0
1    2.0
3    4.0
4    5.0
5    6.0
dtype: float64

In [21]:
df[df.notnull()]

0    1.0
1    2.0
3    4.0
4    5.0
5    6.0
dtype: float64

In [22]:
df[df.isnull()]

2   NaN
6   NaN
dtype: float64

In [23]:
df.isnull()

0    False
1    False
2     True
3    False
4    False
5    False
6     True
dtype: bool

In [24]:
df.fillna(0)

0    1.0
1    2.0
2    0.0
3    4.0
4    5.0
5    6.0
6    0.0
dtype: float64

#### Agora será feito a mesma ideia para dataframe

In [25]:
df_matrix = pd.DataFrame([[5, 10.5, 7], [15, NA, NA], [NA, NA, NA]])
df_matrix

Unnamed: 0,0,1,2
0,5.0,10.5,7.0
1,15.0,,
2,,,


In [26]:
df_matrix.dropna()

Unnamed: 0,0,1,2
0,5.0,10.5,7.0


In [28]:
#Remove apenas as linhas que possui tudo como NA
df_matrix.dropna(how = 'all')

Unnamed: 0,0,1,2
0,5.0,10.5,7.0
1,15.0,,


In [29]:
#Remove apenas as colunas que possui tudo como NA
df_matrix.dropna(axis = 1, how = 'all')

Unnamed: 0,0,1,2
0,5.0,10.5,7.0
1,15.0,,
2,,,


In [32]:
#Ao chamar fillna() podemos passar um valor para ser preenchido em cada coluna
df_matrix.fillna({0: 99, 1: 199, 2: 299}) 

Unnamed: 0,0,1,2
0,5.0,10.5,7.0
1,15.0,199.0,299.0
2,99.0,199.0,299.0


#### Argumentos da função fillna
- value: valor a ser usado para preencher os valores ausentes
- axis: eixo a ser preenchido. O padrão é 0 que são as linhas
- inplace: Modifica o objeto que faz a chamada sem gerar uma cópia. O padrão é False
- limit: Para preenchimento para a frent (forward) e para tras (backward). É o número áximo de valores consecutivos a serem preenchidos

# Transformação dos Dados

In [35]:
df = pd.DataFrame({'c1': ['um', 'dois'] * 4 + ['dois'],
                  'c2': [1,1,2,3,3,4,4,5,5]})
df

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4
6,um,4
7,dois,5
8,dois,5


In [37]:
#informa se tem alguma duplicidade nas linhas.
df.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8     True
dtype: bool

In [38]:
#A próxima função retorna a base e elimina o duplicated = True
df.drop_duplicates()

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4
6,um,4
7,dois,5


In [41]:
#A próxima função retorna a base e elimina o duplicated = True e mantem a última observação
df.drop_duplicates(['c1', 'c2'], keep = 'last') #perceba que a linha 7 não aparece

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4
6,um,4
8,dois,5


In [42]:
#Se quiser eliminar com base em apenas uma coluna
df.drop_duplicates(['c1'])

Unnamed: 0,c1,c2
0,um,1
1,dois,1


##### Transformação com mapeamento ou função

In [19]:
dados = pd.DataFrame({'food': ['bacon', 'Pulled pork', 'Bacon', 'pastrami', 'CORNED BEEF', 'BaCoN', 'pastrami',
                              'honey ham', 'nova lox'],
                      'ounces': [1,2,3,4,5,6.7,10.2,4.5,1.9]})
dados

Unnamed: 0,food,ounces
0,bacon,1.0
1,Pulled pork,2.0
2,Bacon,3.0
3,pastrami,4.0
4,CORNED BEEF,5.0
5,BaCoN,6.7
6,pastrami,10.2
7,honey ham,4.5
8,nova lox,1.9


In [23]:
#Cria um map (dicionário) com os nome dos animais
meat_animal = ({'bacon' : 'pig', 'pulled pork': 'pig', 'pastrami': 'cow', 'corned beef': 'cow', 'honey ham': 'pig',
              'nova lox': 'salmon'})
meat_animal

{'bacon': 'pig',
 'pulled pork': 'pig',
 'pastrami': 'cow',
 'corned beef': 'cow',
 'honey ham': 'pig',
 'nova lox': 'salmon'}

In [21]:
#Como podemos ter dados com letras maiusculas e minusculas, primeiro vamos colocar todas as palavras em minusculas para ser
#igual ao dicionário que foi criado
minusculas = dados['food'].str.lower()
minusculas

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [17]:
#agora vamos usar o map (dicionário)
dados['animal'] = minusculas.map(meat_animal)
dados

Unnamed: 0,food,ounces,animal
0,bacon,1.0,pig
1,Pulled pork,2.0,pig
2,Bacon,3.0,pig
3,pastrami,4.0,cow
4,CORNED BEEF,5.0,cow
5,BaCoN,6.7,pig
6,pastrami,10.2,cow
7,honey ham,4.5,pig
8,nova lox,1.9,salmon


In [26]:
#O mesmo processo poderia ter sido feito com a seguinte função lambda
dados['food'].map(lambda x: meat_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

# Compartimentos (bins)

In [69]:
idade = np.random.randint(15,100,20)
idade

array([15, 34, 67, 94, 32, 54, 26, 81, 60, 70, 46, 29, 54, 83, 29, 63, 35,
       56, 40, 61])

In [60]:
#informando os valores dos bins
bins = [15, 25, 35, 60, 100]

In [61]:
compart = pd.cut(idade, bins)
compart

[(35, 60], (35, 60], (60, 100], (35, 60], (15, 25], ..., (15, 25], (35, 60], (35, 60], (35, 60], (60, 100]]
Length: 20
Categories (4, interval[int64]): [(15, 25] < (25, 35] < (35, 60] < (60, 100]]

In [62]:
#categoria de cada bin divido de acordo com os intervalos impresso acima
compart.codes

array([2, 2, 3, 2, 0, 3, 3, 3, 3, 2, 3, 3, 0, 2, 1, 0, 2, 2, 2, 3],
      dtype=int8)

In [64]:
#Informa a quantidade de valores em cada compartimento (bins / classes)
compart.value_counts()

(15, 25]     3
(25, 35]     1
(35, 60]     8
(60, 100]    8
dtype: int64

In [65]:
#Podemos passas labels para os bins (aqui criei alguns nomes que as vezes não faz sentido apenas para representar as classes)
group_names = ['Infato_juvenil', 'Jovem', 'Adulto', 'Idoso']
pd.cut(idade, bins, labels = group_names)

[Adulto, Adulto, Idoso, Adulto, Infato_juvenil, ..., Infato_juvenil, Adulto, Adulto, Adulto, Idoso]
Length: 20
Categories (4, object): [Infato_juvenil < Jovem < Adulto < Idoso]

In [66]:
#Utilizando qcut para pegar os quantis da amostra
pd.qcut(idade, 4)

[(42.75, 53.0], (42.75, 53.0], (66.5, 98.0], (42.75, 53.0], (17.999, 42.75], ..., (17.999, 42.75], (53.0, 66.5], (42.75, 53.0], (53.0, 66.5], (66.5, 98.0]]
Length: 20
Categories (4, interval[float64]): [(17.999, 42.75] < (42.75, 53.0] < (53.0, 66.5] < (66.5, 98.0]]

In [73]:
#Podemos passar os quantis caso seja necessário
pd.qcut(idade, [0, 0.25, 0.5, 0.75])

[(14.999, 33.5], (33.5, 54.0], NaN, NaN, (14.999, 33.5], ..., (54.0, 64.0], (33.5, 54.0], (54.0, 64.0], (33.5, 54.0], (54.0, 64.0]]
Length: 20
Categories (3, interval[float64]): [(14.999, 33.5] < (33.5, 54.0] < (54.0, 64.0]]