# **Limpeza e preparação de dados**

## **Tratando de dados ausentes:**

In [19]:
import pandas as pd
import numpy as np

In [20]:
nomes = pd.Series(['Matheus', 'Dercy', np.nan, 'Sergio'])
nomes

0    Matheus
1      Dercy
2        NaN
3     Sergio
dtype: object

In [21]:
nomes.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [22]:
nomes[1] = None
nomes

0    Matheus
1       None
2        NaN
3     Sergio
dtype: object

**Obs: *None* em arrays de objetos é igual a NA**

In [23]:
nomes.isnull()

0    False
1     True
2     True
3    False
dtype: bool

### **Métodos para tratamento de NA**

In [24]:
nomes.notnull()

0     True
1    False
2    False
3     True
dtype: bool

In [25]:
nomes.fillna('Ercy')

0    Matheus
1       Ercy
2       Ercy
3     Sergio
dtype: object

In [26]:
nomes.dropna(inplace=False)

0    Matheus
3     Sergio
dtype: object

In [27]:
nomes

0    Matheus
1       None
2        NaN
3     Sergio
dtype: object

### **Tratando de dados ausentes:**

#### **Trabalhando com Series:**

In [28]:
from numpy import nan as NA
dados = pd.Series([3, NA, 5, NA, 9])
dados

0    3.0
1    NaN
2    5.0
3    NaN
4    9.0
dtype: float64

#####**OBS: dados.dropna() é igual a dados[dados.notnull()]**

In [29]:
dados.dropna()

0    3.0
2    5.0
4    9.0
dtype: float64

In [30]:
dados[dados.notnull()]

0    3.0
2    5.0
4    9.0
dtype: float64

#### **Trabalhando com DF**

In [31]:
data = pd.DataFrame([[4., 7.5, 3.], [2., NA, NA], [NA, NA, NA], [NA, 6.5, 8.]])
data

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
2,,,
3,,6.5,8.0


#####**how='all' deleta os NaN do eixo inteiro passado apenas se todos os itens desse eixo forem NaN. Nesse caso, como eixo é zero, ele só deletou a coluna 2, cujo os itens eram todos NaN**

In [32]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
3,,6.5,8.0


In [33]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
1,2.0,,,
2,,,,
3,,6.5,8.0,


In [34]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
2,,,
3,,6.5,8.0


##### **O parâmetro thresh implica que no DF, no eixo selecionado (0 no caso) tem que no mínimo posssuir thresh valores não-NaN para o eixo continuar existindo**

In [36]:
data.dropna(thresh=2)

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
3,,6.5,8.0,


#####**Dropna() elimina todas as linhas que tenham NaN presente:**

In [37]:
limpeza = data.dropna()
limpeza

Unnamed: 0,0,1,2,4


In [38]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df

Unnamed: 0,0,1,2
0,-1.762132,,0.702567
1,1.709991,,-0.048649
2,1.795858,,-0.185258
3,0.236471,,0.601216
4,-1.508801,0.171148,-0.996337
5,2.604315,-1.005382,-0.012075
6,0.070764,0.001978,1.001907


In [39]:
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-1.762132,,
1,1.709991,,
2,1.795858,,-0.185258
3,0.236471,,0.601216
4,-1.508801,0.171148,-0.996337
5,2.604315,-1.005382,-0.012075
6,0.070764,0.001978,1.001907


In [40]:
df.dropna()

Unnamed: 0,0,1,2
4,-1.508801,0.171148,-0.996337
5,2.604315,-1.005382,-0.012075
6,0.070764,0.001978,1.001907


### **Preenchendo dados ausentes:**

In [41]:
df.fillna(np.random.randint(0, 100))

Unnamed: 0,0,1,2
0,-1.762132,49.0,49.0
1,1.709991,49.0,49.0
2,1.795858,49.0,-0.185258
3,0.236471,49.0,0.601216
4,-1.508801,0.171148,-0.996337
5,2.604315,-1.005382,-0.012075
6,0.070764,0.001978,1.001907


In [42]:
df.fillna('Exemplo')

Unnamed: 0,0,1,2
0,-1.762132,Exemplo,Exemplo
1,1.709991,Exemplo,Exemplo
2,1.795858,Exemplo,-0.185258
3,0.236471,Exemplo,0.601216
4,-1.508801,0.171148,-0.996337
5,2.604315,-1.00538,-0.0120753
6,0.070764,0.0019778,1.00191


In [43]:
data.fillna(data.mean())

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
1,2.0,7.0,5.5,
2,3.0,7.0,5.5,
3,3.0,6.5,8.0,


#### **Obs: Se passar um dicionário no fillna, a key vira o número da coluna a ser preenchido, e o valor do dicionário vai ser o valor que vai ser preenchido na coluna determinada pela key do dicionário**

In [44]:
data.fillna({0:'Pares', 1: 'Quebrados', 2: 'Par Impar', 4: 'Ausentes'})

Unnamed: 0,0,1,2,4
0,4,7.5,3,Ausentes
1,2,Quebrados,Par Impar,Ausentes
2,Pares,Quebrados,Par Impar,Ausentes
3,Pares,6.5,8,Ausentes


## **Transformação de Dados:**

### **Removendo duplicatas:**

In [46]:
df2 = pd.DataFrame({'c1': ['um', 'dois'] * 3 + ['dois'], 'c2': [1, 1, 2, 3, 3, 4, 4]})
df2

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4
6,dois,4


#### **Duplicated retorna uma Series booleana informando se o item é uma duplicata (Se foi repetido na linha anterior)**

In [49]:
df2.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [50]:
df2.drop_duplicates()

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4


In [53]:
df2['c3'] = range(7)
df2

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5
6,dois,4,6


##### **Obs: Drop_duplicates por uma única coluna tira todas as duplicatas da coluna. Do contrário, retorna o resultado de duplicated()**

In [74]:
df2.drop_duplicates(['c1'], keep='last')

Unnamed: 0,c1,c2,c3
4,um,3,4
6,dois,4,6


In [65]:
df2.drop_duplicates(['c1', 'c2'])

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5


In [75]:
df2.drop_duplicates(['c1', 'c2'])

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5


### **Transformando dados através de mapeamento:**

In [77]:
comidas = pd.DataFrame({'comida': ['bacon', 'porco puxado', 'bacon', 'Pastrami', 'carne enlatada', 'Bacon',
                                   'pastrami', 'presunto de mel', 'salmao marinado'],
                                   'gramas': [113, 85, 12, 170, 212.62, 228, 85, 142, 170]})
comidas

Unnamed: 0,comida,gramas
0,bacon,113.0
1,porco puxado,85.0
2,bacon,12.0
3,Pastrami,170.0
4,carne enlatada,212.62
5,Bacon,228.0
6,pastrami,85.0
7,presunto de mel,142.0
8,salmao marinado,170.0


#### **Se eu quisesse criar uma nova coluna de animais baseado na comida, precisaria criar um dicionário da comida e do animal, depois mapear com os dados originais**

In [79]:
carne_animal = {
    'bacon': 'porco',
    'porco puxado': 'porco',
    'pastrami': 'vaca',
    'carne enlatada': 'vaca',
    'presunto de mel': 'porco',
    'salmao marinado': 'salmao'
}
carne_animal

{'bacon': 'porco',
 'carne enlatada': 'vaca',
 'pastrami': 'vaca',
 'porco puxado': 'porco',
 'presunto de mel': 'porco',
 'salmao marinado': 'salmao'}

In [83]:
comidas_minusculo = comidas['comida'].str.lower()
comidas_minusculo

0              bacon
1       porco puxado
2              bacon
3           pastrami
4     carne enlatada
5              bacon
6           pastrami
7    presunto de mel
8    salmao marinado
Name: comida, dtype: object

In [85]:
comidas['animais'] = comidas_minusculo.map(carne_animal)
comidas

Unnamed: 0,comida,gramas,animais
0,bacon,113.0,porco
1,porco puxado,85.0,porco
2,bacon,12.0,porco
3,Pastrami,170.0,vaca
4,carne enlatada,212.62,vaca
5,Bacon,228.0,porco
6,pastrami,85.0,vaca
7,presunto de mel,142.0,porco
8,salmao marinado,170.0,salmao
