# **Limpeza e preparação de dados**

## **Tratando de dados ausentes:**

In [1]:
import pandas as pd
import numpy as np

In [2]:
nomes = pd.Series(['Matheus', 'Dercy', np.nan, 'Sergio'])
nomes

0    Matheus
1      Dercy
2        NaN
3     Sergio
dtype: object

In [3]:
nomes.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [4]:
nomes[1] = None
nomes

0    Matheus
1       None
2        NaN
3     Sergio
dtype: object

**Obs: *None* em arrays de objetos é igual a NA**

In [5]:
nomes.isnull()

0    False
1     True
2     True
3    False
dtype: bool

### **Métodos para tratamento de NA**

In [6]:
nomes.notnull()

0     True
1    False
2    False
3     True
dtype: bool

In [7]:
nomes.fillna('Ercy')

0    Matheus
1       Ercy
2       Ercy
3     Sergio
dtype: object

In [8]:
nomes.dropna(inplace=False)

0    Matheus
3     Sergio
dtype: object

In [9]:
nomes

0    Matheus
1       None
2        NaN
3     Sergio
dtype: object

### **Tratando de dados ausentes:**

#### **Trabalhando com Series:**

In [10]:
from numpy import nan as NA
dados = pd.Series([3, NA, 5, NA, 9])
dados

0    3.0
1    NaN
2    5.0
3    NaN
4    9.0
dtype: float64

#####**OBS: dados.dropna() é igual a dados[dados.notnull()]**

In [11]:
dados.dropna()

0    3.0
2    5.0
4    9.0
dtype: float64

In [12]:
dados[dados.notnull()]

0    3.0
2    5.0
4    9.0
dtype: float64

#### **Trabalhando com DF**

In [13]:
data = pd.DataFrame([[4., 7.5, 3.], [2., NA, NA], [NA, NA, NA], [NA, 6.5, 8.]])
data

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
2,,,
3,,6.5,8.0


#####**how='all' deleta os NaN do eixo inteiro passado apenas se todos os itens desse eixo forem NaN. Nesse caso, como eixo é zero, ele só deletou a coluna 2, cujo os itens eram todos NaN**

In [14]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
3,,6.5,8.0


In [15]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
1,2.0,,,
2,,,,
3,,6.5,8.0,


In [16]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,4.0,7.5,3.0
1,2.0,,
2,,,
3,,6.5,8.0


##### **O parâmetro thresh implica que no DF, no eixo selecionado (0 no caso) tem que no mínimo posssuir thresh valores não-NaN para o eixo continuar existindo**

In [17]:
data.dropna(thresh=2)

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
3,,6.5,8.0,


#####**Dropna() elimina todas as linhas que tenham NaN presente:**

In [18]:
limpeza = data.dropna()
limpeza

Unnamed: 0,0,1,2,4


In [19]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df

Unnamed: 0,0,1,2
0,-1.86204,,0.045077
1,0.743423,,0.585246
2,-1.262672,,-0.866252
3,0.527917,,0.628357
4,-0.462806,-0.287456,-0.222342
5,0.755303,-0.600891,0.447252
6,-0.621072,0.131778,-0.536385


In [20]:
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-1.86204,,
1,0.743423,,
2,-1.262672,,-0.866252
3,0.527917,,0.628357
4,-0.462806,-0.287456,-0.222342
5,0.755303,-0.600891,0.447252
6,-0.621072,0.131778,-0.536385


In [21]:
df.dropna()

Unnamed: 0,0,1,2
4,-0.462806,-0.287456,-0.222342
5,0.755303,-0.600891,0.447252
6,-0.621072,0.131778,-0.536385


### **Preenchendo dados ausentes:**

In [22]:
df.fillna(np.random.randint(0, 100))

Unnamed: 0,0,1,2
0,-1.86204,14.0,14.0
1,0.743423,14.0,14.0
2,-1.262672,14.0,-0.866252
3,0.527917,14.0,0.628357
4,-0.462806,-0.287456,-0.222342
5,0.755303,-0.600891,0.447252
6,-0.621072,0.131778,-0.536385


In [23]:
df.fillna('Exemplo')

Unnamed: 0,0,1,2
0,-1.86204,Exemplo,Exemplo
1,0.743423,Exemplo,Exemplo
2,-1.262672,Exemplo,-0.866252
3,0.527917,Exemplo,0.628357
4,-0.462806,-0.287456,-0.222342
5,0.755303,-0.600891,0.447252
6,-0.621072,0.131778,-0.536385


In [24]:
data.fillna(data.mean())

Unnamed: 0,0,1,2,4
0,4.0,7.5,3.0,
1,2.0,7.0,5.5,
2,3.0,7.0,5.5,
3,3.0,6.5,8.0,


#### **Obs: Se passar um dicionário no fillna, a key vira o número da coluna a ser preenchido, e o valor do dicionário vai ser o valor que vai ser preenchido na coluna determinada pela key do dicionário**

In [25]:
data.fillna({0:'Pares', 1: 'Quebrados', 2: 'Par Impar', 4: 'Ausentes'})

Unnamed: 0,0,1,2,4
0,4,7.5,3,Ausentes
1,2,Quebrados,Par Impar,Ausentes
2,Pares,Quebrados,Par Impar,Ausentes
3,Pares,6.5,8,Ausentes


## **Transformação de Dados:**

### **Removendo duplicatas:**

In [26]:
df2 = pd.DataFrame({'c1': ['um', 'dois'] * 3 + ['dois'], 'c2': [1, 1, 2, 3, 3, 4, 4]})
df2

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4
6,dois,4


#### **Duplicated retorna uma Series booleana informando se o item é uma duplicata (Se foi repetido na linha anterior)**

In [27]:
df2.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [28]:
df2.drop_duplicates()

Unnamed: 0,c1,c2
0,um,1
1,dois,1
2,um,2
3,dois,3
4,um,3
5,dois,4


In [29]:
df2['c3'] = range(7)
df2

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5
6,dois,4,6


##### **Obs: Drop_duplicates por uma única coluna tira todas as duplicatas da coluna. Do contrário, retorna o resultado de duplicated()**

In [30]:
df2.drop_duplicates(['c1'], keep='last')

Unnamed: 0,c1,c2,c3
4,um,3,4
6,dois,4,6


In [31]:
df2.drop_duplicates(['c1', 'c2'])

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5


In [32]:
df2.drop_duplicates(['c1', 'c2'])

Unnamed: 0,c1,c2,c3
0,um,1,0
1,dois,1,1
2,um,2,2
3,dois,3,3
4,um,3,4
5,dois,4,5


### **Transformando dados através de mapeamento:**

In [33]:
comidas = pd.DataFrame({'comida': ['bacon', 'porco puxado', 'bacon', 'Pastrami', 'carne enlatada', 'Bacon',
                                   'pastrami', 'presunto de mel', 'salmao marinado'],
                                   'gramas': [113, 85, 12, 170, 212.62, 228, 85, 142, 170]})
comidas

Unnamed: 0,comida,gramas
0,bacon,113.0
1,porco puxado,85.0
2,bacon,12.0
3,Pastrami,170.0
4,carne enlatada,212.62
5,Bacon,228.0
6,pastrami,85.0
7,presunto de mel,142.0
8,salmao marinado,170.0


#### **Se eu quisesse criar uma nova coluna de animais baseado na comida, precisaria criar um dicionário da comida e do animal, depois mapear com os dados originais**

In [34]:
carne_animal = {
    'bacon': 'porco',
    'porco puxado': 'porco',
    'pastrami': 'vaca',
    'carne enlatada': 'vaca',
    'presunto de mel': 'porco',
    'salmao marinado': 'salmao'
}
carne_animal

{'bacon': 'porco',
 'carne enlatada': 'vaca',
 'pastrami': 'vaca',
 'porco puxado': 'porco',
 'presunto de mel': 'porco',
 'salmao marinado': 'salmao'}

In [35]:
comidas_minusculo = comidas['comida'].str.lower()
comidas_minusculo

0              bacon
1       porco puxado
2              bacon
3           pastrami
4     carne enlatada
5              bacon
6           pastrami
7    presunto de mel
8    salmao marinado
Name: comida, dtype: object

In [36]:
comidas['animais'] = comidas_minusculo.map(carne_animal)
comidas

Unnamed: 0,comida,gramas,animais
0,bacon,113.0,porco
1,porco puxado,85.0,porco
2,bacon,12.0,porco
3,Pastrami,170.0,vaca
4,carne enlatada,212.62,vaca
5,Bacon,228.0,porco
6,pastrami,85.0,vaca
7,presunto de mel,142.0,porco
8,salmao marinado,170.0,salmao


### **Substituindo valores**

In [37]:
series = pd.Series([5., -999., 3, -999, -1000, 9])
series

0       5.0
1    -999.0
2       3.0
3    -999.0
4   -1000.0
5       9.0
dtype: float64

In [38]:
series.replace(-999, np.nan)

0       5.0
1       NaN
2       3.0
3       NaN
4   -1000.0
5       9.0
dtype: float64

#### **Para mais de um valor é necessário passar uma lista ou um dicionário**

In [39]:
series.replace([-999, -1000], np.nan)

0    5.0
1    NaN
2    3.0
3    NaN
4    NaN
5    9.0
dtype: float64

In [40]:
series.replace([-999, -1000], [15, np.nan])

0     5.0
1    15.0
2     3.0
3    15.0
4     NaN
5     9.0
dtype: float64

In [41]:
series.replace({-999:np.nan, -1000:'Mil negativo'})

0               5
1             NaN
2               3
3             NaN
4    Mil negativo
5               9
dtype: object

### **Renomeando índice dos eixos:**

In [42]:
prefeituras = pd.DataFrame(np.arange(1, 16).reshape((3, 5)), index=['Aichi', 'Fukuoka', 'Mie'], columns=['um', 'dois', 'tres', 'quatro', 'cinco'])
prefeituras

Unnamed: 0,um,dois,tres,quatro,cinco
Aichi,1,2,3,4,5
Fukuoka,6,7,8,9,10
Mie,11,12,13,14,15


In [43]:
maiusculas = lambda x: x[:7].upper()
prefeituras.index.map(maiusculas)

Index(['AICHI', 'FUKUOKA', 'MIE'], dtype='object')

In [44]:
prefeituras.rename(index=str.lower, columns=str.upper)

Unnamed: 0,UM,DOIS,TRES,QUATRO,CINCO
aichi,1,2,3,4,5
fukuoka,6,7,8,9,10
mie,11,12,13,14,15


####**Fazendo modificações in-place:**

In [45]:
prefeituras.index = prefeituras.index.map(maiusculas)
prefeituras

Unnamed: 0,um,dois,tres,quatro,cinco
AICHI,1,2,3,4,5
FUKUOKA,6,7,8,9,10
MIE,11,12,13,14,15


In [46]:
prefeituras.rename(index={'MIE': 'NAGANO'}, columns={'dois': 'segunda'}, inplace=True)
prefeituras

Unnamed: 0,um,segunda,tres,quatro,cinco
AICHI,1,2,3,4,5
FUKUOKA,6,7,8,9,10
NAGANO,11,12,13,14,15


### **Discretização e compartimentalização (binning):**

In [47]:
idades = [1, 50, 3, 20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32, 60, 59, 80, 91]

bins = [1, 18, 25, 45, 60, 100]

labels = ['Jovem', 'Jovem adulto', 'Meia-idade', 'Velho', 'Aposentados plus']

grupos = pd.cut(idades, bins)
grupos

[NaN, (45.0, 60.0], (1.0, 18.0], (18.0, 25.0], (18.0, 25.0], ..., (25, 45], (45, 60], (45, 60], (60, 100], (60, 100]]
Length: 19
Categories (5, interval[int64]): [(1, 18] < (18, 25] < (25, 45] < (45, 60] < (60, 100]]

In [48]:
grupos.categories

IntervalIndex([(1, 18], (18, 25], (25, 45], (45, 60], (60, 100]],
              closed='right',
              dtype='interval[int64]')

In [49]:
grupos.value_counts()

(1, 18]      1
(18, 25]     5
(25, 45]     6
(45, 60]     3
(60, 100]    3
dtype: int64

In [50]:
grupos2 = pd.cut(idades, bins, labels=labels)
grupos2.value_counts()

Jovem               1
Jovem adulto        5
Meia-idade          6
Velho               3
Aposentados plus    3
dtype: int64

#### **Se passarmos um número inteiro de compartimentos para cut, em vez de passar fronteiras explícitas, ele calculará compartimentos de tamanhos iguais com base nos valores mínimo e máximo dos dados**

In [51]:
dados2 = np.arange(20)
novo_grupo = pd.cut(dados, 4, precision=2)
novo_grupo.value_counts()

(7.5, 9.0]     1
(4.5, 6.0]     1
(2.99, 4.5]    1
(6.0, 7.5]     0
dtype: int64

#### **Obs: qcut divide em quantis, e precision faz um round**

In [52]:
dados3 = np.arange(30)
grupo_novo_2 = pd.qcut(dados3, 5, precision=2)
grupo_novo_2.value_counts()

(-0.01, 5.8]    6
(5.8, 11.6]     6
(11.6, 17.4]    6
(17.4, 23.2]    6
(23.2, 29.0]    6
dtype: int64

### **Detectando e filtrando valores discrepantes:**

In [54]:
val = pd.DataFrame(np.random.randn(1000, 4))
val

Unnamed: 0,0,1,2,3
0,-1.067770,0.636475,-0.088859,-0.396009
1,-1.583893,-1.576358,-0.109899,-1.303757
2,-0.499242,0.511351,-1.587928,0.389823
3,0.246387,-0.398666,-0.817846,1.483797
4,0.218594,0.599457,0.007972,1.637111
...,...,...,...,...
995,0.177239,0.859978,-0.178719,-1.678318
996,1.288108,1.400729,1.080921,-2.395860
997,0.280622,-0.340338,-0.467439,-0.614394
998,0.380465,1.920856,-0.142657,0.919025


In [56]:
val.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.005622,-0.003361,0.009334,0.077131
std,1.024721,0.990889,1.008764,1.01174
min,-2.859976,-3.153389,-3.55782,-3.460358
25%,-0.678719,-0.67776,-0.672855,-0.588528
50%,0.060218,-0.009173,0.053263,0.056577
75%,0.632795,0.686105,0.628005,0.760617
max,3.764229,2.840878,3.239903,3.703239


#### **Criando uma coluna e tirando os valores 3 e -3:**

In [87]:
coluna = val[2]
coluna[np.abs(coluna) > 3] = np.sign(coluna) *3
coluna[np.abs(coluna) > 3]

Series([], Name: 2, dtype: float64)

##### **Obs: np.sign devolve 1 e -1 no array com base no sinal do array ou DF, o que explica o -3 no exercício anterior**

In [92]:
np.sign(val)

Unnamed: 0,0,1,2,3
0,-1.0,1.0,-1.0,-1.0
1,-1.0,-1.0,-1.0,-1.0
2,-1.0,1.0,-1.0,1.0
3,1.0,-1.0,-1.0,1.0
4,1.0,1.0,1.0,1.0
...,...,...,...,...
995,1.0,1.0,-1.0,-1.0
996,1.0,1.0,1.0,-1.0
997,1.0,-1.0,-1.0,-1.0
998,1.0,1.0,-1.0,1.0
