Limpeza e preparação dos dados

1. Como tratar dados ausentes

In [38]:
import pandas as pd
import numpy as np

In [39]:
string_data = pd.Series(['fusrodah', 'midvrshaan', np.nan, 'dragon shouts'])
string_data

0         fusrodah
1       midvrshaan
2              NaN
3    dragon shouts
dtype: object

In [40]:
string_data.isnull()    

0    False
1    False
2     True
3    False
dtype: bool

In [41]:
# o valor do Python 'None' também é tratado como NA em arrays de objetos
string_data[0] = None

string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [42]:
string_data.notnull() # negação do isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [43]:
# dropna() remove valores faltantes

# NaT é um dado de data faltante
df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'], "toy": [np.nan, 'Batmobile', 'Bullwhip'], 
                   "born": [pd.NaT, pd.Timestamp("1940-04-25"), pd.NaT]})

df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [44]:
df.dropna() # axis='index' é o padrão

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25


In [45]:
df.dropna(axis='columns') # remove colunas em que há valores faltantes

Unnamed: 0,name
0,Alfred
1,Batman
2,Catwoman


In [46]:
# df.dropna(how='all') # remove todas as linhas em que todos os seus elementos estão faltando
df.dropna(thresh=2) # mantém linhas com pelo menos 2 valores não faltantes

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [47]:
df.dropna(subset=['name', 'toy']) # define em quais colunas procurar por valores faltantes

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


Filtrando dados ausentes

podemos usar o pandas.isnull() e usar uma indexação booleana, mas o método dropna pode ser útil

In [48]:
from numpy import nan as NA

data = pd.Series([1, NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [49]:
data_bool = data.notnull()
data[data_bool]
# ou somente: data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [50]:
# ou usando o dropna()
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

usando dropna com DataFrames

In [51]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [52]:
# padrão: excluir as linhas que têm um valor ausente
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [53]:
data.dropna(axis='columns')

0
1
2
3


In [54]:
# exclui uma linha que tenha todos os elementos como NaN
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [55]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,1.007472,-0.437762,-0.271396
1,0.570995,-0.433855,-1.540627
2,0.405489,-2.100003,-0.386882
3,-2.598725,-0.161161,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


In [56]:
df.iloc[:4, 1] = pd.NA
df.iloc[:2, 2] = pd.NA
df

Unnamed: 0,0,1,2
0,1.007472,,
1,0.570995,,
2,0.405489,,-0.386882
3,-2.598725,,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


In [57]:
df.dropna()

Unnamed: 0,0,1,2
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


In [58]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,0.405489,,-0.386882
3,-2.598725,,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


Preenchendo dados ausentes usando fillna

In [59]:
df.fillna(0)

Unnamed: 0,0,1,2
0,1.007472,0.0,0.0
1,0.570995,0.0,0.0
2,0.405489,0.0,-0.386882
3,-2.598725,0.0,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


In [60]:
df.fillna({1: 0.5, 2: 0}) # chave é a coluna, valor é aquele que ficará no lugar do dado faltante

Unnamed: 0,0,1,2
0,1.007472,0.5,0.0
1,0.570995,0.5,0.0
2,0.405489,0.5,-0.386882
3,-2.598725,0.5,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


fillna devolve um novo objeto, mas o objeto pode ser alterado in-place

In [61]:
_ = df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,1.007472,0.0,0.0
1,0.570995,0.0,0.0
2,0.405489,0.0,-0.386882
3,-2.598725,0.0,-1.070456
4,-0.887671,-0.874553,-0.126859
5,1.551969,0.021484,-0.677648
6,-0.891283,-0.334992,-0.834026


In [62]:
data = pd.Series([1., NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [63]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

Transformação de dados

2. Removendo duplicatas: sempre podemos encontrar linhas duplicadas em um DataFrame

In [64]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [65]:
# duplicated de DataFrame devolve uma Series booleana informando se a linha é uma duplicata
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [66]:
# drop_duplicates devolve um DataFrame com dados em que o array duplicated é False
data.drop_duplicates() # ou data[~(data.duplicated())]

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


esse método considera todas as colunas, mas podemos passar um subconjunto específico na detecção de duplicatas.

In [67]:
data['v1'] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [68]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


drop_duplicates, por padrão, mantém a primeira combinação de valores observados. Passar keep='last' devolverá a última.

In [69]:
data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


transformando dados usando função ou um mapeamento

In [70]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 'Bacon', 'pastrami', 'honey ham', 'nova lox'], 
										 'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [71]:
# vamos adicionar uma coluna com o tipo de animal
meat_to_animal = {
	'bacon': 'pig',
	'pulled pork': 'pig',
	'pastrami': 'cow',
	'corned beef': 'cow',
	'honey ham': 'pig',
	'nova lox': 'salmon'
}

In [72]:
# precisamos converter os dados do DataFrame para que todos tenham letras minúsculas!
lowercased =  data['food'].str.lower()
lowercased

0          bacon
1    pulled pork
2          bacon
3       pastrami
4    corned beef
5          bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

In [73]:
lowercased.map(meat_to_animal)

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

In [75]:
data['animal'] = lowercased.map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


In [79]:
# poderíamos usar uma função
data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

explicando a instrução usada acima `data['food'].map(lambda x: meat_to_animal[x.lower()])`

 - `data['food']` seleciona a coluna 'food'
 - `.map()` aplica uma função a cada elemento da coluna do DataFrame
 - `lambda x: meat_to_animal[x.lower()]` função aplicada a cada elemento da coluna 'food'; a função lambda pega cada elemento da coluna 'food', converte para minúscula com `.lower()` e usa esse valor para buscar um valor correspondente no dicionário ‘meat_to_animal’.

usar map é uma forma de fazer transformações em todos os elementos e executar outras operações relacionadas à limpeza de dados.

3. substituindo valores

In [80]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [81]:
# '-999' podem ser valores de sentinela para dados faltantes e podemos substituir isso por NA com replace, gerando uma nova Series
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [82]:
# para substituir vários valores de uma vez, passamos uma lista com estes valores
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [83]:
# para um substituto diferente para cada valor, passamos uma lista com eles
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [None]:
# ou usando um dicionário
data.replace({-999: np.nan, -1000: 0})

4. renomeando os índices dos eixos

In [84]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)), index=['Ohio', 'Colorado', 'New York'], columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [85]:
transform = lambda x: x[:4].upper()
data.index.map(transform)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [86]:
data.index = data.index.map(transform)
data

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


podemos criar uma versão transformada de um conjunto de dados sem modificar os dados originais usando rename

In [87]:
data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [88]:
# podemos passar um dicionário com os novos valores (apenas os que serão alterados)
data.rename(index={'OHIO': 'INDIANA'}, columns={'three': 'peekaboo'})

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [89]:
# para modificar o DataFrame in-place
data.rename(index={'OHIO': 'INDIANA'}, inplace=True)
data

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


5. discretização [é o processo de dividir os dados em partes menores e menos complexas] e compartimentação (binning) [é separar os dados em compartimentos para análise]

In [91]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

dividiremos esses dados em compartimentos de 18 a 25, 26 a 35, 36 a 60 e, por fim, 61 anos ou mais usando a função cut do Pandas

In [92]:
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [93]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [94]:
pd.value_counts(cats)

  pd.value_counts(cats)


(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: count, dtype: int64

In [95]:
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, bins, labels=group_names)

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']

6. detectando e filtrando valores discrepantes (outliers)

In [96]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.029634,-0.035816,0.002709,0.006638
std,0.971909,1.006304,1.000783,0.968816
min,-2.677721,-2.867395,-3.660216,-2.808839
25%,-0.626186,-0.695598,-0.6355,-0.657057
50%,0.037965,-0.052232,-0.007005,-0.047069
75%,0.653998,0.633348,0.703661,0.671411
max,3.611915,3.554272,3.403825,2.869965


In [98]:
data

Unnamed: 0,0,1,2,3
0,0.215398,-0.425607,0.977153,-2.808839
1,-0.847209,-0.908558,1.842616,1.071452
2,2.136377,1.406344,-1.079032,-0.136328
3,1.247796,-0.630712,0.141120,0.151278
4,0.272453,-0.642829,-0.709462,0.022490
...,...,...,...,...
995,0.451864,-0.266132,-0.511319,-0.092869
996,0.685742,-0.240667,0.867277,0.824232
997,-0.297733,0.818149,0.747437,-1.022632
998,0.659538,-1.078043,0.012329,-0.017637


In [97]:
# para encontrar valores que excedem 3 em valor absoluto em uma das colunas, por exemplo
col = data[2]
col

0      0.977153
1      1.842616
2     -1.079032
3      0.141120
4     -0.709462
         ...   
995   -0.511319
996    0.867277
997    0.747437
998    0.012329
999    1.753969
Name: 2, Length: 1000, dtype: float64

In [99]:
col[np.abs(col) > 3]

208   -3.660216
618    3.157628
747    3.403825
Name: 2, dtype: float64

`sign()` retorna -1 if x < 0, 0 if x==0, 1 if x > 0. nan é retornado para nan inputs

In [107]:
# eliminar os valores que estejam fora do intervalo de –3 a 3
data[np.abs(data) > 3] = np.sign(data) * 3
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.028515,-0.03654,0.002808,0.006638
std,0.968237,1.003948,0.996797,0.968816
min,-2.677721,-2.867395,-3.0,-2.808839
25%,-0.626186,-0.695598,-0.6355,-0.657057
50%,0.037965,-0.052232,-0.007005,-0.047069
75%,0.653998,0.633348,0.703661,0.671411
max,3.0,3.0,3.0,2.869965


7. permutação e amostragem aleatória: permutar (que é reordenar aleatoriamente) uma Series ou as linhas de um DataFrame pode ser feito utilizando a função numpy.random.permutation

In [109]:
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [110]:
sampler = np.random.permutation(5)
sampler

array([0, 1, 3, 2, 4])

In [111]:
# esse array  pode ser usado na indexação baseada em iloc ou na função take equivalente
df.take(sampler) # ou df.iloc[sampler]

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
2,8,9,10,11
4,16,17,18,19


In [116]:
# selecionar um subconjunto aleatório sem substituição
df.sample(n=3)

Unnamed: 0,0,1,2,3
1,4,5,6,7
0,0,1,2,3
2,8,9,10,11


In [118]:
# para gerar uma amostra com substituição (a fim de permitir opções repetidas), usamos replace=True
choices = pd.Series([5, 7, -1, 6, 4])
draws = choices.sample(n=10, replace=True)
draws

3    6
0    5
0    5
4    4
2   -1
0    5
4    4
2   -1
3    6
3    6
dtype: int64

8. calculando variáveis indicadores/dummy: se uma coluna em um DataFrame tiver k valores distintos, poderíamos derivar uma matriz ou um DataFrame com k colunas contendo somente 1s e 0s

In [120]:
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
df

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [121]:
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,False,True,False
1,False,True,False
2,True,False,False
3,False,False,True
4,True,False,False
5,False,True,False


In [122]:
dummies = pd.get_dummies(df['key'], prefix='key')
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,False,True,False
1,1,False,True,False
2,2,True,False,False
3,3,False,False,True
4,4,True,False,False
5,5,False,True,False


Manipulação de Strings