<a href="https://colab.research.google.com/github/M-I-N1985/python_para_analise_de_dados_wes_mckinney/blob/main/capitulo_7_wes_mckinney.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpeza e preparação dos dados

###**Tratando dados ausentes**

In [1]:
import pandas as pd
import numpy as np
from numpy import nan as NA 

In [2]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [3]:
string_data.notnull()

0     True
1     True
2    False
3     True
dtype: bool

In [4]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
string_data[0] = None

In [6]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [7]:
tabela1 = {'Argumento': ['dropna', 'fillna', 'isnull', 'notnull'], 
           'Descrição': ['Filtra rótulos de eixos, baseado no fato de os valores para cada rótulo terem dados ausentes, com limites variados para a quantidade de dados ausentes a ser tolerada.', 
                                                                                 'Preenche os dados ausentes com algum valor ou utilizando um método de interpolação como "ffill" ou "bfill".', 
                                                                                 'Devolve valores booleanos informando quais valores estão ausentes/são NA.', 
                                                                                 'Negação de isnull.']}

In [8]:
tabela1 = pd.DataFrame(tabela1)
tabela1

Unnamed: 0,Argumento,Descrição
0,dropna,"Filtra rótulos de eixos, baseado no fato de os..."
1,fillna,Preenche os dados ausentes com algum valor ou ...
2,isnull,Devolve valores booleanos informando quais val...
3,notnull,Negação de isnull.


###**Filtrando dados ausentes**

In [9]:
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [10]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [11]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [12]:
cleaned = data.dropna()
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [13]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [14]:
data.dropna(how='all')  # por default axis=0, descarta somente a linha em que todos os elementos são NA

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [15]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [16]:
data.dropna(axis=1, how='all')  # axis=1 descarta somente a coluna em que todos os elementos são NA, poderia ser axis='columns'

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [17]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,-0.032284,-0.150273,0.95352
1,1.845178,0.362856,-0.425938
2,0.338277,0.947275,-0.596311
3,-0.250351,0.155022,-0.915642
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


In [18]:
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-0.032284,,
1,1.845178,,
2,0.338277,,-0.596311
3,-0.250351,,-0.915642
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


In [19]:
df.dropna()

Unnamed: 0,0,1,2
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


In [20]:
df.dropna(thresh=2)  # como dropna exclui toda linha se houver algum elemento com NA, então o argumento fresh indica até qual linha vai essa exclusão

Unnamed: 0,0,1,2
2,0.338277,,-0.596311
3,-0.250351,,-0.915642
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


###**Preenchendo dados ausentes**

In [21]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.032284,0.0,0.0
1,1.845178,0.0,0.0
2,0.338277,0.0,-0.596311
3,-0.250351,0.0,-0.915642
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


In [22]:
df.fillna({1:0.5, 2:0})  # preenchendo com valores diferentes para as colunas selecionadas

Unnamed: 0,0,1,2
0,-0.032284,0.5,0.0
1,1.845178,0.5,0.0
2,0.338277,0.5,-0.596311
3,-0.250351,0.5,-0.915642
4,1.339705,0.811105,0.459523
5,1.12349,0.31175,0.588525
6,-0.478822,-0.369159,0.986035


In [23]:
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = np.nan  # np.nan retorna nan
df.iloc[4:,2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.965498,-1.552688,0.55127
1,-0.295616,-0.390478,-0.921186
2,-1.07633,,-1.556244
3,0.241279,,1.318517
4,1.937329,,
5,-0.761262,,


In [24]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.965498,-1.552688,0.55127
1,-0.295616,-0.390478,-0.921186
2,-1.07633,-0.390478,-1.556244
3,0.241279,-0.390478,1.318517
4,1.937329,-0.390478,1.318517
5,-0.761262,-0.390478,1.318517


In [25]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-0.965498,-1.552688,0.55127
1,-0.295616,-0.390478,-0.921186
2,-1.07633,-0.390478,-1.556244
3,0.241279,-0.390478,1.318517
4,1.937329,,1.318517
5,-0.761262,,1.318517


In [26]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [27]:
tabela2 = {'Argumento': ['value', 'method', 'axis', 'inplace', 'limit'], 
           'Descrição': ['Valor escalar ou um objeto do tipo dicionário a ser usado para preencher valores ausentes',
                         'Interpolação; por padrão, será "ffill" se a função for chamada sem outros argumentos',
                         'Eixo a ser preenchido; o default é axis=0',
                         'Modifica o objeto que faz a chamada, sem gerar uma cópia',
                         'Para preenchimento para a frente (forward) e para trás (backward), é o número máximo de valores consecutivos a serem preenchidos']}

In [28]:
tabela2 = pd.DataFrame(tabela2)
tabela2

Unnamed: 0,Argumento,Descrição
0,value,Valor escalar ou um objeto do tipo dicionário ...
1,method,"Interpolação; por padrão, será ""ffill"" se a fu..."
2,axis,Eixo a ser preenchido; o default é axis=0
3,inplace,"Modifica o objeto que faz a chamada, sem gerar..."
4,limit,Para preenchimento para a frente (forward) e p...


#**Transformação de dados**

###**Removendo duplicatas**

In [29]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2':[1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [30]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [31]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [32]:
data['v1'] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [33]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


In [34]:
data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


###**Transformando dados usando uma função ou um mapeamento**

In [35]:
carnes = pd.DataFrame({'comida':['bacon', 'carne de porco desfiada', 'bacon',
                                 'Pastrami', 'carne enlatada', 'Bacon',
                                 'pastrami', 'presunto', 'nova lox'], 
                       'gramas': [100, 75, 300, 150, 190, 200, 75, 125, 150]})

carnes

Unnamed: 0,comida,gramas
0,bacon,100
1,carne de porco desfiada,75
2,bacon,300
3,Pastrami,150
4,carne enlatada,190
5,Bacon,200
6,pastrami,75
7,presunto,125
8,nova lox,150


In [36]:
carne_animal = {
    'bacon': 'porco',
    'carne de porco desfiada': 'porco',
    'pastrami': 'vaca',
    'carne enlatada': 'vaca',
    'presunto': 'porco',
    'nova lox': 'salmão'
    }
carne_animal

{'bacon': 'porco',
 'carne de porco desfiada': 'porco',
 'pastrami': 'vaca',
 'carne enlatada': 'vaca',
 'presunto': 'porco',
 'nova lox': 'salmão'}

In [37]:
letra_minuscula = carnes['comida'].str.lower()
letra_minuscula

0                      bacon
1    carne de porco desfiada
2                      bacon
3                   pastrami
4             carne enlatada
5                      bacon
6                   pastrami
7                   presunto
8                   nova lox
Name: comida, dtype: object

In [38]:
carnes['animal'] = letra_minuscula.map(carne_animal)
carnes

Unnamed: 0,comida,gramas,animal
0,bacon,100,porco
1,carne de porco desfiada,75,porco
2,bacon,300,porco
3,Pastrami,150,vaca
4,carne enlatada,190,vaca
5,Bacon,200,porco
6,pastrami,75,vaca
7,presunto,125,porco
8,nova lox,150,salmão


In [39]:
carnes['comida'].map(lambda x: carne_animal[x.lower()])

0     porco
1     porco
2     porco
3      vaca
4      vaca
5     porco
6      vaca
7     porco
8    salmão
Name: comida, dtype: object

In [40]:
carnes


Unnamed: 0,comida,gramas,animal
0,bacon,100,porco
1,carne de porco desfiada,75,porco
2,bacon,300,porco
3,Pastrami,150,vaca
4,carne enlatada,190,vaca
5,Bacon,200,porco
6,pastrami,75,vaca
7,presunto,125,porco
8,nova lox,150,salmão


*map pode ser usado para modificar um subconjunto de valores em um objeto, porém replace oferece uma forma mais simples e mais flexível de fazer isso*

In [41]:
dados = pd.Series([1., -999., 2., -999., -1000., 3.])
dados

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [42]:
dados.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [43]:
dados.replace([-999,-1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [44]:
dados.replace([-999,-1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [45]:
dados.replace({-999: np.nan, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

In [46]:
dados

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [47]:
dados.replace([-999,-1000], np.nan, inplace=True)  # lembrando que inplace muda a variavel

In [48]:
dados

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

In [49]:
dados = pd.DataFrame(np.arange(12). reshape((3, 4)), index=['Ohio', 'Colorado', 'New York'], columns=['one', 'two', 'three', 'four'])
dados

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [50]:
transformar = lambda x: x[:4].upper()
dados.index.map(transformar)

Index(['OHIO', 'COLO', 'NEW '], dtype='object')

In [51]:
dados.index = dados.index.map(transformar)
dados

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [52]:
dados.rename(index=str.title, columns=str.upper)  # versão transformada de um conjunto de dados sem modificar os dados originais

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colo,4,5,6,7
New,8,9,10,11


In [53]:
dados

Unnamed: 0,one,two,three,four
OHIO,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [54]:
dados.rename(index={'OHIO':'INDIANA'}, columns={'three': 'peekaboo'})  # rename evita que você tenha o trabalho de copiar o DataFrame manualmente e definir seus atributos index e columns

Unnamed: 0,one,two,peekaboo,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


In [55]:
dados.rename(index={'OHIO': 'INDIANA'}, inplace=True)
dados

Unnamed: 0,one,two,three,four
INDIANA,0,1,2,3
COLO,4,5,6,7
NEW,8,9,10,11


###**Discretização e compartimentalização (binning)**

In [56]:
idades = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
idades

[20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [57]:
bins = [18, 25, 35, 60, 100]
categorias = pd.cut(idades, bins)
categorias

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [58]:
categorias.codes  # informa qual o numero da categoria

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [59]:
categorias.categories  # closed = 'right', dtype='interval[int64]'

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

In [60]:
pd.value_counts(categorias)

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [61]:
pd.cut(idades,[18, 26, 36, 61, 100], right=False)  # convertendo em um conjunto aberto a direita

[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Length: 12
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]

In [62]:
fases = ['Juventude', 'Jovem adulto', 'meia idade', 'senhor']
pd.cut(idades, bins, labels=fases)

['Juventude', 'Juventude', 'Juventude', 'Jovem adulto', 'Juventude', ..., 'Jovem adulto', 'senhor', 'meia idade', 'meia idade', 'Jovem adulto']
Length: 12
Categories (4, object): ['Juventude' < 'Jovem adulto' < 'meia idade' < 'senhor']

In [63]:
dados = np.random.rand(20)
pd.cut(dados, 4, precision=2)  # precision=2 limita a precisão decimal em dois dígitos

[(0.73, 0.96], (0.26, 0.49], (0.26, 0.49], (0.023, 0.26], (0.023, 0.26], ..., (0.73, 0.96], (0.73, 0.96], (0.023, 0.26], (0.26, 0.49], (0.73, 0.96]]
Length: 20
Categories (4, interval[float64, right]): [(0.023, 0.26] < (0.26, 0.49] < (0.49, 0.73] <
                                           (0.73, 0.96]]

In [64]:
dados = np.random.randn(1000)  # normalmente distribuidos
categorias = pd.qcut(dados, 4)  # separa em quantis
categorias

[(-0.044, 0.705], (-3.243, -0.688], (-3.243, -0.688], (-0.688, -0.044], (0.705, 3.115], ..., (-3.243, -0.688], (-0.688, -0.044], (0.705, 3.115], (-3.243, -0.688], (-3.243, -0.688]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.243, -0.688] < (-0.688, -0.044] < (-0.044, 0.705] <
                                           (0.705, 3.115]]

In [65]:
pd.value_counts(categorias)

(-3.243, -0.688]    250
(-0.688, -0.044]    250
(-0.044, 0.705]     250
(0.705, 3.115]      250
dtype: int64

In [66]:
categorias2 = pd.qcut(dados, [0, 0.1, 0.5, 0.9, 1.])  # mumeros de 0 a 1
categorias2

[(-0.044, 1.274], (-1.178, -0.044], (-1.178, -0.044], (-1.178, -0.044], (1.274, 3.115], ..., (-3.243, -1.178], (-1.178, -0.044], (-0.044, 1.274], (-3.243, -1.178], (-1.178, -0.044]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.243, -1.178] < (-1.178, -0.044] < (-0.044, 1.274] <
                                           (1.274, 3.115]]

In [67]:
pd.value_counts(categorias2)

(-1.178, -0.044]    400
(-0.044, 1.274]     400
(-3.243, -1.178]    100
(1.274, 3.115]      100
dtype: int64

###**Detectando e filtrando valores discrepantes**

In [68]:
dados = pd.DataFrame(np.random.randn(1000, 4))
dados

Unnamed: 0,0,1,2,3
0,0.225719,0.635576,1.705875,1.612022
1,-0.043587,-0.775607,-1.218592,0.363354
2,0.307768,0.880430,0.741296,-0.179582
3,1.557013,0.314401,-1.591135,-0.740818
4,0.397101,-0.025567,-0.533273,-0.395857
...,...,...,...,...
995,-0.852411,0.281496,-0.653124,-0.910880
996,-0.719754,0.865845,0.878914,-0.208091
997,0.650972,-0.195065,0.245994,0.526499
998,0.849615,0.125165,-0.718271,-1.173789


In [69]:
dados.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.028458,0.029411,-0.028438,0.028773
std,0.992442,1.01301,0.981192,1.002553
min,-3.520321,-3.239614,-3.177435,-2.674977
25%,-0.697169,-0.649524,-0.664552,-0.64057
50%,-0.027768,0.037747,-0.040178,0.017872
75%,0.70458,0.695622,0.645688,0.672602
max,3.098523,3.128751,3.868666,3.555506


In [70]:
col2 = dados[2]
col2

0      1.705875
1     -1.218592
2      0.741296
3     -1.591135
4     -0.533273
         ...   
995   -0.653124
996    0.878914
997    0.245994
998   -0.718271
999   -1.439647
Name: 2, Length: 1000, dtype: float64