<a href="https://colab.research.google.com/github/M-I-N1985/python_para_analise_de_dados_wes_mckinney/blob/main/capitulo_7_wes_mckinney.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpeza e preparação dos dados

###**Tratando dados ausentes**

In [2]:
import pandas as pd
import numpy as np
from numpy import nan as NA 

In [3]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [4]:
string_data.notnull()

0     True
1     True
2    False
3     True
dtype: bool

In [5]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [6]:
string_data[0] = None

In [7]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [8]:
tabela1 = {'Argumento': ['dropna', 'fillna', 'isnull', 'notnull'], 
           'Descrição': ['Filtra rótulos de eixos, baseado no fato de os valores para cada rótulo terem dados ausentes, com limites variados para a quantidade de dados ausentes a ser tolerada.', 
                                                                                 'Preenche os dados ausentes com algum valor ou utilizando um método de interpolação como "ffill" ou "bfill".', 
                                                                                 'Devolve valores booleanos informando quais valores estão ausentes/são NA.', 
                                                                                 'Negação de isnull.']}

In [9]:
tabela1 = pd.DataFrame(tabela1)
tabela1

Unnamed: 0,Argumento,Descrição
0,dropna,"Filtra rótulos de eixos, baseado no fato de os..."
1,fillna,Preenche os dados ausentes com algum valor ou ...
2,isnull,Devolve valores booleanos informando quais val...
3,notnull,Negação de isnull.


###**Filtrando dados ausentes**

In [10]:
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [11]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [12]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [13]:
cleaned = data.dropna()
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [14]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [15]:
data.dropna(how='all')  # por default axis=0, descarta somente a linha em que todos os elementos são NA

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [16]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [17]:
data.dropna(axis=1, how='all')  # axis=1 descarta somente a coluna em que todos os elementos são NA, poderia ser axis='columns'

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [18]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,0.858124,-1.193173,-0.391027
1,1.102816,2.252134,0.186817
2,-2.103292,-1.275983,0.446295
3,0.244006,-0.253476,0.326778
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


In [19]:
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,0.858124,,
1,1.102816,,
2,-2.103292,,0.446295
3,0.244006,,0.326778
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


In [20]:
df.dropna()

Unnamed: 0,0,1,2
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


In [21]:
df.dropna(thresh=2)  # como dropna exclui toda linha se houver algum elemento com NA, então o argumento fresh indica até qual linha vai essa exclusão

Unnamed: 0,0,1,2
2,-2.103292,,0.446295
3,0.244006,,0.326778
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


###**Preenchendo dados ausentes**

In [22]:
df.fillna(0)

Unnamed: 0,0,1,2
0,0.858124,0.0,0.0
1,1.102816,0.0,0.0
2,-2.103292,0.0,0.446295
3,0.244006,0.0,0.326778
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


In [23]:
df.fillna({1:0.5, 2:0})  # preenchendo com valores diferentes para as colunas selecionadas

Unnamed: 0,0,1,2
0,0.858124,0.5,0.0
1,1.102816,0.5,0.0
2,-2.103292,0.5,0.446295
3,0.244006,0.5,0.326778
4,-0.634982,-0.721028,-0.48753
5,1.260784,-0.934043,0.152966
6,-0.697372,-0.710504,0.653715


In [24]:
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = np.nan  # np.nan retorna nan
df.iloc[4:,2] = np.nan
df

Unnamed: 0,0,1,2
0,0.265329,1.355294,0.477552
1,-0.929342,-0.411683,-0.343734
2,1.483899,,-1.100283
3,-0.126561,,0.028312
4,-0.203102,,
5,-0.59761,,


In [25]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,0.265329,1.355294,0.477552
1,-0.929342,-0.411683,-0.343734
2,1.483899,-0.411683,-1.100283
3,-0.126561,-0.411683,0.028312
4,-0.203102,-0.411683,0.028312
5,-0.59761,-0.411683,0.028312


In [26]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,0.265329,1.355294,0.477552
1,-0.929342,-0.411683,-0.343734
2,1.483899,-0.411683,-1.100283
3,-0.126561,-0.411683,0.028312
4,-0.203102,,0.028312
5,-0.59761,,0.028312


In [27]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [28]:
tabela2 = {'Argumento': ['value', 'method', 'axis', 'inplace', 'limit'], 
           'Descrição': ['Valor escalar ou um objeto do tipo dicionário a ser usado para preencher valores ausentes',
                         'Interpolação; por padrão, será "ffill" se a função for chamada sem outros argumentos',
                         'Eixo a ser preenchido; o default é axis=0',
                         'Modifica o objeto que faz a chamada, sem gerar uma cópia',
                         'Para preenchimento para a frente (forward) e para trás (backward), é o número máximo de valores consecutivos a serem preenchidos']}

In [29]:
tabela2 = pd.DataFrame(tabela2)
tabela2

Unnamed: 0,Argumento,Descrição
0,value,Valor escalar ou um objeto do tipo dicionário ...
1,method,"Interpolação; por padrão, será ""ffill"" se a fu..."
2,axis,Eixo a ser preenchido; o default é axis=0
3,inplace,"Modifica o objeto que faz a chamada, sem gerar..."
4,limit,Para preenchimento para a frente (forward) e p...


#**Transformação de dados**

###**Removendo duplicatas**

In [30]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2':[1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [31]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [32]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [34]:
data['v1'] = range(7)
data

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
5,two,4,5
6,two,4,6


In [36]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1


In [37]:
data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2,v1
0,one,1,0
1,two,1,1
2,one,2,2
3,two,3,3
4,one,3,4
6,two,4,6


###**Transformando dados usando uma função ou um mapeamento**