<a href="https://colab.research.google.com/github/M-I-N1985/python_para_analise_de_dados_wes_mckinney/blob/main/capitulo_7_wes_mckinney.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Limpeza e preparação dos dados

###**Tratando dados ausentes**

In [6]:
import pandas as pd
import numpy as np
from numpy import nan as NA 

In [7]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [8]:
string_data.notnull()

0     True
1     True
2    False
3     True
dtype: bool

In [9]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [10]:
string_data[0] = None

In [11]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

In [12]:
tabela1 = {'Argumento': ['dropna', 'fillna', 'isnull', 'notnull'], 
           'Descrição': ['Filtra rótulos de eixos, baseado no fato de os valores para cada rótulo terem dados ausentes, com limites variados para a quantidade de dados ausentes a ser tolerada.', 
                                                                                 'Preenche os dados ausentes com algum valor ou utilizando um método de interpolação como "ffill" ou "bfill".', 
                                                                                 'Devolve valores booleanos informando quais valores estão ausentes/são NA.', 
                                                                                 'Negação de isnull.']}

In [13]:
tabela1 = pd.DataFrame(tabela1)
tabela1

Unnamed: 0,Argumento,Descrição
0,dropna,"Filtra rótulos de eixos, baseado no fato de os..."
1,fillna,Preenche os dados ausentes com algum valor ou ...
2,isnull,Devolve valores booleanos informando quais val...
3,notnull,Negação de isnull.


###**Filtrando dados ausentes**

In [14]:
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [15]:
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [16]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [17]:
cleaned = data.dropna()
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [18]:
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [19]:
data.dropna(how='all')  # por default axis=0, descarta somente a linha em que todos os elementos são NA

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [20]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [21]:
data.dropna(axis=1, how='all')  # axis=1 descarta somente a coluna em que todos os elementos são NA, poderia ser axis='columns'

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [22]:
df = pd.DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,-1.640573,0.802027,-0.049282
1,0.28238,-0.149007,0.05467
2,-0.209541,-0.143464,0.325492
3,-1.415915,-2.286475,-0.607368
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


In [23]:
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-1.640573,,
1,0.28238,,
2,-0.209541,,0.325492
3,-1.415915,,-0.607368
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


In [24]:
df.dropna()

Unnamed: 0,0,1,2
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


In [25]:
df.dropna(thresh=2)  # como dropna exclui toda linha se houver algum elemento com NA, então o argumento fresh indica até qual linha vai essa exclusão

Unnamed: 0,0,1,2
2,-0.209541,,0.325492
3,-1.415915,,-0.607368
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


###**Preenchendo dados ausentes**

In [26]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-1.640573,0.0,0.0
1,0.28238,0.0,0.0
2,-0.209541,0.0,0.325492
3,-1.415915,0.0,-0.607368
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


In [27]:
df.fillna({1:0.5, 2:0})  # preenchendo com valores diferentes para as colunas selecionadas

Unnamed: 0,0,1,2
0,-1.640573,0.5,0.0
1,0.28238,0.5,0.0
2,-0.209541,0.5,0.325492
3,-1.415915,0.5,-0.607368
4,-0.612486,1.786155,1.253237
5,0.545962,1.571379,0.890342
6,2.325788,0.60647,-0.421982


In [37]:
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = np.nan  # np.nan retorna nan
df.iloc[4:,2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.155317,1.971972,1.901225
1,0.209178,0.645243,-0.515973
2,1.366859,,0.752384
3,2.038621,,0.906891
4,-0.807531,,
5,0.729742,,


In [38]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.155317,1.971972,1.901225
1,0.209178,0.645243,-0.515973
2,1.366859,0.645243,0.752384
3,2.038621,0.645243,0.906891
4,-0.807531,0.645243,0.906891
5,0.729742,0.645243,0.906891


In [39]:
df.fillna(method='ffill', limit=2)

Unnamed: 0,0,1,2
0,-0.155317,1.971972,1.901225
1,0.209178,0.645243,-0.515973
2,1.366859,0.645243,0.752384
3,2.038621,0.645243,0.906891
4,-0.807531,,0.906891
5,0.729742,,0.906891


In [41]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [42]:
tabela2 = {'Argumento': ['value', 'method', 'axis', 'inplace', 'limit'], 
           'Descrição': ['Valor escalar ou um objeto do tipo dicionário a ser usado para preencher valores ausentes',
                         'Interpolação; por padrão, será "ffill" se a função for chamada sem outros argumentos',
                         'Eixo a ser preenchido; o default é axis=0',
                         'Modifica o objeto que faz a chamada, sem gerar uma cópia',
                         'Para preenchimento para a frente (forward) e para trás (backward), é o número máximo de valores consecutivos a serem preenchidos']}

In [45]:
tabela2 = pd.DataFrame(tabela2)
tabela2

Unnamed: 0,Argumento,Descrição
0,value,Valor escalar ou um objeto do tipo dicionário ...
1,method,"Interpolação; por padrão, será ""ffill"" se a fu..."
2,axis,Eixo a ser preenchido; o default é axis=0
3,inplace,"Modifica o objeto que faz a chamada, sem gerar..."
4,limit,Para preenchimento para a frente (forward) e p...


#**Transformação de dados**

###**Removendo duplicatas**