<a href="https://colab.research.google.com/github/Reinaldos/Reinaldos/blob/main/Aula_2_Limpeza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color=green> Limpeza e preparação dos dados

- Durante a análise e a modelagem dos dados, um período significativo de tempo é gasto em sua preparação: carga, limpeza, transformação e reorganização.
- Muitas vezes, o modo como os dados são armazenados em arquivos ou em bancos de dados não constituem o formato correto para uma tarefa em particular.
- Pandas, juntos com os recursos embutidos da linguagem Python, oferecem um conjunto de ferramentas de alto nível, rápido e flexível, para permitir que você manipule os dados, deixando-os no formato correto.

### Tratando dados ausentes

- Dados ausente são comuns em muitas aplicações de análise de dados.
- Para dados numéricos, o pandas utiliza o valor de ponto flutuante NaN (Not a Number) para representá-los.

In [None]:
import pandas as pd
import numpy as np

In [None]:
string_data = pd.Series(['valor 1', 'valor 2', np.nan, 'valor 3'])
string_data

0    valor 1
1    valor 2
2        NaN
3    valor 3
dtype: object

- isnull é o método que devolve valores booleanos informando quais valores estão ausentes

In [None]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

- notnull é a negação de isnull

In [None]:
string_data.notnull()

0     True
1     True
2    False
3     True
dtype: bool

- É importante fazer a análise nos próprios dados ausentes a fim de identificar problemas em sua coleta ou possíveis distorções provocadas por dados ausentes.

In [None]:
string_data[0] = None
string_data

0       None
1    valor 2
2        NaN
3    valor 3
dtype: object

In [None]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

- dropna é o método que filtra rótulos de eixos, baseado no fato de os valores para cada rótulo terem dados ausentes, com limites variados para a quantidade de dados ausentes a ser tolerado.

In [None]:
string_data.dropna()

1    valor 2
3    valor 3
dtype: object

- dropna é equivalente a:

In [None]:
string_data[string_data.notnull()]

1    valor 2
3    valor 3
dtype: object

- fillna é o método que preenche os dados ausentes com algum valor ou utilizando um método de interpolação como 'ffill' ou 'bfill.

In [None]:
string_data.fillna(0)

0          0
1    valor 2
2          0
3    valor 3
dtype: object

In [None]:
string_data.fillna(method='ffill')

0       None
1    valor 2
2    valor 2
3    valor 3
dtype: object

In [None]:
string_data.fillna(method='bfill')

0    valor 2
1    valor 2
2    valor 3
3    valor 3
dtype: object

In [None]:
string_data.notnull()

0    False
1     True
2    False
3     True
dtype: bool

- Com objetos DataFrame, a situação é um pouco mais complexa em relação a exclusão de valores NA por linhas, colunas ou pelos dois.

In [None]:
data = pd.DataFrame([[1, 6.5, 3], [1, np.nan, np.nan], [np.nan, np.nan, np.nan], [np.nan, 6.5, 3]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


- Passar how='all' descartará apenas as linhas que contenham somente NAs

In [None]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [None]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


- Para descartar colunas do mesmo modo, passe axis='columns' ou axis=1

In [None]:
data[4] = np.NaN
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [None]:
data.dropna(how='all', axis=1)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


- Suponha que queremos manter somente as linhas contendo determinado número de observações. Podemos representar isso com o argumento thresh

In [None]:
data[data.isna().sum(axis=1) == 2]

Unnamed: 0,0,1,2,4
3,,6.5,3.0,


In [None]:
data.dropna(thresh=4)

Unnamed: 0,0,1,2,4


### Removendo duplicatas

In [None]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [None]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [None]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


### Substituindo valores

In [None]:
data = pd.Series([1, -999, 2, -999, 3, -1000, 4])
data

0       1
1    -999
2       2
3    -999
4       3
5   -1000
6       4
dtype: int64

- Supondo que os valores de -999 podem ser valores de sentinela para dados ausentes. Para substituí-los por valores NA, podemos usar replace

In [None]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4       3.0
5   -1000.0
6       4.0
dtype: float64

- Para substituir diversos, basta passar os valores numa lista

In [None]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    NaN
6    4.0
dtype: float64

- Para usar um substituto diferente para cada valor, passe uma lista deles

In [None]:
data.replace([-999, -1000], [np.nan, 0])

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    0.0
6    4.0
dtype: float64

### Detectando e filtrando valores discrepantes

- Filtrar ou transformar valores discrepantes (outliers) é, em boa medida, em uma questão de aplicar operações de array. Considere um DataFrame com alguns dados normalmente distribuídos

In [None]:
data = pd.DataFrame(np.random.randn(1000, 4))
data

Unnamed: 0,0,1,2,3
0,-0.958330,1.257100,-0.057870,3.449912
1,-0.552951,2.234823,0.920773,-0.266264
2,0.885899,0.201059,-0.156261,-1.286830
3,-1.501676,-0.422450,0.030284,-0.562189
4,-0.389256,-0.582543,-0.020253,0.403846
...,...,...,...,...
995,-0.113339,0.142344,-1.553962,0.872141
996,0.555942,-0.139084,-1.174807,1.073109
997,-0.184670,1.204062,0.860978,-0.907258
998,-1.101295,-0.062825,0.758402,1.215811


In [None]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.002984,-0.036148,0.020254,-0.025086
std,1.009227,0.994565,1.04645,0.998405
min,-3.136797,-3.063421,-3.252545,-3.480377
25%,-0.637404,-0.725127,-0.675798,-0.672765
50%,-0.021414,-0.020205,0.036988,-0.041998
75%,0.667675,0.644269,0.741544,0.667822
max,3.700502,3.044729,3.558315,3.693407


- Suponha que quiséssemos encontrar os valores que excedessem 3 em valor absoluto em uma das colunas (no nosso caso, coluna 2)

In [None]:
col = data[2]
col[np.abs(col)>3]

29     3.177946
216    3.470902
445    3.558315
612   -3.252545
627    3.104573
972   -3.092740
Name: 2, dtype: float64

- Para selecionar todas as linhas que tenham um valor que exceda 3 ou -3, podemos utilizar o método any um DataFrame

In [None]:
data

Unnamed: 0,0,1,2,3
0,-0.958330,1.257100,-0.057870,3.449912
1,-0.552951,2.234823,0.920773,-0.266264
2,0.885899,0.201059,-0.156261,-1.286830
3,-1.501676,-0.422450,0.030284,-0.562189
4,-0.389256,-0.582543,-0.020253,0.403846
...,...,...,...,...
995,-0.113339,0.142344,-1.553962,0.872141
996,0.555942,-0.139084,-1.174807,1.073109
997,-0.184670,1.204062,0.860978,-0.907258
998,-1.101295,-0.062825,0.758402,1.215811


In [None]:
data[(np.abs(data) > 3).any(1)]

Unnamed: 0,0,1,2,3
0,-0.95833,1.2571,-0.05787,3.449912
8,3.700502,0.077632,-1.595041,-1.20253
29,0.613069,1.696776,3.177946,-1.429619
95,-1.206016,3.044729,-0.340721,0.230016
190,-0.765161,-0.376868,-1.766753,3.014802
216,0.060912,-2.046626,3.470902,0.443286
257,0.317201,1.644385,-0.041826,-3.480377
259,-3.135276,0.769038,-0.647223,-0.270816
266,-0.3093,-3.063421,0.123139,-0.918255
393,-1.139062,-0.418854,-1.892557,3.144208


- Para eliminar os valores que estejam fora do intervalo de -3 a 3 substituido-os por -3 ou 3 respectivamente

In [None]:
data[np.abs(data)>3] = np.sign(data) * 3

In [None]:
data

Unnamed: 0,0,1,2,3
0,-0.958330,1.257100,-0.057870,3.000000
1,-0.552951,2.234823,0.920773,-0.266264
2,0.885899,0.201059,-0.156261,-1.286830
3,-1.501676,-0.422450,0.030284,-0.562189
4,-0.389256,-0.582543,-0.020253,0.403846
...,...,...,...,...
995,-0.113339,0.142344,-1.553962,0.872141
996,0.555942,-0.139084,-1.174807,1.073109
997,-0.184670,1.204062,0.860978,-0.907258
998,-1.101295,-0.062825,0.758402,1.215811


In [None]:
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,0.001544,-0.036129,0.019288,-0.025915
std,1.00239,0.994236,1.04139,0.992515
min,-3.0,-3.0,-3.0,-3.0
25%,-0.637404,-0.725127,-0.675798,-0.672765
50%,-0.021414,-0.020205,0.036988,-0.041998
75%,0.667675,0.644269,0.741544,0.667822
max,3.0,3.0,3.0,3.0


### Manipulação de Strings

- Uma string separada por vírgulas pode ser dividida em partes usando split

In [None]:
val = 'a,b, resilia, c,d'

In [None]:
val.split(',')

['a', 'b', ' resilia', ' c', 'd']

- Com frequência, split é usado em conjunto com strip para remover espaços em branco (incluindo quebra de linha)

In [None]:
pieces = [x.strip() for x in val.split(',')]
pieces

['a', 'b', 'resilia']

- Replace é usado para substituir as ocorrências de um padrão por outro. É comumente utilizado também para apagar padrões passando uma string vazia

In [None]:
val.replace(',', '::')

'a::b:: resilia'

In [None]:
val.replace(',','')

'ab resilia'

### Exercício

- Imaginem o cenário em que vocês tenham o seguinte dataset:

In [None]:
df = pd.DataFrame({"numbers": ["#23", "#24", "#18", "#14", "#12", "#10", "#35"],
                   "nums": ["23", "24", "18", "14", np.nan, "XYZ", "35"],
                   "colors": ["green", "red", "yellow", "orange", "purple", "blue", "pink"],
                   "other_column": [0, 1, 0, 2, 1, 0, 2]})
df

Unnamed: 0,numbers,nums,colors,other_column
0,#23,23,green,0
1,#24,24,red,1
2,#18,18,yellow,0
3,#14,14,orange,2
4,#12,,purple,1
5,#10,XYZ,blue,0
6,#35,35,pink,2


- Como vocês fariam para calcular a média da coluna *numbers*?

- Como vocês calculariam a média da coluna num?

- Como vocês removeriam as linhas que contém o valor 0 na coluna *other_column*?

- Crie uma nova coluna chamada *colors_upper* com os elementos da coluna *colors* com todas as letras maiúsculas.


- Vamos carregar um novo dataset

In [None]:
from google.colab import files
uploaded = files.upload()

Saving restaurant.csv to restaurant.csv


In [None]:
import io
restaurant = pd.read_csv(io.StringIO(uploaded['restaurant.csv'].decode('utf-8')))
restaurant

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


- Qual a média de preço dos items que contém *Chicken*?


- Quanto items nulos (e.g., NA, NaN) possuem no dataset?

- Quanto items nulos (e.g., NA, NaN) existem em cada coluna?