### Mineração de dados - Semana 2: 
Exercício sobre pré-processamento de dados

Neste exercício, iremos fazer o pré-processamento de uma base de dados, aplicando alguns dos conceitos vistos na aula da semana. 

Acesse o [Google Colab](https://colab.research.google.com/), lembrando que é necessário ter uma conta google para conseguir usar este ambiente. Se preferir, você pode tambeḿ fazer o exercício usando o [Jupyter Notebook](https://jupyter.org/). 

Crie um novo notebook (New notebook) para fazer este exercício. Dê um nome para o seu caderno (sugestão: semana02-limpeza). Inclua uma descrição para o ser caderno clicando “+ Text”. Isso vai inserir uma célula de texto no caderno. 

Em seguida, vamos importar as bibliotecas **pandas** e **numpy**.

In [31]:
import pandas as pd
import numpy as np

A base de dados de exemplo simula registros de casos de pessoas que foram infectadas com a COVID-19 no Brasil. O dicionário de dados da base é o seguinte:

* **id**: campo identificador do registro.
* **idade**: idade da pessoa.
* **uf**: estado onde a pessoa foi diagnosticada.
* **renda**: classe social a qual a pessoa pertence, variando entre A e E.
* **vacina**: indica se a pessoa foi vacinada (1) ou não (0).

Importe a base de dados direto da URL a seguir e verifique as primeiras linhas. O arquivo contém 50 registros. Olhando os 20 primeiros, podemos observar que há valores ausentes nos atributos **idade**, **uf** e **renda**. 

In [13]:
url = 'https://raw.githubusercontent.com/higoramario/univesp-com360-mineracao-dados/main/dados-covid-limpeza.csv'
casos_covid = pd.read_csv(url)
casos_covid.head(20)

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,,1
7,8,56.0,MG,A,1
8,9,74.0,BA,,0
9,10,54.0,SP,,0


Podemos verificar quais são os tipos de dados de cada coluna usando o comando abaixo (função **info()**). Para cada atributo, o resultado mostra o número de colunas não nulas e o tipo de dados. Por exemplo, o atributo idade tem 30 valores não nulos. Campos textuais são considerados como objetos.

In [17]:
casos_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   30 non-null     float64
 2   uf      29 non-null     object 
 3   renda   31 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


A seguir, podemos ver a análise descritiva (função **describe()**) desses dados olhando a distribuição desses dados. Por exemplo, a média de idade é 48 anos, com desvio-padrão de 22 anos. Já para os dados nominais (**uf**) e ordinais (**renda**) não temos esses valores. Como os dados do atributo **vacina** são binários, a média também não faz sentido.

In [18]:
casos_covid.describe()

Unnamed: 0,id,idade,vacina
count,50.0,30.0,50.0
mean,25.5,48.666667,0.3
std,14.57738,22.197131,0.46291
min,1.0,14.0,0.0
25%,13.25,33.5,0.0
50%,25.5,48.5,0.0
75%,37.75,61.0,1.0
max,50.0,87.0,1.0



Vamos olhar a quantidade de valores distintos desses atributos com a função **value_counts()**.

In [19]:
casos_covid['uf'].value_counts()

SP    9
MG    5
BA    3
RS    3
RJ    2
PE    2
sp    1
ce    1
rj    1
CE    1
AM    1
Name: uf, dtype: int64

No atributo **uf**, há mais registros de São Paulo. Além disso, há registros de São Paulo e do Ceará em maiúsculo e minúsculo. Vamos fazer a padronização dos dados da coluna **uf** usando o método **upper()**.  Isso vai mudar a contagem de registros por estado. 

In [25]:
casos_covid['uf'] = casos_covid['uf'].str.upper()
casos_covid['uf'].value_counts()

SP    10
MG     5
RJ     3
BA     3
RS     3
CE     2
PE     2
AM     1
Name: uf, dtype: int64

Agora vamos olhar os valores de **renda** e **vacina**.

In [20]:
casos_covid['renda'].value_counts()

C    14
D     7
B     4
A     3
E     3
Name: renda, dtype: int64

In [21]:
casos_covid['vacina'].value_counts()

0    35
1    15
Name: vacina, dtype: int64

Podemos observar algumas características desses dados:
- 35 das 50 pessoas diagnosticadas com COVID-19 não tomaram vacina.
- Há mais pessoas da classe C entre os infectados.

Agora vamos fazer alguns pré-processamentos para imputar os valores ausentes na base de dados usando as características dos dados.
Na coluna **idade** vamos usar a média para imputar os valores ausentes. 

Para isso, vamos usar a função **fillna()**, que preenche os valores nulos a partir de algum método, nesse caso, arredondado a **média** de idade, já que é um valor inteiro.
Olhando a quantidade de registros por valores distintos, vemos o resultado da modificação.

In [29]:
casos_covid['idade'].fillna(round(casos_covid['idade'].mean()), inplace=True)
casos_covid['idade'].value_counts()

49.0    21
84.0     2
26.0     2
87.0     2
54.0     2
38.0     2
61.0     2
35.0     1
33.0     1
45.0     1
57.0     1
41.0     1
20.0     1
48.0     1
37.0     1
15.0     1
68.0     1
14.0     1
22.0     1
74.0     1
56.0     1
58.0     1
71.0     1
17.0     1
Name: idade, dtype: int64

Para preencher o campo **uf**, vamos usar o método de **imputar o valor de acordo com a última observação**. Para isso, vamos escolher a opção **ffill** na função **fillna**.

Olhando a contagem de registros por estado, podemos ver que a proporção foi minimamente mantida.

In [52]:
casos_covid['uf'].fillna(method="ffill",inplace=True)
casos_covid['uf'].value_counts()

SP    20
RJ     6
RS     6
MG     5
PE     5
CE     4
BA     3
AM     1
Name: uf, dtype: int64

Agora vamos fazer a imputação de **renda** usando o método de **imputar o valor de acordo com a observação seguinte**, que preenche os valores ausentes a partir da observação seguinte válida (ou para trás). Para isso, vamos escolher a opção **bfill** na função **fillna**.

In [51]:
casos_covid['renda'].fillna(method="bfill",inplace=True)
casos_covid['renda'].value_counts()

C    22
D    12
B     6
A     5
E     5
Name: renda, dtype: int64

Com isso, fizemos um processo de limpeza de dados, que pode ser verificado usando o método **info()** ou olhando o dataset inteiro.

In [55]:
casos_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   50 non-null     float64
 2   uf      50 non-null     object 
 3   renda   50 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


In [53]:
casos_covid.head(len(casos_covid))

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,C,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,D,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,A,1
7,8,56.0,MG,A,1
8,9,74.0,BA,C,0
9,10,54.0,SP,C,0


Com isso, concluímos o exercício de limpeza de dados desta semana. 
Para praticar mais, sugiro que você escolha um outro conjunto de dados do seu interesse e verifique se há necessidade de limpeza (geralmente isso acontece). Se for o caso, faça a limpeza utilizando o conteúdo que você aprendeu esta semana.

Algumas sugestões de bases são: 

* [Portal Brasileiro de Dados Abertos](https://dados.gov.br/)
* [Basedosdados.org](https://basedosdados.org/)
* [Kaggle](https://www.kaggle.com/datasets)