# Atividade prática: Mineração de Dados - Semana 02

Notebook criado para acompanhar as atividades práticas da Semana 02, apresentadas pela disciplina de **Mineração de Dados** da **UNIVESP**.  

### Objetivo da Semana 02:
Fazer o pré-processamento de uma base de dados, aplicando técnicas de limpeza de dados para lidar com dados incompletos e inconsistentes.

### Sobre o dataframe:
A base de dados de exemplo simula registros de casos de pessoas que foram
infectadas com a COVID-19 no Brasil.

O **dicionário de dados** da base é o seguinte:

• id: campo identificador do registro;  
• idade: idade da pessoa;  
• uf: estado onde a pessoa foi diagnosticada;  
• renda: classe social a qual a pessoa pertence, variando entre A e E;  
• vacina: indica se a pessoa foi vacinada (1) ou não (0).  


In [None]:
import pandas as pd

In [None]:
casos_covid = pd.read_csv("https://raw.githubusercontent.com/higoramario/univesp-com360-mineracao-dados/main/dados-covid-limpeza.csv")

In [None]:
casos_covid.head(20)

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,,1
7,8,56.0,MG,A,1
8,9,74.0,BA,,0
9,10,54.0,SP,,0


Ao visualizar os 20 primeiros registros do dataframe, já é possível notar a existência de valores ausentes (NaN), e também inconsistências no preenchimento da coluna UF (por exemplo: **SP, sp**).

Com a função `info`, além de verificar os tipos de cada coluna, é possível obter a contagem de registros não nulos (non-null) em cada uma. Dessa forma, podemos ver que a coluna `idade` tem 20 registros nulos, a coluna `uf` tem 21, e a coluna `renda`, 19.




In [None]:
casos_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   30 non-null     float64
 2   uf      29 non-null     object 
 3   renda   31 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


A função `describe()` é utilizada para verificar estatísticas básicas da coluna `idade`, a única com dados numéricos adequados para essa análise. É possível ver que a **média** de idade é de **48,6** anos, com um **desvio padrão** de **22,2**, aproximadamente. A menor idade no dataframe é 14, e a maior, 87.  
Essas informações, como a média, podem ser usadas para preencher os valores ausentes nessa coluna.

In [None]:
casos_covid.describe()


Unnamed: 0,id,idade,vacina
count,50.0,30.0,50.0
mean,25.5,48.666667,0.3
std,14.57738,22.197131,0.46291
min,1.0,14.0,0.0
25%,13.25,33.5,0.0
50%,25.5,48.5,0.0
75%,37.75,61.0,1.0
max,50.0,87.0,1.0


Utilizando a função `value_counts()` na coluna `uf` é possível verificar outras inconsistências nessa coluna, como:  
* SP e sp
* CE e ce
* RJ e rj.

In [None]:
casos_covid['uf'].value_counts()

Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,9
MG,5
BA,3
RS,3
RJ,2
PE,2
sp,1
ce,1
rj,1
CE,1


Para corrigir essa inconsistência, utilizamos a função `upper()` para capitalizar todos os valores da coluna `uf`.

Ao usar a função `value_counts()` novamente, confirmamos que o problema foi corrigido e notamos que o estado de **SP** é o que possui o maior número de casos de COVID-19 no dataframe, seguido por **MG** e **RJ**. O estado com o menor número de notificações é o **AM**.

In [None]:
casos_covid['uf'] = casos_covid['uf'].str.upper()
casos_covid['uf'].value_counts()

Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,10
MG,5
RJ,3
BA,3
RS,3
CE,2
PE,2
AM,1


Analisando os valores não nulos da coluna `renda` com a função `value_counts()`, observamos que a maioria pertence à **classe C**, seguida pelas classes **D** e **B**:

In [None]:
casos_covid['renda'].value_counts()

Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
C,14
D,7
B,4
A,3
E,3


Ao usar a função `value_counts()` na coluna vacina, obtemos que 35 registros indicam pessoas não vacinadas **(0)**, e 15 indicam pessoas que se vacinaram **(1)**.  
Essa distribuição de dados pode ser utilizada para análises futuras, como a taxa de vacinação dentro do dataset.

In [None]:
casos_covid['vacina'].value_counts()

Unnamed: 0_level_0,count
vacina,Unnamed: 1_level_1
0,35
1,15


Para preencher os valores ausentes da coluna `idade`, optou-se por usar um valor constante global: a **média** das idades no dataframe.

A função `fillna()` permite preencher os valores nulos com um valor passado como parâmetro. Como a idade é um valor inteiro, a média (`mean()`) foi arredondada com a função `round()`. Dessa forma, o valor constante atribuído é **49**.




In [None]:
casos_covid['idade'] = casos_covid['idade'].fillna(round(casos_covid['idade'].mean()))

Usando a função `value_counts()` na coluna `idade`, observamos que 21 registros foram preenchidos com o valor 49. Desses, 20 correspondem aos valores que, anteriormente, eram nulos.


In [None]:
casos_covid['idade'].value_counts()

Unnamed: 0_level_0,count
idade,Unnamed: 1_level_1
49.0,21
38.0,2
87.0,2
26.0,2
84.0,2
61.0,2
54.0,2
71.0,1
56.0,1
58.0,1


Para a coluna `uf`, a imputação será feita usando o método `ffill` (*forward fill*), que preenche os valores nulos com o último valor válido encontrado antes deles.

A função `value_counts()` é usada novamente para verificar o resultado da alteração. É importante notar que, após essa imputação, o estado de **MG** deixou de ser o segundo com mais notificações de casos de COVID-19.


In [None]:
casos_covid['uf'] = casos_covid['uf'].ffill()
casos_covid['uf'].value_counts()


Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,20
RJ,6
RS,6
MG,5
PE,5
CE,4
BA,3
AM,1


Para a coluna renda, usamos o método `bfill` (*backward fill*), que preenche os valores nulos com o próximo valor válido encontrado.

Ao usar a função `value_counts()`, notamos que a proporção das classes da coluna foi mantida após as alterações.

  

In [None]:
casos_covid['renda'] = casos_covid['renda'].bfill()
casos_covid['renda'].value_counts()

Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
C,22
D,12
B,6
A,5
E,5


Ao usar a função `info()` novamente, após o tratamento dos dados, notamos que não há mais valores nulos no dataframe.


In [None]:
casos_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   50 non-null     float64
 2   uf      50 non-null     object 
 3   renda   50 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


Por fim, é possível visualizar o dataframe completo:

In [None]:
casos_covid.head(len(casos_covid))

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,C,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,D,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,A,1
7,8,56.0,MG,A,1
8,9,74.0,BA,C,0
9,10,54.0,SP,C,0
