In [None]:
import pandas as pd
import numpy as np

In [None]:
url = 'https://raw.githubusercontent.com/higoramario/univesp-com360-mineracao-dados/main/dados-covid-limpeza.csv'
casos_covid = pd.read_csv(url)
casos_covid.head(20)

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,,1
7,8,56.0,MG,A,1
8,9,74.0,BA,,0
9,10,54.0,SP,,0


In [None]:
casos_covid.info()
#vário valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   30 non-null     float64
 2   uf      29 non-null     object 
 3   renda   31 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


In [None]:
casos_covid.describe()
#Estatísticas básicas
#focar no atributo 'idade' que é a coluna com valores numéricos
#vamos usar o valor da média para imputar os valores da coluna 'idade'

Unnamed: 0,id,idade,vacina
count,50.0,30.0,50.0
mean,25.5,48.666667,0.3
std,14.57738,22.197131,0.46291
min,1.0,14.0,0.0
25%,13.25,33.5,0.0
50%,25.5,48.5,0.0
75%,37.75,61.0,1.0
max,50.0,87.0,1.0


In [None]:
casos_covid['uf'].value_counts()
# Numero de pessoas por estado
# Problema Detectado: São Paulo está escrito com SP e sp, Rio de Janeiro está escrito RJ e rj e Ceará está escrito com CE
# Nome do Problema Detectado: Redundância
# Como resolver: Capitalização de tudo (próximo shell)

Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,9
MG,5
BA,3
RS,3
RJ,2
PE,2
sp,1
ce,1
rj,1
CE,1


In [None]:
# o atributo 'uf' é um string por isso o 'str' e o upper é a função do pandas para capitalizar tudo
# Redundância? CORRIGIDA
casos_covid['uf'] = casos_covid['uf'].str.upper()
casos_covid['uf'].value_counts()

Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,10
MG,5
RJ,3
BA,3
RS,3
CE,2
PE,2
AM,1


In [None]:
# Não possui redundância e observa-se um predominância da classe C nessa base de dados
casos_covid['renda'].value_counts()

Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
C,14
D,7
B,4
A,3
E,3


In [None]:
# Está completamente preenchido. 35 pessoas não foram vacinadas e 15 foram vacinadas
casos_covid['vacina'].value_counts()

Unnamed: 0_level_0,count
vacina,Unnamed: 1_level_1
0,35
1,15


In [None]:
# Vamos preencher os valores ausentes do atributo 'idade' com a média dos valores dessa coluna.
# Por isso utilizamos a função 'fillna' para completar os valores nulos
# round para arredondarmos o valor para número inteiro
# (casos_covid['idade'].mean nessa etapa há o calculo da média dos valores da coluna 'idade'
casos_covid['idade'].fillna(round(casos_covid['idade'].mean()), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  casos_covid['idade'].fillna(round(casos_covid['idade'].mean()), inplace=True)


Provavelmente você recebeu um aviso de 'warning' semelhante a esse

'/tmp/ipython-input-3440087389.py:5: FutureWarning: A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  casos_covid['idade'].fillna(round(casos_covid['idade'].mean()), inplace=True)'

Isso significa que, em breve, o inplace=True não funcionará mais nesse contexto.

Portanto, vamos utilizar outra abordagem para realizar essa ação de forma segura e compatível com futuras versões do pandas.

In [None]:
# Selecionamos a coluna 'idade' e substituímos os valores faltantes (NaN)
# pela média arredondada dessa coluna, garantindo que a operação seja aplicada
# diretamente no DataFrame original
# o 49 representa a média da coluna por issa sua distribuição alta
# Esse foi um processo de imputação usando uma constante global para todos os valores que nesse caso foi a média
# Essa visualização mostra que usar a média pode não ter sido ideal; a mediana poderia ser uma alternativa
casos_covid['idade'] = casos_covid['idade'].fillna(round(casos_covid['idade'].mean()))
casos_covid['idade'].value_counts()

Unnamed: 0_level_0,count
idade,Unnamed: 1_level_1
49.0,21
38.0,2
87.0,2
26.0,2
84.0,2
61.0,2
54.0,2
71.0,1
56.0,1
58.0,1


In [None]:
# Agora vamos preencher os valores nulos da coluna 'uf'.
# A função fillna possui o parâmetro 'method', que define como será feita a imputação.
# Usaremos o método 'ffill' (forward fill), que preenche cada valor nulo
# com o último valor válido encontrado anteriormente na coluna.

casos_covid['uf'].fillna(method='ffill', inplace=True)
casos_covid['uf'].value_counts()


  casos_covid['uf'].fillna(method='ffill', inplace=True)


Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,20
RJ,6
RS,6
MG,5
PE,5
CE,4
BA,3
AM,1


In [None]:
# Como tivemos aviso anteriormente, vamos preencher os valores nulos da coluna 'uf'
# usando forward fill (ffill) diretamente no DataFrame sem o inplace=True
casos_covid['uf'] = casos_covid['uf'].fillna(method='ffill')
casos_covid['uf'].value_counts()

  casos_covid['uf'] = casos_covid['uf'].fillna(method='ffill')


Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,20
RJ,6
RS,6
MG,5
PE,5
CE,4
BA,3
AM,1


In [None]:
# Antes havia aviso porque fillna(method='ffill') será descontinuado
# Agora usamos ffill() diretamente para preencher os valores nulos, sem gerar warnings
casos_covid['uf'] = casos_covid['uf'].ffill()
casos_covid['uf'].value_counts()

Unnamed: 0_level_0,count
uf,Unnamed: 1_level_1
SP,20
RJ,6
RS,6
MG,5
PE,5
CE,4
BA,3
AM,1


Se olharmos com atenção, os valores aumentaram após a imputação, mas a distribuição continuou proporcional. Antes, SP, MG, RJ e BA tinham mais casos, e depois da imputação a situação se manteve mais ou menos a mesma

In [None]:
# Imputação com a renda
# Só que agora com o registro anterior
# Clase C continua dominando o número de casos
casos_covid['renda'].fillna(method='bfill', inplace=True)
casos_covid['renda'].value_counts()


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  casos_covid['renda'].fillna(method='bfill', inplace=True)
  casos_covid['renda'].fillna(method='bfill', inplace=True)


Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
C,22
D,12
B,6
A,5
E,5


In [None]:
# gerou avisos, vamos usar a versão mais rápida
# Ambos os métodos (ffill e bfill) ajudam a manter a proporção de dados para determiando atributo
# E é isso que queremos quando estamoz fazendo imputação dentro de um conjunto de dados
casos_covid['renda'] = casos_covid['renda'].bfill()
casos_covid['renda'].value_counts()

Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
C,22
D,12
B,6
A,5
E,5


In [None]:
# Vamos ver nosso DF após as imputações
# Todos os atributos tem valores não nulos
# Pré-processamento feito com sucesso
casos_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   id      50 non-null     int64  
 1   idade   50 non-null     float64
 2   uf      50 non-null     object 
 3   renda   50 non-null     object 
 4   vacina  50 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 2.1+ KB


In [None]:
# por fim vamos ver a base de dados inteira
# conseguimos observar esse preenchimento de todos os valores do atributos dentro desse DF
casos_covid.head(len(casos_covid))

Unnamed: 0,id,idade,uf,renda,vacina
0,1,15.0,SP,C,1
1,2,38.0,MG,C,0
2,3,49.0,RJ,C,0
3,4,71.0,BA,D,0
4,5,58.0,MG,D,1
5,6,26.0,SP,B,0
6,7,87.0,BA,A,1
7,8,56.0,MG,A,1
8,9,74.0,BA,C,0
9,10,54.0,SP,C,0
