In [100]:
#importar a biblioteca Pandas
import pandas as pd
import statistics as sts

In [101]:
#importar o arquivo CSV para iniciar o tratamento dos dados
tempo = pd.read_csv('tempo.csv', sep=';')
tempo

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim
5,chuva,65,70.0,VERDADEIRO,nao
6,menos,64,65.0,VERDADEIRO,sim
7,sol,1220,95.0,FALSO,nao
8,sol,69,70.0,FALSO,sim
9,chuva,75,200.0,,sim


In [102]:
#Conferir o tamanho da tabela
tempo.shape
#podemos identificar que a tabela possui 14 linhas e 5 colunas

(14, 5)

In [103]:
#explorar os dados
#primeiro temos que identificar se a coluna 'Aparencia' possui dados entre sol, chuva e nublado
aparencia = tempo.groupby(['Aparencia']).size() #verificando a ocorrencia de cada valor
aparencia

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

In [104]:
#tratar o dado 'menos'
#adicionar para 'sol', por ser a moda
tempo.loc[tempo['Aparencia']=='menos','Aparencia'] = "sol"
#visualizar o resultado
aparencia = tempo.groupby(['Aparencia']).size() #verificando a ocorrencia de cada valor
aparencia

Aparencia
chuva      5
nublado    3
sol        6
dtype: int64

In [105]:
#podemos visualizar que o dado 'menos' desapareceu e foi atribuído a moda "sol"
#Continuando para o tratamento da coluna 'Temperatura', verificar se os valores encontram-se entre -130 e 130F

tempo['Temperatura'].describe()

count      14.000000
mean      155.571429
std       306.433759
min        64.000000
25%        69.250000
50%        73.500000
75%        80.750000
max      1220.000000
Name: Temperatura, dtype: float64

In [106]:
#identificamos uma temperatura fora do domínio, 1220F. Temos que fazer o levantamento de quantos valores estão fora do domínio -120 a 120F
#Utilizamos o .loc com os limites definidos para identificar quantos valores estão fora
tempo.loc[(tempo['Temperatura'] < -120) | (tempo['Temperatura'] > 120)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
7,sol,1220,95.0,FALSO,nao


In [107]:
#Encontrou-se apenas uma ocorrência. Critério para substituição será a Mediana, pois é menos sujeita a valores fora do domínio.
#Calculando a mediana
mediana = sts.median(tempo['Temperatura'])
mediana

73.5

In [108]:
#fazendo a substituição
tempo.loc[(tempo['Temperatura'] < -120) | (tempo['Temperatura'] > 120), 'Temperatura'] = mediana

  tempo.loc[(tempo['Temperatura'] < -120) | (tempo['Temperatura'] > 120), 'Temperatura'] = mediana


In [109]:
#conferindo o resultado
tempo.loc[(tempo['Temperatura'] < -120) | (tempo['Temperatura'] > 120)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [110]:
#localizar os NaN
tempo['Umidade'].isnull().sum()

1

In [111]:
#identificamos 1 valor NaN para a umidade. Critério de substituição será a mediana, pois é menos sujeita a estar fora do domínio 0 a 100
medianaumidade = sts.median(tempo['Umidade'])
medianaumidade

85.5

In [112]:
#Substituir o NaN pela mediana
tempo['Umidade'].fillna(medianaumidade, inplace=True)
#Verificar se o NaN ainda permanece
tempo['Umidade'].isnull().sum()

0

In [113]:
#Verificar os valores dentro da Umidade, se estão entre o domínio 0 a 100
tempo['Umidade'].describe()

count     14.000000
mean      89.464286
std       33.204763
min       65.000000
25%       71.250000
50%       85.250000
75%       90.000000
max      200.000000
Name: Umidade, dtype: float64

In [114]:
#valor 200 encontrado. Estabelecer o domínio e substituir pela mediana os valores que estão fora
tempo.loc[(tempo['Umidade'] < 0) | (tempo['Umidade'] > 100), 'Umidade'] = medianaumidade
#Verificar se existem valores fora do domínio
tempo.loc[(tempo['Umidade'] < 0) | (tempo['Umidade'] > 100)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [115]:
tempo

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85.0,85.0,FALSO,nao
1,sol,80.0,90.0,VERDADEIRO,nao
2,nublado,83.0,86.0,FALSO,sim
3,chuva,70.0,85.5,FALSO,sim
4,chuva,68.0,80.0,FALSO,sim
5,chuva,65.0,70.0,VERDADEIRO,nao
6,sol,64.0,65.0,VERDADEIRO,sim
7,sol,73.5,95.0,FALSO,nao
8,sol,69.0,70.0,FALSO,sim
9,chuva,75.0,85.5,,sim


In [116]:
#Conferir se existem valores NaN para a coluna 'Vento'
tempo['Vento'].isnull().sum()

1

In [117]:
#substituir os NaN pela moda
ventovalores = tempo.groupby(['Vento']).size()
ventovalores

Vento
FALSO         7
VERDADEIRO    6
dtype: int64

In [118]:
#FALSO é a moda, substituir no NaN
tempo['Vento'].fillna('FALSO', inplace=True)
#conferir se permance o NaN
tempo['Vento'].isnull().sum()

0

In [119]:
#verificar na coluna 'Jogar' se existem valores NaN
tempo['Jogar'].isnull().sum()

0

In [120]:
#Verificar se existem dados diferentes de 'sim', 'não'
tempodados = tempo.groupby(['Jogar']).size()
tempodados

Jogar
nao    5
sim    9
dtype: int64

In [121]:
#tabela com os dados tratados, resultado final
tempo

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85.0,85.0,FALSO,nao
1,sol,80.0,90.0,VERDADEIRO,nao
2,nublado,83.0,86.0,FALSO,sim
3,chuva,70.0,85.5,FALSO,sim
4,chuva,68.0,80.0,FALSO,sim
5,chuva,65.0,70.0,VERDADEIRO,nao
6,sol,64.0,65.0,VERDADEIRO,sim
7,sol,73.5,95.0,FALSO,nao
8,sol,69.0,70.0,FALSO,sim
9,chuva,75.0,85.5,FALSO,sim
