In [57]:
import pandas as pd
import seaborn as srn
import statistics as sts

In [58]:
# Importando dados
dataset = pd.read_csv("./dados/tempo.csv", sep = ";")

# Visualizando
dataset.head()

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim


In [59]:
dataset.shape

(14, 5)

In [60]:
# Removendo coluna 'Vento', pois não faz parte do domínio
dataset.drop('Vento',axis = 1, inplace=True)
dataset

Unnamed: 0,Aparencia,Temperatura,Umidade,Jogar
0,sol,85,85.0,nao
1,sol,80,90.0,nao
2,nublado,83,86.0,sim
3,chuva,70,,sim
4,chuva,68,80.0,sim
5,chuva,65,70.0,nao
6,menos,64,65.0,sim
7,sol,1220,95.0,nao
8,sol,69,70.0,sim
9,chuva,75,200.0,sim


In [61]:
# Testando se o número de colunas está correto (Espera-se 4)
dataset.shape

(14, 4)

In [62]:
# Visualizando a coluna 'Aparencia'
dataset.groupby(['Aparencia']).size()

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

In [63]:
# Substituindo valores fora do domínio por um dos valores
# mais frequentes
dataset.loc[(dataset['Aparencia'] == 'menos'), 'Aparencia'] = "chuva"

In [64]:
# Verificando novamente os valores da coluna
dataset.groupby(['Aparencia']).size()

Aparencia
chuva      6
nublado    3
sol        5
dtype: int64

In [65]:
# Visualizando tabela novamente
dataset

Unnamed: 0,Aparencia,Temperatura,Umidade,Jogar
0,sol,85,85.0,nao
1,sol,80,90.0,nao
2,nublado,83,86.0,sim
3,chuva,70,,sim
4,chuva,68,80.0,sim
5,chuva,65,70.0,nao
6,chuva,64,65.0,sim
7,sol,1220,95.0,nao
8,sol,69,70.0,sim
9,chuva,75,200.0,sim


In [66]:
# Visualizando coluna 'Temperatura'
dataset['Temperatura'].describe()

count      14.000000
mean      155.571429
std       306.433759
min        64.000000
25%        69.250000
50%        73.500000
75%        80.750000
max      1220.000000
Name: Temperatura, dtype: float64

In [67]:
# Substituir valores de 'Temperatura' fora do domínio (-130 ~ 130 F)
# pela mediana
mediana_temp = sts.median(dataset['Temperatura'])
mediana_temp

73.5

In [68]:
# Visualizando valores fora do domínio
dataset.loc[(dataset['Temperatura'] < -130) | (dataset['Temperatura'] > 130)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Jogar
7,sol,1220,95.0,nao


In [69]:
# Substituindo
dataset.loc[(dataset['Temperatura'] < -130) | (dataset['Temperatura'] > 130), 'Temperatura'] = mediana_temp

In [70]:
# Visualizando valores de 'Temperatura' novamente
dataset['Temperatura']

0     85.0
1     80.0
2     83.0
3     70.0
4     68.0
5     65.0
6     64.0
7     73.5
8     69.0
9     75.0
10    75.0
11    72.0
12    81.0
13    71.0
Name: Temperatura, dtype: float64

In [71]:
# Visualizando dados mais uma vez
dataset

Unnamed: 0,Aparencia,Temperatura,Umidade,Jogar
0,sol,85.0,85.0,nao
1,sol,80.0,90.0,nao
2,nublado,83.0,86.0,sim
3,chuva,70.0,,sim
4,chuva,68.0,80.0,sim
5,chuva,65.0,70.0,nao
6,chuva,64.0,65.0,sim
7,sol,73.5,95.0,nao
8,sol,69.0,70.0,sim
9,chuva,75.0,200.0,sim


In [72]:
# Percebe-se que a coluna 'Umidade' possui valores fora do domínio (0 ~ 100)
dataset.loc[(dataset['Umidade'] < 0) | (dataset['Umidade'] > 100)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Jogar
9,chuva,75.0,200.0,sim


In [73]:
# Substituo então esse valor pela mediana da tabela
mediana_umidade = sts.median(dataset['Umidade'])
dataset.loc[(dataset['Umidade'] < 0) | (dataset['Umidade'] > 100), 'Umidade'] = mediana_umidade

In [74]:
# Visualizando novamente os dados
agrupado = dataset.groupby(dataset['Umidade']).size()
agrupado

Umidade
65.0    1
70.0    3
75.0    1
80.0    1
85.0    1
85.5    1
86.0    1
90.0    2
91.0    1
95.0    1
dtype: int64

In [75]:
# Verificando 'NaN' na coluna 'Umidade'
dataset['Umidade'].isnull().sum()

1

In [76]:
# Substituindo valores 'NaN' pela moda (70)
dataset['Umidade'].fillna(70, inplace=True)

In [77]:
# Verificamos novamente NaN's
dataset['Umidade'].isnull().sum()

0

In [78]:
# Visualizando o resultado
agrupado = dataset.groupby(dataset['Umidade']).size()
agrupado

Umidade
65.0    1
70.0    4
75.0    1
80.0    1
85.0    1
85.5    1
86.0    1
90.0    2
91.0    1
95.0    1
dtype: int64

In [79]:
dataset.shape

(14, 4)