In [None]:
import pandas as pd
import statistics as sts

In [None]:
dados = pd.read_csv('/content/tempo.csv', sep=";")

In [None]:
dados.shape

(14, 5)

In [None]:
dados.head(10)

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim
5,chuva,65,70.0,VERDADEIRO,nao
6,menos,64,65.0,VERDADEIRO,sim
7,sol,1220,95.0,FALSO,nao
8,sol,69,70.0,FALSO,sim
9,chuva,75,200.0,,sim


In [None]:
agrupamento = dados.groupby(['Aparencia']).size()
agrupamento

#Problema: palavra fora do padrão "menos"

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

In [None]:
#Solução substituindo pelo clima mais agradável
dados.loc[dados['Aparencia'] == "menos", 'Aparencia'] = "sol"

In [None]:
#Verificando a correção
agrupamento = dados.groupby(['Aparencia']).size()
agrupamento

Aparencia
chuva      5
nublado    3
sol        6
dtype: int64

In [None]:
agrupamento = dados.groupby(['Temperatura']).size()
agrupamento
#Problema: valor maior que 130F

Temperatura
64      1
65      1
68      1
69      1
70      1
71      1
72      1
75      2
80      1
81      1
83      1
85      1
1220    1
dtype: int64

In [None]:
#Solucao substituir pela mediana
mediana = sts.median(dados['Temperatura'])
mediana

73.5

In [None]:
dados.loc[dados['Temperatura'] > 130, 'Temperatura'] = 73.5

In [None]:
#Verificando a correção
agrupamento = dados.groupby(['Temperatura']).size()
agrupamento

Temperatura
64.0    1
65.0    1
68.0    1
69.0    1
70.0    1
71.0    1
72.0    1
73.5    1
75.0    2
80.0    1
81.0    1
83.0    1
85.0    1
dtype: int64

In [None]:
agrupamento = dados.groupby(['Umidade']).size()
agrupamento
#Problema: Fora do padrão, umidade maior que 100

Umidade
65.0     1
70.0     3
75.0     1
80.0     1
85.0     1
86.0     1
90.0     2
91.0     1
95.0     1
200.0    1
dtype: int64

In [None]:
#Solução substituir pela mediana
mediana = sts.median(dados['Umidade'])
mediana

85.5

In [None]:
dados.loc[dados['Umidade'] > 100, 'Umidade'] = 85.5

In [None]:
#Verificando a correção
agrupamento = dados.groupby(['Umidade']).size()
agrupamento

Umidade
65.0    1
70.0    3
75.0    1
80.0    1
85.0    1
85.5    1
86.0    1
90.0    2
91.0    1
95.0    1
dtype: int64

In [None]:
agrupamento = dados.groupby(['Jogar']).size()
agrupamento
#Dentro do padrão

Jogar
nao    5
sim    9
dtype: int64

In [None]:
agrupamento = dados.groupby(['Vento']).size()
agrupamento
#explorar valores faltantes

Vento
FALSO         7
VERDADEIRO    6
dtype: int64

In [None]:
dados.isnull().sum()
#problema: Umidade e Vento possue valores Nan

Aparencia      0
Temperatura    0
Umidade        1
Vento          1
Jogar          0
dtype: int64

In [None]:
#Solução: substituindo pela moda
dados['Vento'].fillna('FALSO', inplace=True)

In [None]:
dados.isnull().sum()
#problema: Umidade possue valor Nan

Aparencia      0
Temperatura    0
Umidade        1
Vento          0
Jogar          0
dtype: int64

In [None]:
#Calculando a mediana
mediana = sts.median(dados['Umidade'])
mediana

85.5

In [None]:
#Solução: substituir valor faltante pela mediana
dados['Umidade'].fillna(mediana, inplace=True)


In [None]:
#Verificando a correção
dados.isnull().sum()

Aparencia      0
Temperatura    0
Umidade        0
Vento          0
Jogar          0
dtype: int64