Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
Limpeza e tratamento de dados

In [62]:
import pandas as pd
import seaborn as srn
import statistics  as sts

In [63]:
dataset = pd.read_csv("tempo.csv", sep=";")

In [64]:
dataset.head()

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim


In [65]:
dataset.shape

(14, 5)

In [66]:
# Inicio com os agrupados, que me mostra os valores contidos em 
# cada linha de acordo com a coluna desejada.
# Quando há muitos valores diferentes, trabalhamos com o comando describe()

# Agrupado de Aparencia:
agrupado = dataset.groupby(['Aparencia']).size()
agrupado

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

In [67]:
# Agrupado de Temperatura:
agrupado = dataset.groupby(['Temperatura']).size()
agrupado

Temperatura
64      1
65      1
68      1
69      1
70      1
71      1
72      1
75      2
80      1
81      1
83      1
85      1
1220    1
dtype: int64

In [68]:
# Agrupado de Umidade:
agrupado = dataset.groupby(['Umidade']).size()
agrupado

Umidade
65.0     1
70.0     3
75.0     1
80.0     1
85.0     1
86.0     1
90.0     2
91.0     1
95.0     1
200.0    1
dtype: int64

In [69]:
# Agrupado de Vento:
agrupado = dataset.groupby(['Vento']).size()
agrupado

Vento
FALSO         7
VERDADEIRO    6
dtype: int64

In [70]:
# Agrupado de Jogar:
agrupado = dataset.groupby(['Jogar']).size()
agrupado

Jogar
nao    5
sim    9
dtype: int64

In [71]:
# Mostrar quantos valores nulos tem por linha:
dataset.isnull().sum()

Aparencia      0
Temperatura    0
Umidade        1
Vento          1
Jogar          0
dtype: int64

In [72]:
# Ao verificar os problemas, começarei pelas colunas que contém valores nulos:

# Visualizar coluna 'Umidade':
dataset['Umidade'].describe()

count     13.000000
mean      89.769231
std       34.540203
min       65.000000
25%       70.000000
50%       85.000000
75%       90.000000
max      200.000000
Name: Umidade, dtype: float64

In [73]:
# Pegar a mediana dos valores da coluna 'Umidade', e colocar na variável 'mediana':
mediana = sts.median(dataset['Umidade'])
mediana

85.5

In [74]:
# Preencher os valores nulos com a mediana:
dataset['Umidade'].fillna(mediana, inplace=True)

In [75]:
# Após arrumar os valores nulos, já aproveito para arrumar os valores errados:

# Verificar os valores acima ou abaixo do Max/Min:
dataset.loc[(dataset['Umidade'] <  0) | (dataset['Umidade'] >  100)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
9,chuva,75,200.0,,sim


In [76]:
# Preencher os valores acima ou abaixo do Max/Min com a mediana:
dataset.loc[(dataset['Umidade'] <  0) | (dataset['Umidade'] >  100), 'Umidade'] = mediana
# Verificar se os valores foram corrigidos:
dataset.loc[(dataset['Umidade'] <  0) | (dataset['Umidade'] >  100)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [77]:
# Ao finalizar o tratamento da coluna 'Umidade', passo para a próxima com valor nulo:

# Visualizar 'Vento' (novamente):
agrupado = dataset.groupby(['Vento']).size()
agrupado

Vento
FALSO         7
VERDADEIRO    6
dtype: int64

In [78]:
# Como sei que possuo 14 linhas (visto no começo com dataset.shape), e que a coluna 'Vento'
# possui apenas uma linha com valor nulo, e as demais estão corretas, devo substituir a linha
# com o valor nulo pela 'moda', que é o valor que aparece com maior frequencia

# Neste caso, substituo o valor Nulo por 'FALSO'
dataset.loc[dataset['Vento'].isnull(), 'Vento'] = "FALSO"

# Em seguida redefinimos a variável 'agrupado' para verificar se o valor foi atribuido:
agrupado = dataset.groupby(['Vento']).size()
agrupado

Vento
FALSO         8
VERDADEIRO    6
dtype: int64

In [80]:
# Verifico se não há mais valores nulos:
dataset.isnull().sum()

Aparencia      0
Temperatura    0
Umidade        0
Vento          0
Jogar          0
dtype: int64

In [83]:
# Não havendo mais valores nulos, e já tendo arrumado 'Vento' e 'Umidade', passo para a próxima coluna:
agrupado = dataset.groupby(['Aparencia']).size()
agrupado

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

In [87]:
# O valor 'menos' não se aplica, então modifico para o valor moda, no caso chuva ou sol

# O operador"~" antes do dataset é usado para negar a coindição gerada pela função isin()
dataset.loc[~dataset['Aparencia'].isin( ['sol','nublado','chuva']), 'Aparencia'] = "sol"
agrupado = dataset.groupby(['Aparencia']).size()
agrupado

Aparencia
chuva      5
nublado    3
sol        6
dtype: int64

In [91]:
# Resolvido a coluna 'Aparencia, partirei para a próxima 'Temperatura':

# Primeiro vejo se existem temperaturas que fogem do Min/Max permitido:
dataset['Temperatura'].describe()

count    14.000000
mean     74.535714
std       7.276052
min      64.000000
25%      69.250000
50%      73.500000
75%      80.750000
max      85.500000
Name: Temperatura, dtype: float64

In [90]:
# Constatamos pelo max que pelo menos 1 linha está acima do máximo permitido (130F)

# Faremos o mesmo procedimento feito em Umidade, arrumando apenas o nome da coluna e os valores Min/Max:
dataset.loc[(dataset['Temperatura'] <  -130) | (dataset['Temperatura'] >  130), 'Temperatura'] = mediana
# Verificar se os valores foram corrigidos:
dataset.loc[(dataset['Temperatura'] <  -130) | (dataset['Temperatura'] >  130)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [93]:
# Por fim verificamos a coluna jogar, que deve receber apenas os paremetros 'sim' ou 'não':

dataset.groupby(['Jogar']).size()

Jogar
nao    5
sim    9
dtype: int64

In [94]:
# Como não possui valores nulos e nem valores diferentes dos permitidos, não precisamos tratá-lo.

# Como melhorar:
# Dividir o tipo dos dados a ser tratado para ter uma ordem melhor, mais dinâmica.
# Começar tratando os dados de texto e depois os numéricos, por exemplo.
# Utilizar o comando .plot.bar(color = 'gray') para os agrupados para mostrar gráficos.