# <font color = #119fbf size='10'> **Manipulação de Dados com Pandas**</font>

Tratar dados do 'Tempo.csv', as variáveis são:

* Aparência: sol, nublado, chuva
* Temperatura: -130 ~ 130 F
* Umidade: 0 ~ 100
* Jogar: sim/não

Tratar valores NaN

## Importando bibliotecas e dados

In [1]:
import pandas as pd
import seaborn as srn
import statistics as sts

### Importando dados do tempo

In [2]:
dataset = pd.read_csv('../10.Prática em Python/dados/tempo.csv', sep=';' )
dataset.head()

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim


### Explorando dados categóricos

 * Aparência

In [3]:
aparencia = dataset.groupby(['Aparencia']).size()
aparencia

Aparencia
chuva      5
menos      1
nublado    3
sol        5
dtype: int64

 - Temperatura

In [4]:
temperatura = dataset.groupby(['Temperatura']).size()
temperatura

Temperatura
64      1
65      1
68      1
69      1
70      1
71      1
72      1
75      2
80      1
81      1
83      1
85      1
1220    1
dtype: int64

 - Umidade

In [5]:
umidade = dataset.groupby(['Umidade']).size()
umidade

Umidade
65.0     1
70.0     3
75.0     1
80.0     1
85.0     1
86.0     1
90.0     2
91.0     1
95.0     1
200.0    1
dtype: int64

* Vento

In [6]:
vento = dataset.groupby(['Vento']).size()
vento

Vento
FALSO         7
VERDADEIRO    6
dtype: int64

* Jogar

In [7]:
jogar = dataset.groupby(['Jogar']).size()
jogar

Jogar
nao    5
sim    9
dtype: int64

* Verificando contagem de valores nulos ( Nan )

In [8]:
nulos = dataset.isnull().sum()
nulos

Aparencia      0
Temperatura    0
Umidade        1
Vento          1
Jogar          0
dtype: int64

## <font color = #7b68ee size='6'> **Tratamento dos dados**</font>

* Povoando valores nulos da Umidade e eliminando outliers

In [9]:
mediana_umidade = sts.median(dataset['Umidade'])

dataset['Umidade'].fillna(mediana_umidade, inplace=True)
dataset['Umidade'].isnull().sum()
dataset.loc[(dataset['Umidade'] < 0) | (dataset['Umidade'] > 100), 'Umidade'] = mediana_umidade

* Modificando valores inválidos da Aparência

In [10]:
dataset.loc[dataset['Aparencia'] == 'menos', 'Aparencia' ] = 'sol'
dataset.groupby(['Aparencia']).size()

Aparencia
chuva      5
nublado    3
sol        6
dtype: int64

* Povoando valores nulos do Vento

In [11]:
dataset['Vento'].fillna('FALSO', inplace=True)
dataset['Vento'].isnull().sum()

0

* Tratamento outliers da Temperatura

In [12]:
mediana_temperatura = sts.median(dataset['Temperatura'])
dataset.loc[(dataset['Temperatura'] > 130) | (dataset['Temperatura'] < -130), 'Temperatura'] = mediana_temperatura
dataset.loc[(dataset['Temperatura'] > 130) | (dataset['Temperatura'] < -130)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


## Resumo dos dados

In [15]:
dataset.head()

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85.0,85.0,FALSO,nao
1,sol,80.0,90.0,VERDADEIRO,nao
2,nublado,83.0,86.0,FALSO,sim
3,chuva,70.0,85.5,FALSO,sim
4,chuva,68.0,80.0,FALSO,sim


In [16]:
dataset.isnull().sum()

Aparencia      0
Temperatura    0
Umidade        0
Vento          0
Jogar          0
dtype: int64

In [17]:
dataset.groupby(['Aparencia']).size()

Aparencia
chuva      5
nublado    3
sol        6
dtype: int64

In [19]:
dataset.loc[(dataset['Temperatura'] < -130) | (dataset['Temperatura'] > 130)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [20]:
dataset.loc[(dataset['Temperatura'] < 0) | (dataset['Temperatura'] > 100)]

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar


In [21]:
dataset.groupby(['Vento']).size()

Vento
FALSO         8
VERDADEIRO    6
dtype: int64

In [22]:
dataset.groupby(['Jogar']).size()

Jogar
nao    5
sim    9
dtype: int64