<a href="https://colab.research.google.com/github/eriksilva01/tempo_tratamento_de_dados/blob/main/tempo_udemyII.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Importação das bibliotecas**

In [157]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import statistics as sts


# **Leitura do arquivo**

In [158]:
#from google.colab import files
#upload = files.upload()

In [159]:
df = pd.read_csv('tempo.csv', sep=';')
df

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim
5,chuva,65,70.0,VERDADEIRO,nao
6,menos,64,65.0,VERDADEIRO,sim
7,sol,1220,95.0,FALSO,nao
8,sol,69,70.0,FALSO,sim
9,chuva,75,200.0,,sim


In [160]:
# Onde temos valores Nulos - NaN
df.isnull().sum()

Unnamed: 0,0
Aparencia,0
Temperatura,0
Umidade,1
Vento,1
Jogar,0


# **Tratando os valores da coluna Umidade**

In [161]:
# Forçando os Strings em Numericos na coluna Umidade
df['Umidade'] = pd.to_numeric(df['Umidade'], errors='coerce')

In [162]:
# Calculando a moda
moda = df['Umidade'].mode()[0]
moda

np.float64(70.0)

In [163]:
# Calculando a mediana
mediana = sts.median(df['Umidade'])
mediana

85.5

In [164]:
#Substituindo o valores outliers por NaN em duas colunas
df = df.replace([200], np.nan)
df



Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,,FALSO,sim
4,chuva,68,80.0,FALSO,sim
5,chuva,65,70.0,VERDADEIRO,nao
6,menos,64,65.0,VERDADEIRO,sim
7,sol,1220,95.0,FALSO,nao
8,sol,69,70.0,FALSO,sim
9,chuva,75,,,sim


In [165]:
# Resumo dos valores
df.describe()

Unnamed: 0,Temperatura,Umidade
count,14.0,12.0
mean,155.571429,80.583333
std,306.433759,10.237705
min,64.0,65.0
25%,69.25,70.0
50%,73.5,82.5
75%,80.75,90.0
max,1220.0,95.0


In [166]:
# Substituindo os valores nulos
df['Umidade'] = df['Umidade'].fillna(moda)


In [167]:
df

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,85,85.0,FALSO,nao
1,sol,80,90.0,VERDADEIRO,nao
2,nublado,83,86.0,FALSO,sim
3,chuva,70,70.0,FALSO,sim
4,chuva,68,80.0,FALSO,sim
5,chuva,65,70.0,VERDADEIRO,nao
6,menos,64,65.0,VERDADEIRO,sim
7,sol,1220,95.0,FALSO,nao
8,sol,69,70.0,FALSO,sim
9,chuva,75,70.0,,sim


# **Tratando os valores da coluna Temperatura**

In [168]:
# Forçando para numericos
df['Temperatura'] = pd.to_numeric(df['Temperatura'], errors='coerce')
df['Temperatura'].describe()

Unnamed: 0,Temperatura
count,14.0
mean,155.571429
std,306.433759
min,64.0
25%,69.25
50%,73.5
75%,80.75
max,1220.0


In [169]:
# Transformando a coluna de Farenheit para Celsius
df['Temperatura'] = df['Temperatura'] - 32 * 5/9
df['Temperatura']

Unnamed: 0,Temperatura
0,67.222222
1,62.222222
2,65.222222
3,52.222222
4,50.222222
5,47.222222
6,46.222222
7,1202.222222
8,51.222222
9,57.222222


In [170]:
# Transformando em 1 casa depois da vírgula
outlier_temperatura = df['Temperatura'] > 100
df.loc[ outlier_temperatura, 'Temperatura'] = np.nan


In [171]:
#Calculando a moda
moda_temperatura = df['Temperatura'].mode()[0]
moda_temperatura

np.float64(57.22222222222222)

In [172]:
# Substituindo os valores NaN pela moda
df['Temperatura'] = df['Temperatura'].fillna(moda_temperatura)

In [173]:
# Arredondando os valores para 1 casa decimal
df['Temperatura'] = df['Temperatura'].round(1)

In [181]:
df['Temperatura'].describe().round(1)

Unnamed: 0,Temperatura
count,14.0
mean,56.0
std,6.6
min,46.2
25%,51.4
50%,55.7
75%,61.0
max,67.2


#**Tratando os valores da coluna Vento**

In [175]:
# Calculando a moda da coluna
moda_vento = df['Vento'].mode()[0]
moda_vento

'FALSO'

In [176]:
# Substituindo os valores NaN
df['Vento'] = df['Vento'].fillna(moda_vento)

In [177]:
# Verificando se há algum valor NaN
df.isnull().sum()

Unnamed: 0,0
Aparencia,0
Temperatura,0
Umidade,0
Vento,0
Jogar,0


In [178]:
df

Unnamed: 0,Aparencia,Temperatura,Umidade,Vento,Jogar
0,sol,67.2,85.0,FALSO,nao
1,sol,62.2,90.0,VERDADEIRO,nao
2,nublado,65.2,86.0,FALSO,sim
3,chuva,52.2,70.0,FALSO,sim
4,chuva,50.2,80.0,FALSO,sim
5,chuva,47.2,70.0,VERDADEIRO,nao
6,menos,46.2,65.0,VERDADEIRO,sim
7,sol,57.2,95.0,FALSO,nao
8,sol,51.2,70.0,FALSO,sim
9,chuva,57.2,70.0,FALSO,sim
