# Regressão Linear - Exemplo real

* Determinando a relação linear entre umidade e temperatura utilizando dados da cidade de Szeged localizada na Hungria. Este é um dataset público do Kaggle (https://www.kaggle.com/budincsevity/szeged-weather)
* @CursoDS_ProfDanilo
* Prof. Dr. Danilo Morales Teixeira
* cursods.profdanilo@gmail.com

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv('Weather_ Szeged_Hungary_2006_2016.csv')

In [None]:
dados.head()

Exibindo nomes das colunas

In [None]:
dados.columns

As colunas Formatted Date, Summary e Daily Summary não são relevantes, podendo ser excluidas

In [None]:
dados = dados.drop(['Formatted Date','Summary','Daily Summary'],axis=1)

In [None]:
dados.head()

Determinando os tipos de precipitação

In [None]:
dados['Precip Type'].unique()

In [None]:
dados['Precip Type'] = dados['Precip Type'].fillna('sunny')

In [None]:
dados['Precip Type'].unique()

In [None]:
sns.boxplot(data=dados,y='Temperature (C)',x='Precip Type')

Para os casos em que o tipo de precipitação são nulos, temos um dia sem chuva. Desta forma iremos fazer uma análise para cada um dos três casos

In [None]:
dias_sol = dados[(dados['Precip Type'] == 'sunny')]

In [None]:
dias_chuva = dados[(dados['Precip Type'] == 'rain')]

In [None]:
dias_neve = dados[(dados['Precip Type'] == 'snow')]

Graficando umidade em função da temperatura

In [None]:
fig, ax = plt.subplots(1,4,figsize=(12,5))
dias_sol.plot(x='Temperature (C)',y='Humidity',kind='scatter',ax=ax[0],title='Dias de Sol');
dias_chuva.plot(x='Temperature (C)',y='Humidity',kind='scatter',ax=ax[1],title='Dias com chuva');
dias_neve.plot(x='Temperature (C)',y='Humidity',kind='scatter',ax=ax[2],title='Dias com neve');
dados.plot(x='Temperature (C)',y='Humidity',kind='scatter',ax=ax[3],title='Todos');
plt.tight_layout();

Dos gráficos observamos que os dias com sol apresentam uma relação mais próxima da linear. Nos dias com chuva podemos observar uma possível relação linear porém com uma dispersão muito maior. Já os dias com neve não é clara uma relação linear

# Dias de sol

In [None]:
dias_sol.info()

In [None]:
dias_sol.isna().sum()

Armazenando temperatura e umidade nas variáveis X e Y

In [None]:
X = dias_sol['Temperature (C)'].values.reshape(-1, 1)
Y = dias_sol['Humidity'].values.reshape(-1, 1)

Separando valores em amostras de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X, Y, test_size=0.30, shuffle=True, random_state=0)

In [None]:
X_treino.size

In [None]:
X_teste.size

Criando modelo de regressão linear

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
modelo = LinearRegression()

In [None]:
modelo.fit(X_treino,Y_treino)

In [None]:
Y_previsto = modelo.predict(X_teste)

Graficando valores reais e previstos

In [None]:
plt.scatter(X_teste,Y_teste,color='blue',label='Valores reais')
plt.scatter(X_teste,Y_previsto,color='red',label='Valores previstos')
plt.xlabel('Temperatura')
plt.ylabel('Umidade')
plt.legend(loc='best')

Analisando erros da previsão

In [None]:
from sklearn.metrics import mean_absolute_error,mean_squared_error

In [None]:
MAE_sol = mean_absolute_error(Y_teste,Y_previsto)
RMSE_sol = np.sqrt(mean_squared_error(Y_teste,Y_previsto))

In [None]:
print('MAE = {:0.4f}'.format(MAE_sol))
print('RMSE = {:0.4f}'.format(RMSE_sol))

# Dias de chuva

In [None]:
dias_chuva.info()

In [None]:
dias_chuva.isna().sum()

In [None]:
X_chuva = dias_chuva['Temperature (C)'].values.reshape(-1, 1)
Y_chuva = dias_chuva['Humidity'].values.reshape(-1, 1)

In [None]:
X_treino_chuva, X_teste_chuva, Y_treino_chuva, Y_teste_chuva = train_test_split(X_chuva, Y_chuva, test_size=0.30, shuffle=True, random_state=0)

In [None]:
X_treino_chuva.size

In [None]:
X_teste_chuva.size

In [None]:
modelo2 = LinearRegression()

In [None]:
modelo2.fit(X_treino_chuva,Y_treino_chuva)

In [None]:
Y_previsto_chuva = modelo2.predict(X_teste_chuva)

In [None]:
plt.scatter(X_teste_chuva,Y_teste_chuva,color='blue',label='Valores reais')
plt.scatter(X_teste_chuva,Y_previsto_chuva,color='red',label='Valores previstos')
plt.xlabel('Temperatura')
plt.ylabel('Umidade')
plt.legend(loc='best')

In [None]:
MAE_chuva = mean_absolute_error(Y_teste_chuva,Y_previsto_chuva)
RMSE_chuva = np.sqrt(mean_squared_error(Y_teste_chuva,Y_previsto_chuva))

In [None]:
print('MAE = {:0.4f}'.format(MAE_chuva))
print('RMSE = {:0.4f}'.format(RMSE_chuva))

# Dias com neve

In [None]:
dias_neve.info()

In [None]:
dias_neve.isna().sum()

In [None]:
X_neve = dias_neve['Temperature (C)'].values.reshape(-1, 1)
Y_neve = dias_neve['Humidity'].values.reshape(-1, 1)

In [None]:
X_treino_neve, X_teste_neve, Y_treino_neve, Y_teste_neve = train_test_split(X_neve, Y_neve, test_size=0.30, shuffle=True, random_state=0)

In [None]:
X_treino_neve.size

In [None]:
X_teste_neve.size

In [None]:
modelo3 = LinearRegression()

In [None]:
modelo3.fit(X_treino_neve,Y_treino_neve)

In [None]:
Y_previsto_neve = modelo3.predict(X_teste_neve)

In [None]:
plt.scatter(X_teste_neve,Y_teste_neve,color='blue',label='Valores reais')
plt.scatter(X_teste_neve,Y_previsto_neve,color='red',label='Valores previstos')
plt.xlabel('Temperatura')
plt.ylabel('Umidade')
plt.legend(loc='best')

In [None]:
MAE_neve = mean_absolute_error(Y_teste_neve,Y_previsto_neve)
RMSE_neve = np.sqrt(mean_squared_error(Y_teste_neve,Y_previsto_neve))

In [None]:
print('MAE = {:0.4f}'.format(MAE_neve))
print('RMSE = {:0.4f}'.format(RMSE_neve))