***

# Regressão Linear Múltipla
***

## O Dataset e o Projeto
<hr>

### Fonte: https://www.kaggle.com/dongeorge/beer-consumption-sao-paulo

### Descrição:
<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>A cerveja é uma das bebidas mais democráticas e consumidas no mundo. Não sem razão, é perfeito para quase todas as situações, desde o happy hour até grandes festas de casamento.</p>

<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>O objetivo deste treinamento será estimar um modelo de <b>Machine Learning</b> utilizando a técnica de <b>Regressão Linear</b> para demonstrar os impactos das variáveis disponibilizadas neste dataset sobre o consumo de cerveja (Y). No final do projeto teremos um modelo de previsão para o consumo médio de cerveja segundo os inputs de um conjunto de variáveis (X's).</p>

<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Os dados (amostra) foram coletados em São Paulo - Brasil, em uma área universitária, onde existem algumas festas com grupos de alunos de 18 a 28 anos de idade (média).</p>

### Dados:
<ul style='font-size: 18px; line-height: 2; text-align: justify;'>
    <li><b>data</b> - Data</li>
    <li><b>temp_media</b> - Temperatura Média (°C)</li>
    <li><b>temp_min</b> - Temperatura Mínima (°C)</li>
    <li><b>temp_max</b> - Temperatura Máxima (°C)</li>
    <li><b>chuva</b> - Precipitação (mm)</li>
    <li><b>fds</b> - Final de Semana (1 = Sim; 0 = Não)</li>
    <li><b>consumo</b> - Consumo de Cerveja (litros)</li>
</ul>

In [1]:
# Importação de bibliotecas:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# Importando o dataset:

dados = pd.read_csv('data/dados_cerveja_completo.csv', sep = ';')

In [3]:
# Visualização inicial:

dados.head()

Unnamed: 0,data,temp_media,temp_min,temp_max,chuva,fds,consumo
0,01/01/2015,27.3,23.9,32.5,0.0,0,25461
1,02/01/2015,27.02,24.5,33.5,0.0,0,28972
2,03/01/2015,24.82,22.4,29.9,0.0,1,30814
3,04/01/2015,23.98,21.5,28.6,1.2,1,29799
4,05/01/2015,23.82,21.0,28.3,0.0,0,28900


In [4]:
# Verificando o tamanho do dataset:

dados.shape

(365, 7)

## Análises Preliminares:

In [5]:
# Estatísticas Descritivas:

dados.describe().round(2)

Unnamed: 0,temp_media,temp_min,temp_max,chuva,fds,consumo
count,365.0,365.0,365.0,365.0,365.0,365.0
mean,21.23,17.46,26.61,5.2,0.28,25401.37
std,3.18,2.83,4.32,12.42,0.45,4399.14
min,12.9,10.6,14.5,0.0,0.0,14343.0
25%,19.02,15.3,23.8,0.0,0.0,22008.0
50%,21.38,17.9,26.9,0.0,0.0,24867.0
75%,23.28,19.6,29.4,3.2,1.0,28631.0
max,28.86,24.5,36.5,94.8,1.0,37937.0


In [6]:
# Matriz de Correlação - Método de Pearson:

dados.corr().round(2)

Unnamed: 0,temp_media,temp_min,temp_max,chuva,fds,consumo
temp_media,1.0,0.86,0.92,0.02,-0.05,0.57
temp_min,0.86,1.0,0.67,0.1,-0.06,0.39
temp_max,0.92,0.67,1.0,-0.05,-0.04,0.64
chuva,0.02,0.1,-0.05,1.0,0.0,-0.19
fds,-0.05,-0.06,-0.04,0.0,1.0,0.51
consumo,0.57,0.39,0.64,-0.19,0.51,1.0


#### O que os dados sobre a correlação da variável 'consumo' sugerem:

* correlação consumo x temp_max: correlação positiva. Pode sugerir um maior consumo em dias quentes.
* correlação consumo x chuva: correlação negativa. Pode sugerir que o consumo diminua em dias chuvosos.
* correlação consumo x fds: correlação forte. Pode sugerir que o consumo aumenta nos finais de semana.