# 1 - Teoria

## 1.1 - Mínimos Quadrados

O **método dos Mínimos Quadrados(MMQ)** também conhecido como Mínimos Quadrados Ordinários é um modo de otimização na matemática e estatística. Este método procura melhorar um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados tal que essas diferenças são chamadas de resíduos, vamos demonstrar esse problema.

Temos um conjunto de dados simples que consiste em $n$ pontos (que são pares ordenados) $(x_i, y_i)$, $i= 1,2,.....,n$ tal que $x_i$ é uma variável independe e $y_i$ é uma dependente.

A função modelo dada como $F(x,b)$ tal que os parâmetros ajustáveis são mantidos no vetor $b$, queremos encontrar os parâmetros que melhor se ajusta em nos dados.

O ajuste de um modelo é pelo seu resíduo, que é diferença entre o valor real da variável dependente e o valor predito pelo modelo:

$$r_i = y_i - F(x_i,b)$$ 

Então, encontrar os valores ideais para os parâmetros, minimizando a soma S dos quadrados residuais :

$$ S = \sum\limits_{i-1}^{\mbox{}{n}}r^2_i$$

Um tipo de modelo de duas dimensões é o da reta da função afim:

$$ f(x) = b_0 + b_1x$$ 


$b_0$ sendo a intersecção em y e $b_1$ a inclinação.

## 1.2 - Regressão Linear

### 1.2.1 - Regressão Linear Simples

Em estatística ou econometria, a análise de regressão linear é usada para prever o valor de uma variável com base no valor de outra. A variável que deseja prever é chamada de **variável dependente**. A variável que é usada para prever o valor de outra variável é chamada de **variável independente**.

Em regressão simples, queremos estimar valores de determinada variável y. Para isso, consideramos os valores de outra variável x que acreditamos ter poder de explicação sobre y conforme a fórmulam:

$$ y = \alpha + \beta x + \epsilon$$

Tal que:

* $\alpha$ é o parâmetro do modelo chamado de constante (pois não depende de x).

* $\beta$ é o parâmetro do modelo chamado de coeficiente da variáve x.

* $\epsilon$ é o erro que representa a variação de y que não é explicada pelo modelo.

Em uma base de dados com $n$ valores observados de $y$ e $x$. Sabemos que usando base de dados $y$ e $x$ são vetores que representa uma lista de valores, um para cada observação de dados.

O método dos mínimos quadrados ajuda a encontrar as estimativas de $\alpha$ e $\beta$ . Como sabemos, serão somente estimativas desses parâmetros, pois o valor real dos parâmetros são desconhecidos.

 Logo, quando for fazer a estimativa iremos mudar a notação de algumas variáveis:

$$\alpha = a, \beta = b, \epsilon = e $$

Logo, quando estimamos um modelo a base de dados, estamos estimando :

$$y_i = a + bx_i + e_i$$  

Tal que $i$ indica uma das n observações da base de dados e $e$ vai ser chamado de resíduo ao invés de erro.

O método dos mínimos quadrados minimiza a soma dos quadrado dos resíduos, ou seja, minimiza:

$$\sum\limits_{t=0}^{\mbox{}{n}}e^2$$

A ideia dessa técnica é que, minimizando essa soma, encontraremos a e b que trarão menor diferença entre a previsão de $y$ e o $y$ realmente observado: 

Tomando $e_i = y_i - a -bx_i$, teremos 
$$ S(a,b) = \sum\limits_{t=0}^{\mbox{}{n}}(y_i - a -bx_i)^2$$

A minimização vai ser quando derivarmos S e relação a a e b, usando a regra da cadeia e depois igualando a zero. 

Assim chegaremos a: 

$$ b = (\sum \limits_{i=1}^{\mbox{}{n}}(x_i - x^*)(y_i - y^*))(\sum \limits_{i=1}^{\mbox{}{n}}(x_i - x^*)^2) $$ 


Tal que onde $y^*$ é a média amostral de y e $x^*$ é a média amostral de x. 

### 1.2.2 - Regressão Múltipla

A regressão múltipla apresenta um funcionamento parecido com o da regressão simples, porém, leva em consideração diversas variáveis explicativas x influenciando y ao mesmo tempo:

$$ y = b_0 + x_1b_1 + x_2b_2 + ... + x_kb_k + e$$
    
Ao usar uma base de dados com $k$ variáveis explicativas e $n$ observações, o modelo pode ser escrito de uma forma matricial, mas também pode ser resumida em fórmula como: 

$$ y = Xb + e $$ 

A técnica para mínimos quadrados continua sendo a mesma, logo tendo $e = y - Xb$ Temos:

$$S(b) = (y - Xb)^T (Y - Xb)$$ 

A minimização pode ser obtida ao derivar S e igualar a zero, logo teremos: 

$$b = (X^TX)^1X^Ty$$

# 2 - Aplicação

## 2.1 - Contexto e Objetivos

Um sistema de compartilhamento de bicicletas é um serviço no qual as bicicletas são disponibilizadas para uso compartilhado para indivíduos a curto prazo por um preço ou gratuitamente. Muitos sistemas de compartilhamento de bicicletas permitem que as pessoas peguem uma bicicleta emprestada de um "dock" que geralmente é controlado por computador, no qual o usuário insere as informações de pagamento e o sistema o desbloqueia. Esta bicicleta pode então ser devolvida a outra doca pertencente ao mesmo sistema.

Com base em várias pesquisas meteorológicas e estilos das pessoas, Queremos entender os fatores dos quais depende a demanda por essas bicicletas compartilhadas. Especificamente, queremos entender os fatores que afetam a demanda por essas bicicletas compartilhadas no mercado americano. 

**Objetivo do negócio:**

Somos obrigados a modelar a demanda por bicicletas compartilhadas com as variáveis ​​independentes disponíveis. Ele será usado para entender exatamente como as demandas variam com diferentes recursos. Esse modelo será útil para manipular a estratégia de negócios de acordo com os níveis de demanda e atender às expectativas do cliente. Além disso, o modelo será uma boa maneira de a administração entender a dinâmica da demanda de um novo mercado.

link: https://business-science.github.io/timetk/reference/bike_sharing_daily.html

## 2.2 - Importação e Limpeza dos dados

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

from sklearn.model_selection import train_test_split
import statsmodels.api as sm

In [None]:
bike = pd.DataFrame(pd.read_csv("day.csv"))

In [None]:
bike

### Verificar as informações do dataframe 

In [None]:
bike.info()

#### Explicando as variáveis:

* **instant**: index do DataBase (type: int).

* **dteday**: Dia (type: Data).

* **season**: Estação do ano, sendo 1, 2, 3 e 4 index para, respectivamente, inverno, primavera, verão e outono. (type: int)

* **yr**: Ano, sendo 1 o ano de 2018 e 2 para o ano de 2019. (type: int)
 
* **mnth**: O mês do ano. (type: int).

* **holiday**: 1 para feriados e 0 para dias comuns. (type: int).

* **weekday**: index para os dias da semana, começando no domingo com o index 0. (type: int)

* **workingday**: se o dia não for fim de semana nem feriado for 1, caso contrário será 0.

* **weathersit**:  

 * 1: Claro, Poucas nuvens, Parcialmente nublado, Parcialmente nublado 

 * 2: Névoa + Nublado, Névoa + Nuvens quebradas, Névoa + Poucas nuvens, Névoa

 * 3: Neve fraca, Chuva fraca + Trovoada + Nuvens dispersas, Chuva fraca + Nuvens dispersas

 * 4: Chuva Pesada + Paletes de Gelo + Trovoada + Névoa, Neve + Neblina  (type: int)

* **temp**: Temperatura normalizada em Celsius. Os valores são derivados via (t-t_min)/(t_max-t_min), t_min=-8, t_max=+39 (somente em escala horária). (type: int).

* **atemp**: Temperatura de sensação normalizada em Celsius. Os valores são derivados via (t-t_min)/(t_max-t_min), t_min=-16, t_max=+50 (somente em escala horária). (type: int).

* **hum**: Umidade normalizada. Os valores são divididos em 100 (máx.). (type: int).

* **windspeed**: velocidade do vento normalizada. Os valores são divididos em 67 (máx.). (type: int).

* **casual**: contagem de usuários casuais. (type: int).

* **registered**: contagem de usuários registrados. (type: int).

* **cnt**: contagem do total de bicicletas alugadas, incluindo casuais e registradas. (type: int).

In [None]:
bike.describe()

In [None]:
#Quantidade de valores nulos

na = bike[bike.isna()].count()
print(na)

#### Análise das informações encontradas:

* Há 730 instâncias e 16 variáveis
* Não há valores NaN no nosso banco de dados
* 11 variáveis int, 4 float e 1 data, sendo que 'mnth', 'weekday', 'season' e 'weathersit' são variáveis categóricas.

#### Como essa variáveis são categóricas, vamos mudar o seu tipo:

In [None]:
bike['yr'] = bike['yr'].astype('category')
bike['season'] = bike['season'].astype('category')
bike['weathersit'] = bike['weathersit'].astype('category')
bike['mnth'] = bike['mnth'].astype('category')
bike['weekday'] = bike['weekday'].astype('category')

In [None]:
bike.info()

#### Vamos excluir as seguintes variáveis:

* **instant** : É apenas um valor de índice.

* **dteday** : Já temos essa variáveis separada em outras variáveis.

* **casual & registered** : ambas as colunas contêm a contagem de bicicletas reservadas por diferentes categorias de clientes. Como nosso objetivo é encontrar a contagem total de bicicletas e não por categoria específica, vamos ignorar essas duas colunas.

In [None]:
bike_new = bike[['season', 'yr', 'mnth', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'cnt']]
bike_new

### Criando variáveis ficticías 

As variáveis categorias não podem ser utilizadas em forma de texto, uma vez que os algoritmos compreendem apenas valores numéricos. Também não podemos simplesmente atribuir um valor numérico para cada categoria, uma vez que esse processo, conhecido como ponderação arbitrária, pode criar uma ordenação e pesos para as categorias que não refletem a realidade.

O processo correto de transformação das variáveis categóricas é feito a partir da criação de novas colunas a partir das categorias. Cada uma delas se torna uma nova coluna e o valor na linha correspondente será 1, caso tenha a presença da característica. Do contrário, será 0. Esse processo é conhecido como codificação **"one-hot"**.

| Variável   | 
|---------- |
| Característica 1 | 
| Característica 2  |   
| Característica 3  |   

| Característica 1   | Característica 2 | Característica 3|
|---------- | ----------  |---------- |
|**1** | 0 | 0| 
| 0  |  **1** | 0| 
| 0  |  0 | **1**| 

In [None]:
bike_new = pd.get_dummies(bike_new)
bike_new.info()

In [None]:
bike_new

### Tranformação logarítimica

#### Tranformação das variáveis numéricas em logarítimos na base 10

**Primeira**: Supondo que a distribuição da variável em questão possui um viés, ou seja, uma das extremidades elevadas e uma cauda longa, medidas como correlação ou regressão podem ser bastante influenciadas pelo pico da distribuição, outliers, dentre outros. A aplicação da transformação pode reduzir o efeito do viés.

 **Segunda** : Alguns conceitos são melhor compreendidos quando tratamos sobre a proporção dos objetos do que sobre a diferença entre eles.

## 2 - Verificando correlações

### Variáveis numéricas 

Vamos fazer um gráfico de pares de todas as variáveis numéricas.

In [None]:
# Cria um novo dataframe apenas com variáveis numéricas:

bike_num = bike_new[[ 'temp', 'atemp', 'hum', 'windspeed','cnt']]

sns.pairplot(bike_num, diag_kind='kde')
plt.show()

O Par-Plot acima indica que existe uma RELAÇÃO LINEAR entre 'temp', 'atemp' e 'cnt'

### Variáveis Categóricas

Construir boxplot de todas as variáveis categóricas (antes de criar dummies) contra a variável alvo 'cnt'.

Para ver como cada variável preditora se compara à variável de destino.

In [None]:
plt.figure(figsize=(25, 10))
plt.subplot(2,3,1)
sns.boxplot(x = 'season', y = 'cnt', data = bike)
plt.subplot(2,3,2)
sns.boxplot(x = 'mnth', y = 'cnt', data = bike)
plt.subplot(2,3,3)
sns.boxplot(x = 'weathersit', y = 'cnt', data = bike)
plt.subplot(2,3,4)
sns.boxplot(x = 'holiday', y = 'cnt', data = bike)
plt.subplot(2,3,5)
sns.boxplot(x = 'weekday', y = 'cnt', data = bike)
plt.subplot(2,3,6)
sns.boxplot(x = 'workingday', y = 'cnt', data = bike)
plt.show()

**mnth**: Quase 10% das reservas de bicicletas aconteceram nos meses 5,6,7,8 e 9, com uma média de mais de 4.000 reservas por mês. Isso indica que mnth tem alguma tendência para reservas e pode ser um bom preditor para a variável dependente.

**weathersit**: Quase 67% das reservas de bicicletas estavam acontecendo durante o "weathersit1", com uma média de cerca de 5.000 reservas (para o período de 2 anos). Isto foi seguido por weathersit2 com 30% da reserva total. Isso indica que o clima mostra alguma tendência em relação às reservas de bicicletas pode ser um bom preditor para a variável dependente.

**holiday**: Quase 97,6% das reservas de bicicletas ocorreram quando não é feriado, o que significa que esses dados são claramente tendenciosos. **Isso indica que o feriado NÃO PODE ser um bom preditor para a variável dependente**.

**weekday**: a variável dia da semana apresenta tendência muito próxima (entre 13,5%-14,8% do total de reservas em todos os dias da semana) tendo suas medianas independentes entre 4.000 a 5.000 reservas. Esta variável pode ter alguma ou nenhuma influência sobre o preditor.

**workingday**: Quase 69% das reservas de bicicletas ocorreram em 'dia útil' com uma mediana de cerca de 5.000 reservas (para o período de 2 anos). Isso indica que a jornada de trabalho pode ser um bom preditor para a variável dependente.

## Matriz de correlação

Vamos verificar os coeficientes de correlação para ver quais variáveis são altamente correlacionadas.

In [None]:
plt.figure(figsize = (25,20))
sns.heatmap(bike_new.corr(), annot = True, cmap="RdBu")
plt.show()

O mapa de calor mostra claramente quais variáveis são multicolineares por natureza e quais têm alta colinearidade com a variável alvo.

Iremos referenciar este mapa para frente e para trás durante a construção do modelo linear para validar diferentes valores correlacionados junto com VIF & valor p, para identificar a variável correta para selecionar/eliminar do modelo.

In [None]:
bike_new.drop(["holiday"], axis=1, inplace = True)

In [None]:
bike_new

## 3 - Construindo um modelo linear

### Separando os dados de treinamento e os dados de teste

Vamos separar 95% dos nossos dados aleatóriamente para fazer o modelo e os outros 5% para fazer testes no final

In [None]:
np.random.seed(0)
df_train, df_test = train_test_split(bike_new, train_size = 0.95, test_size = 0.05, random_state = 333)

### Separando as variáveis independentes e a dependente

Antes será realizada a separação entre a variável dependente e as variáveis independentes.

https://ivanildo-batista13.medium.com/regress%C3%A3o-linear-m%C3%BAltipla-em-python-eb4b6603a3

In [None]:
#Variável dependente
y = df_train["cnt"].copy()
#Variáveis independentes
X = df_train.drop('cnt', axis=1)

### Rodando o modelo

In [None]:
modelo1 = (sm.OLS(y,sm.add_constant(X)).fit())
modelo1.summary(title='Sumário do modelo')

## Analisando a tabela

### Primeira parte

### 𝑅² e 𝑅² ajustado — Coeficiente de determinação


* O que é $R^2$?

O coeficiente de determinação é uma proporção que ajuda a entender o quanto as variáveis explicativas explicam a variação da média da quantidade de pessoas que alugam bicicletas.

O 𝑅² varia entre 0 e 1, então quanto maior o 𝑅² melhor é o modelo de regressão, pois teria uma maior a capacidade de explicação.

Uma limitação dessa medida é que com a inserção de regressores ao modelo o 𝑅² tende a aumentar.

* Fórmula do 𝑅²

![alt text for screen readers](img/r2_0.png).

SST = Soma dos quadrados totais (sum of squares total).

SSR = Soma dos quadrados da regressão (sum of squares due to regression).

SSE = Soma dos quadrados dos resíduos (sum of squares error).

* O que é $R^2$ ajustado?

Diferente do 𝑅², o 𝑅² ajustado não sofre a limitação de nunca decair. Caso seja inserido um modelo de regressão uma variável que não seja importante o 𝑅² ajustado irá diminuir.

Uma característica do 𝑅² ajustado é que ele pode ser negativo e por isso ele não pode ser interpretado como uma proporção. Além disso essa medida serve para fazer a comparação entre modelos diferentes.

* Fórmula do 𝑅² ajustado

![alt text for screen readers](img/r2_1.png).

T = Número de observações.

K = Número de parâmetros.

### F-statistic e Prob(F-statistic)

Teste de significância conjunta dos parâmetros do modelo.

Hipóteses do teste:

![alt text for screen readers](f_0.png "Text to show on mouseover").

Testa se os coeficientes são conjuntamente nulos e para esse teste deve-se rejeitar a hipótese nula e para rejeitar a hipótese nula precisamos que o valor da estatística gerado no modelo esteja fora da região de aceitação da hipótese nula. Esse teste é conhecido como o teste F.

A regra de rejeição é que


![alt text for screen readers](f_1.png "Text to show on mouseover")


O valor foi de 133.0 (cada vez que rodar será diferente) e observando a tabela da distribuição F de Snedecor a 5% [aqui](https://edisciplinas.usp.br/pluginfile.php/3333945/mod_resource/content/1/Distribuicao%20F%205%25.pdf) , veremos que esse valor fica muito acima dos valores limites seja qual for o grau de liberdade (os graus de liberdade são definidos como 𝑛−𝑘).

Conclusão rejeitamos a hipótse nula e os parâmetros/coeficientes são conjuntamente significativos.

O Prob(F-statistic) diz a mesma coisa que o F-statistic : probabilidade da hipótese nula ser verdadeira.

## Segunda Parte

Nessa segunda parte constam os parâmetros, o erro padrão de cada coeficiente, a estatística t, seus respectivos p-valores e os intervalos de confiança.

### Coeficientes ou parâmetros


A constante é a média da variável dependente, quando todos os valores das outras variáveis forem zero. Os parâmetros das variáveis independentes medem o impacto na variação média da variável dependente.

### Erro padrão

Erro padrão é uma estimativa do desvio padrão do coeficiente, uma medida da quantidade de variação no coeficiente ao longo de seus pontos de dados.

### Teste de significância individual dos parâmetros


Esse resultado faz parte do teste de hipótese do parâmetro. Nesse teste de hipótese testamos se o parâmetro é estatisticamente igual a um determinado valor, ou seja,

![alt text for screen readers](t_1.png "Text to show on mouseover").

O ideal para esse teste é que rejeitemos a hipótese nula.

### P-valor


É uma estatística que relata os resultados de um teste de hipótese, essa estatística satisfaz 0≤𝑝(𝑥)≤1. É conhecido como nível de significância exato ou observado ou probabilidade exata de cometer um erro de Tipo I (rejeitar a hipótese nula quando ela é verdadeira).

Quanto maior o valor dessa estatística, maior a evidência a favor da hipótese alternativa do teste. Aqui o teste é da significância individual dos parâmetros.

## 4 - Análise dos resultados

### Equação da reta

In [None]:
def equacao(parametros):
    equacao = "cnt = "
    for param, coef in zip(parametros.index, parametros):
        if param == "const":
            equacao += f"({coef}) + "
        elif param == "weathersit_3":
            equacao += f"{param} * ({coef})"
        else:
            equacao += f"{param} * ({coef}) + "
    return equacao

parametros = modelo1.params 
print(equacao(parametros))

In [None]:
df_test

In [None]:
def cnt(parametros, df_dados):
    df_dados_independentes = df_dados.drop('cnt', axis=1)
    dados_depedente = list(df_dados["cnt"])
    previsto = []
    for coluna, valores in df_dados_independentes.iterrows():
        valores_new = [0] + list(valores)
        cnt = 0
        for coef, valor in zip(parametros,valores_new):
#             print(coef, valor)
            if cnt == 0:
                cnt += coef
            else:
                cnt += (coef * valor)
        cnt = "{:0.0f}".format(cnt)
        previsto.append(int(cnt))

    df_cnt = pd.DataFrame({"Previsto": previsto, "Original": dados_depedente})
    return df_cnt
df = cnt(parametros, df_test)     

In [None]:
df

## Visualização

Vamos agora plotar um gráfico com as previsões e as quantidades reais

In [None]:
previsto_list = list(df["Previsto"])
original_list = list(df["Original"])

# Definindo a largura das barras
barWidth = 0.25

# Aumentando o gráfico
plt.figure(figsize=(10,5))

# Definindo a posição das barras
r1 = np.arange(len(previsto_list))
r2 = [x + barWidth for x in r1]

# Criando as barras
plt.bar(r1, previsto_list, color = "#6A5ACD", width=barWidth, label="Previsto")
plt.bar(r2, original_list, color = "#6495ED", width=barWidth, label="Original")

# Adicionando legendas as barras
plt.xlabel("Dias aleatórios")
plt.ylabel("Quantidade de bicicletas alugadas")
plt.title("Previsão da quantidade de bicicletas alugadas")

# Criando a legenda e exibindo o gráfico
plt.legend()
plt.show()