### Estudo de caso: Previsão de preço de casas

**Descrição do problema**:
 > Busca-se encontrar um padrão nas residências que esteja associado ao valor monetário das mesmas. Este padrão pode estar associado à região onde o imóvel se encontra, número de cômodos, proximidade com a estrada principal, entre outros. 

#### Bibliotecas

#### Dicionário de dados

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

#### Leitura de dados

### Análise Exploratória

### Distribuição dos dados

### Correlação

### Outliers

### Modelo de regressão linear


$$ \hat{y} = b_0 + b_1 X $$



O modelo possui dois parâmetros:
 - b<sub>0</sub>: chamado de intercepto ou coeficiente linear
 - b<sub>1</sub>: chamado de coeficiente angular

**Objetivo >** Ajustar os coeficientes modelo linear de forma que se obtenha o menor erro possível no modelo. 

### O algoritmo de aprendizagem da regressão linear¶

A equação acima exprime a **forma funcional** do conjunto de hipóteses (`espaço de busca`) com o qual trabalharemos: funções lineares de uma úniva variável. Isto é,

$$ f_{H, \vec{b}} = b_0 + b_1 X $$

Ou seja,

$$ \mathcal{H} = \{ f_{H, \vec{b}}\} = \{ b_0 + b_1 X \} $$ 

é o conjunto de hipóteses que está sendo considerado, e o vetor de parâmetros é:

$$\vec{b} = \begin{bmatrix}
b_0\\ 
b_1
\end{bmatrix}$$


### ` Conceito de machine learning:`
**''Capacidade de uma máquina de melhorar seu desempenho em uma tarefa específica por meio da experiência.''**

 - "Melhorar seu desempenho" → Otimizar uma métrica (Função de perda) 
 - "Experiência" → Treinamento (Ajuste de parâmetros)
 
 A partir destes inputs, o algoritmo constrói uma **função de perda**, que nada mais é que uma função que contabiliza **os erros cometidos pelo modelo**.

E para sabermos o quanto um modelo está errando é muito simples: basta **compararmos o target predito $\hat{y}$ com o target real $y$**!

Isso pode ser feito de muitas maneiras. A "maneira" específica é o que determina a relação funcional da função de custo de interesse. Para regressão linear, a função de perda mais comum é o **erro quadrático (squared error)**:

$$\text{SE}= (y_i-\hat{y}_i)^2$$

Onde $i = 1, 2, \cdots, n$ é um índice que identifica cada uma das $n$ observações de treino.

Obs.: se tomarmos a média do SE em toda a base de treino, temos o **Mean Squared Error** (MSE):

$$\text{MSE} = \frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$


#### Visualização de um modelo linear

<img src=https://images.squarespace-cdn.com/content/v1/5acbdd3a25bf024c12f4c8b4/1600368657769-5BJU5FK86VZ6UXZGRC1M/Mean+Squared+Error.png width=400>

#### Visualização do aprendizado
Exemplo

<img src='https://miro.medium.com/v2/resize:fit:720/1*CjTBNFUEI_IokEOXJ00zKw.gif'>

Assim, podemos resumir o objetivo do algoritmo de aprendizagem como:

> Determinar o vetor de parâmetros que minimiza a função de custo nos dados de treino


#### Features

#### Divisão de treino e teste

#### Modelo

#### Treinamento do modelo

#### Variáveis do modelo

#### Interpretação do resultado

O nosso modelo final é dado por:

$$ \hat{y} = f_{H, \hat{\vec{b}}}(x) =  24899.74 + 102.48 \times \text{GrLiveArea}$$

Isto quer dizer que:

> Aumentando a variável "GrLiveArea" em uma unidade faz com que o preço seja aumentado em USD 102.48.<br>
> O preço mínimo a ser pago, independente da área construída, é de USD 24899.74!

#### Predição

#### Avaliação

O caso 100% ideal seria $y_i = \hat{y}_i$, o que produziria uma reta exata!

Quanto mais "espalhados" estiverem os pontos em torno da reta, em geral **pior é o modelo**, pois ele está errando mais!

Uma forma de quantificar isso através de uma métrica conhecida como **$R^2$**, o **coeficiente de determinação**.

Este coeficiente indica **o quão próximos os dados estão da reta ajustada**. Por outro lado, o $R^2$ representa a porcentagem de variação na resposta que é explicada pelo modelo.

$$R^2 = 1 - \frac{\sum_{i=1}^n(y_i-\hat{y}_i)^2}{\sum_{i=1}^n(y_i-\bar{y})^2}$$

É possível utilizar o $R^2$ nos dados de treino, mas temos que tomar muito cuidado com a forma como interpretaremos esta métrica! Discutiremos mais a diante a importância de calcularmos as métricas de avaliação também na base de treino.


### Teste de normalidade

### Regressão Linear Múltipla

Podemos passar a utilizar outros atributos (como o número de cômodos, qual é a renda média da vizinhança, etc.), e neste caso teremos uma **Regressão Linear Múltipla**, que é expressa pela seguinte função de hipótese:

$$ \hat{y} = f_{H, \vec{b}} = b_0 + b_1 X_1 + b_2 X_2 + \cdots + b_n X_n $$

Neste caso, além de $b_0$ e $b_1$, temos também outros coeficientes, um pra cada uma das $n$ features que escolhermos! Ou seja, o vetor de parâmetros tem $n+1$ dimensões:

$$\vec{b} = \begin{bmatrix}
b_0\\ 
b_1\\
\vdots\\
b_n
\end{bmatrix}$$

Modelos de regressão múltipla são potencialmente mais precisos, mas há também um lado ruim: nós perdemos a **possibilidade de visualização**. Agora, não temos mais uma reta, mas sim um **hiperplano** que relaciona todas as features com o target!

<img src="https://miro.medium.com/max/1120/0*rGSfRsMjiQeG5jof.png" width=500>

#### Features

#### Modelo linear múltiplo

#### Treinamento

#### Predição

#### Avaliação dos resultados

### Regressão logistica

<img src="https://www.saedsayad.com/images/LogReg_1.png">

#### Referência

- [Algoritmo de descida de gradiente](https://towardsdatascience.com/linear-regression-using-gradient-descent-97a6c8700931)