# Model Development

## Regressao Linear e Regressao Linear Multipla

__Regressao Linear__: Se trata de uma regressao com uma variavel independente para fazer uma previsao. Ela permite que seja avaliada a relacao entre a variavel preditora e target.

__Regressao Linear Multipla__: Se trata de uma regressao com varias variaveis independentes para fazer uma previsao. Ela permite que seja avaliada a relacao entre as variaveis preditoras e a variavel target.

<br>

__Codigo para aplicar uma regressao linear _simples___

```
from sklearn.linear_model import LinearRegression

# Variavel preditora
X = df[['highway-mpg']]

# Variavel alvo
y = df[['price']]

# Ajustar o modelo
lin_reg = LinearRegression()
lin_reg.fit(X,y)
```

<br>

__Codigo para aplicar uma regressao linear _multipla___

```
from sklearn.linear_model import LinearRegression

# Variavel preditora
X = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]

# Variavel alvo
y = df[['price']]

# Ajustar o modelo
lin_reg = LinearRegression()
lin_reg.fit(X,y)
```

## Model Evaluation using Visualization
Plotagens de regressoes sao muito boas para podermos analisar visualmente a relacao entre as variaveis, a forca da correlacao, e a direcao que a correlacao apresenta (positiva ou negativa).

__Exemplo em codigo__
```
import seaborn as sns

# x eh a variavel independente, y eh a variavel alvo.
sns.regplot(x='highway-mpg', y='price', data=df)
plt.ylim(0,);
```

__Exemplo para plot de distribuicao__
```
import seaborn as sns

ax1 = sns.distplot(df['price'], hist=False, color='r', label='Actual value')
sns.distplot(Yhat, hist=False, color='b', label='Fitted values', ax=ax1)
```

## Polynomial Regression and Pipelines
Quando um modelo linear nao eh a melhor opcao para os dados que possuimos, podemos transformar os dados em um polinomio, e entao usar regressao linear para ajustar os parametros.

A __regressao polinomial__ eh um caso especial da regressao linear comum. Eh util quando precisamos descrever relacoes que apresentam curvas, ou seja, apresentam algum tipo de termo quadrado ou de ordem maior nas variaveis preditoras.

Quando possuimos uma regressao polinomial de ordem dois, temos um modelo quadratico, ou um modelo de segunda ordem.

Quando possuimos uma regressao polinomial de ordem tres, temos um modelo cubico, ou um modelo de terceira ordem.

Tambem podemos ter modelos de ordens maiores.

__Exemplo de Regressao Polinomial de Terceira Ordem__

```
# Calcular o polinomio de ordem 3
f = np.polyfit(x, y, 3)
p = np.poly1d(f)

# Exibir
print(p)
```

Podemos tambem nos deparar com Regressoes Polinomias com multiplas dimensoes, qual o NumPy nao eh capaz de lidar. Para esse tipo de regressao, precisamos partir para o scikit-learn.

Conforme a dimensao dos dados cresce, podemos querer normalizar as features. Vamos aplicar isso tambem no exemplo abaixo.

```
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures

# Normalizacao
scale = StandardScaler()
scale.fit(x_data[['horse-power', 'highway-mpg']])
x_scale = scale.transform(x_data[['horse-power', 'highway-mpg']])

# Aplicacao da regressao polinomial
pr = PolynomialFeatures(degree=2, include_bias=False)
x_polly = pr.fit_transform(x[['horse-power', 'curb-weight']]) 
```

### Pipelines
Podemos simplificar o nosso codigo atraves do uso da biblioteca __Pipeline__.

Todo esse processo que fizemos de normalizar, fazer a transformacao polinomial, e aplicar a regressao, pode ser otimizado. O pipeline executa sequencialmente uma serie de transformacoes.

__Exemplo em codigo__
```
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline

# Criar uma lista de tuplas com o nome do estimador do modelo, o construtor do modelo, e o modelo.
input = [('polynomial', PolynomialFeature(degree=2)), ('scale', StandardScaler()), ('Model', LinearRegression())]

# Aplicar o constructor do pipeline
pipe = Pipeline(input)

# Treinar o pipeline
pipe.fit(df[['horse-power', 'curb-weight', 'engine-size', 'highway-mpg']], y)

# Gerar a predicao
yhat = pipe.predict(X[['horse-power', 'curb-weight', 'engine-size', 'highway-mpg']])
```

## In-Sample Evaluation
Eh um metodo utilizado para verificar o qual bem o modelo se ajusta aos dados de treino.

Duas medidas importantes para determinar o quao bem o modelo esta se ajustando sao:
- Mean Squared Error (MSE);
- R-squared (R^2)

Para calcular o __MSE__, encontramos a diferenca entre o valor atual e o valor previsto e elevamos ao quadrado o resultado dessa diferenca. Nele, quanto menor o valor, melhor.

__Exemplo em codigo__
```
from sklearn.metrics import mean_squared_error

mean_squared_error(df['price'], Y_pred)
``` 

O __R^2__ ou __coeficiente de determinacao R2__, eh uma medida para verificar o quao proximo o dado esta do ajuste. Nele, quanto mais proximo de 1, melhor.