# Lista 08 - Comparando Regressões

# Exercício 01:

Analise o desempenho do kNN e de uma Regressão Linear Regularizada para **pelo menos um** dos conjuntos de dados disponível na [seção de regressão linear múltipla](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html) da página do *Livro Understandable Statistics* de Charles Brase e Corrinne Brase. Para o conjunto de dados que escolheu, execute a regressão linear múltipla para explicar o fator $X1$ dos dados ([ver descrição de um dos conjuntos](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html)) a partir dos outros fatores. 

Para a questão, faça as seguintes tarefas:

* Realize treino, validação e teste
* Compare as métricas no teste
* Diferente da lista anterior, reporte o erro quadrado médio no conjunto de teste.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import GridSearchCV

np.random.seed(2016058581)

%matplotlib inline

In [2]:
df = pd.read_csv('mlr06.csv')
df.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7
0,478,184,40,74,11,31,20
1,494,213,32,72,11,43,18
2,643,347,57,70,18,16,16
3,341,565,31,71,11,25,19
4,773,327,67,72,9,29,24


# Separação dos conjuntos de treino (80%) e teste (20%)

In [3]:
X = df.iloc[:, 1:].copy()
Y = df.iloc[:,0].copy()
xTrain, xTest, yTrain, yTest = train_test_split(X, Y, test_size=0.3)

---
# KNN

In [4]:
rmse = []

for k in range(1,35):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(xTrain, yTrain)
    yPredKNN = knn.predict(xTest)
    
    rmse.append(mean_squared_error(yTest, yPredKNN))

rmse = np.array(rmse)

## RMSE

In [5]:
print('Best KNN model using k = ' + str(rmse.argmax()))
print('Best RMSE reached: ' + str(max(rmse)))

Best KNN model using k = 19
Best RMSE reached: 307914.26666666666


---
# Regressão Linear Múltipla

In [6]:
lr = LinearRegression()
lr.fit(xTrain, yTrain)
print('Intercept: ' + str(lr.intercept_))
print('Coeficientes: ' + str(lr.coef_))

Intercept: -151.75945609024643
Coeficientes: [  0.49550838   5.54081117   3.17020843   8.26929974   6.32978819
 -10.01382287]


## RMSE

In [7]:
predictLR = lr.predict(xTest)
rmseLR = mean_squared_error(yTest, predictLR)
print('RMSE: ' + str(rmseLR))

RMSE: 95602.58030086664


Explique e discuta sobre os resultados encontrados no campo abaixo.

---
#### Comparação
A Regressão Linear alcançou um erro quadrático médio 3x menor que o KNN.

#### KNN
O melhor modelo usando o KNN foi para k = 19, obtendo-se um RMSE de 307914.

#### Regressão Linear
A variável 'X1' indica o 'número de crimes reportados para cada 1 milhão de habitantes'. Todas as variáveis estão correlacionadas positivamente com 'X1' (coeficiente positivo), exceto a variável 'X4', que indica 'a porcentagem de pessoas com 25 anos ou mais com ensino médio'. Faz sentido a variável estar correlacionada negativamente, pois quanto mais estudo a população tem, é intuitivo pensar que menor é a taxa de crimes daquele local.