# Lista 08 - Comparando Regressões

# Exercício 01:

Analise o desempenho do kNN e de uma Regressão Linear Regularizada para **pelo menos um** dos conjuntos de dados disponível na [seção de regressão linear múltipla](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html) da página do *Livro Understandable Statistics* de Charles Brase e Corrinne Brase. Para o conjunto de dados que escolheu, execute a regressão linear múltipla para explicar o fator $X1$ dos dados ([ver descrição de um dos conjuntos](http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/mlr/frames/frame.html)) a partir dos outros fatores. 

Para a questão, faça as seguintes tarefas:

* Realize treino, validação e teste
* Compare as métricas no teste
* Diferente da lista anterior, reporte o erro quadrado médio no conjunto de teste.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

In [2]:
df = pd.read_csv('./blood_pressure.csv', sep=';')
df.columns = ['Pressão', 'Idade', 'Peso']
df['Peso'] = np.int64(df['Peso'] * 0.453592) # transformando o peso de libras pra quilos
df['Pressão alta'] = 0
df['Pressão alta'][df['Pressão'] >= 140] = 1 # criando categorias de resposta para o classificador
df

Unnamed: 0,Pressão,Idade,Peso,Pressão alta
0,132,52,78,0
1,143,59,83,1
2,153,67,87,1
3,162,73,95,1
4,154,64,88,1
5,168,74,99,1
6,137,54,85,0
7,149,61,85,1
8,159,65,93,1
9,128,46,75,0


In [3]:
# --- Regressão Linear Múltipla ---
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error as mse

X = np.array(df[['Idade', 'Peso']])
y = np.array(df['Pressão'])

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3)

modelo_linear = LinearRegression().fit(X_treino,y_treino)

print('y real: ', y_teste)
print('y previsto: ', modelo_linear.predict(X_teste))
print('Erro quadrado médio: ', mse(y_teste, modelo_linear.predict(X_teste)))

y real:  [154 159 162 153]
y previsto:  [152.16353483 154.838947   165.6694735  155.73807835]
Erro quadrado médio:  10.412268810219352


In [4]:
# --- kNN ---
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_fscore_support

X = np.array(df[['Idade', 'Peso']])
y = np.array(df['Pressão alta'])

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3)

modelo_knn = KNeighborsClassifier(n_neighbors=1).fit(X_treino, y_treino)
modelo_knn.predict(X_teste)

print('y real: ', y_teste)
print('y previsto: ', modelo_knn.predict(X_teste))
print(classification_report(y_teste, modelo_knn.predict(X_teste)))

y real:  [1 1 0 1]
y previsto:  [1 1 0 1]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         3

   micro avg       1.00      1.00      1.00         4
   macro avg       1.00      1.00      1.00         4
weighted avg       1.00      1.00      1.00         4



In [5]:
df2 = pd.read_csv('./notas.csv', sep=';')
media = df2['FINAL'].mean()
df2['FINAL_acima_da_media'] = 0
df2['FINAL_acima_da_media'][df2['FINAL'] >= media] = 1
df2

Unnamed: 0,EXAM1,EXAM2,EXAM3,FINAL,FINAL_acima_da_media
0,73,80,75,152,0
1,93,88,93,185,1
2,89,91,90,180,1
3,96,98,100,196,1
4,73,66,70,142,0
5,53,46,55,101,0
6,69,74,77,149,0
7,47,56,60,115,0
8,87,79,90,175,1
9,79,70,88,164,1


In [6]:
# --- Regressão Linear Múltipla DATASET 2 ---

X = np.array(df2[['EXAM1', 'EXAM2', 'EXAM3']])
y = np.array(df2['FINAL'])

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3)

modelo_linear = LinearRegression().fit(X_treino,y_treino)

print('y real: ', y_teste)
print('y previsto: ', modelo_linear.predict(X_teste))
print('Erro quadrado médio: ', mse(y_teste, modelo_linear.predict(X_teste)))

y real:  [175 177 141 183 192 152 147 142]
y previsto:  [167.03145849 176.01175981 141.34607942 181.60585975 188.22586635
 150.80747282 141.6108829  137.78543951]
Erro quadrado médio:  16.126122436709316


In [7]:
# --- KNN DATASET 2 ---

X = np.array(df2[['EXAM1', 'EXAM2', 'EXAM3']])
y = np.array(df2['FINAL_acima_da_media'])

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3)

modelo_knn = KNeighborsClassifier(n_neighbors=5).fit(X_treino, y_treino)
modelo_knn.predict(X_teste)

print('y real: ', y_teste)
print('y previsto: ', modelo_knn.predict(X_teste))
print(classification_report(y_teste, modelo_knn.predict(X_teste)))

y real:  [0 0 1 1 1 0 0 1]
y previsto:  [0 0 1 1 1 0 0 1]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         4

   micro avg       1.00      1.00      1.00         8
   macro avg       1.00      1.00      1.00         8
weighted avg       1.00      1.00      1.00         8



Explique e discuta sobre os resultados encontrados no campo abaixo.

Na regressão linear múltipla, utilizando idade e peso para prever a pressão arterial sistólica de um indivíduo, o modelo mostrou ter boa acurácia, com valores previstos nos testes próximos dos reais. Com a variação da amostra de treino e de teste o erro quadrado médio sofreu grande variação, em alguns casos retornando 1.9 e em outros casos valores extremos, como 15 e 31. No geral, o MSE fica abaixo de 10 e essa grande variação, provavelmente, se deve ao dataset ser pequeno, compromentendo o treino.

Inicialmente, defini dois grupos para classificar os dados:
* Grupo 1: Pressão >= 140 (pressão alta)
* Grupo 0: Pressão < 140 (pressão baixa ou normal)

O classificador KNN também fica comprometido pelo dataset pequeno. Como utilizei 30% para teste e 70% para treino, o teste utiliza 4 das 11 instâncias presentes no dataset, com isso, caso a amostra aleatória de testes possua os únicos três casos em que um indivíduo não tem pressão alta, o treino fica insuficiente, já que o algoritmo não saberá lidar da maneira correta com o Grupo 0. Em outros casos a classificação é satisfatória gerando bons índices de precisão, revocação e F1. o K escolhido foi o menor possível por conta do dataset pequeno, também.

Utilizei um dataset um pouco maior do site e isso foi o suficiente para que o KNN tivesse uma previsão mais elevada, acertando quase todas as vezes o teste:
* Grupo 1: Alunos acima da média geral da turma
* Grupo 0: Alunos abaixo da média geral da turma

O modelo de regressão linear não se mostrou muito melhor nesse novo dataset, retornando uma MSE no geral abaixo de 10, assim como no dataset anterior, mas não chegando a valores tão altos como 30.