### Centro Universitário Senac  
**Professor:** Rafael Cóbe  
**Disciplina:** Introdução ao Aprendizado de Máquina  

### Exercício 3 - **Regressão Linear Multivariada**

### Autores
**Renato Calabro (calabro@live.com)**
**Ágata Oliveira (agata.aso@hotmail.com)**

In [None]:
!../.venv/bin/python --version
%pip install -r ../requirements.txt
# %pip install numpy pandas matplotlib seaborn scikit-learn ipkernel
# %pip freeze > requirements.txt
%pip install gdown

In [None]:
# !mkdir -p data/
# !gdown https://drive.google.com/uc?id=1zcsUU6neakc2_BnATvvsLekvMyz1cztM -O data/
# !gdown https://drive.google.com/uc?id=1zZdavmX2Zlhfe9up-25rXvE3v0HF9Ajd -O data/

# baixados manualmente para trabalhar fora do ambiente do Colab autenticado

In [2]:
import math
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [3]:
from pathlib import Path

base_path = Path("../datasets/regression_data")

In [5]:
advertising_file = base_path / "Advertising.csv"

if advertising_file.exists():
    df_advertising = pd.read_csv(
        advertising_file,
        sep=',',
    )
    df_advertising.rename(columns={df_advertising.columns[0]: 'id'}, inplace=True)
    display(df_advertising.head())
else:
    print(f"Arquivo não encontrado: {advertising_file.resolve()}")

Unnamed: 0,id,TV,radio,newspaper,sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


In [6]:
house_prices_file = base_path / "Portland_housePrices.csv"

if house_prices_file.exists():
    df_houses = pd.read_csv(
        house_prices_file,
        sep=',',
    )
    display(df_houses.head())
else:
    print(f"Arquivo não encontrado: {house_prices_file.resolve()}")

Unnamed: 0,tamanho,quartos,preco
0,2104,3,399900
1,1600,3,329900
2,2400,3,369000
3,1416,2,232000
4,3000,4,539900


#### Para cada um dos conjuntos de treinamento, utilize a função <i>fit</i> múltiplas vezes considerando apenas <i>um</i> atributo preditor.

1) O modelo aprendido muda a cada vez que a função <i>fit</i> é utilizada?

2) Os modelos finais aprendidos são os mesmos da outra implementação de regressão linear?


In [None]:
# Advertising dataset
df_advertising_train = df_advertising.drop(columns=['id'], inplace=False)
X = df_advertising_train[['TV']]
y = df_advertising_train[['sales']]

for i in range(3):
    lr_model = LinearRegression()
    lr_model.fit(X, y)
    y_pred = lr_model.predict(X)

    print(f"Linear Regression - Iteration {i+1}")
    print("Coefficients:", lr_model.coef_)
    print("MSE:", mean_squared_error(y, y_pred))
    print("R2:", r2_score(y, y_pred))

Linear Regression - Iteration 1
Coefficients: [[0.04753664]]
MSE: 10.512652915656757
R2: 0.611875050850071
Linear Regression - Iteration 2
Coefficients: [[0.04753664]]
MSE: 10.512652915656757
R2: 0.611875050850071
Linear Regression - Iteration 3
Coefficients: [[0.04753664]]
MSE: 10.512652915656757
R2: 0.611875050850071


**Não, o modelo não muda se a função `fit` for utilizada múltiplas vezes com o mesmo atributo e os mesmos dados.**  
A regressão linear é um modelo determinístico, ou seja, dado um conjunto fixo de dados de entrada e saída, o resultado dos coeficientes será sempre o mesmo.

A equação que define os coeficientes é:

**Θ = (Xᵀ · X)⁻¹ · Xᵀ · Y**

Como `X` e `Y` não mudam entre as chamadas, a matriz resultante também não muda, e os coeficientes calculados permanecem iguais.  
Portanto, o modelo aprendido não se altera entre execuções repetidas com os mesmos dados.

#### Aprenda modelos utilizando todos os atributos de entrada.

1) Baseado no RSS e no R^2, é possível obter um modelo melhor utilizando todos os dados?

2) Existem atributos que poderiam ser desconsiderados sem que fosse afetada a precisão?

3) Qual implementação treina mais rápido? A com método dos mínimos quadrados ou a com descida de gradiente?


#### Realizar a análise da qualidade dos preditores utilizados no modelo construído.

1) Construir o plot de resíduos. Será que os resíduos estão aleatoriamente distribuídos ao redor de 0?

2) Calcular os valores p para os preditores utilizados no modelo de regressão. Utilize [esse link](https://stackoverflow.com/a/42677750) como referência. Utilizar essa técnica para selecionar variáveis preditivas. Comparar o desempenho do modelo construído a partir de variáveis preditivas com melhores valores p com um modelo que contêm todas as variáveis.


#### Realizar o teste para descobrir multicolinearidade entre variáveis preditivas;

1) Utilizando [esse link](https://www.geeksforgeeks.org/detecting-multicollinearity-with-vif-python/) fazer o cáclulo do fator de inflação da variância (*Variance Inflation Factor - VIF*). Existe alguma evidência de multicolinearidade entre as variáveis preditivas?