# Prova Itaú - Regressão

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate
from sklearn.metrics import r2_score
from sklearn.linear_model import Lasso
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler

# Prova 1.

## Questão 6) 

Considerando os dados presentes no arquivo reg01.csv, obtenha um modelo de regressão linear com regularização L1 (LASSO com parâmetro de regularização igual a 1) utilizando a metodologia Leave-One-out. Qual o valor médio do Root Mean Squared Error (RMSE) para a base de treino? Qual o valor médio do RMSE para a base de validação?

Quando usa o RMSE e o Leave-One-Out, significa que voce está calculando o MAE, e não o RMSE.

In [3]:
reg01 = pd.read_csv('reg01.csv')

In [22]:
X = reg01.drop(columns=['target'])
y = reg01['target']

cross = cross_validate(Lasso(), StandardScaler().fit_transform(X), y, cv=LeaveOneOut(), scoring='neg_root_mean_squared_error', return_train_score=True)

In [23]:
print('RMSE - treino:', + -cross['train_score'].mean())
print('RMSE - teste:', + -cross['test_score'].mean())

RMSE - treino: 19.219646382953055
RMSE - teste: 15.461344370827748


In [24]:
X = reg01.drop(columns=['target'])
y = reg01['target']
# Não precisava usar o StandardScaler pois não está pedindo
cross = cross_validate(Lasso(), X, y, cv=LeaveOneOut(), scoring='neg_root_mean_squared_error', return_train_score=True)

In [25]:
print('RMSE - treino:', + -cross['train_score'].mean())
print('RMSE - teste:', + -cross['test_score'].mean())

RMSE - treino: 19.22025983771034
RMSE - teste: 15.465218791702432


## Questão 7) 

Considerando os dados presentes no arquivo reg02.csv, treine uma árvore de regressão (sem realizar podas) com quebras baseadas no erro quadrático médio (do inglês MSE - Mean Squared Error) utilizando a metodologia de validação cruzada k-fold com 𝑘=10. Qual o valor do Mean Absolute Error (MAE) para a base de treino? Qual o valor médio do MAE para a base de validação?

In [6]:
reg02 = pd.read_csv('reg02.csv')

In [28]:
X = reg02.drop(columns=['target'])
y = reg02['target']

cross = cross_validate(DecisionTreeRegressor(), X, y, cv=KFold(n_splits=10), scoring='neg_mean_absolute_error', return_train_score=True)

In [30]:
print('MAE - treino:', + cross['train_score'].mean())
print('MAE - teste:', + -cross['test_score'].mean())

MAE - treino: 0.0
MAE - teste: 42.79026358739952


## Questão 5 

Assinale as alternativas com V ou F para Verdadeiro ou Falso respectivamente. Atente para o fato que uma questão errada anula uma certa. Em caso de dúvidas deixe em branco.

(**V**) Quando ajustamos um modelo linear, geralmente supomos que os erros tem distribuição normal e são independentes e identicamente distribuídos (i.i.d.).

(**V**) Quando ajustamos um modelo de regressão, podemos utilizar os valores preditos e os resíduos do modelo para avaliar se o modelo se adequa bem aos dados.

(**V**) O coeficiente de determinação (𝑟2) indica, em termos percentuais, quanto da variabilidade da variável resposta é explicada pelas covariáveis do modelo.

(**F**) Os modelos de regressão não são afetados por observações atípicas (outliers) e valores faltantes.

<u> R: Outliers afetam o modelo de regressão inclinando a curva. <u>

(**V**) Considerando um modelo de regressão simples, temos que o coeficiente associado à covariável representa o grau de inclinação da reta.

(**F**) Para efetuarmos regressão com o algoritmo KNN, é aconselhado fazer uma votação simples dos valores dos 𝑘 vizinhos encontrados.

<u> R: Como estamos lidando com problema de regressão, não é uma votação simples que se faz, mas sim a média dos valores de y. <u>

(**V**) Para melhor desempenho da árvore de regressão, pode-se utilizar regressões lineares em suas folhas para previsão do valor final.

<u> R: Em cada folha, você pode usar uma estratégia diferente da média, caso queira. <u>

(**F**) A F1 é uma medida adequada para avaliar algoritmos de regressão.

<u> R: F1 é uma medida adequada para problemas de classificação onde se quer avaliar o equilíbrio de recall e precision. <u>

(**V**) Em todos os modelos de regressão, a métrica 𝑟2 é igual ao quadrado da correlação de pearson entre o valor predito e o observado.

(**V**) No algoritmo Random Forest, uma possibilidade simplista para obtenção do valor final é calcular a média dos valores encontrados em cada árvore.

-----

# Prova 2.

## Questão 7

Considerando os dados presentes no arquivo regressao_Q6.csv, obtenha um modelo de regressão linear com regularização L2 (RIDGE com parâmetro de regularização igual a 1.7) utilizando a metodologia Leave-One-out. Qual o valor médio do Root Mean Squared Error (RMSE) para a base de treino? Qual o valor médio do RMSE para a base de validação?

In [11]:
regressao_Q6 = pd.read_csv('regressao_Q6.csv')

In [44]:
X = regressao_Q6.drop(columns=['target'])
y = regressao_Q6['target']

cross = cross_validate(Ridge(alpha=1.7), X, y, cv=LeaveOneOut(), scoring='neg_mean_absolute_error', return_train_score=True)

In [45]:
print('RMSE - treino:', + -cross['train_score'].mean())
print('RMSE - teste:', + -cross['test_score'].mean())

RMSE - treino: 21.84419229846353
RMSE - teste: 22.058797611970473


## Questão 4

Considerando os dados presentes no arquivo regressao_Q7.csv, treine uma árvore de regressão (sem realizar podas) com quebras baseadas no erro quadrático médio (do inglês MSE - Mean Squared Error) utilizando a metodologia de validação cruzada k-fold com 𝑘=10. Qual o valor do Mean Absolute Error (MAE) para a base de treino? Qual o valor médio do MAE para a base de validação?

In [15]:
regressao_Q7 = pd.read_csv('regressao_Q7.csv')

In [37]:
X = regressao_Q7.drop(columns=['target'])
y = regressao_Q7['target']

cross = cross_validate(DecisionTreeRegressor(), X, y, cv=KFold(n_splits=10), scoring='neg_mean_absolute_error', return_train_score=True)

In [38]:
print('MAE - treino:', + -cross['train_score'].mean())
print('MAE - teste:', + -cross['test_score'].mean())

MAE - treino: 6.897663486269165e-08
MAE - teste: 51.9404696828836


## Questão 5) 

Assinale as alternativas com V ou F para Verdadeiro ou Falso respectivamente. Atente para o fato que uma questão errada anula uma certa. Em caso de dúvidas deixe em branco.

(**V**) Quando ajustamos um modelo de regressão, os resíduos são estatísticas importantes para avaliar se o modelo se adequa bem aos dados.

(**V**) Os modelos tradicionais de regressão são afetados por observações atípicas (outliers) e valores faltantes, sendo necessário realizar um pré-processamento dos dados antes da modelagem.

(**F**) Em uma regressão logística, o coeficiente associado à uma variável numérica representa a variação do valor estimado quando a variável explicativa aumenta 1 unidade.

<u> R: Na regressão logística, o coeficiente mede a variação na **probabilidade** e não no valor estimado. <u>

(**V**) O coeficiente de determinação (r^2) indica, em termos percentuais, quanto da variabilidade da variável resposta é explicada pelas variáveis utilizadas no modelo.

(**V**) As regularizações L1 e L2 são técnicas apropriadas para combater overfitting no treinamento de modelos de regressão.

(V) Para efetuarmos regressão com o algoritmo KNN, a estratégia mais simples é fazer uma média aritmética dos valores dos k vizinhos encontrados.

(V) Incorporar modelos de regressão linear nos nós-folha de uma árvore de regressão pode melhorar a capacidade preditiva.

(V) AUC (Area Under the Curve) é uma métrica para avaliar o desempenho de modelos de regressão.

(?) No algoritmo Random Forest, uma possibilidade simplista para obtenção do valor final é calcular a média dos valores encontrados em cada árvore.

(V) Utiliza-se validação out-of-time para modelos de regressão separando um conjunto de dados de forma aleatória, independentemente do tempo.