- Tunar os hiperâmetros para cada caso e retornar os rmses de validação cruzada para todos os modelos avaliados.

- Plotar os resíduos versus predições e analisar se esses plots representam bons indícios da adequabilidade dos modelos a esse problema.
 
- Alguns dias antes da entrega final serão liberados os dados de teste referentes à 2014 para validação final dos seus melhores modelos. 
    - Dica: Uma coisa que você pode fazer é usar os dados de 2006 como treino e os de 2010 como validação. Uma vez encontrados os melhores modelos para 2010 junte 2006+2010, retreine, e aplique o modelo aos dados de 2014 que serão liberados.
 
- Responder: 
    - Dentre os modelos avaliados, qual foi o que deu o melhor resultado nos dados de 2014 em termos de RMSE? Justifique bem sua resposta.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import linear_model
from sklearn.linear_model import Ridge, RidgeCV, ElasticNet, LassoCV, LassoLarsCV
from sklearn.model_selection import cross_val_score

from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.metrics import mean_squared_error

# 1 Dados

## 1.1 Lendo os Dados

In [None]:
eleicoes = pd.read_csv("eleicoes_2006_a_2010.csv")
df_eleicoes_2006_2010 = pd.DataFrame(eleicoes) # load the dataset as a pandas data frame
df_eleicoes_2006_2010.head(10)
#df_eleicoes.columns

In [None]:
eleicoes_2014 = pd.read_csv("eleicoes_2014.csv")
df_eleicoes_2014 = pd.DataFrame(eleicoes_2014) # load the dataset as a pandas data frame

df_eleicoes_2014.columns = ['ano', 'sequencial_candidato', 'nome', 'uf', 'partido',
       'quantidade_doacoes', 'quantidade_doadores', 'total_receita',
       'media_receita', 'recursos_de_outros_candidatos/comites',
       'recursos_de_pessoas_fisicas', 'recursos_de_pessoas_juridicas',
       'recursos_proprios', 'quantidade_despesas', 'quantidade_fornecedores',
       'total_despesa', 'media_despesa', 'cargo', 'sexo', 'grau',
       'estado_civil', 'ocupacao', 'votos']
df_eleicoes_2014.head(10)


In [None]:
df = [df_eleicoes_2006_2010, df_eleicoes_2014]

df_eleicoes = pd.concat(df)

##  1.2 Distribuição das Variáveis

In [None]:
# function to plot a histogram of each variable
def plot_histogram(df, feature):
    # log (feature + 1) because of features with values 0
    feature = pd.DataFrame({"1. " + feature: df[feature], "2. log(" + feature + ")": np.log1p(df[feature])})
    feature.hist(bins = 20) 

# function to transform skewed variables using log(feature + 1)
def transform_skewed_var(df, feature):
    df[feature] = np.log1p(df[feature])
    
columns = "quantidade_doacoes quantidade_doadores total_receita media_receita recursos_de_outros_candidatos/comites recursos_de_pessoas_fisicas recursos_de_pessoas_juridicas recursos_proprios quantidade_despesas quantidade_fornecedores total_despesa media_despesa votos".split()

for feature in columns:
    plot_histogram(df_eleicoes, feature)
    transform_skewed_var(df_eleicoes, feature)

## 1.3 Tratando Valores Ausentes

In [None]:
df_eleicoes.isnull().any()

In [None]:
#filling NA's with the mean of the column:
df_eleicoes = df_eleicoes.fillna(df_eleicoes.mean())

df_eleicoes.isnull().any()

## 1.4 Tratando Variáveis Categóricas

In [None]:
df_eleicoes = df_eleicoes.drop("nome", 1).drop("sequencial_candidato", 1)
df_eleicoes = pd.get_dummies(df_eleicoes)

df_eleicoes.head()

## 1.5 Divisão dos Dados em Treino, Validação e Teste

In [None]:
df_train_2006 = df_eleicoes.loc[df_eleicoes["ano"] == 2006]
Y_train_2006 = df_train_2006.votos
X_train_2006 = df_train_2006.drop("votos", 1)
print(X_train_2006.shape)
print(Y_train_2006.shape)

df_validation_2010 = df_eleicoes.loc[df_eleicoes["ano"] == 2010]
Y_validation_2010 = df_validation_2010.votos
X_validation_2010 = df_validation_2010.drop("votos", 1)
print(X_validation_2010.shape)
print(Y_validation_2010.shape)



In [None]:
df_train_validation = [df_train_2006, df_validation_2010]
df_train_2006_2010 = pd.concat(df_train_validation)
Y_train_2006_2010 = df_train_2006_2010.votos
X_train_2006_2010 = df_train_2006_2010.drop("votos", 1)
print(X_train_2006_2010.shape)
print(Y_train_2006_2010.shape)

In [None]:
df_test_2014 = df_eleicoes.loc[df_eleicoes["ano"] == 2014]
Y_test_2014 = df_test_2014.votos
X_test_2014 = df_test_2014.drop("votos", 1)
print(X_test_2014.shape)
print(Y_test_2014.shape)

# 2 Funções 

In [None]:
def plot_residuals_vs_fit(X,Y, model, title):   
    y_pred = model.predict(X)
    res = Y - y_pred
    plt.rcParams['figure.figsize'] = (8.0, 8.0)
    plt.plot(y_pred,res,'k.',color='blue',)
    plt.axhline(y=0., color='r', linestyle='-')
    plt.title(title)
    plt.xlabel("predictions")
    plt.ylabel("residuals")

In [None]:
## function to get cross validation rmse
def rmse_cv(model):
    rmse = np.sqrt(-cross_val_score(model, X_train_2006, Y_train_2006, scoring="neg_mean_squared_error", cv = 5))
    return(rmse)

# 3 Modelos

## 3.1 Modelo Sem Regularização 

In [None]:
linear_reg = linear_model.LinearRegression() # this creates a linear regression object
linear_reg.fit(X_train_2006,Y_train_2006) #this function fits a linear model

print("error (R²): ", linear_reg.score(X_validation_2010,Y_validation_2010))

## 3.2 Ridge

###  3.2.1  Ridge  + Validação Cruzada

In [None]:
alphas = [0.05, 0.1, 0.3, 1, 3, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 75]
cv_ridge = [rmse_cv(Ridge(alpha = alpha)).mean() 
            for alpha in alphas]
cv_ridge = pd.Series(cv_ridge, index = alphas)

In [None]:
cv_ridge.plot(title = "Cross Validation - Ridge")
plt.xlabel("Alpha")
plt.ylabel("RMSE")

best_alpha_ridge = cv_ridge.idxmin()

print("Best alpha: ", best_alpha_ridge)
print("Best RMSE: ", cv_ridge.min())

### 3.2.2 Melhor Modelo Ridge + Gráfico de Resíduos

In [None]:
best_ridge = Ridge(alpha = best_alpha_ridge)
best_ridge.fit(X_train_2006, Y_train_2006)

score = best_ridge.score(X_validation_2010, Y_validation_2010)
print("R²: ", score)

plot_residuals_vs_fit(X_validation_2010, Y_validation_2010, best_ridge, "Residuals Ridge")


## 3.3 Lasso

### 3.3.1  Lasso + Validação Cruzada

In [None]:
alphas = [0.005, 0.0005, 0.0004, 0.0003, 0.0002, 0.0001, 0.00005]
cv_lasso = [rmse_cv(linear_model.Lasso(alpha = alpha, max_iter = 10000)).mean() 
            for alpha in alphas]

cv_lasso = pd.Series(cv_lasso, index = alphas)


In [None]:
cv_lasso.plot(title = "Cross Validation - Lasso")
plt.xlabel("Alpha")
plt.ylabel("RMSE")

best_alpha_lasso =  cv_lasso.idxmin()
print("Best alpha: ",  best_alpha_lasso)
print("Best RMSE: ", cv_lasso.min())

### 3.3.2 Melhor Modelo Lasso + Gráfico de Resíduos

In [None]:
best_lasso = linear_model.Lasso(alpha = best_alpha_lasso, max_iter = 10000)
best_lasso.fit(X_train_2006, Y_train_2006)

print("R²: ", best_lasso.score(X_validation_2010, Y_validation_2010))
plot_residuals_vs_fit(X_validation_2010, Y_validation_2010, best_lasso, "Residuals Lasso")

### 3.3.3 Parâmetros

In [None]:
coef = pd.Series(best_lasso.coef_, index = X_train_2006.columns)
print("Lasso picked " + str(sum(coef != 0)) + " variables and eliminated the other " +  str(sum(coef == 0)) + " variables")

In [None]:
imp_coef = pd.concat([coef.sort_values().head(10),
                     coef.sort_values().tail(10)])

plt.rcParams['figure.figsize'] = (8.0, 10.0)
imp_coef.plot(kind = "barh")
plt.title("Importance Of Coefficients in the Lasso Model")

## 3.4 KNN 

### 3.4.1 KNN  + Validação Cruzada

In [None]:
neighbors = [1,2,3,4,5,10,12,14,16,20,22,24,26,28,29,30,35,40,42,45,47,50,55,60]
cv_knn = [rmse_cv(KNeighborsRegressor(n_neighbors = neighbor)).mean() 
            for neighbor in neighbors]

cv_knn = pd.Series(cv_knn, index = neighbors)

In [None]:
cv_knn.plot(title = "Cross Validation - KNN")
plt.xlabel("Neighbors")
plt.ylabel("RMSE")

best_n_neighbor =  cv_knn.argmin()
print("Best neighbor: ",  best_n_neighbor)
print("Best RMSE: ", cv_knn.min())

### 3.4.2 Melhor Modelo KNN + Gráfico de Resíduos

In [None]:
best_knn = KNeighborsRegressor(n_neighbors = best_n_neighbor)
best_knn.fit(X_train_2006, Y_train_2006) 

print("R²: ", best_knn.score(X_validation_2010, Y_validation_2010))

plot_residuals_vs_fit(X_validation_2010, Y_validation_2010, best_knn, "Residuals KNN")

## 3.5 Random Forest

### 3.5.1 Random Forest + Validação Cruzada

In [None]:
random_forest_model = RandomForestRegressor()
random_forest_model.fit(X_train_2006, Y_train_2006)

print("Score: ", random_forest_model.score(X_validation_2010, Y_validation_2010))
print("---Feature importances (the higher, the more important the feature)---")
print(random_forest_model.feature_importances_)

### 3.5.2 Melhor Modelo Random Forest + Gráfico de Resíduos

## 3.6 SVR

### 3.6.1 SVR  + Validação Cruzada

In [None]:
svr_model = SVR()
svr_model.fit(X_train_2006, Y_train_2006) 

print("Score: ", svr_model.score(X_validation_2010, Y_validation_2010))

### 3.6.2 Melhor Modelo SVR + Gráfico de Resíduos

# 4 Usando os melhores modelos 

## 4.3 Testando o melhor Ridge

In [None]:
best_ridge.fit(X_train_2006_2010, Y_train_2006_2010)

Y_pred = best_ridge.predict(X_test_2014)

#print(y_pred.shape)

#print(mean_squared_error(Y_test_2014, Y_pred))

# 5 Conclusões