In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib

import matplotlib.pyplot as plt
from scipy.stats import skew
from scipy.stats.stats import pearsonr


%config InlineBackend.figure_format = 'retina' #set 'png' here when working on notebook
%matplotlib inline

### Importando dados e separando pelo ano ex: 2006 e 2010

In [None]:
#Separando os dados - Como sugerido 2006 treino e 2010 validação
# train = pd.read_csv("./xaa.csv")
# Dados de 2010
# test = pd.read_csv("./xab.csv")

points = pd.read_csv("./eleicoes.csv")

# points = pd.concat((points, pd.read_csv("./eleicoes_2014.csv")))


### Pré processamento dos dados

1. Substituindo NaN's pela média.
2. Criando variáveis númericas a partir das variáveis categóricas
3. Normalizando features utilizando log

In [None]:
matplotlib.rcParams['figure.figsize'] = (10.0, 7.0)

#histograma das variáveis numéricas
dist_feats = pd.DataFrame({ "quantidade_doacoes":points["quantidade_doacoes"],
                            "quantidade_doadores":points["quantidade_doadores"],
                            "total_receita":points["total_receita"],
                            "media_receita":points["media_receita"],
                            "recursos_de_outros_candidatos/comites":points["recursos_de_outros_candidatos/comites"],
                            "quantidade_despesas":points["quantidade_despesas"],
                            "quantidade_fornecedores":points["quantidade_fornecedores"],
                            "total_despesa":points["total_despesa"],
                            "media_despesa":points["media_despesa"],
                          })

hits = dist_feats.hist(log=True, xlabelsize=0, ylabelsize=0)


total_votos_2006 = pd.DataFrame({"total_votos":points["votos"], "log(total_votos + 1)":np.log1p(points["votos"])})
total_votos_2006.hist()

In [None]:
# Tratando TODOS os dados
from sklearn.model_selection import train_test_split

# Removendo colunas sem importância
points = points.drop(columns=['sequencial_candidato', 'nome', 'media_receita', 'media_despesa'])

# Coletando variáveis numéricas
numeric_feats = points.dtypes[points.dtypes != "object"].index

# calculando skew
skewed_feats = points[numeric_feats].apply(lambda x: skew(x.dropna())) #compute skewness
skewed_feats = skewed_feats[skewed_feats > 0.75]
skewed_feats = skewed_feats.index

# Preenchendo valores com a media
points = points.fillna(points.mean())

# Regularizando variaveis, exceto a variável ano.
points[numeric_feats[1 :]] = np.log1p(points[numeric_feats[1:]])

# Transformando variáveis categóricas
points = pd.get_dummies(points)

# Filtrando dados utilizados no treino e na validação
X = points.loc[points['ano'] != 2014].drop(columns=['votos'])
Y = points.loc[points['ano'] != 2014].votos

# Colhendo amostra aleatória dos dados
train, validation, y_train, y_validation = train_test_split(X, Y, random_state = 8)

# Dados de 2014
# points_2014 = points.loc[points['ano'] == 2014]

# Modelos

In [None]:
from sklearn.linear_model import Ridge, RidgeCV, ElasticNet, LassoCV, LassoLarsCV
from sklearn.model_selection import cross_val_score

# RMSE Cross Validation Function
def rmse_cv(model):
    rmse = np.sqrt(-cross_val_score(model, train, y_train, scoring="neg_mean_squared_error", cv = 5))
    return(rmse)

## 2. Árvore de decisão

In [None]:
from sklearn.tree import DecisionTreeRegressor
depths = np.arange(1,15,1).tolist()
cv_treeregressor = [rmse_cv(DecisionTreeRegressor(max_depth = depth )).mean() 
            for depth in depths]
matplotlib.rcParams['figure.figsize'] = (6.0, 6.0)
cv_treeregressor = pd.Series(cv_treeregressor, index = depths)
cv_treeregressor.plot(title = "Validation - Just Do It")
plt.xlabel("depth")
plt.ylabel("rmse")
print("A profundidade ideal é {0}, com rmse = {1}".format(cv_treeregressor.idxmin(), cv_treeregressor.min()))

## 3. Ridge

In [None]:
model_ridge = Ridge()


In [None]:
alphas = [0.05, 0.1, 0.3, 1, 3, 5, 7, 10, 13, 15, 30, 50, 75]
cv_ridge = [rmse_cv(Ridge(alpha = alpha)).mean() 
            for alpha in alphas]

In [None]:
cv_ridge = pd.Series(cv_ridge, index = alphas)
cv_ridge.plot(title = "Validation - Just Do It")
plt.xlabel("alpha")
plt.ylabel("rmse")

In [None]:
cv_ridge.min()

## 4. Lasso

In [None]:
model_lasso = LassoCV(alphas = [0.001, 0.005, 0.01, 0.05, 0.5, 1]).fit(train, y_train)

In [None]:
rmse_cv(model_lasso).mean()

In [None]:
coef = pd.Series(model_lasso.coef_, index = train.columns)

In [None]:
print("Lasso picked " + str(sum(coef != 0)) + " variables and eliminated the other " +  str(sum(coef == 0)) + " variables")

In [None]:
imp_coef = pd.concat([coef.sort_values().head(10),
                     coef.sort_values().tail(10)])

In [None]:
matplotlib.rcParams['figure.figsize'] = (8.0, 10.0)
imp_coef.plot(kind = "barh")
plt.title("Coefficients in the Lasso Model")

In [None]:
# let's look at the residuals as well:
matplotlib.rcParams['figure.figsize'] = (6.0, 6.0)

preds = pd.DataFrame({"preds":model_lasso.predict(train), "true":y_train})
preds["residuals"] = preds["true"] - preds["preds"]
preds.plot(x = "preds", y = "residuals",kind = "scatter")

## 5. Regressão Linear

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
reg_linear = LinearRegression()
rmse_cv(reg_linear).mean()


In [None]:
model_reg_linear = LinearRegression().fit(train, y_train)
preds = pd.DataFrame({"preds": model_reg_linear.predict(validation), "true":y_validation})
preds["residuals"] = preds["true"] - preds["preds"]
preds.plot(x = "preds", y = "residuals",kind = "scatter", grid=True)

## 6. KNN

In [None]:
from sklearn.neighbors import KNeighborsRegressor

neighbors = np.arange(15,35,1).tolist()

cv_knn = [rmse_cv(KNeighborsRegressor(n_neighbors=neighbor)).mean() 
            for neighbor in neighbors]

matplotlib.rcParams['figure.figsize'] = (6.0, 6.0)
cv_knn = pd.Series(cv_knn, index = neighbors)
cv_knn.plot(title = "Validation - Just Do It")
plt.xlabel("knn")
plt.ylabel("rmse")

In [None]:
model_knn = KNeighborsRegressor(n_neighbors = cv_knn.idxmin()).fit(train, y_train)
preds = pd.DataFrame({"preds": model_knn.predict(validation), "true":y_validation})
preds["residuals"] = preds["true"] - preds["preds"]
preds.plot(x = "preds", y = "residuals",kind = "scatter", grid=True)

## XGB

In [None]:

import xgboost as xgb


In [None]:
dtrain = xgb.DMatrix(train, label = y_train)
dtest = xgb.DMatrix(validation)

params = {"max_depth":2, "eta":0.1}
model = xgb.cv(params, dtrain,  num_boost_round=500, early_stopping_rounds=100)

In [None]:
model.loc[30:,["test-rmse-mean", "train-rmse-mean"]].plot()


In [None]:
model_xgb = xgb.XGBRegressor(n_estimators=360, max_depth=2, learning_rate=0.1) #the params were tuned using xgb.cv
model_xgb.fit(train, y_train)

In [None]:
xgb_preds = np.expm1(model_xgb.predict(validation))
lasso_preds = np.expm1(model_lasso.predict(validation))

In [None]:
predictions = pd.DataFrame({"xgb":xgb_preds, "lasso":lasso_preds})
predictions.plot(x = "xgb", y = "lasso", kind = "scatter")

In [None]:
# preds = 0.7*lasso_preds + 0.3*xgb_preds

In [None]:
# solution = pd.DataFrame({"id":validation.nome, "Votos":preds, "ano":validation.ano})
# solution.to_csv("÷ridge_sol.csv", index = False)

# Resíduos X Predições

In [None]:
# function to plot the residual vs predictions values of the model
def plot_res_vs_pred(model, x, y):
    y_pred = model.predict(x)
    res = y - y_pred
    #printando rmse
    rmse = np.sqrt(mean_squared_error(y, y_pred))
    print("RMSE : {0}".format(rmse))
    #plotando resíduos
    matplotlib.rcParams['figure.figsize'] = (6.0, 6.0)
    plt.plot(y_pred, res, 'k.', color='blue')
    plt.axhline(y = 0., color = 'r', linestyle = '-')
    plt.xlabel("Predictions")
    plt.ylabel("Residuals")

### Regressão Linear

In [None]:
from sklearn.metrics import mean_squared_error
model_reg_linear = LinearRegression().fit(train, y_train)
plot_res_vs_pred(model_reg_linear, validation, y_validation)

### Ridge

In [None]:
model_ridge = Ridge(alpha = cv_ridge.idxmin()).fit(train, y_train)
plot_res_vs_pred(model_ridge, validation, y_validation)

O modelo Ridge apresenta boa adequação ao problema, sua distribuição de resíduos é aleatória e em torno de 0, com rmse relativamente baixo.

### Lasso

In [None]:
model_lasso = LassoCV(alphas = [0.001, 0.005, 0.01, 0.05, 0.5, 1]).fit(train, y_train)
plot_res_vs_pred(model_lasso, validation, y_validation)


O modelo lasso não apresenta padrões perceptíveis em sua distribuição que está distribuida em torno de 0, isso indica uma boa adequação do modelo ao problema em questão.

### KNN 

In [None]:
model_knn = KNeighborsRegressor(n_neighbors = cv_knn.idxmin()).fit(train, y_train)
plot_res_vs_pred(model_knn, validation, y_validation)


O KNN não apresenta padrões claros em sua distribuição de resíduos. Por possuir um rsme mais alto que Ridge e Lasso, ele não possui uma distribuição tão concentrada em torno de 0 quanto esses. Com isso ele é menos adequado ao problema do que os outros modelos já testados.

### Árvore de Decisão

In [None]:
model_tree = DecisionTreeRegressor(max_depth = cv_treeregressor.idxmin()).fit(train, y_train)
plot_res_vs_pred(model_tree, validation, y_validation)

O plot dos resíduos para o modelo árvore de decisão apresenta padrões. Por se tratar de um modelo de classificação, para candidatos com dados relativamente parecidos o modelo preve a mesma quantidade de votos. Em outras palavras, ele cria categorias, faixas de valores para os votos, e associa a candidatos relativamente parecidos.

Assim, seu plot de resíduos e alto rmse indica uma inadequação do modelo ao problema.

## XGB

In [None]:
model_xgb = xgb.XGBRegressor(n_estimators=360, max_depth=2, learning_rate=0.1) #the params were tuned using xgb.cv
model_xgb.fit(train, y_train)

In [None]:
plot_res_vs_pred(model_xgb, train, y_train)

# Previsão eleições 2014

In [None]:
# Lendo o CSV novamente

points = pd.read_csv("./eleicoes.csv")

# Concatenando o CSV com os dados de 2014
points = pd.concat((points, pd.read_csv("./eleicoes_2014.csv")))

# Tratando TODOS os dados
from sklearn.model_selection import train_test_split

points = points.drop(columns=['sequencial_candidato', 'nome', 'media_receita', 'media_despesa'])

numeric_feats = points.dtypes[points.dtypes != "object"].index

# calculando skew
skewed_feats = points[numeric_feats].apply(lambda x: skew(x.dropna())) #compute skewness
skewed_feats = skewed_feats[skewed_feats > 0.75]
skewed_feats = skewed_feats.index

# Preenchendo valores com a media
points = points.fillna(points.mean())

# Regularizando variaveis, exceto a variável ano.
points[numeric_feats[1 :]] = np.log1p(points[numeric_feats[1:]])

# Transformando variáveis categóricas
points = pd.get_dummies(points)

# Filtrando dados utilizados no treino e na validação
X = points.loc[points['ano'] != 2014].drop(columns=['votos'])
Y = points.loc[points['ano'] != 2014].votos

# Colhendo amostra aleatória dos dados
train, validation, y_train, y_validation = train_test_split(X, Y, random_state = 8)

# Dados de 2014
points_2014 = points.loc[points['ano'] == 2014]




## RIDGE

In [None]:
model_ridge = Ridge(alpha = cv_ridge.idxmin()).fit(points.drop(columns=['votos']), points.votos)
preds = pd.DataFrame({"preds": model_ridge.predict(points_2014.drop(columns=['votos'])), "true":points_2014.votos})
preds["residuals"] = preds["true"] - preds["preds"]
preds.plot(x = "preds", y = "residuals",kind = "scatter", grid=True)

## LASSO

In [None]:
model_lasso = LassoCV(alphas = [0.001, 0.005, 0.01, 0.05, 0.5, 1]).fit(points.drop(columns=['votos']), points.votos)
preds = pd.DataFrame({"preds": model_lasso.predict(points_2014.drop(columns=['votos'])), "true":points_2014.votos})
preds["residuals"] = preds["true"] - preds["preds"]
preds.plot(x = "preds", y = "residuals",kind = "scatter", grid=True)