<img src='figures/logo.png'>

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#É-hora-de-construir-um-modelo!" data-toc-modified-id="É-hora-de-construir-um-modelo!-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>É hora de construir um modelo!</a></span><ul class="toc-item"><li><span><a href="#Avaliação" data-toc-modified-id="Avaliação-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Avaliação</a></span><ul class="toc-item"><li><span><a href="#O-que-aconteceu-aqui?-Acertamos-tudo-:o" data-toc-modified-id="O-que-aconteceu-aqui?-Acertamos-tudo-:o-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>O que aconteceu aqui? Acertamos tudo :o</a></span></li></ul></li><li><span><a href="#Controlando-os-parametros-da-árvore" data-toc-modified-id="Controlando-os-parametros-da-árvore-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Controlando os parametros da árvore</a></span></li></ul></li><li><span><a href="#Treino-e-Teste" data-toc-modified-id="Treino-e-Teste-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Treino e Teste</a></span></li><li><span><a href="#Importância-das-variáveis" data-toc-modified-id="Importância-das-variáveis-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Importância das variáveis</a></span></li><li><span><a href="#Análise-dos-Resultados" data-toc-modified-id="Análise-dos-Resultados-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Análise dos Resultados</a></span></li></ul></div>

# É hora de construir um modelo!

In [None]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_diabetes
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeRegressor

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from graphviz import render

Vamos carregar aqui aqueles dados que nós contruimos na etapa de Preparação dos dados:

In [None]:
df_modelo = pd.read_csv('df_modelo.csv')
df_modelo.shape
                    

In [None]:
df_modelo.head()

In [None]:
df_modelo = df_modelo.drop('Unnamed: 0', axis=1)

O dataframe X, contém apenas as variáveis que descrevem os individuos e o y apenas a variável resposta, nesse caso, o valor que eles ganham anualmente

In [None]:
X = df_modelo.drop('What is your current yearly compensation (approximate $USD)?', axis=1)
y = df_modelo['What is your current yearly compensation (approximate $USD)?']

In [None]:
print(X.shape)
print(y.shape)

Vamos usar uma arvore de decisão aqui! 

Esse tipo de algoritmo é muito interessante, porque é fácil entender porque ele classificou uma amostra em um determinado valor. Isso porque ele funciona como se fosse feitas uma series de perguntas e então chega-se a uma conclusão.É uma estratégia conhecida como dividir para conquistar: um problema complexo é decomposto em sub-problemas mais simples e recursivamente esta técnica é aplicada a cada sub-problema 

Com esse tipo de algoritmo normalmente não precisamos escalar os dados, ele consegue lidar com dados que não são separados linearmente e a importância dos atributos é revelada e fácil de explicar

In [None]:
# Fit regression model
regr_1 = DecisionTreeRegressor()
regr_1.fit(X, y)

# Predict
y_pred = regr_1.predict(X)

## Avaliação

<img src='figures/residuals-represent-error-jpg_1.jpg'>


In [None]:
from sklearn.metrics import r2_score # quanto mais proximo de 1 melhor o modelo
print(r2_score(y, regr_1.predict(X)))

In [None]:
from sklearn.metrics import mean_absolute_error  # desvio médio entre observado e predito.
mean_absolute_error(y, y_pred)

### O que aconteceu aqui? Acertamos tudo :o

<img src='figures/overfitting.png'>

## Controlando os parametros da árvore

A árvore estende a sua profundidade até o ponto de classificar perfeitamente os elementos do conjunto de treinamento. Para evitar isso, nós podemos evitar que a árvore cresça de maneira a superajustar os dados: 

In [None]:
# Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=4)
regr_1.fit(X, y)

# Predict
y_pred = regr_1.predict(X)

In [None]:
mean_absolute_error(y, y_pred)

# Treino e Teste

Outra abordagem muito importante para entendermos se está acontecendo um superajuste, é a divisão dos dados em conjuntos de treino e teste: 

<img src='figures/crossvalidation.png'>

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

In [None]:
# Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=4)
regr_1.fit(X_train, y_train)

# Predict
y_pred = regr_1.predict(X_test)

In [None]:
mean_absolute_error(y_test, y_pred)

In [None]:
from sklearn.tree import export_graphviz  
  
# export the decision tree to a tree.dot file 
# for visualizing the plot easily anywhere 
export_graphviz(regr_1, out_file ='tree.dot')  

render('dot', 'png', 'tree.dot')  

In [None]:
from sklearn import tree

# plot tree
plt.figure(figsize=(12,12))  # set plot size (denoted in inches)
tree.plot_tree(regr_1, fontsize=8)
plt.show()


In [None]:
X

# Importância das variáveis 

In [None]:
from matplotlib import pyplot

In [None]:
importance = regr_1.feature_importances_

# summarize feature importance
for i,v in enumerate(importance):
    print('Feature: %0d, Score: %.5f' % (i,v))


In [None]:
features_n = X.columns

In [None]:

# plot feature importance
pyplot.bar([x for x in range(len(importance))], importance)
pyplot.xticks([x for x in range(len(importance))], features_n, rotation='vertical')
pyplot.show()

# Análise dos Resultados

Esse modelo sugere, que a variavel mais importante para a determinação do salário é o Pais de residência. Seguida da idade e do titulo.

Dessa forma, não conseguimos identificar um viés de genêro. O que não quer dizer que ele não exista, mas que esse padrão não foi identificado na nossa amostra. 

Algumas análises adicionais que podemos fazer, é por exemplo, fazer o que chamamos de pareamento. Selecionar pessoas do mesmo país e com o mesmo titulo e tentar identificar se existe um viés. 

In [None]:
df_modelo.iloc[:,1].value_counts() # vamos selecionar todos do pais 11 --> United States of America                                


In [None]:
df_modelo.iloc[:,4].value_counts() # vamos pegar todos da profissao 7 - Data scientist

In [None]:
df_modelo2 = df_modelo[(df_modelo.iloc[:,1] == 11) & (df_modelo.iloc[:,4] == 7) ]
# df_modelo2 = df_modelo[(df_modelo.iloc[:,4] == 14) ]

In [None]:
df_modelo2 = df_modelo2.drop(['In which country do you currently reside?', 'Select the title most similar to your current role (or most recent title if retired): - Selected Choice'], axis=1)
# df_modelo2 = df_modelo2.drop(['Select the title most similar to your current role (or most recent title if retired): - Selected Choice'], axis=1)

In [None]:
X = df_modelo2.drop('What is your current yearly compensation (approximate $USD)?', axis=1)
y = df_modelo2['What is your current yearly compensation (approximate $USD)?']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

In [None]:
# Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=4)
regr_1.fit(X_train, y_train)

# Predict
y_pred = regr_1.predict(X_test)

In [None]:
mean_absolute_error(y_test, y_pred)

In [None]:
features_n = X.columns

In [None]:
# plot feature importance
pyplot.bar([x for x in range(len(importance))], importance)
pyplot.xticks([x for x in range(len(importance))], features_n, rotation='vertical')
pyplot.show()

Outra hipotese que podemos levantar aqui é o desbalanceamento da base: 
    

In [None]:
df_modelo2.iloc[:,0].value_counts(normalize=True)

In [None]:
df_modelo2.iloc[:,0].value_counts()

Vamos normalizar colocando a mesma quantidade de homens e mulheres! 

In [None]:
from sklearn.utils import resample

In [None]:
# Separate majority and minority classes
df_majority = df_modelo2[df_modelo2.iloc[:,0]==1]
df_minority = df_modelo2[df_modelo2.iloc[:,0]==0]
 
# Downsample majority class
df_majority_downsampled = resample(df_majority, 
                                 replace=False,    # sample without replacement
                                 n_samples=10,     # to match minority class
                                 random_state=123) # reproducible results
 
# Combine minority class with downsampled majority class
df_downsampled = pd.concat([df_majority_downsampled, df_minority])
 
# Display new class counts
df_downsampled.iloc[:,0].value_counts()

In [None]:
df_majority_downsampled.head()

In [None]:
X = df_majority_downsampled.drop('What is your current yearly compensation (approximate $USD)?', axis=1)
y = df_majority_downsampled['What is your current yearly compensation (approximate $USD)?']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

In [None]:
# Fit regression model
regr_1 = DecisionTreeRegressor(max_depth=4)
regr_1.fit(X_train, y_train)

# Predict
y_pred = regr_1.predict(X_test)

In [None]:
mean_absolute_error(y_test, y_pred)

In [None]:
features_n = X.columns

In [None]:
# plot feature importance
pyplot.bar([x for x in range(len(importance))], importance)
pyplot.xticks([x for x in range(len(importance))], features_n, rotation='vertical')
pyplot.show()