# HR Dataset Machine Learning - Desafio Rocketmat 02 e Desafio extra

Esse notebook corresponde aos desafios 2 e extra da prova prática do processo seletivo para Estagiário em Ciência de Dados. Nele constam algumas propostas de problemas passíveis de ser resolvidos utilizando abordagens de machine learning e alguns experimentos realizados acerca de dois desses problemas e a interpretação dos modelos propostos.

O dataset utilizado traz dados sobre o RH de uma empresa. O dados podem ser encontrados no kaggle através do link a seguir: https://www.kaggle.com/krismurphy01/data-lab

A partir da observação dos dados disponível e das correlações, foi possível identificar alguns problemas que podem ser resolvidos utilizando técnincas de machine learning. Sendo eles:

* Previsão de saída do funcionário
* Previsão de desempenho do funcionário.
* Previsão de funcionários aptos a promoção. (descartado)
* Previsão de identificação entre o funcionário e a empresa (descartado).
* Previsão de estresse com base em batimentos cardíacos (Não realizado). Dados de referência: https://www.tuasaude.com/frequencia-cardiaca/

Desses, foram desenvolvidos experimentos para o problema de classificação para a previsão de saída de funcionários e um problema de regressão para prever a avaliação de desempenho de funcionários. 

Para o problema de classificação foram utilizadas árvores de decisão, random forest e o classificador SVC, trazendo duas abordagens para o mesmo problema. Como avaliação dos métodos foram utilizadas a Acurácia, o Kappa e a Área sobre a curva ROC. Para o problema de regressão foram utilizados os algoritimos de regressão linear, o regressor SVR e as árvores de decisão para regressão. A métrica utilizada foi o erro médio quadrado. Mais detalhes sobre essas aplicações serão mostrados mais a frente durante a experimentação. 

Os problemas seleção de funcionários (1) aptos a receberem uma promoção e de previsão da identificação do funcionário com a vaga (2) foram abandonados pelos seguintes motivos:
* Para o problema 1, os dados são extremamente desbalanceados, sendo que poucas amostras de pessoas que foram promovidas. Poderiam ser utilizadas algumas técnicas de balanceamento, entretanto, um aumento de dados na quantidade que seria necessária seria muito ruim para os resultados, uma vez que para aumentar utilizaríamos algum algoritmo para a criação de dados falsos com base nos dados presentes no dataset e esses dados falsos em excesso poderiam prejudicar na avaliação, poderiam não condizer com a realidade dos dados. Outra técnica seria um downsample, ou seja, selecionar da classe majoritária, aleatoriamente, a mesma quantidade de amostras da classe minoritária. Entretanto, essa segunda abordagem resultaria em uma quantidade mínima de amostras que seriam insuficientes para treinar os modelos. 
* Ainda no problema 1, as variáveis preditoras disponíveis para resolver o problema são insuficiente. Eu realizei o teste com os classificadores citados acima e obtive um resultado extremamente insatisfatório. 
* O problema 2 se trata de uma classificação multiclasse, cujo o resultado, com os dados disponíveis, não chegou a 50%. Talvez a disponibilidade de mais algumas variáveis de satisfação e de desempenho melhorassem o resultado. 

O problema de previsão de estresse ainda não foi avaliado nesse projeto, eu apenas fiz algumas pesquisas relacionadas ao tema. 

Essas propostas foram resolvidas utilizando abordagens simples para a seleção de features, entretanto, poderia ter sido utilizado algum método de redução de dimensionalidade como o PCA.

### Importação de Pacotes e visualização inicial dos dados 

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC, SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import plot_confusion_matrix, cohen_kappa_score, roc_auc_score, mean_squared_error
from sklearn.linear_model import LinearRegression, LogisticRegression

pd.set_option('display.max_columns', 25)

In [None]:
data = pd.read_csv('./HR_data_to_ML.csv')
data.drop(['Unnamed: 0'], axis=1, inplace=True)
data.head(10)

### Conversão de variáveis categóricas

Algoritmos de machine learning não lidam muito bem com dados categóricos. Para trabalhar com esse tipo de dado é necessário realizar um processo de conversão desses dados, transformando o valor em texto da variável em etiquetas numéricas. Para tal, foi utilizado o algoritmo LabelEncoder.

In [None]:
categorical_feature_mask = data.dtypes==object
categorical_cols = data.columns[categorical_feature_mask].tolist()

In [None]:
data[categorical_cols]

In [None]:
categorical_vars = data[categorical_cols]
enc = LabelEncoder()
data[categorical_cols] = data[categorical_cols].apply(enc.fit_transform)

Após a discretização dos valores, os dados categóricos ficaram assim:

In [None]:
data[categorical_cols]

Com esse tratamento feito, podemos rever aquelas correlações da primeira parte desse projeto para selecionar as features que melhor se relacionam com o problema e os modelos propostos. 

### Avaliando as correlações para selecionar boas features para os problemas

Aqui visualizamos as correlações. Para os problemas que serão resolvidos, precisamos procurar as features que melhor se relacionam com os targets desses problemas. Sendo que para a previsão de funcionários que sairão da empresa, a variável alvo é a coluna **left_Company** e para o problema da avaliação de desempenho, a variável alvo é a coluna **last_evaluation**.

In [None]:
corr = data.corr()
mask = np.zeros_like(corr)
mask[np.triu_indices_from(mask)] = True
with sns.axes_style("white"):
    f, ax = plt.subplots(figsize=(15, 12))
    ax = sns.heatmap(corr, mask=mask, vmax=.3, square=True, annot=True)

Um ponto a ser comentado aqui é o fato de que as variáveis categóricas não estão tão bem correlacionadas com as demais variáveis.

### Problema 01: Prevendo a saída de um funcionário

Aqui apresentamos o nosso primeiro experimento com uso de machine learning. 

A primeira coisa a ser avaliada é a distribuição entre as classes e com isso podemos notar que o dataset está bem desbalanceado, mas, realizei o experimento mesmo assim, até pra ter um resultado de base.

In [None]:
data.left_Company.value_counts()

Para esse problema, eu realizei 2 experimentos. No primeiro, eu selecionei apenas as variáveis que possuíam algum grau de correlação incluindo a variável **EMP_Engagement_Mean** que possui uma correlação negativa igual a 1, o que significa que os nosso modelos irão atingir um resultado máximo. Esse teste foi feito apenas para visualizar como essa correlação forte se comporta nos modelos. O conjunto de dados foi dividido em subsets de treino e teste em uma proporção de 70% para treino e 30% para teste. Como o dataset é grande, essa proporção resulta em quantidades de dados satisfatórias para cada conjunto. 

In [None]:
y = data['left_Company']
X = data[['Emp_Identity', 'Emp_Role', 'Emp_Position', 'Emp_Title', 'EMP_Engagement_Mean']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

O primeiro teste realizado foi utilizando uma árvore de decisão, abaixo são mostradas as etapas de treino, teste e avaliação do modelo.

In [None]:
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
y_predict_tree = tree.predict(X_test)

In [None]:
print("Avaliação do modelo DecisionTreeClassifier")
print("Acurácia: {}".format(tree.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_tree)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_tree)))

Aqui vemos a matriz de confusão do modelo, servindo mais como uma forma visual de analizar o modelo.

In [None]:
plot_confusion_matrix(tree, X_test, y_test);

Como esperado, o modelo obteve 100% em todas as métricas utilizadas e como já foi dito antes, isso se deve principalmente a variável de engajamento que possui uma forte correlação com a variável alvo desse problema. Isso pode ser analisado verificando o feature importance do modelo: 

In [None]:
columns = X.columns
feature_imp = tree.feature_importances_
pd.DataFrame({'Feature': columns,
              'Importance': feature_imp},
                columns=['Feature', 'Importance'])

De acordo com a correlação, por ser negativa, e com essa informação do modelo, uma interpretação provável para esse problema é que o principal fator responsável pela demissão/saída de um funcionário é o engajamento e a participação dele em atividades da empresa. Quanto menos engajado nas atividades, maiores são as chances de um funcionário deixar a empresa.

Abaixo os testes com o RandomForest utilizando 10 estimadores e o SVC:

In [None]:
rf = RandomForestClassifier(n_estimators=10)
rf.fit(X_train, y_train)
y_predict_rf = tree.predict(X_test)

In [None]:
print("Avaliação do modelo RandomForestClassifier")
print("Acurácia: {}".format(rf.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_rf)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_rf)))

In [None]:
plot_confusion_matrix(rf, X_test, y_test);

No caso do Random Forest, as demais variáveis possuem alguma importância na definição do modelo, apesar de que aqui também a variável **EMP_Engagement_Mean** é a mais importante para o modelo.

In [None]:
columns = X.columns
feature_imp = rf.feature_importances_
pd.DataFrame({'Feature': columns,
              'Importance': feature_imp},
                columns=['Feature', 'Importance'])

In [None]:
svc = SVC(kernel='linear')
svc.fit(X_train, y_train)
y_predict_svc = tree.predict(X_test)

In [None]:
print("Avaliação do modelo SVC")
print("Acurácia: {}".format(svc.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_svc)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_svc)))

In [None]:
plot_confusion_matrix(svc, X_test, y_test);

No classsificador SVC, utilizando o Kernel linear, também obtemos que a variável de engajamento é a mais importante. O SVC não possui as feature importance, mas possui os coeficientes que indicam os pesos que modelo deu para cada feature. 

In [None]:
columns = X.columns
feature_imp = svc.coef_[0]
pd.DataFrame({'Feature': columns,
              'Importance': feature_imp},
                columns=['Feature', 'Importance'])

Abaixo, uma tabela resumindo os resultados obtidos pelos 3 modelos criados:

In [None]:
pd.DataFrame({'Classificador': ['DecisionTree', 'RandomForestClassifier', 'SVC'], 
              'Acuracia': [tree.score(X_test, y_test), rf.score(X_test, y_test), svc.score(X_test, y_test)],
              'Kappa': [cohen_kappa_score(y_test, y_predict_tree), cohen_kappa_score(y_test, y_predict_rf), cohen_kappa_score(y_test, y_predict_svc)],
              'ROC_AUC': [roc_auc_score(y_test, y_predict_tree), roc_auc_score(y_test, y_predict_rf), roc_auc_score(y_test, y_predict_svc)]},
              columns=['Classificador', 'Acuracia', 'Kappa', 'ROC_AUC'])

Com base no que foi observado acima, resolvi aplicar os mesmos testes para todos os dados do conjunto. Entretanto, a variável **EMP_Engagement_Mean** será eliminada do conjuntos. Com isso verificaremos os efeitos das outras features no modelo desconsiderando essa que já sabíamos que daria um excelente resultado. 

In [None]:
y = data['left_Company']
X = data.drop(['left_Company', 'EMP_Engagement_Mean'], axis=1)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
y_predict_tree = tree.predict(X_test)

In [None]:
print("Avaliação do modelo DecisionTreeClassifier")
print("Acurácia: {}".format(tree.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_tree)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_tree)))

In [None]:
plot_confusion_matrix(tree, X_test, y_test);

In [None]:
columns = X.columns
feature_imp = tree.feature_importances_
pd.DataFrame({'Feature': columns,
              'Importance': feature_imp},
                columns=['Feature', 'Importance']).sort_values('Importance', ascending=False)

In [None]:
rf = RandomForestClassifier(n_estimators=10)
rf.fit(X_train, y_train)
y_predict_rf = tree.predict(X_test)

In [None]:
print("Avaliação do modelo RandomForestClassifier")
print("Acurácia: {}".format(rf.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_rf)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_rf)))

In [None]:
plot_confusion_matrix(rf, X_test, y_test);

In [None]:
columns = X.columns
feature_imp = rf.feature_importances_
pd.DataFrame({'Feature': columns,
              'Importance': feature_imp},
                columns=['Feature', 'Importance']).sort_values('Importance', ascending=False)

In [None]:
svc = SVC(kernel='linear')
svc.fit(X_train, y_train)
y_predict_svc = tree.predict(X_test)

In [None]:
print("Avaliação do modelo SVC")
print("Acurácia: {}".format(svc.score(X_test, y_test)))
print("Kappa: {}".format(cohen_kappa_score(y_test, y_predict_svc)))
print("Área sobre a curva ROC: {}".format(roc_auc_score(y_test, y_predict_svc)))

In [None]:
results_df = pd.DataFrame({'Classificador': ['DecisionTree', 'RandomForestClassifier', 'SVC'], 
                           'Acuracia': [tree.score(X_test, y_test), rf.score(X_test, y_test), svc.score(X_test, y_test)],
                           'Kappa': [cohen_kappa_score(y_test, y_predict_tree), cohen_kappa_score(y_test, y_predict_rf), cohen_kappa_score(y_test, y_predict_svc)],
                           'ROC_AUC': [roc_auc_score(y_test, y_predict_tree), roc_auc_score(y_test, y_predict_rf), roc_auc_score(y_test, y_predict_svc)]},
                            columns=['Classificador', 'Acuracia', 'Kappa', 'ROC_AUC'])

In [None]:
results_df

### Problema 02: Prevendo o desempenho de um funcionário

In [None]:
y = data['last_evaluation']
X = data[['number_project', 'average_montly_hours', 'Percent_Remote', 'Emp_Identity', 'Emp_Role', 'Emp_Position', 'Emp_Title', 'Sensor_StepCount', 'Sensor_Heartbeat(Average/Min)', 'EMP_Engagement_Mean']]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
lr = LinearRegression()

In [None]:
lr.fit(X_train, y_train)

In [None]:
lr.score(X_test, y_test)
y_pred = lr.predict(X_test)

In [None]:
mean_squared_error(y_pred, y_test)

In [None]:
svr = SVR()
svr.fit(X_train, y_train)
y_pred = svr.predict(X_test)
mean_squared_error(y_pred, y_test)

In [None]:
tree_r = DecisionTreeRegressor()
tree_r.fit(X_train, y_train)
y_pred = tree_r.predict(X_test)
mean_squared_error(y_pred, y_test)