# **Impacto no uso de People Analytics em decis√µes organizacionais para identifica√ß√£o de talentos**

**Objetivo:** Este notebook objetiva apresentar os experimentos de um **Modelo de Classifica√ß√£o**, vinculado ao Trabalho de Conclus√£o de Curso para Data Science and Analytics, junto a USP-Esalq, utilizando a metodologia CRISP-DM, desde sua fase de Entendimento dos Dados √† √∫ltima etapa de Implanta√ß√£o. 

**Experimentos**: As testagens considerar√£o o uso de tr√™s modelagens: Regress√£o Log√≠stica, √Årvore de Decis√£o e Random Forest. As escolhas destes algoritmos se deram justamente pela complementa√ß√£o entre eles, al√©m da facilidade de uso e interpretabilidade dos modelos. A Regress√£o Log√≠stica √© f√°cil de interpretar e mostra como cada vari√°vel impacta a chance de promo√ß√£o. A √Årvore de Decis√£o gera regras simples e visuais que facilitam entender as decis√µes. J√° o Random Forest √© mais robusto, melhorando a precis√£o e ajudando a evitar erros comuns em modelos mais simples. Desta forma, se torna poss√≠vel analisar e comparar de forma clara a performance de cada um deles, auxiliando na escolha do modelo "vencedor".

**Link Dataset:** https://www.kaggle.com/datasets/bhrt97/hr-analytics-classification

*Para acessar a documenta√ß√£o do projeto, com os insights, instru√ß√µes e resultados obtidos, acesse o arquivo README.md deste reposit√≥rio*

## üìò Dicion√°rio de Vari√°veis

| Nome da Vari√°vel       | Significado                                                                                           |
|------------------------|-------------------------------------------------------------------------------------------------------|
| **matricula**          | Identificador √∫nico do(a) colaborador(a) na empresa.                                                  |
| **departamento**       | Departamento ou √°rea em que o(a) colaborador(a) atua (ex: Vendas, Tecnologia, RH).                   |
| **regiao**             | Regi√£o geogr√°fica de atua√ß√£o do(a) colaborador(a) (sem ordem ou hierarquia espec√≠fica).               |
| **escolaridade**       | N√≠vel educacional alcan√ßado pelo(a) colaborador(a) (ex: Gradua√ß√£o, P√≥s-gradua√ß√£o, etc.).             |
| **genero**             | G√™nero do(a) colaborador(a), geralmente categorizado como "Masculino" ou "Feminino".                 |
| **canal_recrutamento** | Canal atrav√©s do qual o(a) colaborador(a) foi recrutado(a) (ex: Recrutamento Interno, Ag√™ncia).      |
| **qtd_treinamentos**   | N√∫mero de treinamentos (t√©cnicos ou comportamentais) realizados no ano anterior.                      |
| **idade**              | Idade do(a) colaborador(a), em anos.                                                                  |
| **avaliacao_anterior** | Nota de desempenho atribu√≠da ao(√†) colaborador(a) no ano anterior (geralmente em uma escala de 1 a 5).|
| **tempo_empresa**      | Tempo de servi√ßo na empresa, em anos completos.                                                       |
| **kpis_atingidos**     | Indicador bin√°rio: 1 se mais de 80% dos KPIs (indicadores de performance) foram atingidos; 0 caso contr√°rio. |
| **premios**            | Indicador bin√°rio: 1 se o(a) colaborador(a) ganhou algum pr√™mio no ano anterior; 0 caso contr√°rio.    |
| **media_treinamento**  | Nota m√©dia obtida nos treinamentos atuais (avalia√ß√µes de desempenho nos cursos realizados).           |
| **promovido**          | Vari√°vel alvo (target): 1 se o(a) colaborador(a) foi recomendado(a) para promo√ß√£o; 0 caso contr√°rio.  |


## Importar Bibliotecas

In [1]:
# ============================================================
# 1. Importa√ß√£o de bibliotecas para manipula√ß√£o dos dados e plots 
# ============================================================

import pandas as pd
import numpy as np

# ============================================================
# 2. Importa√ß√£o de bibliotecas relacionados √† machine learning
# ============================================================

from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve

from modulo_graficos import grafico_movimentacao_promovidos # M√≥dulo Python (dispon√≠vel no reposit√≥rio do projeto)

In [2]:
# ============================================================
# 2. Ajustes visuais para visualiza√ß√£o das tabelas e c√©lulas
# ============================================================

pd.set_option('display.max_colwidth', None) # remover truncamento de valores das colunas
pd.set_option('display.max_rows', None) # remover truncamento do n√∫mero de linhas exibidas
pd.set_option('display.max_columns', None) # remover truncamento do n√∫mero de colunas exibidas
pd.set_option('display.float_format', '{:.2f}'.format) # valores quebrados ser√£o setados com 2 casas decimais

## Input dos Dados

A base de dados disponibilizada pelo Kaggle est√° dividida em dois arquivos: treino e teste. 

Seguirei, portanto, a seguinte abordagem:

- A base de treino ser√° utilizada para treinamento e valida√ß√£o do modelo (usando t√©cnicas como valida√ß√£o cruzada ou divis√£o em treino/valida√ß√£o).
- A base de teste ser√° utilizada apenas posteriormente para gera√ß√£o das previs√µes finais, pois seus r√≥tulos s√£o ocultos (avalia√ß√£o cega).

A abordagem segue desta forma, pois visa garantir que o modelo n√£o tenha acesso a dados do conjunto de teste durante o treinamento, evitando vazamento de informa√ß√£o e garantindo uma avalia√ß√£o justa.

In [3]:
# ============================================================
# 3. Carregando base de dados e obtendo informa√ß√µes inicial dos dados
# ============================================================

df_treino = pd.read_csv("dataset/train_hr_class.csv")
df_teste = pd.read_csv("dataset/test_hr_class.csv")
print(f"DF Treino: {df_treino.shape}")
print(f"DF Teste: {df_teste.shape}")

DF Treino: (54808, 14)
DF Teste: (23490, 13)


In [4]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54808 entries, 0 to 54807
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   employee_id           54808 non-null  int64  
 1   department            54808 non-null  object 
 2   region                54808 non-null  object 
 3   education             52399 non-null  object 
 4   gender                54808 non-null  object 
 5   recruitment_channel   54808 non-null  object 
 6   no_of_trainings       54808 non-null  int64  
 7   age                   54808 non-null  int64  
 8   previous_year_rating  50684 non-null  float64
 9   length_of_service     54808 non-null  int64  
 10  KPIs_met >80%         54808 non-null  int64  
 11  awards_won?           54808 non-null  int64  
 12  avg_training_score    54808 non-null  int64  
 13  is_promoted           54808 non-null  int64  
dtypes: float64(1), int64(8), object(5)
memory usage: 5.9+ MB


In [5]:
df_treino.head()

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,age,previous_year_rating,length_of_service,KPIs_met >80%,awards_won?,avg_training_score,is_promoted
0,65438,Sales & Marketing,region_7,Master's & above,f,sourcing,1,35,5.0,8,1,0,49,0
1,65141,Operations,region_22,Bachelor's,m,other,1,30,5.0,4,0,0,60,0
2,7513,Sales & Marketing,region_19,Bachelor's,m,sourcing,1,34,3.0,7,0,0,50,0
3,2542,Sales & Marketing,region_23,Bachelor's,m,other,2,39,1.0,10,0,0,50,0
4,48945,Technology,region_26,Bachelor's,m,other,1,45,3.0,2,0,0,73,0


In [6]:
df_teste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23490 entries, 0 to 23489
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   employee_id           23490 non-null  int64  
 1   department            23490 non-null  object 
 2   region                23490 non-null  object 
 3   education             22456 non-null  object 
 4   gender                23490 non-null  object 
 5   recruitment_channel   23490 non-null  object 
 6   no_of_trainings       23490 non-null  int64  
 7   age                   23490 non-null  int64  
 8   previous_year_rating  21678 non-null  float64
 9   length_of_service     23490 non-null  int64  
 10  KPIs_met >80%         23490 non-null  int64  
 11  awards_won?           23490 non-null  int64  
 12  avg_training_score    23490 non-null  int64  
dtypes: float64(1), int64(7), object(5)
memory usage: 2.3+ MB


In [7]:
df_teste.head()

Unnamed: 0,employee_id,department,region,education,gender,recruitment_channel,no_of_trainings,age,previous_year_rating,length_of_service,KPIs_met >80%,awards_won?,avg_training_score
0,8724,Technology,region_26,Bachelor's,m,sourcing,1,24,,1,1,0,77
1,74430,HR,region_4,Bachelor's,f,other,1,31,3.0,5,0,0,51
2,72255,Sales & Marketing,region_13,Bachelor's,m,other,1,31,1.0,4,0,0,47
3,38562,Procurement,region_2,Bachelor's,f,other,3,31,2.0,9,0,0,65
4,64486,Finance,region_29,Bachelor's,m,sourcing,1,30,4.0,7,0,0,61


## Prepara√ß√£o dos Dados

### Tratamento e Limpeza dos Dados

Nesta se√ß√£o, realizarei importantes etapas de tratamento de limpeza dos dados, tais como:

- Renomeio de colunas para Portugu√™s-BR, a fim de facilitar a manipula√ß√£o e compreens√£o dos dados
- Verifica√ß√£o de duplicidades
- Analisar o tipo dos dados, para eventuais convers√µes (caso necess√°rio)
- Verifica√ß√£o de valores nulos e o seu devido tratamento

#### Renomear Vari√°veis

In [8]:
cols_treino = {"employee_id": "matricula", "department": "departamento", "region": "regiao", "education": "escolaridade",
               "gender": "genero", "recruitment_channel": "canal_recrutamento", "no_of_trainings": "qtd_treinamentos",
               "age": "idade", "previous_year_rating": "avaliacao_anterior", "length_of_service": "tempo_empresa",
               "KPIs_met >80%": "kpis_atingidos", "awards_won?": "premios", "avg_training_score": "media_treinamento",
               "is_promoted": "promovido"}

cols_teste = {"employee_id": "matricula", "department": "departamento", "region": "regiao", "education": "escolaridade",
              "gender": "genero", "recruitment_channel": "canal_recrutamento", "no_of_trainings": "qtd_treinamentos",
              "age": "idade", "previous_year_rating": "avaliacao_anterior", "length_of_service": "tempo_empresa",
              "KPIs_met >80%": "kpis_atingidos", "awards_won?": "premios", "avg_training_score": "media_treinamento"}

df_treino = df_treino.rename(columns=cols_treino)
df_teste = df_teste.rename(columns=cols_teste) # subconjunto dos nomes para o DF Teste n√£o tem a vari√°vel target (promovido)
df_treino.head(1)

Unnamed: 0,matricula,departamento,regiao,escolaridade,genero,canal_recrutamento,qtd_treinamentos,idade,avaliacao_anterior,tempo_empresa,kpis_atingidos,premios,media_treinamento,promovido
0,65438,Sales & Marketing,region_7,Master's & above,f,sourcing,1,35,5.0,8,1,0,49,0


#### Duplicidade

In [9]:
if df_treino['matricula'].duplicated().any():
    print("Existem duplicados")
else:
    print("N√£o h√° matr√≠culas duplicadas")

N√£o h√° matr√≠culas duplicadas


#### Tipologia dos Dados

In [10]:
def tratar_tipo_dados(df):
    for col in df.columns:
        try:
            df[col] = pd.to_numeric(df[col])
        except ValueError:
            pass
        except TypeError:
            print(f"N√£o foi poss√≠vel converter a coluna {col} devido a um TypeError.")
        # Abaixo, converte colunas do tipo 'object' para 'category' se menos de 30% dos valores forem √∫nicos
        if df[col].dtype == 'object' and df[col].nunique() / len(df) < 0.3: 
            df[col] = df[col].astype('category')

        # Temos vari√°veis que s√£o bin√°rias, neste caso, for√ßaremos a convers√£o delas para categ√≥ricas
        lista_colunas = ['kpis_atingidos', 'premios', 'promovido']
        for col in lista_colunas:
            if col in df.columns:
                df[col] = df[col].astype('category')
    return df

df_treino = tratar_tipo_dados(df_treino)

In [11]:
df_treino.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54808 entries, 0 to 54807
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   matricula           54808 non-null  int64   
 1   departamento        54808 non-null  category
 2   regiao              54808 non-null  category
 3   escolaridade        52399 non-null  category
 4   genero              54808 non-null  category
 5   canal_recrutamento  54808 non-null  category
 6   qtd_treinamentos    54808 non-null  int64   
 7   idade               54808 non-null  int64   
 8   avaliacao_anterior  50684 non-null  float64 
 9   tempo_empresa       54808 non-null  int64   
 10  kpis_atingidos      54808 non-null  category
 11  premios             54808 non-null  category
 12  media_treinamento   54808 non-null  int64   
 13  promovido           54808 non-null  category
dtypes: category(8), float64(1), int64(5)
memory usage: 2.9 MB


#### Nulos

In [12]:
df_treino.isnull().sum()[df_treino.isnull().sum() > 0]

escolaridade          2409
avaliacao_anterior    4124
dtype: int64

In [13]:
df_treino['escolaridade'].value_counts()

escolaridade
Bachelor's          36669
Master's & above    14925
Below Secondary       805
Name: count, dtype: int64

In [14]:
df_treino['avaliacao_anterior'].value_counts()

avaliacao_anterior
3.00    18618
5.00    11741
4.00     9877
1.00     6223
2.00     4225
Name: count, dtype: int64

**Para este tratamento de dados, optarei pela imputa√ß√£o de valores fixos:**
- Avalia√ß√£o Anterior: para quem n√£o teve nota computada para avalia√ß√£o anterior, igualaremos √† zero (0)
- Escolaridade: para quem n√£o tem registro sobre o n√≠vel de escolaridade, preencheremos com "No_Education"

In [15]:
df_treino['escolaridade'] = df_treino['escolaridade'].cat.add_categories(['No_Education'])
df_treino['escolaridade'] = df_treino['escolaridade'].fillna('No_Education')
df_treino['avaliacao_anterior'] = df_treino['avaliacao_anterior'].fillna(0)

In [16]:
df_treino.isnull().sum()[df_treino.isnull().sum() > 0]

Series([], dtype: int64)

In [17]:
# Separar features e target do treino
X = df_treino.drop(["promovido", "matricula"], axis=1)
y = df_treino["promovido"]

In [23]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import FunctionTransformer

# Fun√ß√£o para tratar as vari√°veis espec√≠ficas
def tratar_variaveis(df):
    df = df.copy()
    # Escolaridade
    if df['escolaridade'].dtype.name == 'category':
        if 'No_Education' not in df['escolaridade'].cat.categories:
            df['escolaridade'] = df['escolaridade'].cat.add_categories(['No_Education'])
    df['escolaridade'] = df['escolaridade'].fillna('No_Education')
    # Avalia√ß√£o anterior
    df['avaliacao_anterior'] = df['avaliacao_anterior'].fillna(0)
    return df

# Aqui atuamos com essa transforma√ß√£o espec√≠fica
tratamento_custom = FunctionTransformer(tratar_variaveis)

# Separando Colunas categ√≥ricas e num√©ricas
cat_features = X.select_dtypes(include=['object']).columns.tolist()
num_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Pipelines num√©rico e categ√≥rico
num_pipeline = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

cat_pipeline = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(handle_unknown="ignore"))
])

# Pr√©-processamento geral
preprocessor = ColumnTransformer(transformers=[
    ("num", num_pipeline, num_features),
    ("cat", cat_pipeline, cat_features)
])

# Pipeline final com tratamento customizado antes
pipeline_final = Pipeline(steps=[
    ("tratamento_custom", tratamento_custom),
    ("preprocessor", preprocessor)
])

# Exemplo de uso
pipeline_final.fit(X, y)
X_transformed = pipeline_final.transform(X)

In [27]:
modelos = {
    "Regress√£o Log√≠stica": LogisticRegression(max_iter=1000, class_weight="balanced"),
    "√Årvore de Decis√£o": DecisionTreeClassifier(random_state=42, class_weight="balanced"),
    "Random Forest": RandomForestClassifier(random_state=42, class_weight="balanced")
}

for nome, modelo in modelos.items():
    pipeline = Pipeline(steps=[
        ("preprocess", preprocessor),
        ("model", modelo)
    ])
    cv = StratifiedKFold(n_splits=5)
    scores = cross_val_score(pipeline, X, y, cv=cv, scoring="recall")
    print(f"{nome} - Recall m√©dio (CV): {scores.mean():.4f}")

Regress√£o Log√≠stica - Recall m√©dio (CV): 0.8160
√Årvore de Decis√£o - Recall m√©dio (CV): 0.4505
Random Forest - Recall m√©dio (CV): 0.2948


# Tentativa 2

In [31]:
!pip install imblearn

Collecting imblearn
  Downloading imblearn-0.0-py2.py3-none-any.whl.metadata (355 bytes)
Collecting imbalanced-learn (from imblearn)
  Downloading imbalanced_learn-0.13.0-py3-none-any.whl.metadata (8.8 kB)
Collecting sklearn-compat<1,>=0.1 (from imbalanced-learn->imblearn)
  Downloading sklearn_compat-0.1.3-py3-none-any.whl.metadata (18 kB)
Collecting scikit-learn<2,>=1.3.2 (from imbalanced-learn->imblearn)
  Downloading scikit_learn-1.6.1-cp310-cp310-win_amd64.whl.metadata (15 kB)
Downloading imblearn-0.0-py2.py3-none-any.whl (1.9 kB)
Downloading imbalanced_learn-0.13.0-py3-none-any.whl (238 kB)
Downloading sklearn_compat-0.1.3-py3-none-any.whl (18 kB)
Downloading scikit_learn-1.6.1-cp310-cp310-win_amd64.whl (11.1 MB)
   ---------------------------------------- 0.0/11.1 MB ? eta -:--:--
   --------------------------------- ------ 9.4/11.1 MB 45.2 MB/s eta 0:00:01
   ---------------------------------------- 11.1/11.1 MB 36.6 MB/s  0:00:00
Installing collected packages: scikit-learn, sk

  You can safely remove it manually.


In [29]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.pipeline import Pipeline, make_pipeline
from imblearn.under_sampling import RandomUnderSampler
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import RFE
from collections import Counter
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report,ConfusionMatrixDisplay, recall_score
from sklearn import metrics
from imblearn.over_sampling import RandomOverSampler
from sklearn.metrics import auc, precision_recall_curve, fbeta_score
import optuna
from pickle import dump

ModuleNotFoundError: No module named 'imblearn'

In [30]:
# Fun√ß√£o SCORE

pd.options.display.float_format = '{:.5f}'.format
pd.set_option('display.max_columns', None)

def print_score(real,pred,proba):
    df_score = pd.DataFrame(classification_report(real, pred, output_dict=True))
    recall = recall_score(y_test, y_pred)
    print(f'\nRecall: {recall}',flush=True)
    precision_curve, recall_curve, _ = precision_recall_curve(real, proba)
    aucpr = auc(recall_curve, precision_curve)
    print(f'AUCPR: {aucpr}',flush=True)
    f2_score = fbeta_score(real, pred.round(), beta=2)
    print(f'F2 Score: {f2_score}',flush=True) 
    #print(df_score, flush=True)
    cm = confusion_matrix
    cm = confusion_matrix(real, pred)
    cmd = ConfusionMatrixDisplay(cm, display_labels=['n√£o-promovido','promovido'])
    cmd.plot()
    return df_score

In [28]:
# Definindo o objetivo da fun√ß√£o
def objective(trial):

    scalers = trial.suggest_categorical("scalers", ['minmax', 'standard'])
 
    # Definir escaladores de padroniza√ß√£o (standard) ou normaliza√ß√£o (minmax)
    if scalers == "minmax":
        scaler = MinMaxScaler()
    elif scalers == "standard":
        scaler = StandardScaler()

        # Instanciando o modelo
    criterion = trial.suggest_categorical('criterion', ['gini', 'entropy'])
    max_depth = trial.suggest_int('max_depth', 2,800,step=2)
    max_leaf_nodes =  trial.suggest_int('max_leaf_nodes',2,2000,step=5)
    min_samples_split = trial.suggest_int('min_samples_split',2,6)
    estimator = DecisionTreeClassifier(criterion=criterion,
                                       max_depth=max_depth, 
                                       max_leaf_nodes=max_leaf_nodes, 
                                       min_samples_split=min_samples_split)
                                                        
    # Pipeline do modelo
    pipeline = make_pipeline(scaler, estimator)
    rus = RandomUnderSampler(random_state=42)
    x,y = rus.fit_resample(X_train, y_train)
    # -- Evaluate the score by cross-validation
    score = cross_val_score(pipeline, x, y, scoring='accuracy')   
    return score.mean()

if __name__ == '__main__':

    X_train = pd.read_csv("X_train_ng_custom.csv", header=0)
    X_test = pd.read_csv("X_test_ng_custom.csv", header=0)
    
    y_train = X_train['IN_CMST_FUN'].reset_index(drop=True)
    y_test = X_test['IN_CMST_FUN'].reset_index(drop=True)
    
    X_train.drop(columns=['IN_CMST_FUN'], inplace=True)
    X_test.drop(columns=['IN_CMST_FUN'], inplace=True)
    
    study = optuna.create_study(direction="maximize") # maximise the score during tuning
    study.optimize(objective, n_trials=200, n_jobs=-1) # run the objective function 100 times

    print("Number of finished trials: {}".format(len(study.trials)))

    print("Best trial:")
    trial = study.best_trial

    print("  Value: {}".format(trial.value))

    print("  Params: ")
    for key, value in trial.params.items():
        print("    {}: {}".format(key, value))

FileNotFoundError: [Errno 2] No such file or directory: 'X_train_ng_custom.csv'

#### Estat√≠stica Descritiva

In [None]:
df_treino.describe(percentiles=[0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.95]).T.drop('matricula', errors='ignore')

#### Propor√ß√£o da vari√°vel target/alvo

In [None]:
df_treino['promovido'] = df_treino['promovido'].astype(int).astype('category')
df_treino['promovido'].value_counts()

#### An√°lise das vari√°veis num√©ricas

In [None]:
# Distribui√ß√£o das vari√°veis num√©ricas, exceto a vari√°vel matricula, visto que √© um ID (identificador)

num_cols = df_treino.select_dtypes(include=['int64', 'float64']).columns.drop('matricula')
for col in num_cols:
    plt.figure(figsize=(6,4))
    sns.histplot(df_treino[col], kde=True)
    plt.title(f"Distribui√ß√£o - {col}")
    plt.ylabel("Quantidade")
    plt.show()

**Percebi que as vari√°veis kpis_atingidos e premios, indicam "verdadeiro" ou "falso", apesar de seus valores poss√≠veis serem inteiros (1 ou 0). Vamos confirmar abaixo e se for verdadeiro, transformaremos para vari√°veis categ√≥ricas.**


In [None]:
print(df_treino['kpis_atingidos'].unique())
print(df_treino['premios'].unique())

**Dado a confirma√ß√£o da hip√≥tese apresentada nas visualiza√ß√µes gr√°ficas, transformaremos as vari√°veis para categ√≥ricas**

In [None]:
df_treino['kpis_atingidos'] = df_treino['kpis_atingidos'].astype('category')
df_treino['premios'] = df_treino['premios'].astype('category')

In [None]:
df_treino.info()

In [None]:
# Ap√≥s as transforma√ß√µes, ploto novamente os gr√°ficos de histogramas e agora acrescento tamb√©m com o boxplot

num_cols = df_treino.select_dtypes(include=['int64', 'float64']).columns.drop('matricula')
for col in num_cols:
    plt.figure(figsize=(6,4))
    sns.histplot(df_treino[col], kde=True)
    plt.title(f"Distribui√ß√£o - {col}")
    plt.ylabel("Quantidade")
    plt.show()

In [None]:
for col in num_cols:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df_treino[col])
    plt.title(f"Boxplot - {col}")
    plt.xlabel(col)
    plt.show()

In [None]:
# Para algumas vari√°veis num√©ricas (principalmente relacionadas a desempenhos), quero analisar a distribui√ß√£o
# Considerando a propor√ß√£o de Promovidos x N√£o Promovidos

num_cols = df_treino.select_dtypes(include=['int64', 'float64']).columns.drop(['matricula', 'idade', 'tempo_empresa'])
for col in num_cols:
    grafico_movimentacao_promovidos(df_treino, col, tipo='histograma')

In [None]:
df_treino['qtd_treinamentos'].value_counts(normalize=True)*100

In [None]:
df_treino[(df_treino["qtd_treinamentos"]==1) | (df_treino["qtd_treinamentos"]==2)]['promovido'].value_counts()

In [None]:
# promovidos para qtd_treinamentos = 1 ou 2
prom_qtd_treinamento = df_treino[((df_treino["qtd_treinamentos"] == 1) | (df_treino["qtd_treinamentos"] == 2)) & 
          (df_treino["promovido"] == 1)]['matricula'].count()
total_promovidos = df_treino[df_treino["promovido"]==1]['matricula'].count()
result = (prom_qtd_treinamento/total_promovidos)*100
print(np.round(result, 2))

**No caso da vari√°vel de nota m√©dia de treinamento, criarei faixas para facilitar a visualiza√ß√£o e interpreta√ß√£o dos dados**

- Faixas: come√ßando a partir de 30 e intervalando a cada 10 pontos

In [None]:
# Faixas de notas m√©dias (com intervalo de 10 pontos)
bins = range(30, 101,10)
labels = [f"{b}-{b+9}" for b in bins[:-1]]
df_treino['faixa_treinamento'] = pd.cut(df_treino['media_treinamento'], bins=bins, labels=labels, right=False)

# Garantir que promovido seja num√©rico
df_treino['promovido'] = df_treino['promovido'].astype(int)

# Calcular taxa de promo√ß√£o por faixa
taxa_promocao = df_treino.groupby('faixa_treinamento', observed=True)['promovido'].mean() * 100
contagem = df_treino.groupby('faixa_treinamento', observed=True)['promovido'].count()

# Plotar
fig, ax1 = plt.subplots(figsize=(12, 6))

# Barras: taxa de promo√ß√£o
ax1.bar(taxa_promocao.index, taxa_promocao, color='skyblue', alpha=0.8)
ax1.set_ylabel('Funcion√°rios Promovidos %', fontsize=14)
ax1.set_xlabel('Faixas das Notas M√©dias de Treinamento', fontsize=14)
ax1.set_title('Taxa de Promovidos por Notas M√©dias de Treinamento', fontsize=16)
ax1.set_ylim(0, 100)

# Adicionar r√≥tulos
for i, val in enumerate(taxa_promocao):
    ax1.text(i, val + 1, f"{val:.1f}%", ha='center', fontsize=10)

plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

**Anota√ß√µes sobre as an√°lises gr√°ficas dos dados num√©ricos**
- Em rela√ß√£o ao n√∫mero de treinamentos (t√©cnicos ou comportamentais), a grande maioria possu√≠ apenas a realiza√ß√£o de 1 treinamento (81% aproximadamente), com 96% tendo realizado at√© 2 treinamentos no ano anterior. Quanto aos promovidos, para quem realizou 1 treinamento, aproximadamente 9,7% receberam promo√ß√£o no √∫ltimo ano e cerca de 8,2% dos que realizaram 2 treinamentos, foram promovidos. Quando olhamos apenas para esses dois grupos 9,43% foram promovidos e para o total geral representam quase 97% dos promovidos. Assim sendo, aparentam que ter muitos cursos, para este caso, n√£o resultam em promo√ß√µes.
- No caso da avalia√ß√£o anterior, temos 339 colaboradores que tiveram nota = 0 no ano anterior e foram promovidos, me parece que essa atribui√ß√£o n√£o seria o resultado em si, mas o fato de n√£o ter avalia√ß√£o registrada. Podemos ver que a performance dos promovidos √© crescente, conforme o aumento das notas no ano anterior, melhor representado na tabela e gr√°fico, abaixo:

![image.png](attachment:c1ef4e5f-2fdb-47a5-ac5f-15373687ec4c.png)

![image.png](attachment:4996d303-6511-4a8e-b8f2-78acc137fb50.png)

- Quanto ao gr√°fico que analisa a taxa de propor√ß√£o por nota m√©dia de treinamento, podemos identificar que h√° um aproveitamento extremamente superior para os funcion√°rios que atingem a meta superior aos 90 pontos de nota. As demais faixas, apresentam valores em um intervalo pr√≥ximo de aproveitamento, variando entre 3,9% para a menor pontua√ß√£o do intervalo (40 a 49) e 11,7% de aproveitamento para a maior pontua√ß√£o do intervalo (80 a 89), excluindo, obviamente, a faixa de pontua√ß√£o m√°xima (90 a 99).

#### An√°lise das vari√°veis categ√≥ricas

In [None]:
# Distribui√ß√£o das vari√°veis categ√≥ricas, considerando a distribui√ß√£o PROMOVIDOS

cat_cols = df_treino.select_dtypes(include=['category']).columns.drop('regiao')
for col in cat_cols:
    grafico_movimentacao_promovidos(df_treino, col, tipo='barras_agrupadas')

In [None]:
grafico_movimentacao_promovidos(df_treino, 'genero', tipo='taxa_promocao')

In [None]:
df_kpis_premios = df_treino.query('kpis_atingidos == 1 & premios == 1')
print(df_kpis_premios.shape[0])

In [None]:
df_kpis_premios['promovido'].value_counts()

**Anota√ß√µes sobre as an√°lises gr√°ficas das vari√°veis categ√≥ricas**

- Quando analisamos a Taxa de Convers√£o dos Departamentos, ou seja, o percentual de aproveitamento dos departamentos, temos uma taxa de convers√£o m√©dia (aproximada) de 8,73% de promo√ß√£o, assim sendo, 5 departamentos ficaram acima desta m√©dia: Analytics, Finance, Operations, Procurement e Technology, conforme gr√°fico abaixo:

![image.png](attachment:aef00b40-8ea4-4887-b681-463f480e2c23.png)

- Em rela√ß√£o ao n√≠vel de escolaridade, as correspond√™ncias s√£o:  	
| Nome da Vari√°vel       | Significado                                                                                           |
|------------------------|-------------------------------------------------------------------------------------------------------|
| **Below Secondary**          | Abaixo do Ensino M√©dio                                                  |
| **Bachelor's**          | Ensino Superior ‚Äì Gradua√ß√£o                                                  |
| **Master's & Above**          | P√≥s-gradua√ß√£o (Mestrado, Doutorado)                                    |
| **No_Education**          | Sem Escolaridade                                                           |
- Assim sendo, o gr√°fico abaixo demonstra a Taxa de Convers√£o por **Escolaridade**, mostrando tamb√©m uma distribui√ß√£o bastante semelhante entre os tr√™s principais n√≠veis, com uma queda mais contundente para os que n√£o possuem nenhum grau de escolaridade
- O percentual por **g√™nero** demonstra uma distribui√ß√£o geral de aproximadamente 70 a 30%, com predomin√¢ncia do g√™nero masculino. No entanto, na avalia√ß√£o dos promovidos, o g√™nero feminino tem uma leve predomin√¢ncia com taxa de convers√£o igual a 9%, enquanto o masculino com 8,3%. Assim, se considerarmos a propor√ß√£o individual, o g√™nero feminino possu√≠ uma taxa maior em convers√£o.
- Em rela√ß√£o as vari√°veis de desempenho como **kpis_atingidos** (que aponta que o colaborado no ano anterior, alcan√ßou pelo menos 80% dos kpi's voltados aos indicadores de perfomance) e **premios** (que aponta se o colaborador recebeu alguma premia√ß√£o no ano anterior), vemos que h√° uma taxa de convers√£o superior para os funcion√°rios que possuem esses indicadores, sendo aproximadamente 20% para kpis_atingidos e 78% para aqueles que receberam premia√ß√£o. Quando juntamos os funcion√°rios que possuem kpis atingidos e premia√ß√£o, essa taxa fica em aproximadamente 63% de taxa de promo√ß√£o.

#### An√°lise de Correla√ß√£o

In [None]:
# Correla√ß√£o num√©rica com o target
num_cols = df_treino.select_dtypes(include=['int64', 'float64']).columns.drop(['promovido', 'matricula'])
corr = df_treino[num_cols].corrwith(df_treino['promovido'])
print(corr.sort_values(ascending=False))

In [None]:
num_cols = df_treino.select_dtypes(include=['int64', 'float64']).columns
correlacao = df_treino[num_cols].corr()

# Depois disso, crio um heatmap da correla√ß√£o, que seria a plotagem dessa matriz
plt.figure(figsize=(12, 8))
sns.heatmap(correlacao, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Correla√ß√£o entre vari√°veis")
plt.show()

In [None]:
# Correla√ß√£o apenas com a target

corr_df = corr.to_frame(name='Correla√ß√£o com promovido')
plt.figure(figsize=(8, len(corr_df) * 0.5))
sns.heatmap(corr_df.sort_values(by='Correla√ß√£o com promovido', ascending=False), 
            annot=True, cmap='coolwarm', center=0)
plt.title('Correla√ß√£o entre vari√°veis num√©ricas e o target (promovido)')
plt.show()

Para an√°lise que investiga a correla√ß√£o estat√≠stica entre as vari√°veis, nenhuma correla√ß√£o √† n√≠vel negocial que possa impactar em car√°ter preditivo. H√° uma correla√ß√£o natual existente entre **"idade"** e **"tempo_empresa"**, que no entanto, n√£o agrega valor ao neg√≥cio, para o que estamos querendo prever/analisar.

#### An√°lise - Teste de Associa√ß√£o (qui-quadrado)

In [None]:
from sklearn.feature_selection import chi2
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Seleciona colunas categ√≥ricas
cat_cols = df_treino.select_dtypes(include=['object', 'category']).columns

# Codifica as vari√°veis categ√≥ricas
df_cat = df_treino[cat_cols].copy()
for col in df_cat.columns:
    df_cat[col] = LabelEncoder().fit_transform(df_cat[col].astype(str))

# Aplica o teste qui-quadrado
chi_scores, p_values = chi2(df_cat, df_treino['promovido'])

# Cria DataFrame com os resultados
chi2_df = pd.DataFrame({
    'Variavel': df_cat.columns,
    'Qui-Quadrado': chi_scores,
    'p-valor': p_values
}).sort_values(by='Qui-Quadrado', ascending=False)

print(chi2_df)

# Gr√°fico (barra)
plt.figure(figsize=(10, 6))
ax = sns.barplot(x='Qui-Quadrado', y='Variavel', data=chi2_df)
# Colocar valores das barras dentro delas
for p in ax.patches:
    width = p.get_width()
    y = p.get_y() + p.get_height() / 2
    ax.text(width + 0.5, y, f'{width:.1f}', va='center')
plt.title('Import√¢ncia das vari√°veis categ√≥ricas pelo teste Qui-Quadrado')
plt.xlabel('Coeficiente (Estat√≠stica Qui-Quadrado)')
plt.ylabel('')
plt.tight_layout()
plt.show()

Em rela√ß√£o ao teste de associa√ß√£o, conforme j√° hav√≠amos registrado anteriormente, vari√°veis como **premios**, **kpis_atingidos** demonstraram uma alta associa√ß√£o com o target. Assim, podemos concluir que funcion√°rios que receberam pr√™mios e tiveram atingimento de pelo menos 80% dos kpi's de indicadores de performance, apresentam maior propor√ß√£o de promo√ß√£o em compara√ß√£o aos que n√£o receberam


Lembrando que a vari√°vel de **faixa de treinamento** foi criada apenas para demonstrar intervalos de notas m√©dias que os colaboradores alcan√ßaram, na qual identificamos que quanto maior a faixa, maior a convers√£o da promo√ß√£o, por isso apresenta um coeficiente alto de associa√ß√£o qui-quadrado