In [None]:
# Imports
import pandas as pd
import numpy as np

# Carregar dataset
df = pd.read_csv('sample_data/WA_Fn-UseC_-HR-Employee-Attrition.csv')

# Converter Attrition para binário
df['Attrition'] = df['Attrition'].map({'Yes': 1, 'No': 0})


In [None]:
df['IncomePerYearWorked'] = df['MonthlyIncome'] / (df['TotalWorkingYears'] + 1)

Motivação: Um salário desproporcional à experiência pode indicar insatisfação salarial

In [None]:
df['TimeInCompanyRatio'] = df['YearsAtCompany'] / (df['TotalWorkingYears'] + 1)

Motivação: Funcionários mais novos na empresa podem estar em período de adaptação.

In [None]:
df['RecentPromotion'] = df['YearsSinceLastPromotion'] <= 1

Motivção: Uma pessoa recém promovida pode ter menos risco de saída

In [None]:
df['SatisfactionLevelAvg'] = df[['JobSatisfaction', 'EnvironmentSatisfaction', 'RelationshipSatisfaction']].mean(axis=1)

Motivação: Ter o valor médio de satisfação ajuda na visão geral

In [None]:
df['TravelFrequently'] = df['BusinessTravel'].isin(['Travel_Frequently']).astype(int)

Motivação: Pessoas que viajam mais, podem ter maior indice de saída devido a cansaço


In [None]:
df['LowIncome'] = df['MonthlyIncome'] < df['MonthlyIncome'].median()

Motivação: Pessoas com menores salários são mais propensos a procurar melhores oportunidades

In [None]:
df['HighWorkload'] = (df['OverTime'] == 'Yes') & (df['NumCompaniesWorked'] > 3)

Motivação: Pessoas que trabalham muito e já tiverem uma rotatividade de empresas, pode ser indicador para possivel saída

In [None]:
df['LongDistance'] = df['DistanceFromHome'] > df['DistanceFromHome'].median()


Motivação: Pessoas que vivem longe podem procurar oportunidades mais próximas

In [None]:
df['YearsInRolePercent'] = df['YearsInCurrentRole'] / (df['YearsAtCompany'] + 1)


Motivação: Uma pessoa que fica muito tempo no mesmo cargo pode se desmotivar e procurar outra oportunidade

In [None]:
df['JobSatisfaction_bin'] = df['JobSatisfaction'].apply(lambda x: 1 if x >= 3 else 0)


Motivação: Categorização simples para regressão logística e KNN

In [None]:
df['StressScore'] = (
    (df['OverTime'] == 'Yes').astype(int) +
    (df['DistanceFromHome'] > 20).astype(int) +
    (df['JobInvolvement'] <= 2).astype(int)
)


Motivação: A junção dessas variáveis pode indicar fator de estresse, ou seja, maior propensão de saída

In [None]:
# One-hot encoding das variáveis categóricas
df = pd.get_dummies(df, columns=['BusinessTravel', 'Department', 'EducationField', 'Gender', 'JobRole', 'MaritalStatus', 'OverTime'], drop_first=True)

In [None]:
# Retirando variaveis obsoletas
df.drop(columns=[
    'EmployeeNumber', 'EmployeeCount', 'Over18', 'StandardHours'
], axis=1, inplace=True)

In [None]:
# Salvar dataset final
df.to_csv('dataset_feature_engineered.csv', index=False)
