### Preparativos do Dataset (remoção de colunas sem variação de valores e categorizando as colunas ordenadas e não ordenadas)

In [1]:
import pandas as pd

BASE = "../datasets/HR-Employee-Attrition.csv"

df = pd.read_csv(BASE)


# Limpando a base de colunas com valores não variam e removendo a
# coluna de identificação (EmployeeNumber)

df = df.drop("EmployeeNumber", axis=1)

for c in df.columns:
    column = df[c]
    if (column.nunique() <= 1):
        print(f"Removendo coluna {c}") 
        df = df.drop(c, axis=1)


# Separando nossas colunas por variáveis categóricas ordenadas e 
# não ordernadas


# Colunas que são categóricas e não ordenadas
columns_categorical_not_ordered = [
    'BusinessTravel',
    'Department',
    'EducationField',
    'Gender',
    'JobRole',
    'MaritalStatus',
    'OverTime'
]

# Colunas que são categóricas e ordernadas
columns_categorical_ordered = [
    'Education',
    'EnvironmentSatisfaction',
    'JobSatisfaction',
    'JobInvolvement',
    'JobLevel',
    'PerformanceRating',
    'RelationshipSatisfaction',
    'StockOptionLevel',
    'WorkLifeBalance',
    'JobInvolvement'
]

target_column = ['Attrition']


numeric_columns = [
    column
    for column in df.columns
    if column not in (columns_categorical_ordered + columns_categorical_not_ordered + target_column)
]


# Convertendo nossas colunas não ordernadas para o tipo category

for column in columns_categorical_not_ordered:
    df[column] = df[column].astype("category")

Removendo coluna EmployeeCount
Removendo coluna Over18
Removendo coluna StandardHours


### Análise coluna MonthlyIncome x Attrition 

In [4]:
df.pivot_table(
    index=["JobRole", "JobLevel"],
    columns="Attrition",
    values="MonthlyIncome"
).style.background_gradient(cmap="RdYlGn", axis="columns")

Unnamed: 0_level_0,Attrition,No,Yes
JobRole,JobLevel,Unnamed: 2_level_1,Unnamed: 3_level_1
Healthcare Representative,2,5828.28,6792.0
Healthcare Representative,3,9426.282051,8877.8
Healthcare Representative,4,13073.5,12169.0
Human Resources,1,2871.26087,2415.7
Human Resources,2,5563.461538,
Human Resources,3,9326.5,10216.0
Laboratory Technician,1,2921.708333,2682.0
Laboratory Technician,2,4394.0,5084.2
Laboratory Technician,3,6306.5,5381.0
Manager,3,12133.7,12729.5


A tabela acima faz com que criemos algumas conclusões, mas é essencial que analisemos com mais atenção.

Existe alguns casos onde a média salarial de funcionários que saíram da empresa era maior do que a de funcionários que permaneceram, alguns exemplos de onde isso acontece:

    - "Healthcare Representative" - nível 2
    - "Human Resources" - nível 3
    - Todos os níveis de "Sales Executive"

Mas se observarmos a quantidade de registros que são utilizados par o calculo da média vamos ver que algums conclusões precisam no minimo serem reavaliadas. Para isso vamos utilizar junto a média o total de registros por de trás dela:

In [5]:
df.pivot_table(
    index=["JobRole", "JobLevel"],
    columns="Attrition",
    values="MonthlyIncome",
    aggfunc=["mean", "size"]
)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,size,size
Unnamed: 0_level_1,Attrition,No,Yes,No,Yes
JobRole,JobLevel,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Healthcare Representative,2,5828.28,6792.0,75,3
Healthcare Representative,3,9426.282051,8877.8,39,5
Healthcare Representative,4,13073.5,12169.0,8,1
Human Resources,1,2871.26087,2415.7,23,10
Human Resources,2,5563.461538,,13,0
Human Resources,3,9326.5,10216.0,4,2
Laboratory Technician,1,2921.708333,2682.0,144,56
Laboratory Technician,2,4394.0,5084.2,51,5
Laboratory Technician,3,6306.5,5381.0,2,1
Manager,3,12133.7,12729.5,10,2


Temos agora a coluna "size" que mostra o total de registros calculados para chegar na média, e podemos ver que para: 

  - "Healthcare Representative" nível 2 - Onde a média salarial dos funcionários que saíram é maior do que a dos funcionários remanescentes, apenas 3 registros foram contabilizados para calcular a média de quem não faz mais parte da empresa, enquanto 75 registros foram contabilizados para verificarmos a média de quem ficou, ou seja, estamos comparando a média de 3 funcionários com a de 75.


Em resumo chegar em determinadas conclusões no processo de análise de dados exige não visualizarmos apenas os valores, mas o contexto por de trás deles.