### Preparativos do Dataset (remoção de colunas sem variação de valores e categorizando as colunas ordenadas e não ordenadas)

In [1]:
import pandas as pd

BASE = "../datasets/HR-Employee-Attrition.csv"

df = pd.read_csv(BASE)


# Limpando a base de colunas com valores não variam e removendo a
# coluna de identificação (EmployeeNumber)

df = df.drop("EmployeeNumber", axis=1)

for c in df.columns:
    column = df[c]
    if (column.nunique() <= 1):
        print(f"Removendo coluna {c}") 
        df = df.drop(c, axis=1)


# Separando nossas colunas por variáveis categóricas ordenadas e 
# não ordernadas


# Colunas que são categóricas e não ordenadas
columns_categorical_not_ordered = [
    'BusinessTravel',
    'Department',
    'EducationField',
    'Gender',
    'JobRole',
    'MaritalStatus',
    'OverTime'
]

# Colunas que são categóricas e ordernadas
columns_categorical_ordered = [
    'Education',
    'EnvironmentSatisfaction',
    'JobSatisfaction',
    'JobInvolvement',
    'JobLevel',
    'PerformanceRating',
    'RelationshipSatisfaction',
    'StockOptionLevel',
    'WorkLifeBalance',
    'JobInvolvement'
]

target_column = ['Attrition']


numeric_columns = [
    column
    for column in df.columns
    if column not in (columns_categorical_ordered + columns_categorical_not_ordered + target_column)
]


# Convertendo nossas colunas não ordernadas para o tipo category

for column in columns_categorical_not_ordered:
    df[column] = df[column].astype("category")

Removendo coluna EmployeeCount
Removendo coluna Over18
Removendo coluna StandardHours


### Análise coluna MonthlyIncome e outras columas com o crosstab 

Podemos utilizar mais de duas colunas com o crosstab, basta passarmos uma lista como argumento, no exemplo abaixo vamos ver a relação de "Attrition" com "JobRole" + "JobLevel":

In [7]:
pd.crosstab(
    [ df["JobRole"], df["JobLevel"] ], # Uma lista de colunas
    df["Attrition"],
    normalize="index"
)

Unnamed: 0_level_0,Attrition,No,Yes
JobRole,JobLevel,Unnamed: 2_level_1,Unnamed: 3_level_1
Healthcare Representative,2,0.961538,0.038462
Healthcare Representative,3,0.886364,0.113636
Healthcare Representative,4,0.888889,0.111111
Human Resources,1,0.69697,0.30303
Human Resources,2,1.0,0.0
Human Resources,3,0.666667,0.333333
Laboratory Technician,1,0.72,0.28
Laboratory Technician,2,0.910714,0.089286
Laboratory Technician,3,0.666667,0.333333
Manager,3,0.833333,0.166667


### Utilizando o style com vmin e vmax

Para visualizar a tabela acima de uma maneira mais autoexplicativa sabemos que podemos utilizar a propriedade style com o mapa de calor do matplotlib, mas somado a isso existem os argumentos `vmin` e `vmax` que ao enviarmos para a função .background_gradient vão deixar a entonação das cores mais variadas, destacando assim dados extremos:

In [10]:
pd.crosstab(
    [ df["JobRole"], df["JobLevel"] ], # Uma lista de colunas
    df["Attrition"],
    normalize="index"
).style.background_gradient(cmap="RdYlGn", axis="columns", vmin=0, vmax=1)

Unnamed: 0_level_0,Attrition,No,Yes
JobRole,JobLevel,Unnamed: 2_level_1,Unnamed: 3_level_1
Healthcare Representative,2,0.961538,0.038462
Healthcare Representative,3,0.886364,0.113636
Healthcare Representative,4,0.888889,0.111111
Human Resources,1,0.69697,0.30303
Human Resources,2,1.0,0.0
Human Resources,3,0.666667,0.333333
Laboratory Technician,1,0.72,0.28
Laboratory Technician,2,0.910714,0.089286
Laboratory Technician,3,0.666667,0.333333
Manager,3,0.833333,0.166667
