### Preparativos do Dataset (remoção de colunas sem variação de valores e categorizando as colunas ordenadas e não ordenadas)

In [1]:
import pandas as pd

BASE = "../datasets/HR-Employee-Attrition.csv"

df = pd.read_csv(BASE)


# Limpando a base de colunas com valores não variam e removendo a
# coluna de identificação (EmployeeNumber)

df = df.drop("EmployeeNumber", axis=1)

for c in df.columns:
    column = df[c]
    if (column.nunique() <= 1):
        print(f"Removendo coluna {c}") 
        df = df.drop(c, axis=1)


# Separando nossas colunas por variáveis categóricas ordenadas e 
# não ordernadas


# Colunas que são categóricas e não ordenadas
columns_categorical_not_ordered = [
    'BusinessTravel',
    'Department',
    'EducationField',
    'Gender',
    'JobRole',
    'MaritalStatus',
    'OverTime'
]

# Colunas que são categóricas e ordernadas
columns_categorical_ordered = [
    'Education',
    'EnvironmentSatisfaction',
    'JobSatisfaction',
    'JobInvolvement',
    'JobLevel',
    'PerformanceRating',
    'RelationshipSatisfaction',
    'StockOptionLevel',
    'WorkLifeBalance',
    'JobInvolvement'
]

target_column = ['Attrition']


numeric_columns = [
    column
    for column in df.columns
    if column not in (columns_categorical_ordered + columns_categorical_not_ordered + target_column)
]


# Convertendo nossas colunas não ordernadas para o tipo category
### Preparativos do Dataset (remoção de colunas sem variação de valores e categorizando as colunas ordenadas e não ordenadas)
for column in columns_categorical_not_ordered:
    df[column] = df[column].astype("category")

Removendo coluna EmployeeCount
Removendo coluna Over18
Removendo coluna StandardHours


### Mapenando colunas com uma descrição ao invés de seu valor categórico

In [12]:
df.groupby("Education", observed=True)["MonthlyIncome"].mean()

Education
1    5640.570588
2    6226.645390
3    6517.263986
4    6832.402010
5    8277.645833
Name: MonthlyIncome, dtype: float64

A coluna "Education" é categórica e é comum que valores categóricos sejam representados por números que por sua vez representamo outros valores.

Na documentação deste Dataset (em https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset) a coluna "Education" é descrita da seguinte forma: 

    Education
    1 'Below College'
    2 'College'
    3 'Bachelor'
    4 'Master'
    5 'Doctor'


Podemos mepear os valores acima da seguinte forma: 

In [24]:
# dicionário que vai conter os valores e ter como chave o valor categórico:

education_map = {
    1: 'Below College',
    2: 'College',
    3: 'Bachelor',
    4: 'Master',
    5: 'Doctor'
}


mean_by_education_level = df.groupby("Education", observed=True)["MonthlyIncome"].mean()                        
mean_by_education_level.rename(index=education_map)


# o método rename renomeia os valores do indice de acordo com um dicionário

Education
Below College    5640.570588
College          6226.645390
Bachelor         6517.263986
Master           6832.402010
Doctor           8277.645833
Name: MonthlyIncome, dtype: float64

### Utilizando o .rename com o .crosstab

In [31]:
pd.crosstab(
    df["Education"],          # Significa que desejo obter a relação entre "Attrition" e "Education"
    df["Attrition"],          # Significa que desejo obter a relação entre "Attrition" e "Education"
    margins=True,             # Desejo obter a soma dos valore s
    margins_name="Total",     # Por default a coluna "margins" chamse "all", este argumento a renomeia
).rename(index=education_map) # Renomeando os indexes retornados pelo crosstab

Attrition,No,Yes,Total
Education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Below College,139,31,170
College,238,44,282
Bachelor,473,99,572
Master,340,58,398
Doctor,43,5,48
Total,1233,237,1470


### Ou...

In [32]:
pd.crosstab(
    df["Education"],          # Significa que desejo obter a relação entre "Attrition" e "Education"
    df["Attrition"],          # Significa que desejo obter a relação entre "Attrition" e "Education"
    normalize="index"         # Desejo obter o percentual por indice
).rename(index=education_map) # Renomeando os indexes retornados pelo crosstab

Attrition,No,Yes
Education,Unnamed: 1_level_1,Unnamed: 2_level_1
Below College,0.817647,0.182353
College,0.843972,0.156028
Bachelor,0.826923,0.173077
Master,0.854271,0.145729
Doctor,0.895833,0.104167
