## <font color='yellow'>**IBM HR Analytics Employee Attrition & Performance**</font>

Data source: https://www.kaggle.com/datasets/pavansubhasht/ibm-hr-analytics-attrition-dataset/data

#### Dicionário de dados

|Index| Name                       | Description
|----:|:---------------------------|:--------------------------------
|  0  | Age                        | Numerical Value
|  1  | Attrition                  | Text            - Employee leaving the company - No, Yes
|  2  | BusinessTravel             | Text            - Non-Travel, Travel_Frequently, Travel_Rarely
|  3  | DailyRate                  | Numerical Value - Salary Level
|  4  | Department                 | Text            - Sales, Research & Development, Human Resources
|  5  | DistanceFromHome           | Numerical Value - The distance from work to home in miles 
|  6  | Education                  | Numerical Value - 1=Below college, 2=College, 3=Bachelor, 4=Master, 5=PhD
|  7  | EducationField             | Text            - Life Sciences, Medical, Marketing, Techincal Degree, Human Resources, Other
|  8  | EmployeeCount              | Numerical Value - 1
|  9  | EmployeeNumber             | Numerical Value - Employee ID
| 10  | EnvironmentSatisfaction    | Numerical Value - 1=Low, 2=Medium, 3=High, 4=Very High
| 11  | Gender                     | Text            - Female, Male
| 12  | HourlyRate                 | Numerical Value - Hourly Salary
| 13  | JobInvolvement             | Numerical Value - 1=Low, 2=Medium, 3=High, 4=Very High
| 14  | JobLevel                   | Numerical Value - Means different job levels - 1, 2, 3, 4, 5 
| 15  | JobRole                    | Text            - Sales Executive, Research Scientist, Laboratory Technician, Manufacturing Director, Healthcare Representative, Manager, Sales Representative, Research Director, Human Resources
| 16  | JobSatisfaction            | Numerical Value - 1=Low, 2=Medium, 3=High, 4=Very High
| 17  | MaritalStatus              | Text            - Single, Married, Divorced
| 18  | MonthlyIncome              | Numerical Value - Monthly Salary
| 19  | MonthlyRate                | Numerical Value - Monthly Rate
| 20  | NumCompaniesWorked         | Numerical Value - Number of companies worked at
| 21  | Over18                     | Text            - Y
| 22  | Overtime                   | Text            - No, Yes
| 23  | PercentSalaryHike          | Numerical Value - Percentage increase in salary
| 24  | PerformanceRating          | Numerical Value - 1=Low, 2=Good, 3=Excellent, 4=Outstanding
| 25  | RelationshipSatisfaction   | Numerical Value - 1=Low, 2=Medium, 3=High, 4=Very High
| 26  | StandardHours              | Numerical Value - 80
| 27  | StockOptionsLevel          | Numerical Value - 0, 1, 2, 3
| 28  | TotalWorkingYears          | Numerical Value - Total years worked
| 29  | TrainingTimesLastYear      | Numerical Value - How many times the employee has been trained last year
| 30  | WorkLifeBalance            | Numerical Value - 1=Bad, 2=Good, 3=Better, 4=Best
| 31  | YearsAtCompany             | Numerical Value - Number of years at the company
| 32  | YearsInCurrentRole         | Numerical Value - Number of years in current role
| 33  | YearsSinceLastPromotion    | Numerical Value - Years since last promotion
| 34  | YearsWithCurrManager       | Numerical Value - Years with current manager

### <font color='yellow'>**Importação, configuração inicial e visualização do dataset**</font>

In [1]:
# Importando a biblioteca pandas
import pandas as pd

# Configuração do pandas para exibir todas as colunas e linhas e 
# limitar a exibição de números flutuantes a 2 casas decimais
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Importação e visualização do dataset
DADOS = 'WA_Fn-UseC_-HR-Employee-Attrition.csv'
df = pd.read_csv(DADOS)

df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NumCompaniesWorked,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,2,Female,94,3,2,Sales Executive,4,Single,5993,19479,8,Y,Yes,11,3,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,3,Male,61,2,2,Research Scientist,2,Married,5130,24907,1,Y,No,23,4,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,4,Male,92,2,1,Laboratory Technician,3,Single,2090,2396,6,Y,Yes,15,3,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,4,Female,56,3,1,Research Scientist,3,Married,2909,23159,1,Y,Yes,11,3,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,1,Male,40,3,1,Laboratory Technician,2,Married,3468,16632,9,Y,No,12,3,4,80,1,6,3,3,2,2,2,2


## <font color='yellow'>**Análise exploratória**</font>

### <font color='yellow'>**Tratamento inicial dos dados**</font>


Análise inicial do dataset:
- Verificação do tamanho do dataset
- Verificação de valores nulos
- Verificação de duplicatas
- Contagem de valores únicos por coluna

In [2]:
print(f"Total de linhas no dataset: {len(df)}")
print(f"Total de valores nulos: {df.isnull().sum().sum()}")
print(f"Total de linhas duplicadas: {df.duplicated().sum()}")
print("\nValores únicos em cada coluna:")
df.nunique().sort_values(ascending=False).to_frame().style.hide(axis='columns')

Total de linhas no dataset: 1470
Total de valores nulos: 0
Total de linhas duplicadas: 0

Valores únicos em cada coluna:


0,1
EmployeeNumber,1470
MonthlyRate,1427
MonthlyIncome,1349
DailyRate,886
HourlyRate,71
Age,43
TotalWorkingYears,40
YearsAtCompany,37
DistanceFromHome,29
YearsInCurrentRole,19


#### <font color='yellow'>**Exploração dos dados numéricos**</font>

In [3]:
df.describe()

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,JobSatisfaction,MonthlyIncome,MonthlyRate,NumCompaniesWorked,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92,802.49,9.19,2.91,1.0,1024.87,2.72,65.89,2.73,2.06,2.73,6502.93,14313.1,2.69,15.21,3.15,2.71,80.0,0.79,11.28,2.8,2.76,7.01,4.23,2.19,4.12
std,9.14,403.51,8.11,1.02,0.0,602.02,1.09,20.33,0.71,1.11,1.1,4707.96,7117.79,2.5,3.66,0.36,1.08,0.0,0.85,7.78,1.29,0.71,6.13,3.62,3.22,3.57
min,18.0,102.0,1.0,1.0,1.0,1.0,1.0,30.0,1.0,1.0,1.0,1009.0,2094.0,0.0,11.0,3.0,1.0,80.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,2.0,1.0,491.25,2.0,48.0,2.0,1.0,2.0,2911.0,8047.0,1.0,12.0,3.0,2.0,80.0,0.0,6.0,2.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,3.0,1.0,1020.5,3.0,66.0,3.0,2.0,3.0,4919.0,14235.5,2.0,14.0,3.0,3.0,80.0,1.0,10.0,3.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,4.0,1.0,1555.75,4.0,83.75,3.0,3.0,4.0,8379.0,20461.5,4.0,18.0,3.0,4.0,80.0,1.0,15.0,3.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,5.0,1.0,2068.0,4.0,100.0,4.0,5.0,4.0,19999.0,26999.0,9.0,25.0,4.0,4.0,80.0,3.0,40.0,6.0,4.0,40.0,18.0,15.0,17.0


Remoção de colunas que não são relevantes para a análise

Justificativa:
- EmployeeCount: Contém apenas o valor 1 para todos os funcionários, não agregando informação
- EmployeeNumber: Número de identificação único que não contribui para a análise
- StandardHours: Todos os funcionários têm o mesmo valor (80), não tendo variabilidade para análise

In [4]:
df.drop(columns=['EmployeeCount', 'EmployeeNumber', 'StandardHours'], inplace=True)

#### <font color='yellow'>**Exploração dos dados não numéricos**</font>

In [5]:
df.describe(exclude='number')

Unnamed: 0,Attrition,BusinessTravel,Department,EducationField,Gender,JobRole,MaritalStatus,Over18,OverTime
count,1470,1470,1470,1470,1470,1470,1470,1470,1470
unique,2,3,3,6,2,9,3,1,2
top,No,Travel_Rarely,Research & Development,Life Sciences,Male,Sales Executive,Married,Y,No
freq,1233,1043,961,606,882,326,673,1470,1054


Remoção de colunas que não são relevantes para a análise

Justificativa:
- Over18: Todos os funcionários têm o valor 'Y', indicando que são maiores de 18 anos.
Esta coluna não agrega nenhuma informação relevante para a análise.


In [6]:
df.drop(columns=['Over18'], inplace=True)

#### <font color='yellow'>**Organização das variáveis**</font>

A organização das variáveis em diferentes categorias (nominais, ordinais e quantitativas) é importante para:
1. Facilitar a análise exploratória dos dados
2. Aplicar tratamentos específicos para cada tipo de variável
3. Escolher as visualizações mais adequadas para cada categoria
4. Preparar corretamente os dados para modelagem


In [7]:
df.columns

Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField',
       'EnvironmentSatisfaction', 'Gender', 'HourlyRate', 'JobInvolvement',
       'JobLevel', 'JobRole', 'JobSatisfaction', 'MaritalStatus',
       'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'OverTime',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager'],
      dtype='object')

Separação das colunas em categorias

In [8]:
colunas_categoricas_nominais = [
    'BusinessTravel', 
    'Department', 
    'EducationField', 
    'Gender', 
    'JobRole', 
    'MaritalStatus',
    'OverTime'
    ]
colunas_categoricas_ordinais = [
    'Education',
    'EnvironmentSatisfaction',
    'JobInvolvement',
    'JobLevel', 
    'JobSatisfaction', 
    'PerformanceRating',
    'RelationshipSatisfaction',
    'StockOptionLevel',
    'WorkLifeBalance',
    ]
coluna_alvo = ['Attrition']
colunas_quantitativas = [
    coluna 
    for coluna in df.columns 
    if coluna not in (colunas_categoricas_nominais + colunas_categoricas_ordinais + coluna_alvo)
    ]


In [9]:
colunas_quantitativas

['Age',
 'DailyRate',
 'DistanceFromHome',
 'HourlyRate',
 'MonthlyIncome',
 'MonthlyRate',
 'NumCompaniesWorked',
 'PercentSalaryHike',
 'TotalWorkingYears',
 'TrainingTimesLastYear',
 'YearsAtCompany',
 'YearsInCurrentRole',
 'YearsSinceLastPromotion',
 'YearsWithCurrManager']

#### <font color='yellow'>**Otimização de Memória**</font>


Devido ao baixo volume de dados, a conversão de variáveis categóricas para o tipo category do pandas não é necessária. Porém, para fins didáticos, a conversão será realizada.

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 32 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Age                       1470 non-null   int64   
 1   Attrition                 1470 non-null   object  
 2   BusinessTravel            1470 non-null   category
 3   DailyRate                 1470 non-null   int64   
 4   Department                1470 non-null   category
 5   DistanceFromHome          1470 non-null   int64   
 6   Education                 1470 non-null   int64   
 7   EducationField            1470 non-null   category
 8   EnvironmentSatisfaction   1470 non-null   int64   
 9   Gender                    1470 non-null   category
 10  HourlyRate                1470 non-null   int64   
 11  JobInvolvement            1470 non-null   int64   
 12  JobLevel                  1470 non-null   int64   
 13  JobRole                   1470 non-null   catego

Conversão de variáveis categóricas para o tipo `category` do pandas para reduzir o uso de memória

In [11]:
# Tratamento das colunas categóricas nominais (não ordenadas)
for coluna in colunas_categoricas_nominais:
    df[coluna] = df[coluna].astype('category')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 31 columns):
 #   Column                    Non-Null Count  Dtype   
---  ------                    --------------  -----   
 0   Age                       1470 non-null   int64   
 1   Attrition                 1470 non-null   object  
 2   BusinessTravel            1470 non-null   category
 3   DailyRate                 1470 non-null   int64   
 4   Department                1470 non-null   category
 5   DistanceFromHome          1470 non-null   int64   
 6   Education                 1470 non-null   int64   
 7   EducationField            1470 non-null   category
 8   EnvironmentSatisfaction   1470 non-null   int64   
 9   Gender                    1470 non-null   category
 10  HourlyRate                1470 non-null   int64   
 11  JobInvolvement            1470 non-null   int64   
 12  JobLevel                  1470 non-null   int64   
 13  JobRole                   1470 non-null   catego

In [12]:
for coluna in df.select_dtypes(include=['category']):
    print(coluna)
    print(f'{coluna}.cat.categories: {df[coluna].cat.categories}')
    print(f'{coluna}.cat.ordered: {df[coluna].cat.ordered}')
    print(f'{coluna}.cat.codes: {df[coluna].cat.codes.unique()}')
    print()

BusinessTravel
BusinessTravel.cat.categories: Index(['Non-Travel', 'Travel_Frequently', 'Travel_Rarely'], dtype='object')
BusinessTravel.cat.ordered: False
BusinessTravel.cat.codes: [2 1 0]

Department
Department.cat.categories: Index(['Human Resources', 'Research & Development', 'Sales'], dtype='object')
Department.cat.ordered: False
Department.cat.codes: [2 1 0]

EducationField
EducationField.cat.categories: Index(['Human Resources', 'Life Sciences', 'Marketing', 'Medical', 'Other',
       'Technical Degree'],
      dtype='object')
EducationField.cat.ordered: False
EducationField.cat.codes: [1 4 3 2 5 0]

Gender
Gender.cat.categories: Index(['Female', 'Male'], dtype='object')
Gender.cat.ordered: False
Gender.cat.codes: [0 1]

JobRole
JobRole.cat.categories: Index(['Healthcare Representative', 'Human Resources', 'Laboratory Technician',
       'Manager', 'Manufacturing Director', 'Research Director',
       'Research Scientist', 'Sales Executive', 'Sales Representative'],
      dtype=

### <font color='yellow'>**Exploração dos dados**</font>

#### <font color='yellow'>**Contagem de outliers**</font>

Implementação de função para detectar outliers usando o método IQR (Intervalo Interquartil)

Fórmula para detecção de outliers usando o método IQR:

- $Q_1$ = primeiro quartil (25º percentil)
- $Q_3$ = terceiro quartil (75º percentil)
- $IQR = Q_3 - Q_1$ = intervalo interquartil
 
Limites para detecção de outliers:
- Limite inferior = $Q_1 - 1.5 \times IQR$
- Limite superior = $Q_3 + 1.5 \times IQR$
 
Valores abaixo do limite inferior ou acima do limite superior são considerados outliers.



In [13]:
def contar_outliers(df):
    """
    Conta o número de outliers em cada coluna numérica do DataFrame usando o método Intervalo Interquartil (IQR).
    
    Parâmetros:
    -----------
    df : pandas.DataFrame
        DataFrame contendo os dados a serem analisados
        
    Retorna:
    --------
    dict
        Dicionário com o nome das colunas numéricas como chaves e a quantidade 
        de outliers como valores
    """
    outliers_info = {}
    
    for coluna in df.select_dtypes(include=['number']).columns:
        Q1 = df[coluna].quantile(0.25)
        Q3 = df[coluna].quantile(0.75)
        IQR = Q3 - Q1 # Intervalo interquartil
        
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR
        
        outliers = df[(df[coluna] < limite_inferior) | (df[coluna] > limite_superior)]
        quantidade_outliers = outliers.shape[0]
        
        outliers_info[coluna] = quantidade_outliers
    
    # Ordena o dicionário pela quantidade de outliers (do maior para o menor)
    outliers_ordenados = dict(sorted(outliers_info.items(), key=lambda item: item[1], reverse=True))
    
    return outliers_ordenados

In [14]:
contar_outliers(df[colunas_quantitativas])

{'TrainingTimesLastYear': 238,
 'MonthlyIncome': 114,
 'YearsSinceLastPromotion': 107,
 'YearsAtCompany': 104,
 'TotalWorkingYears': 63,
 'NumCompaniesWorked': 52,
 'YearsInCurrentRole': 21,
 'YearsWithCurrManager': 14,
 'Age': 0,
 'DailyRate': 0,
 'DistanceFromHome': 0,
 'HourlyRate': 0,
 'MonthlyRate': 0,
 'PercentSalaryHike': 0}

#### <font color='yellow'>**Contextualização dos dados**</font>

##### <font color='yellow'>**1. Demografia e Características dos Funcionários**</font>


**Qual é a distribuição de idade dos funcionários?**

In [15]:
df['Faixa_Etaria'] = pd.cut(df['Age'], 
                          bins=[18, 24, 30, 36, 42, 48, 54, 60],
                          labels=['18-24', '25-30', '31-36', '37-42', 
                                 '43-48', '49-54', '55-60'])

df.groupby('Faixa_Etaria', observed=True).size().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")


Unnamed: 0_level_0,0
Faixa_Etaria,Unnamed: 1_level_1
18-24,89
25-30,289
31-36,412
37-42,293
43-48,182
49-54,128
55-60,69


Maior quantidade de funcionários na faixa etária de 31-36 anos e menor quantidade na faixa etária de 55-60 anos.


**Qual é a proporção de homens e mulheres na empresa?**

In [16]:
pd.crosstab(df['Gender'], columns='count', normalize=True).mul(100).style.background_gradient(cmap='RdYlGn', axis="index")

col_0,count
Gender,Unnamed: 1_level_1
Female,40.0
Male,60.0


60% dos funcionários são homens e 40% são mulheres.

**Qual é a distribuição dos funcionários por estado civil (solteiro, casado, divorciado)?**

In [17]:
pd.crosstab(df['MaritalStatus'], columns='count', normalize=True).mul(100).style.background_gradient(cmap='RdYlGn', axis="index")

col_0,count
MaritalStatus,Unnamed: 1_level_1
Divorced,22.244898
Married,45.782313
Single,31.972789


45,78% dos funcionários são casados, 31,97% são solteiros e 22,24% são divorciados.

**Qual é a distribuição dos funcionários por nível de educação?**

In [18]:
pd.crosstab(df['Education'], columns='count', normalize=True).mul(100).style.background_gradient(cmap='RdYlGn', axis="index")


col_0,count
Education,Unnamed: 1_level_1
1,11.564626
2,19.183673
3,38.911565
4,27.07483
5,3.265306


A maioria dos funcionários possui graduação (nível Bachelor) com 38,91%, seguido por mestrado (Master) com 27,07%. 19,18% possuem nível superior (nívelCollege), 11,56% não chegaram à faculdade (Below college) e apenas 3,27% possuem doutorado (PhD).

Obs.: Os colleges são direcionados para o mercado de trabalho, portanto, se o aluno se formar em um college, só poderá dar continuidade a um mestrado ou doutorado caso faça um Bachelor Degree.


**Análise da distribuição de funcionários por área de formação e gênero:**

In [19]:
df.groupby(['EducationField', 'Gender'], observed=True)['MonthlyIncome'].count().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,MonthlyIncome
EducationField,Gender,Unnamed: 2_level_1
Human Resources,Female,8
Human Resources,Male,19
Life Sciences,Female,240
Life Sciences,Male,366
Marketing,Female,69
Marketing,Male,90
Medical,Female,190
Medical,Male,274
Other,Female,29
Other,Male,53


Análise da distribuição de funcionários por área de formação e gênero:
 
- Human Resources: Total de 27 funcionários, sendo 8 mulheres (30%) e 19 homens (70%)
- Life Sciences: Maior grupo com 606 funcionários, sendo 240 mulheres (40%) e 366 homens (60%)
- Marketing: 159 funcionários, com 69 mulheres (43%) e 90 homens (57%)
- Medical: Segundo maior grupo com 464 funcionários, sendo 190 mulheres (41%) e 274 homens (59%)
- Other: 82 funcionários, com 29 mulheres (35%) e 53 homens (65%)
- Technical Degree: 132 funcionários, sendo 52 mulheres (39%) e 80 homens (61%)

Observa-se que em todas as áreas de formação há uma predominância do gênero masculino, com proporções variando entre 57% e 70%. As áreas de Marketing e Medical apresentam as distribuições mais equilibradas entre gêneros, enquanto Human Resources mostra a maior disparidade.


---

##### <font color='yellow'>**2. Departamentos e Cargos**</font>

**Quantos funcionários existem em cada departamento e cargo?**



In [20]:
df.groupby(['Department', 'JobRole'], observed=True)['MonthlyIncome'].count().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,MonthlyIncome
Department,JobRole,Unnamed: 2_level_1
Human Resources,Human Resources,52
Human Resources,Manager,11
Research & Development,Healthcare Representative,131
Research & Development,Laboratory Technician,259
Research & Development,Manager,54
Research & Development,Manufacturing Director,145
Research & Development,Research Director,80
Research & Development,Research Scientist,292
Sales,Manager,37
Sales,Sales Executive,326


Análise da distribuição de funcionários por departamento e cargo:

| Departamento           | Cargo                    | Número de Funcionários |
|-----------------------|--------------------------|----------------------|
| Human Resources       | Human Resources          | 52                  |
|                      | Manager                  | 11                  |
| Research & Development| Healthcare Representative| 131                 |
|                      | Laboratory Technician    | 259                 |
|                      | Manager                  | 54                  |
|                      | Manufacturing Director   | 145                 |
|                      | Research Director        | 80                  |
|                      | Research Scientist       | 292                 |
| Sales                | Manager                  | 37                  |
|                      | Sales Executive          | 326                 |
|                      | Sales Representative     | 83                  |

A empresa possui três departamentos principais:

- Human Resources: Com 63 funcionários no total, sendo 52 na área de RH e 11 gerentes
- Research & Development: O maior departamento com 961 funcionários distribuídos em 6 cargos diferentes, com destaque para Research Scientist (292) e Laboratory Technician (259)
- Sales: Com 446 funcionários no total, sendo a maioria Sales Executive (326), seguido por Sales Representative (83) e Managers (37)
 
O departamento de P&D (Research & Development) concentra a maior parte da força de trabalho, seguido por Vendas e RH. Isso sugere que a empresa tem um forte foco em inovação e desenvolvimento de produtos/serviços.


---

##### <font color='yellow'>**3. Satisfação e Engajamento**</font>

**Qual é a média de satisfação no ambiente de trabalho (EnvironmentSatisfaction)?**

In [21]:
df.groupby(['Department', 'JobRole'], observed=True)['EnvironmentSatisfaction'].mean().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,EnvironmentSatisfaction
Department,JobRole,Unnamed: 2_level_1
Human Resources,Human Resources,2.596154
Human Resources,Manager,3.090909
Research & Development,Healthcare Representative,2.770992
Research & Development,Laboratory Technician,2.718147
Research & Development,Manager,2.796296
Research & Development,Manufacturing Director,2.917241
Research & Development,Research Director,2.5
Research & Development,Research Scientist,2.726027
Sales,Manager,2.621622
Sales,Sales Executive,2.671779


Analisando a satisfação com o ambiente de trabalho por departamento e cargo:
 
- No departamento de RH:
  - Os gerentes apresentam alta satisfação (3.09)
  - O pessoal de RH tem satisfação média-alta (2.60)

- Em P&D (Research & Development):
  - Manufacturing Director tem o maior nível (2.92)
  - Research Director tem o menor nível (2.50)
  - Os demais cargos têm satisfação média-alta entre 2.70-2.80

- Em Vendas (Sales):
  - Todos os cargos apresentam níveis similares de satisfação média-alta (2.62-2.73)

Em geral, a satisfação está entre média e alta em todos os departamentos, com destaque positivo para os gerentes de RH. Nenhuma área apresenta níveis muito baixos ou muito altos de satisfação em média.


**Qual é a média de satisfação com o trabalho (JobSatisfaction)?**

In [22]:
df.groupby(['Department', 'JobRole'], observed=True)['JobSatisfaction'].mean().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,JobSatisfaction
Department,JobRole,Unnamed: 2_level_1
Human Resources,Human Resources,2.557692
Human Resources,Manager,2.818182
Research & Development,Healthcare Representative,2.78626
Research & Development,Laboratory Technician,2.69112
Research & Development,Manager,2.648148
Research & Development,Manufacturing Director,2.682759
Research & Development,Research Director,2.7
Research & Development,Research Scientist,2.773973
Sales,Manager,2.756757
Sales,Sales Executive,2.754601


Analisando a satisfação com o trabalho por departamento e cargo (1=Baixa, 2=Média, 3=Alta, 4=Muito Alta):

- No departamento de RH:
  - Os gerentes têm satisfação média-alta (2.82)
  - O pessoal de RH tem satisfação média-alta (2.56)

- Em P&D (Research & Development):
  - Healthcare Representative tem o maior nível (2.79)
  - Laboratory Technician tem o menor nível (2.69)
  - Os demais cargos têm satisfação média-alta entre 2.65-2.77

- Em Vendas (Sales):
  - Todos os cargos apresentam níveis similares de satisfação média-alta (2.73-2.76)

Em geral, a satisfação está em um nível médio-alto em todos os departamentos, com valores entre 2.56 e 2.82. Não há grandes variações entre departamentos ou cargos em média.


**Qual é a média de satisfação com as relações no trabalho (RelationshipSatisfaction)?**

In [25]:
df['RelationshipSatisfaction'].mean()

2.7122448979591836

A média de satisfação com as relações no trabalho é 2.71 (entre média e alta)


**Qual é a média de equilíbrio entre vida pessoal e trabalho (WorkLifeBalance)?**

In [26]:
df['WorkLifeBalance'].mean()


2.7612244897959184

A média de equilíbrio entre vida pessoal e trabalho é 2.76 (entre bom e melhor)

**Como a satisfação varia entre diferentes departamentos ou cargos?**

In [29]:
df.groupby(['Department', 'JobRole'], observed=True)['RelationshipSatisfaction'].mean().to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,RelationshipSatisfaction
Department,JobRole,Unnamed: 2_level_1
Human Resources,Human Resources,2.961538
Human Resources,Manager,2.545455
Research & Development,Healthcare Representative,2.694656
Research & Development,Laboratory Technician,2.687259
Research & Development,Manager,2.851852
Research & Development,Manufacturing Director,2.724138
Research & Development,Research Director,2.6875
Research & Development,Research Scientist,2.705479
Sales,Manager,2.837838
Sales,Sales Executive,2.702454


Analisando a satisfação com relacionamentos por departamento e cargo:
 
- No departamento de Recursos Humanos:
  - HR tem o maior nível de satisfação (2.96 - próximo de "Alto")
  - Gerentes têm satisfação mais baixa (2.54 - entre "Médio" e "Alto")

- Em Pesquisa & Desenvolvimento:
  - Gerentes têm o maior nível (2.85 - próximo de "Alto") 
  - Demais cargos têm níveis similares entre 2.68-2.72 (acima de "Médio")

- Em Vendas:
  - Gerentes também têm satisfação mais alta (2.84 - próximo de "Alto")
  - Representantes de vendas têm o menor nível (2.60 - entre "Médio" e "Alto")
  - Executivos de vendas ficam no meio (2.70)

Em geral, os níveis de satisfação com relacionamentos são positivos em todos os departamentos e cargos, variando entre médio e alto. Gerentes tendem a ter níveis mais altos, exceto em RH.


---

##### <font color='yellow'>**4. Desempenho e Remuneração**</font>

**Qual é a distribuição de salários mensais (MonthlyIncome) entre os funcionários?**

In [66]:
df.groupby(['Department', 'JobRole'], observed=True)['MonthlyIncome'].mean().sort_values(ascending=False).to_frame().style.background_gradient(cmap='RdYlGn', axis="index")

Unnamed: 0_level_0,Unnamed: 1_level_0,MonthlyIncome
Department,JobRole,Unnamed: 2_level_1
Human Resources,Manager,18088.636364
Research & Development,Manager,17130.333333
Sales,Manager,16986.972973
Research & Development,Research Director,16033.55
Research & Development,Healthcare Representative,7528.763359
Research & Development,Manufacturing Director,7295.137931
Sales,Sales Executive,6924.279141
Human Resources,Human Resources,4235.75
Research & Development,Research Scientist,3239.972603
Research & Development,Laboratory Technician,3237.169884


Analisando a distribuição de salários mensais por departamento e cargo:
 
- Recursos Humanos:
  - Gerentes recebem em média US$ 18.088, o maior salário entre todos os cargos
  - Profissionais de RH recebem em média US$ 4.235
 
- Pesquisa & Desenvolvimento:
  - Gerentes recebem em média US$ 17.130
  - Diretores de Pesquisa recebem em média US$ 16.033
  - Representantes de Saúde recebem em média US$ 7.528
  - Diretores de Manufatura recebem em média US$ 7.295
  - Cientistas e Técnicos de Laboratório recebem em média US$ 3.238
 
- Vendas:
  - Gerentes recebem em média US$ 16.986
  - Executivos de Vendas recebem em média US$ 6.924
  - Representantes de Vendas recebem em média US$ 2.626, o menor salário entre todos os cargos
 

Observa-se uma grande disparidade salarial, com gerentes e diretores ganhando significativamente mais que outros cargos em média. Há também diferenças notáveis entre departamentos, com Vendas tendo os menores salários para cargos não-gerenciais. Analisando o número de funcionários:

- Os cargos com maiores salários (gerentes e diretores) têm menos funcionários:
  - Gerentes: 102 no total (11 em RH, 54 em P&D e 37 em Vendas)
  - Diretores: 225 no total (145 Diretores de Manufatura e 80 Diretores de Pesquisa)

- Os cargos com menores salários têm mais funcionários:
  - Cientistas e Técnicos: 551 no total (292 Cientistas e 259 Técnicos)
  - Vendas: 409 no total (326 Executivos e 83 Representantes)
  - RH: 52 profissionais

Esta distribuição sugere uma estrutura organizacional piramidal típica, onde possivelmente os requisitos educacionais aumentam conforme o nível hierárquico, tema que será explorado na próxima análise.

**Como o salário varia com outras características dos funcionários?**

In [60]:
# Nível médio de educação e salário médio por cargo
df_analise = pd.DataFrame({
    'Salario_Medio': df.groupby('JobRole', observed=True)['MonthlyIncome'].mean(),
    'Media_Performance': df.groupby('JobRole', observed=True)['PerformanceRating'].mean(),
    'Idade_Media': df.groupby('JobRole', observed=True)['Age'].mean(),
    'Média_de_Anos_de_Experiência': df.groupby('JobRole', observed=True)['TotalWorkingYears'].mean(),
    'Nivel_Medio_Educacao': df.groupby('JobRole', observed=True)['Education'].mean(),
    
}).round(2)
display(df_analise.sort_values('Salario_Medio', ascending=False)
        .style.background_gradient(cmap='RdYlGn'))


Unnamed: 0_level_0,Salario_Medio,Media_Performance,Idade_Media,Média_de_Anos_de_Experiência,Nivel_Medio_Educacao
JobRole,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Manager,17181.68,3.2,46.76,24.55,3.02
Research Director,16033.55,3.1,44.0,21.4,3.12
Healthcare Representative,7528.76,3.15,39.81,14.07,2.99
Manufacturing Director,7295.14,3.19,38.3,12.79,2.9
Sales Executive,6924.28,3.13,36.89,11.1,3.02
Human Resources,4235.75,3.13,35.5,8.17,2.88
Research Scientist,3239.97,3.17,34.24,7.72,2.91
Laboratory Technician,3237.17,3.16,34.1,7.66,2.77
Sales Representative,2626.0,3.14,30.36,4.67,2.53



Analisando a tabela acima, podemos observar algumas relações interessantes:

1. Salário e Experiência:
   - Existe uma clara correlação entre salário e anos de experiência
   - Gerentes e Diretores de Pesquisa, que têm os maiores salários (US$ 17.181 e US$ 16.033), também têm mais anos de experiência (24,5 e 21,4 anos) em média
   - Representantes de Vendas, com menor salário (US$ 2.626), têm a menor experiência (4,67 anos) em média

2. Idade:
   - A idade média também segue um padrão similar ao salário
   - Cargos de liderança têm funcionários mais velhos (Gerentes: 46,7 anos, Diretores de Pesquisa: 44 anos)
   - Cargos júnior têm funcionários mais jovens (Representantes de Vendas: 30,3 anos)

3. Nível de Educação:
   - Surpreendentemente, não há grande variação no nível médio de educação entre os cargos
   - A maioria dos cargos tem nível educacional médio entre 2,7 e 3,1
   - Exceção para Representantes de Vendas com média de 2,53

4. Performance:
   - As avaliações de desempenho são bastante uniformes entre os cargos
   - Variam entre 3,1 e 3,2, sem grandes discrepâncias
   - Isso sugere que o sistema de avaliação pode não estar diferenciando adequadamente os níveis de performance

---

##### <font color='yellow'>**5. Attrition (Atrito de Funcionários)**</font>

**Qual é a taxa de turnover (Attrition) na empresa?**

**Quais são as principais características dos funcionários que deixaram a empresa (idade, salário, departamento, etc.)?**

**Como a satisfação no trabalho e o equilíbrio entre vida pessoal e trabalho influenciam o turnover?**

**Qual é o impacto do turnover em diferentes departamentos ou cargos?**

**Existe alguma relação entre o número de empresas em que o funcionário trabalhou anteriormente (NumCompaniesWorked) e o turnover?**

---

##### <font color='yellow'>**6. Experiência e Tempo na Empresa**</font>

**Qual é a distribuição de anos de experiência total (TotalWorkingYears) dos funcionários?**

**Quantos anos, em média, os funcionários permanecem na empresa (YearsAtCompany)?**

**Qual é o tempo médio que os funcionários permanecem no mesmo cargo (YearsInCurrentRole)?**

**Quantos anos se passaram desde a última promoção (YearsSinceLastPromotion)?**

**Como o tempo na empresa está relacionado ao desempenho ou satisfação?**

---

##### <font color='yellow'>**7. Viagens e Horas Extras**</font>

**Qual é a proporção de funcionários que viajam frequentemente (BusinessTravel)?**

**Como a frequência de viagens afeta a satisfação no trabalho ou o turnover?**

**Quantos funcionários fazem horas extras (OverTime)?**

**Como as horas extras estão relacionadas ao desempenho ou à satisfação?**

---

##### <font color='yellow'>**8. Treinamento e Desenvolvimento**</font>

**Quantas vezes, em média, os funcionários participaram de treinamentos no último ano (TrainingTimesLastYear)?**

**Como o número de treinamentos está relacionado ao desempenho ou à satisfação?**

**Existe diferença no número de treinamentos entre departamentos ou cargos?**

---

##### <font color='yellow'>**9. Outras Perguntas Relevantes**</font>

**Qual é a distribuição de funcionários que recebem opções de ações (StockOptionLevel)?**

**Como o número de empresas em que o funcionário trabalhou anteriormente (NumCompaniesWorked) está relacionado ao desempenho ou turnover?**

**Qual é a relação entre a distância de casa até o trabalho (DistanceFromHome) e a satisfação no trabalho ou turnover?**

**Como o número de anos com o mesmo gerente (YearsWithCurrManager) afeta a satisfação ou o desempenho?**

---

##### <font color='yellow'>**10. Análise de Correlações e Insights**</font>

**Existe correlação entre a satisfação no trabalho e o desempenho?**

**Quais fatores estão mais fortemente correlacionados com o turnover?**

**Como as variáveis de satisfação (EnvironmentSatisfaction, JobSatisfaction, etc.) se relacionam entre si?**

**Quais são os principais fatores que influenciam o aumento salarial (PercentSalaryHike)?**

---

##### <font color='yellow'>**11. Análise de Grupos e Segmentação**</font>

**É possível segmentar os funcionários em grupos com base em características como satisfação, desempenho ou turnover?**

**Quais são as características dos funcionários de alto desempenho?**

**Quais são as características dos funcionários com maior risco de turnover?**