# Intodução

#Turnover - Parte 1: Análise Exploratória

 O turnover, conhecido como a rotatividade de funcionários, representa um desafio significativo para as empresas. A saída de um funcionário implica em perdas financeiras, investimento de tempo em novas contratações e treinamentos, além de uma potencial redução na produtividade da equipe afetada. Na tentativa de entender as características que influenciam a permanência ou saída de funcionários de uma empresa de Tecnologia, o departamento de Recursos Humanos (RH) coletou informações de 1470 funcionários ao longo do último ano.

## Construção de tabelas de frequências absolutas e relativas para as variáveis qualitativas:

A primeira etapa deste projeto envolve a análise das variáveis qualitativas presentes nos dados. Serão construídas tabelas para apresentar a frequência absoluta e relativa de cada categoria em variáveis como formação, gênero, estado civil, entre outras. Isso nos permitirá ter uma visão geral da distribuição dessas características entre os funcionários da empresa.

##Construção de tabelas e/ou box-plots com medidas resumo para as variáveis quantitativas:

Além das variáveis qualitativas, é importante explorar as variáveis quantitativas disponíveis. Serão construídas tabelas de medidas resumo, como média, mediana, mínimo e máximo, para variáveis como idade, salário, tempo de carreira, entre outras. Também serão considerados box-plots para identificar possíveis outliers e padrões de distribuição dessas variáveis.

##Verificação da taxa de turnover atual:

Para entender melhor a situação atual da empresa em relação ao turnover, será calculada a taxa de turnover atual. Isso envolve determinar a porcentagem de funcionários que deixaram a empresa em relação ao total de funcionários. Essa análise inicial nos dará uma base para avaliar futuras mudanças e intervenções.

------------------------------------------------------------------------------
# Base de Dados
Os dados foram fornecido pela escola Preditiva Analytics que a retirou de um repositório de dados chamado kaggle.

# Dicionário de dados
* ID                      
* Funcionário_deixou_a_empresa    
* Idade                           
* Frequência de Viagens           
* Distância_do_trabalho           
* Formação                        
* E-Sat                          
* Gênero                          
* Estado_Civil                    
* Salário                         
* Qte_Empresas_Trabalhadas       
* Faz_hora_extras?                
* Perc_de_aumento                 
* Qte_ações_da_empresa            
* Tempo_de_carreira               
* Horas_de_treinamento            
* Equilibrio_de_Vida              
* Tempo_de_empresa                
* Anos_no_mesmo_cargo             
* Anos_desde_a_ultima_promocao    
* Anos_com_o_mesmo_chefe          



# Preparação dos Dados

# Instalando e Carregando os Pacotes

In [None]:
# Bibliotecas
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [None]:
df = pd.read_excel('/content/Base_RH.xlsx', sheet_name='Base')

# Tratamento dos Dados

In [None]:
# Recebe o valor da linha 5 onde há os dados do cabeçalho
header = df.iloc[5]

In [None]:
# Filtro toda a tabela a partir da linha do cabeçalho
df = df.iloc[6:]

In [None]:
# Salva os valores no cabeçalho
df.columns = header

# Análise Exploratória

In [None]:
print('O número de linhas é de:', df.shape[0], 'e colunas de:' , df.shape[1])

O número de linhas é de: 1470 e colunas de: 21


In [None]:
# Verifica se há valores nulos na base de dados
df.isnull().count()

5
ID                              1470
Funcionário_deixou_a_empresa    1470
Idade                           1470
Frequência de Viagens           1470
Distância_do_trabalho           1470
Formação                        1470
E-Sat                           1470
Gênero                          1470
Estado_Civil                    1470
Salário                         1470
Qte_Empresas_Trabalhadas        1470
Faz_hora_extras?                1470
Perc_de_aumento                 1470
Qte_ações_da_empresa            1470
Tempo_de_carreira               1470
Horas_de_treinamento            1470
Equilibrio_de_Vida              1470
Tempo_de_empresa                1470
Anos_no_mesmo_cargo             1470
Anos_desde_a_ultima_promocao    1470
Anos_com_o_mesmo_chefe          1470
dtype: int64

* *Os dados estão todos completos, portanto, não será utilizada nenhuma técnica para substituir valores faltantes*

In [None]:
# Verifica o tipo de dados de cada uma das variáveis
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 6 to 1475
Data columns (total 21 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   ID                            1470 non-null   object
 1   Funcionário_deixou_a_empresa  1470 non-null   object
 2   Idade                         1470 non-null   object
 3   Frequência de Viagens         1470 non-null   object
 4   Distância_do_trabalho         1470 non-null   object
 5   Formação                      1470 non-null   object
 6   E-Sat                         1470 non-null   object
 7   Gênero                        1470 non-null   object
 8   Estado_Civil                  1470 non-null   object
 9   Salário                       1470 non-null   object
 10  Qte_Empresas_Trabalhadas      1470 non-null   object
 11  Faz_hora_extras?              1470 non-null   object
 12  Perc_de_aumento               1470 non-null   object
 13  Qte_ações_da_empre

In [None]:
# Retira valores duplicados caso tenha na base de dados
df = df.drop_duplicates()

df.shape

(1470, 21)

# Análise Univariada dos Dados

In [None]:
# Funcionário_deixou_a_empresa

# Agrupa os dados formando uma tabela com a variavel
frequencia = df.groupby('Funcionário_deixou_a_empresa')['Funcionário_deixou_a_empresa'].count()

# A partir do agrupamento construimos os calculos de frequência
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

# Função para aplicar o sinal % nos dados
def formatar_percentual (valor):
  return '{:.2f}%'.format(valor)

# Aplica a função
freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

# imprimi os dados
freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Funcionário_deixou_a_empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Não,1233,83.88%,83.88%
Sim,237,16.12%,100.00%


* *83% dos colaboradores não deixaram a empresa*

In [None]:
print("idade minima:", df['Idade'].min() , "idade maxima", df['Idade'].max(), "mediana", df['Idade'].mean().round(2))


idade minima: 18 idade maxima 60 mediana 36.92


* A idade mediana é de 37 anos. A idade mínima entre os colaboradores é de 18 anos de idade e a máxima de 60.

In [None]:
# Idade

# Cria um vetor de intervalo de dados
intervalos = [18, 23, 28, 33, 38, 43, 48, 53, 60]

# Cria uma coluna no dataframe com o agrupamento dos dados
df['Grupo_Idade'] = pd.cut(df['Idade'], bins=intervalos, right=False)

# Agrupa os dados formando uma tabela com a variavel
frequencia = df.groupby('Grupo_Idade')['Grupo_Idade'].count()

# A partir do agrupamento construimos os calculos de frequência
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

# Função para aplicar o sinal % nos dados
def formatar_percentual (valor):
  return '{:.2f}%'.format(valor)

# Aplicação da função
freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)


freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Grupo_Idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[18, 23)",57,3.89%,3.89%
"[23, 28)",153,10.44%,14.33%
"[28, 33)",306,20.89%,35.22%
"[33, 38)",332,22.66%,57.88%
"[38, 43)",243,16.59%,74.47%
"[43, 48)",163,11.13%,85.60%
"[48, 53)",110,7.51%,93.11%
"[53, 60)",101,6.89%,100.00%


In [None]:
df['Grupo_Idade'].value_counts()

[33, 38)    332
[28, 33)    306
[38, 43)    243
[43, 48)    163
[23, 28)    153
[48, 53)    110
[53, 60)    101
[18, 23)     57
Name: Grupo_Idade, dtype: int64

* 74% dos colaboradores tem até 43 anos de idade.

In [None]:
# Frequência de Viagens'

frequencia = df.groupby('Frequência de Viagens')['Frequência de Viagens'].count().sort_values(ascending=False)

freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : round(((frequencia/frequencia.sum())*100),2),
        'freq_acum' : round(((frequencia/frequencia.sum())*100),2).cumsum()
    })

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)
freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Frequência de Viagens,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Viaja raramente,1043,70.95%,70.95%
Viaja frequentemente,277,18.84%,89.79%
Não viaja,150,10.20%,99.99%


* 70% dos colaboradores da empresa viajam raramente, além dos 10% que declaram que não viajam. Considerando estes números, vemos que 81% dos colaboradores não viajam ou apenas viajam raramente.

In [None]:
# Distância_do_trabalho

# Cria um vetor de intervalo de dados
intervalos = [0, 5, 10, 15, 20, 25, 30]

# Cria uma coluna no dataframe com o agrupamento dos dados
df['Distância_do_trabalho_agrupada'] = pd.cut(df['Distância_do_trabalho'], bins=intervalos, right=False)

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Distância_do_trabalho_agrupada').agg('Distância_do_trabalho_agrupada').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)


def formatar_percentual (valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Distância_do_trabalho_agrupada,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[0, 5)",567,38.57%,38.57%
"[5, 10)",373,25.37%,63.95%
"[10, 15)",175,11.90%,75.85%
"[15, 20)",126,8.57%,84.42%
"[20, 25)",117,7.96%,92.38%
"[25, 30)",112,7.62%,100.00%


* 75% dos colaboradores moram até 15km de distância do trabalho.
* 38% dos colaborados moram até 5km de distância do trabalho.E quem mora mais longe, mora no máximo 30km de distância do trabalho.
-**Insight:** Considerando estes números nos leva a acreditar que o fator distância não é critico para os colaboradores.

In [None]:
# Formação

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Formação').agg('Formação').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

#Inserção de um index para ordenar uma hierarquia de niveis escolar
freq['index'] = ({'Ensino Médio':1, 'Ensino Técnico':2, 'Ensino Superior':3, 'Mestrado':4, 'Doutorado':5})

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq_ordenado = freq.sort_values(by='index')

freq_ordenado

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum,index
Formação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ensino Médio,170,11.56%,14.83%,1
Ensino Técnico,282,19.18%,72.93%,2
Ensino Superior,572,38.91%,53.74%,3
Mestrado,398,27.07%,100.00%,4
Doutorado,48,3.27%,3.27%,5


* *69% Dos colaboradores possuem ensino superior á Doutorado.*
* 31% dos colaboradores possuem ensino médio á técnico.
-**Insight:** Não foi identificado na base de dados o curso de Pós Graduação ou MBA, estágio posterior a faculdade.*
* 41% das pessoas que se formaram no ensino superior avançar nos estudos e chegaram ao nível de mestrado.
* Apenas 10% das pessoas que fizeram Mestrado subiram mais um nível e alcançaram o Doutorado


In [None]:
# E-Sat: Satisfação com o clima organizacional

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('E-Sat').agg('E-Sat').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
         'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()

    }).round(2)

freq['Index'] = ({'Baixo':1, 'Médio':2, 'Alto':3, 'Muito Alto':4})

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq.sort_values(by='Index')

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum,Index
E-Sat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Baixo,284,19.32%,50.14%,1
Médio,287,19.52%,100.00%,2
Alto,453,30.82%,30.82%,3
Muito Alto,446,30.34%,80.48%,4


* Identificar o que significa essa variável

In [None]:
# Gênero

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Gênero').agg('Gênero').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Gênero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
H,882,60.00%,60.00%
M,588,40.00%,100.00%


* A divisão entre os genêros são de 60% de homens e 40% de mulheres

In [None]:
# Estado_Civil

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Estado_Civil').agg('Estado_Civil').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)


def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Estado_Civil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Casado,673,45.78%,45.78%
Divorciado,327,22.24%,68.03%
Solteiro,470,31.97%,100.00%


* 45% dos colaboradores são casados.
* Divorciados e solteiros representam os outros 55%

In [None]:
# Salário

 # Cria um vetor de intervalo de dados
intervalos = [100, 1000, 5000, 10000, 15000, 20000, 25000, 30000]

# Cria uma coluna no dataframe com o agrupamento dos dados
df['Salário_agrupado'] = pd.cut(df['Salário'], bins=intervalos, right=False)

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Salário_agrupado').agg('Salário_agrupado').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq


Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Salário_agrupado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[100, 1000)",0,0.00%,0.00%
"[1000, 5000)",749,50.95%,50.95%
"[5000, 10000)",440,29.93%,80.88%
"[10000, 15000)",148,10.07%,90.95%
"[15000, 20000)",133,9.05%,100.00%
"[20000, 25000)",0,0.00%,100.00%
"[25000, 30000)",0,0.00%,100.00%


* 80% dos salários estão concentrados na faixa de 1.000k á 10.000k
* 50% dos salários estão concentrados na faixa de 1.000k á 5.000k

In [None]:
px.box(df, x='Salário', points='all')

* O Valor médiano do salário dos colaboradores é de 4.919k
* 75% dos colaboradores ganham até 8.380k
* Existem outliers que chegam á 20.000k

In [None]:
#'Qte_Empresas_Trabalhadas'

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Qte_Empresas_Trabalhadas').agg('Qte_Empresas_Trabalhadas').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Qte_Empresas_Trabalhadas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,197,13.40%,13.40%
1,521,35.44%,48.84%
2,146,9.93%,58.78%
3,159,10.82%,69.59%
4,139,9.46%,79.05%
5,63,4.29%,83.33%
6,70,4.76%,88.10%
7,74,5.03%,93.13%
8,49,3.33%,96.46%
9,52,3.54%,100.00%


* 48% dos colaboradores trabalharam em apenas uma empresa.
* 79% dos colaboradores trabalharam em até 4 empresas diferentes

In [None]:
# Faz_hora_extras?

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Faz_hora_extras?').agg('Faz_hora_extras?').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Faz_hora_extras?,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Não,1054,71.70%,71.70%
Sim,416,28.30%,100.00%


* 70% dos colaboradores NÃO fazem horas extras

In [None]:
# Perc_de_aumento

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Perc_de_aumento').agg('Perc_de_aumento').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Perc_de_aumento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
11,210,14.29%,14.29%
12,198,13.47%,27.76%
13,209,14.22%,41.97%
14,201,13.67%,55.65%
15,101,6.87%,62.52%
16,78,5.31%,67.82%
17,82,5.58%,73.40%
18,89,6.05%,79.46%
19,76,5.17%,84.63%
20,55,3.74%,88.37%


* São mais comuns aumentos de salário de até 14% o que representa 55% do total.
* Também existem alguns casos onde o percentual de aumento de salário chega a 25%.

In [None]:
# Qte_ações_da_empresa


# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Qte_ações_da_empresa').agg('Qte_ações_da_empresa').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Qte_ações_da_empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,631,42.93%,42.93%
1,596,40.54%,83.47%
2,158,10.75%,94.22%
3,85,5.78%,100.00%


* 42% dos colaboradores não possuem nenhuma ação da empresa.
* Já 40% dos colaboradores possuem 1 ação e juntos representam 83% dos colaboradores.
* 16% dos colaboradores possum entre 2 ou 3 ações

In [None]:
print("A Qtd Mínima de Ações é de:", df.Qte_ações_da_empresa.min(), "e a Qtd Máxima é de:", df.Qte_ações_da_empresa.max())

A Qtd Mínima de Ações é de: 0 e a Qtd Máxima é de: 3


In [None]:
# Tempo_de_carreira

# Cria um intervalo
intervalo = ([5, 10, 15, 20, 25, 30, 35, 40])

# Insere uma coluna no dataframe com o intervalo agrupado
df['Tempo_de_carreira_agrupado'] = pd.cut(df['Tempo_de_carreira'], bins=intervalo, right=False)

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Tempo_de_carreira_agrupado').agg('Tempo_de_carreira_agrupado').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Tempo_de_carreira_agrupado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[5, 10)",493,39.76%,39.76%
"[10, 15)",353,28.47%,68.23%
"[15, 20)",159,12.82%,81.05%
"[20, 25)",125,10.08%,91.13%
"[25, 30)",59,4.76%,95.89%
"[30, 35)",37,2.98%,98.87%
"[35, 40)",14,1.13%,100.00%


* 81% dos colaboradores possuem até 20 anos de carreira

In [None]:
# Horas_de_treinamento

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Horas_de_treinamento').agg('Horas_de_treinamento').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Horas_de_treinamento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,54,3.67%,3.67%
1,71,4.83%,8.50%
2,547,37.21%,45.71%
3,491,33.40%,79.12%
4,123,8.37%,87.48%
5,119,8.10%,95.58%
6,65,4.42%,100.00%


* A maior concentração de horas de treinamento é de 2 a 3 horas.
* Apenas 4% dos colaboradores possuem 6 horas de treinamento

In [None]:
# Equilibrio_de_Vida

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Equilibrio_de_Vida').agg('Equilibrio_de_Vida').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Equilibrio_de_Vida,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bom,344,23.40%,23.40%
Excelente,153,10.41%,33.81%
Muito bom,893,60.75%,94.56%
Ruim,80,5.44%,100.00%


* Apenas 5% dos colaboradores demonstram que há uma Ruim qualidade de vida

In [None]:
# Tempo_de_empresa

# Cria um intervalo
intervalo = ([0, 5, 10, 15, 20, 25, 30, 35, 40])

df['Tempo_de_empresa_agrupado'] = pd.cut(df['Tempo_de_empresa'], bins=intervalo, right=False)

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Tempo_de_empresa_agrupado').agg('Tempo_de_empresa_agrupado').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Tempo_de_empresa_agrupado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[0, 5)",580,39.48%,39.48%
"[5, 10)",524,35.67%,75.15%
"[10, 15)",208,14.16%,89.31%
"[15, 20)",65,4.42%,93.74%
"[20, 25)",64,4.36%,98.09%
"[25, 30)",12,0.82%,98.91%
"[30, 35)",13,0.88%,99.80%
"[35, 40)",3,0.20%,100.00%


In [None]:
print('Tempo Maximo de Empresa é de', df['Tempo_de_empresa'].max(),"Anos",'e Min:',df['Tempo_de_empresa'].min())

Tempo Maximo de Empresa é de 40 Anos e Min: 0


* 75% dos colaboradores da empresa tem de 0 a 10 anos de empresa

In [None]:
# Anos_no_mesmo_cargo

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Anos_no_mesmo_cargo').agg('Anos_no_mesmo_cargo').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequencia' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq

Unnamed: 0_level_0,frequencia,freq_relativa,freq_acum
Anos_no_mesmo_cargo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,244,16.60%,16.60%
1,57,3.88%,20.48%
2,372,25.31%,45.78%
3,135,9.18%,54.97%
4,104,7.07%,62.04%
5,36,2.45%,64.49%
6,37,2.52%,67.01%
7,222,15.10%,82.11%
8,89,6.05%,88.16%
9,67,4.56%,92.72%


* 244 colaboradores não possui ao menos 1 ano no mesmo cargo.
-**Insight**: "mudaram de cargo, não permaneceram no cargo, não completaram 1 ano?
* 23% dos colaboradores não completam 1 ano com o mesmo chefe.
* 46% dos colaboradores completam até 2 anos com o mesmo chefe.
* Casos nos quais os colaboradores completaram 7 anos é de 15%. Os valores tendem a diminuir sua frequência em relação ao tempo que os colaboradores permanecem com seus gestores.

In [None]:
print('Maximo de anos do cargo:', df['Anos_no_mesmo_cargo'].max(),"Anos",'e Min:',df['Anos_no_mesmo_cargo'].min())

Maximo de anos do cargo: 18 Anos e Min: 0


In [None]:
# Anos_desde_a_ultima_promocao

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Anos_desde_a_ultima_promocao').agg('Anos_desde_a_ultima_promocao').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequência' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)


freq

Unnamed: 0_level_0,frequência,freq_relativa,freq_acum
Anos_desde_a_ultima_promocao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,581,39.52%,39.52%
1,357,24.29%,63.81%
2,159,10.82%,74.63%
3,52,3.54%,78.16%
4,61,4.15%,82.31%
5,45,3.06%,85.37%
6,32,2.18%,87.55%
7,76,5.17%,92.72%
8,18,1.22%,93.95%
9,17,1.16%,95.10%


* 39% dos colaboradores não tiveram nenhuma promoção.
-**Insight**: Esses colaboradores não completaram 1 ano desde a sua última promoção? ou efetivamente ainda não houve promoção devido ao pouco tempo de empresa.
* Os colaboradores que somam até 3 anos desde sua última promoção correspondem a 78% dos colaboradores.
* A medida em que os anos aumentam a frequência também reduz.

In [None]:
# Anos_com_o_mesmo_chefe

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Anos_com_o_mesmo_chefe').agg('Anos_com_o_mesmo_chefe').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequência' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)

freq


Unnamed: 0_level_0,frequência,freq_relativa,freq_acum
Anos_com_o_mesmo_chefe,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,263,17.89%,17.89%
1,76,5.17%,23.06%
2,344,23.40%,46.46%
3,142,9.66%,56.12%
4,98,6.67%,62.79%
5,31,2.11%,64.90%
6,29,1.97%,66.87%
7,216,14.69%,81.56%
8,107,7.28%,88.84%
9,64,4.35%,93.20%


* 23% dos colaboradores não completam 1 ano com o mesmo chefe.
* 46% dos colaboradores completam até 2 anos com o mesmo chefe.
* Casos nos quais os colaboradores completaram 7 anos com o mesmo chefe é de 14%.
* Os valores tendem a diminuir sua frequência em relação ao tempo que os colaboradores permanecem com seus gestores.

In [None]:
# Grupo_Idade

# Cria um agrupamento a partir da nova coluna
frequencia = df.groupby('Grupo_Idade').agg('Grupo_Idade').count()

# Calculo das frequências
freq = pd.DataFrame({
        'frequência' : frequencia,
        'freq_relativa' : ((frequencia/frequencia.sum())*100),
        'freq_acum' : ((frequencia/frequencia.sum())*100).cumsum()
    }).round(2)

def formatar_percentual(valor):
  return '{:.2f}%'.format(valor)

freq['freq_relativa'] = freq['freq_relativa'].apply(formatar_percentual)
freq['freq_acum'] = freq['freq_acum'].apply(formatar_percentual)


freq

Unnamed: 0_level_0,frequência,freq_relativa,freq_acum
Grupo_Idade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[18, 23)",57,3.89%,3.89%
"[23, 28)",153,10.44%,14.33%
"[28, 33)",306,20.89%,35.22%
"[33, 38)",332,22.66%,57.88%
"[38, 43)",243,16.59%,74.47%
"[43, 48)",163,11.13%,85.60%
"[48, 53)",110,7.51%,93.11%
"[53, 60)",101,6.89%,100.00%


* 74% dos colaboradores possuem de 18 a 43 anos de idade.
* Os colaboradores com maior idade estão entre 53 a 60 anos e representam apenas 6%.

In [None]:
# # Turnover = (número de admissões + número de demissões/2) / número total de colaboradores x 100.


# Contar quantos funcionários deixaram a empresa
Admissões_totais = df['Funcionário_deixou_a_empresa'].value_counts().get('Não', 0)
Demissões_totais = df['Funcionário_deixou_a_empresa'].value_counts().get('Sim', 0)
Número_total_de_colaboradores = Admissões_totais + Demissões_totais

Turnover = (Demissões_totais / Número_total_de_colaboradores) * 100

Turnover

16.122448979591837