Uma gestora de uma empresa de tecnologia deseja
promover maior igualdade salarial entre os
funcionários e elaborar planos de carreira individuais.
Nesse contexto, a gestora solicitou análises
específicas sobre as disparidades salariais, com ênfase
na equidade de gênero, níveis de senioridade e anos
de experiência

Entregue as seguintes informações para a gestora:
1. Distribuição do nº de funcionários, de acordo com
gênero, nível de senioridade e nível de formação
2. Evolução média salarial ao longo do tempo, com base na data de último aumento
3. Distribuição salarial por nível de senioridade e gênero
4. Distribuição salarial por anos de experiência e gênero
Com base nisso, ela tomará decisões importantes
para a empresa.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv('dados_salarial_funcionarios.csv')
dados.columns

dados.head()

In [None]:
dados.shape

In [None]:
dados.dtypes

In [None]:
# Coluna data está como texto e precisamos trnasformá-la para data
dados['Data ultimo aumento'] = pd.to_datetime(dados['Data ultimo aumento'])

In [None]:
dados.head()

In [None]:
numerica_cols = [col for col in dados.columns if dados[col].dtype != 'object']
categoricas_cols = [col for col in dados.columns if dados[col].dtype == 'object']

# Resumo das variáveis numéricas - Imprime alguns valores de medidas
dados[numerica_cols].describe()

In [None]:
dados[categoricas_cols].describe()

In [None]:
# veirifica se há valores faltantes
dados.isna().any()

In [None]:
dados.isna().sum()

In [None]:
dados['Area Formacao'].fillna('Nada Consta', inplace=True)
dados.isna().sum()


In [None]:
dados.duplicated().sum()
dados.drop_duplicates(inplace=True)
dados.shape

In [None]:
dados['Nivel'].value_counts()

In [None]:
dados['Faixa Salarial'].value_counts()


In [None]:
dados['Genero'].value_counts()

In [None]:
plt.figure(figsize=(20,10))
grafico_1 = plt.bar(dados['Genero'].unique(), dados['Genero'].value_counts())
plt.title('Distribuição de funcionários - Homens e Mulheres', fontsize=30)
plt.ylabel('Total de funcionários', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

plt.bar_label(grafico_1, fmt="%.01f", size=16, label_type="edge")


In [None]:
plt.figure(figsize=(20,10))
sns.countplot(y="Genero", data=dados, order=dados['Genero'].value_counts().index)\
  .set_title("Distribuição de funcionários - Homens e Mulheres")

In [None]:
plt.figure(figsize=(20,10))
grafico_2 = plt.bar(dados['Nivel Ensino'].unique(), dados['Nivel Ensino'].value_counts())
plt.title('Distribuição de funcionários por nível de formação', fontsize=30)
plt.ylabel('Total de funcionários', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

plt.bar_label(grafico_2, fmt="%.01f", size=16, label_type="edge")

In [None]:
plt.figure(figsize=(20,10))
grafico_3 = plt.bar(dados['Nivel'].unique(), dados['Nivel'].value_counts())
plt.title('Distribuição de funcionários por nível de senioridade', fontsize=30)
plt.ylabel('Total de funcionários', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

plt.bar_label(grafico_3, fmt="%.01f", size=16, label_type="edge")

In [None]:
dados['Data ultimo aumento - Ano'] = dados['Data ultimo aumento'].dt.year
dados["Data ultimo aumento - Ano"] = dados['Data ultimo aumento - Ano'].astype(str)
dados.dtypes

In [None]:
media_salarial_ano = dados.groupby(['Data ultimo aumento - Ano', 'Genero'])['Faixa Salarial – numero'].mean().round(0)
media_salarial_ano.head()

In [None]:
media_salarial_ano = media_salarial_ano.reset_index(name='Salario Medio')
media_salarial_ano.head()

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x='Data ultimo aumento - Ano', y='Salario Medio', hue='Genero', data=media_salarial_ano, hue_order=['Masculino', 'Feminino'])

plt.ylabel('Total de funcionários', fontsize=16)
plt.xlabel('Ano do último aumento', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14);


In [None]:
media_nivel_cargo = dados.groupby(['Genero', 'Nivel'])['Faixa Salarial – numero'].mean()
media_nivel_cargo.head()

In [None]:
media_nivel_cargo = media_nivel_cargo.reset_index(name='Salario Medio')
media_nivel_cargo.head()

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x='Nivel', y='Salario Medio', hue='Genero', data=media_nivel_cargo, hue_order=['Masculino', 'Feminino'])

plt.ylabel('Salário Médio', fontsize=16)
plt.xlabel('Nível do cargo', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14);


In [None]:
dados['Faixa Salarial – numero'].hist()

In [None]:
media_anos_experiencia = dados.groupby(['Genero', 'Anos experiencia'])['Faixa Salarial – numero'].mean()
media_anos_experiencia.head()

In [None]:
media_anos_experiencia = media_anos_experiencia.reset_index(name='Salario Medio')
media_anos_experiencia.head()

In [None]:
plt.figure(figsize=(20,10))
sns.barplot(x='Anos experiencia', y='Salario Medio', hue='Genero', data=media_anos_experiencia, hue_order=['Masculino', 'Feminino'])

plt.ylabel('Salario Medio', fontsize=16)
plt.xlabel('Ano de experiencia', fontsize=16)

plt.xticks(fontsize=14)
plt.yticks(fontsize=14);
