<h2 style="color:darkblue;">🏢 Análise de Funcionários - Empresa XYZ</h2>

<p style="color:gray; font-size:15px;">
Este notebook realiza uma análise exploratória dos dados de funcionários da Empresa XYZ, com o objetivo de entender a distribuição de cargos, salários, departamentos e tempo de casa.
</p>

<h4 style="color:darkgreen;">📁 Arquivo utilizado:</h4>
<span style="background-color:black; color:white; padding:6px 10px; border-radius:4px; font-family:monospace;">
funcionarios.csv
</span>

<h4 style="color:darkgreen;">📊 Principais colunas do dataset:</h4>
<ul>
  <li><strong>nome</strong>: Nome do funcionário</li>
  <li><strong>cargo</strong>: Função ou título</li>
  <li><strong>departamento</strong>: Área de atuação</li>
  <li><strong>salario</strong>: Remuneração mensal</li>
  <li><strong>data_admissao</strong>: Data de entrada na empresa</li>
</ul>

<h4 style="color:darkgreen;">🎯 Objetivos da análise:</h4>
<ul>
  <li>Identificar distribuição de salários por departamento</li>
  <li>Detectar cargos com maior rotatividade</li>
  <li>Visualizar tempo médio de permanência</li>
  <li>Gerar gráficos para insights gerenciais</li>
</ul>

<p style="background-color:#f0f8ff; color:#333; padding:10px; border-left:5px solid #007acc;">
💡 <strong>Dica:</strong> Use <code>df.describe()</code>, <code>df.groupby()</code> e <code>df.value_counts()</code> para explorar os dados.
</p>

## Importação da Biblioteca

In [1]:
import pandas as pd

## Lendo tabelas

In [2]:
df_funcionarios = pd.read_csv('funcionarios.csv')

In [3]:
df_funcionarios

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
7,8,Isis Marques,24,2023-02-05,8438.66,True,1
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2


## Manipulação Básica de dados

## Manipulação do 5 primeiros registros

In [4]:
df_funcionarios.head(5)

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4


## Manipulação dos 5 últimos registros

In [6]:
df_funcionarios.tail()

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
15,16,Maria Fernanda Rezende,29,2023-11-18,7436.21,False,3
16,17,Thomas Casa Grande,33,2024-03-29,8205.9,False,2
17,18,Davi Miguel Ribeiro,48,2022-07-10,2625.01,False,5
18,19,Dr. Mathias Montenegro,20,2023-08-17,9566.83,False,4
19,20,Samuel Gonçalves,21,2023-10-03,3884.99,True,3


## Estatísticas dos funcionários

In [9]:
df_funcionarios.describe()

Unnamed: 0,ID,Idade,Salário,ID Departamento
count,20.0,20.0,20.0,20.0
mean,10.5,40.85,5944.9405,3.0
std,5.91608,12.716649,2474.638644,1.486784
min,1.0,20.0,2363.85,1.0
25%,5.75,32.0,3687.38,2.0
50%,10.5,42.0,6699.225,3.0
75%,15.25,49.5,8049.575,4.0
max,20.0,61.0,9566.83,5.0


## Colunas do dataset

In [10]:
df_funcionarios.columns

Index(['ID', 'Nome', 'Idade', 'Data de Registro', 'Salário', 'Ativo',
       'ID Departamento'],
      dtype='object')

## Informações sobre linhas e colunas do dataset

In [11]:
df_funcionarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                20 non-null     int64  
 1   Nome              20 non-null     object 
 2   Idade             20 non-null     int64  
 3   Data de Registro  20 non-null     object 
 4   Salário           20 non-null     float64
 5   Ativo             20 non-null     bool   
 6   ID Departamento   20 non-null     int64  
dtypes: bool(1), float64(1), int64(3), object(2)
memory usage: 1.1+ KB


## Selecionar o nome e a idade dos funcionários

In [12]:
df_funcionarios[['Nome', 'Idade']]

Unnamed: 0,Nome,Idade
0,Sra. Isabela Vasconcelos,44
1,Heitor Teixeira,40
2,Bianca Vasconcelos,44
3,Alice Machado,40
4,Antônio Fernandes,54
5,Henry Gabriel da Mata,42
6,Sra. Maria Luiza Oliveira,58
7,Isis Marques,24
8,Sr. Vitor da Rosa,61
9,Théo Cardoso,54


## Selecionar a idade dos funcionários maior que 30 anos

In [14]:
df_funcionarios[df_funcionarios['Idade'] > 30]

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2
10,11,Marcelo Rodrigues,57,2024-02-06,8109.35,True,1


## Selecionar os salários dos funcionários maior que 5k

In [16]:
df_funcionarios[df_funcionarios['Salário'] > 5000]

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
7,8,Isis Marques,24,2023-02-05,8438.66,True,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2
10,11,Marcelo Rodrigues,57,2024-02-06,8109.35,True,1
14,15,Levi Silveira,42,2024-02-10,9261.98,True,5
15,16,Maria Fernanda Rezende,29,2023-11-18,7436.21,False,3
16,17,Thomas Casa Grande,33,2024-03-29,8205.9,False,2


## Combinando filtros de idade e salário dos funcionários

In [18]:
filtro_maior_que_30 = df_funcionarios['Idade'] > 30
filtro_mais_de_5k = df_funcionarios['Salário'] > 5000

df_funcionarios[filtro_maior_que_30 & filtro_mais_de_5k]

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2
10,11,Marcelo Rodrigues,57,2024-02-06,8109.35,True,1
14,15,Levi Silveira,42,2024-02-10,9261.98,True,5
16,17,Thomas Casa Grande,33,2024-03-29,8205.9,False,2


## Criando uma nova coluna de total da soma de salários anuais dos funcionários

In [28]:
df_funcionarios['Salário_Anual'] = df_funcionarios['Salário'] * 12
df_funcionarios

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento,Salário_Anual
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4,53221.56
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2,94019.64
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2,37134.6
3,4,Alice Machado,40,2023-10-10,6287.2,True,2,75446.4
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4,85661.16
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4,59299.44
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5,85335.0
7,8,Isis Marques,24,2023-02-05,8438.66,True,1,101263.92
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1,28366.2
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2,96355.8


## Remoção de coluna

In [29]:
df_funcionarios = df_funcionarios.drop('Salário_Anual' , axis=1)
df_funcionarios

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
7,8,Isis Marques,24,2023-02-05,8438.66,True,1
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2


In [30]:
print(df_funcionarios.columns)

Index(['ID', 'Nome', 'Idade', 'Data de Registro', 'Salário', 'Ativo',
       'ID Departamento'],
      dtype='object')


## Soma total da coluna salário

In [31]:
df_funcionarios['Salário'].sum()

118898.80999999998

## Soma média da coluna salário

In [32]:
df_funcionarios['Salário'].mean()

5944.940499999999

## Soma do maior salário entre os funcionários

In [33]:
df_funcionarios['Salário'].max()

9566.83

## Soma do menor salário entre os funcionários

In [34]:
df_funcionarios['Salário'].min()

2363.85

## Código para analisar funcionários ativos

In [44]:
df_funcionarios['Ativo'].value_counts()

Ativo
True     11
False     9
Name: count, dtype: int64

## Contar funcionários através do id por departamento

In [46]:
df_funcionarios['ID Departamento'].value_counts()

ID Departamento
4    5
2    5
5    4
1    4
3    2
Name: count, dtype: int64

## Cálculo de Métricas do id departamento

In [48]:
df_funcionarios.groupby('ID Departamento')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001DBB667F750>

In [49]:
df_funcionarios.groupby('ID Departamento')['Salário'].mean()

ID Departamento
1    5975.4675
2    6690.4540
3    5660.6000
4    5736.7380
5    5384.9450
Name: Salário, dtype: float64

In [50]:
df_funcionarios.groupby('ID Departamento')['Salário'].max()

ID Departamento
1    8438.66
2    8205.90
3    7436.21
4    9566.83
5    9261.98
Name: Salário, dtype: float64

In [51]:
df_funcionarios.groupby('ID Departamento')['Salário'].min()

ID Departamento
1    2363.85
2    3094.55
3    3884.99
4    2601.68
5    2541.54
Name: Salário, dtype: float64

## Odenar salários do menor para o maior

In [52]:
df_funcionarios.sort_values(by='Salário')

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1
13,14,Benicio das Neves,22,2022-04-15,2541.54,True,5
11,12,Maria Clara Santos,39,2023-10-21,2601.68,True,4
17,18,Davi Miguel Ribeiro,48,2022-07-10,2625.01,False,5
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
19,20,Samuel Gonçalves,21,2023-10-03,3884.99,True,3
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4
12,13,Sofia Rios,45,2023-05-19,4990.01,False,1
3,4,Alice Machado,40,2023-10-10,6287.2,True,2


## Ordenar salário do maior para o menor

In [54]:
df_funcionarios.sort_values(by='Salário', ascending=False)

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
18,19,Dr. Mathias Montenegro,20,2023-08-17,9566.83,False,4
14,15,Levi Silveira,42,2024-02-10,9261.98,True,5
7,8,Isis Marques,24,2023-02-05,8438.66,True,1
16,17,Thomas Casa Grande,33,2024-03-29,8205.9,False,2
10,11,Marcelo Rodrigues,57,2024-02-06,8109.35,True,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
15,16,Maria Fernanda Rezende,29,2023-11-18,7436.21,False,3
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5


## Limpeza de dados

In [35]:
df_nulos = pd.read_csv('funcionarios_nulos.csv')
df_nulos

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,,35.0,2024-01-02,5469.47,True,3.0
1,2,Nicolas Cardoso,45.0,2022-05-25,3824.2,True,4.0
2,3,Lucas Gabriel Sampaio,60.0,2023-01-05,5599.99,True,4.0
3,4,Luiz Fernando Fernandes,,2023-10-09,6708.07,False,
4,5,Gael Henrique Costela,51.0,2021-11-07,9497.52,,
5,6,Stephany Pimenta,32.0,2024-07-21,7123.0,True,
6,7,Bruna Vargas,25.0,2022-03-29,5036.81,,
7,8,,60.0,2024-03-03,8219.79,True,5.0
8,9,,47.0,2022-09-12,4790.53,,4.0
9,10,,,2022-06-26,8914.27,,4.0


## Código para remover todos os NaN

In [37]:
df_nulos.dropna()

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
1,2,Nicolas Cardoso,45.0,2022-05-25,3824.2,True,4.0
2,3,Lucas Gabriel Sampaio,60.0,2023-01-05,5599.99,True,4.0
17,18,Isabela Campos,28.0,2022-06-21,7824.41,False,4.0
18,19,Danilo Rocha,32.0,2024-08-07,7196.97,False,4.0
19,20,Sara Fonseca,50.0,2023-09-05,5884.55,True,2.0


## Removendo os NaN só da coluna idade

In [38]:
df_nulos.dropna(subset='Idade')

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,,35.0,2024-01-02,5469.47,True,3.0
1,2,Nicolas Cardoso,45.0,2022-05-25,3824.2,True,4.0
2,3,Lucas Gabriel Sampaio,60.0,2023-01-05,5599.99,True,4.0
4,5,Gael Henrique Costela,51.0,2021-11-07,9497.52,,
5,6,Stephany Pimenta,32.0,2024-07-21,7123.0,True,
6,7,Bruna Vargas,25.0,2022-03-29,5036.81,,
7,8,,60.0,2024-03-03,8219.79,True,5.0
8,9,,47.0,2022-09-12,4790.53,,4.0
13,14,Antônio Gonçalves,44.0,,5511.17,True,
14,15,Luara Lima,48.0,,5426.62,True,3.0


## Preenchendo os valores da coluna idade

In [40]:
media_idade = df_nulos['Idade'].mean()
df_nulos['Idade'] = df_nulos['Idade'].fillna(media_idade)
df_nulos

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,,35.0,2024-01-02,5469.47,True,3.0
1,2,Nicolas Cardoso,45.0,2022-05-25,3824.2,True,4.0
2,3,Lucas Gabriel Sampaio,60.0,2023-01-05,5599.99,True,4.0
3,4,Luiz Fernando Fernandes,41.6,2023-10-09,6708.07,False,
4,5,Gael Henrique Costela,51.0,2021-11-07,9497.52,,
5,6,Stephany Pimenta,32.0,2024-07-21,7123.0,True,
6,7,Bruna Vargas,25.0,2022-03-29,5036.81,,
7,8,,60.0,2024-03-03,8219.79,True,5.0
8,9,,47.0,2022-09-12,4790.53,,4.0
9,10,,41.6,2022-06-26,8914.27,,4.0


## Convertendo os números da idade 41.6 para números inteiros

In [42]:
df_nulos['Idade'] = df_nulos['Idade'].astype(int)
df_nulos

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,,35,2024-01-02,5469.47,True,3.0
1,2,Nicolas Cardoso,45,2022-05-25,3824.2,True,4.0
2,3,Lucas Gabriel Sampaio,60,2023-01-05,5599.99,True,4.0
3,4,Luiz Fernando Fernandes,41,2023-10-09,6708.07,False,
4,5,Gael Henrique Costela,51,2021-11-07,9497.52,,
5,6,Stephany Pimenta,32,2024-07-21,7123.0,True,
6,7,Bruna Vargas,25,2022-03-29,5036.81,,
7,8,,60,2024-03-03,8219.79,True,5.0
8,9,,47,2022-09-12,4790.53,,4.0
9,10,,41,2022-06-26,8914.27,,4.0


## ID'S de departamentos

In [60]:
df_depto = pd.read_csv('departamentos.csv')
df_depto

Unnamed: 0,ID Departamento,Nome Departamento
0,1,Vendas
1,2,TI
2,3,RH
3,4,Financeiro
4,5,Marketing


## Código para juntar tabelas e datasets

In [61]:
df_final = pd.merge(df_funcionarios, df_depto)
df_final

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento,Nome Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4,Financeiro
1,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4,Financeiro
2,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4,Financeiro
3,12,Maria Clara Santos,39,2023-10-21,2601.68,True,4,Financeiro
4,19,Dr. Mathias Montenegro,20,2023-08-17,9566.83,False,4,Financeiro
5,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2,TI
6,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2,TI
7,4,Alice Machado,40,2023-10-10,6287.2,True,2,TI
8,10,Théo Cardoso,54,2022-09-05,8029.65,True,2,TI
9,17,Thomas Casa Grande,33,2024-03-29,8205.9,False,2,TI


## Adicionar novos funcionários de outro dataset para o dataframe de um dataset

In [71]:
df_novos = pd.read_csv('novos_funcionarios.csv')
df_novos

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Maria Clara Cunha,27,2023-03-05,6747.76,True,4
1,2,Luiz Gustavo Barros,18,2022-11-11,5990.81,False,3
2,3,Maria Helena das Neves,19,2024-04-01,7588.55,False,5
3,4,Ravy Camargo,36,2022-01-25,4341.11,False,4
4,5,Cecilia Casa Grande,46,2022-10-30,5716.84,True,4
5,6,Carolina Souza,62,2022-05-02,3305.85,False,4
6,7,Mathias Souza,28,2024-05-02,9782.9,True,4
7,8,Yago Gomes,28,2023-10-17,9615.18,True,1
8,9,Natália Moraes,20,2022-10-03,2798.04,True,5
9,10,João Miguel Caldeira,53,2024-03-12,8941.77,True,1


In [72]:
df_todos = pd.concat([df_funcionarios, df_novos], ignore_index=True)
df_todos

Unnamed: 0,ID,Nome,Idade,Data de Registro,Salário,Ativo,ID Departamento
0,1,Sra. Isabela Vasconcelos,44,2022-02-11,4435.13,True,4
1,2,Heitor Teixeira,40,2022-01-17,7834.97,False,2
2,3,Bianca Vasconcelos,44,2022-10-28,3094.55,False,2
3,4,Alice Machado,40,2023-10-10,6287.2,True,2
4,5,Antônio Fernandes,54,2023-08-09,7138.43,True,4
5,6,Henry Gabriel da Mata,42,2024-01-26,4941.62,False,4
6,7,Sra. Maria Luiza Oliveira,58,2024-08-24,7111.25,True,5
7,8,Isis Marques,24,2023-02-05,8438.66,True,1
8,9,Sr. Vitor da Rosa,61,2024-03-25,2363.85,False,1
9,10,Théo Cardoso,54,2022-09-05,8029.65,True,2


## Salvando os dados dos dois datasets para outro dataset com todos o funcionários, os antigos e os novos

In [73]:
df_todos.to_csv('todos_funcionarios.csv')