# Análise e Tratamento de Dados de Funcionários

Este projeto realiza a exploração, limpeza, transformação e geração de métricas a partir de uma base de dados de funcionários, utilizando a biblioteca Pandas.


## 1. Importação das Bibliotecas e Leitura do Dataset


In [None]:
import pandas as pd
df = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vSpCW9yMoUMQ4tknj5Lg_TYVfIC3P9KoVPPqlJKsBu2HzGaC579yCp9Ohxni2ncY-xyLfugXan9K6yf/pub?gid=636707205&single=true&output=csv')
display(df)

## 2. Exploração Inicial da Base

Análise da estrutura do dataset, volume de dados e presença de valores ausentes.


In [2]:

# Verificando o número de linhas e colunas do DataFrame
df.shape

(50, 8)

In [3]:
#Tipos de dados de cada coluna 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID                       50 non-null     int64  
 1   Nome                     45 non-null     object 
 2   Idade                    47 non-null     float64
 3   Salário                  45 non-null     float64
 4   Cargo                    47 non-null     object 
 5   Departamento             48 non-null     object 
 6   Data de Contratação      45 non-null     object 
 7   Avaliação de Desempenho  50 non-null     float64
dtypes: float64(3), int64(1), object(4)
memory usage: 3.3+ KB


In [4]:
#Contagem de registros com informações completas (sem valores ausentes)
len(df.dropna())

29

In [5]:
# Analisando os cargos presentes na base de dados
cargos_unicos = df['Cargo'].unique()
display(cargos_unicos)

array(['Florista', nan, 'Lutador de jiu-jitsu', 'DJ', 'Neurocirurgião',
       'Ginecologista', 'Bedel', 'Lubrificador de máquinas',
       'Jogador de futebol', 'Piloto de avião', 'Cameraman',
       'Odontologista estético', 'Moldureiro', 'Dublador', 'Bioquímico',
       'Traumatologista', 'Instrumentista musical', 'Cartunista',
       'Tecnólogo em automação industrial', 'Balconista', 'Cantor',
       'Cozinheira', 'Tecnólogo em rochas ornamentais', 'Taxista',
       'Moleiro', 'Protético dentário', 'Pianista', 'Cinegrafista',
       'Intérprete de Bíblias', 'Carnavalesco', 'Geógrafo', 'Empacotador',
       'Ator', 'Imunologista', 'Quiropraxista', 'Ferroviário',
       'Publicitário', 'Segurança particular', 'Comerciante',
       'Artista de circo', 'Capitão', 'Jogador de handebol', 'Figurante',
       'Telegrafista', 'Judoca', 'Ortoptista', 'Garçom'], dtype=object)

## 3. Tratamento e Padronização dos Dados

Limpeza, normalização e correção dos dados para análise.


In [6]:
# Analisando os salários presentes na base de dados
salario_medio = df['Salário'].mean()
df['Salário'].fillna(df['Salário'].mean(),inplace=True)
novo_salario = df['Salário'].mean()
print(salario_medio)

5865.925111111112


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salário'].fillna(df['Salário'].mean(),inplace=True)


In [7]:
# Criando uma nova coluna "Tecnologia da Informação" com base na coluna "Departamento"
df['Tecnologia da Informação'] = df['Departamento'].replace({'TI':'Tecnologia da Informação'})
df['Tecnologia da Informação']

0                   Financeiro
1                    Operações
2                          NaN
3                    Operações
4                           RH
5                           RH
6                   Financeiro
7                    Operações
8                    Marketing
9                          NaN
10                   Operações
11                   Operações
12                          RH
13    Tecnologia da Informação
14                          RH
15                  Financeiro
16    Tecnologia da Informação
17                   Marketing
18                          RH
19                  Financeiro
20                  Financeiro
21                          RH
22    Tecnologia da Informação
23                   Marketing
24                          RH
25                   Marketing
26                          RH
27                   Marketing
28                   Marketing
29                          RH
30                   Marketing
31    Tecnologia da Informação
32    Te

In [8]:
# Convertendo a coluna "Data de Contratação" para o formato de data
df['Data de Contratação'] = pd.to_datetime(df['Data de Contratação'], errors='coerce')

In [9]:
# Convertendo a coluna "Avaliação de Desempenho" para o tipo inteiro
df['Avaliação de Desempenho'] = df['Avaliação de Desempenho'].astype(int)
display(df['Avaliação de Desempenho'].dtype)

dtype('int32')

## 4. Engenharia de Atributos

Criação de novas variáveis e transformação de atributos existentes.


In [10]:
df['Anos Trabalhados'] = df['Data de Contratação'].apply(lambda x: (pd.Timestamp.now()- x).days/365 if pd.notnull(x) else None)
df[['Nome','Anos Trabalhados']]

Unnamed: 0,Nome,Anos Trabalhados
0,Juan,1.983562
1,Isabelly,2.893151
2,Cauê,3.578082
3,Theo,
4,Pedro Miguel,1.717808
5,Emilly,5.745205
6,Valentina,4.09589
7,Laís,1.750685
8,Beatriz,3.29863
9,Olivia,3.021918


In [11]:
df['Categoria de Salário'] = df['Salário'].apply(lambda x: 'Baixo' if x < 3000 else 'Médio' if x <= 7000 else 'Alto')
display(df[['Nome', 'Salário', 'Categoria de Salário']])

Unnamed: 0,Nome,Salário,Categoria de Salário
0,Juan,9276.79,Alto
1,Isabelly,5865.925111,Médio
2,Cauê,3692.61,Médio
3,Theo,2092.81,Baixo
4,Pedro Miguel,5944.17,Médio
5,Emilly,3272.55,Médio
6,Valentina,5974.31,Médio
7,Laís,4802.08,Médio
8,Beatriz,8775.87,Alto
9,Olivia,5483.96,Médio


In [12]:
df['Desempenho Simplificado'] = df['Avaliação de Desempenho'].map(lambda x: 'Baixo' if x <= 3 else 'Médio' if x <= 7 else 'Alto' if pd.notnull(x) else 'Desconhecido')
display(df[['Nome', 'Desempenho Simplificado']])


Unnamed: 0,Nome,Desempenho Simplificado
0,Juan,Baixo
1,Isabelly,Médio
2,Cauê,Médio
3,Theo,Baixo
4,Pedro Miguel,Médio
5,Emilly,Baixo
6,Valentina,Alto
7,Laís,Baixo
8,Beatriz,Alto
9,Olivia,Baixo


In [13]:
df['idade_5mais'] = df['Idade'].map(lambda x: x+5)
display(df[['Nome','Idade','idade_5mais']])

Unnamed: 0,Nome,Idade,idade_5mais
0,Juan,42.0,47.0
1,Isabelly,65.0,70.0
2,Cauê,35.0,40.0
3,Theo,34.0,39.0
4,Pedro Miguel,47.0,52.0
5,Emilly,19.0,24.0
6,Valentina,62.0,67.0
7,Laís,30.0,35.0
8,Beatriz,23.0,28.0
9,Olivia,52.0,57.0


## 5. Análises e Métricas

Geração de insights, métricas de desempenho e visualizações.


In [146]:
df['salario_alto'] = df['Salário'].max()
nome_sal= df.query('Salário == salario_alto')[['Nome','Salário','Cargo']]
display(nome_sal)

Unnamed: 0,Nome,Salário,Cargo
23,João,9911.71,Cozinheira


In [147]:
quantidade = df.query('Departamento == "Marketing"').shape[0]
print(f'A quantidade de funcionários no departamento de Marketing é de:{quantidade}')

A quantidade de funcionários no departamento de Marketing é de:10


In [148]:
idade_media = df[['Idade','Departamento']].groupby('Departamento').mean()
display(round(idade_media),1)

Unnamed: 0_level_0,Idade
Departamento,Unnamed: 1_level_1
Financeiro,48.0
Marketing,42.0
Operações,43.0
RH,40.0
TI,45.0


1

In [149]:
idade_media = df[['Idade','Departamento']].groupby('Departamento').mean()
display(round(idade_media),1)

Unnamed: 0_level_0,Idade
Departamento,Unnamed: 1_level_1
Financeiro,48.0
Marketing,42.0
Operações,43.0
RH,40.0
TI,45.0


1

In [150]:
top_5_funcionarios = df.sort_values(by='Anos Trabalhados', ascending=False).head(5)
display(top_5_funcionarios[['Nome', 'Departamento', 'Anos Trabalhados']])

Unnamed: 0,Nome,Departamento,Anos Trabalhados
48,Fernanda,TI,5.906849
5,Emilly,RH,5.745205
33,Sabrina,Financeiro,5.739726
29,Alice,RH,5.706849
20,Isaac,Financeiro,5.69589


In [151]:
quantidade = df[df['Avaliação de Desempenho'] > 8].shape[0]
display(quantidade)

7

In [152]:
salario_total = df.groupby('Departamento')['Salário'].sum().reset_index()
display(round(salario_total),2)

Unnamed: 0,Departamento,Salário
0,Financeiro,42526.0
1,Marketing,66885.0
2,Operações,52667.0
3,RH,79870.0
4,TI,42171.0


2

In [153]:
top_5_jovens = df.sort_values(by='Idade', ascending=True).head(5)
display(top_5_jovens)

Unnamed: 0,ID,Nome,Idade,Salário,Cargo,Departamento,Data de Contratação,Avaliação de Desempenho,Tecnologia da Informação,Anos Trabalhados,Categoria de Salário,Desempenho Simplificado,idade_5mais,salario_alto
5,6,Emilly,19.0,3272.55,Ginecologista,RH,2020-05-28,3,RH,5.745205,Médio,Baixo,24.0,9911.71
37,38,Marcos Vinicius,21.0,4897.86,Ferroviário,RH,2021-03-08,6,RH,4.967123,Médio,Médio,26.0,9911.71
12,13,Pedro Miguel,23.0,2341.04,Moldureiro,RH,2022-11-29,1,RH,3.238356,Baixo,Baixo,28.0,9911.71
14,15,,23.0,3381.05,Bioquímico,RH,2024-07-25,5,RH,1.583562,Médio,Médio,28.0,9911.71
8,9,Beatriz,23.0,8775.87,Jogador de futebol,Marketing,2022-11-07,9,Marketing,3.29863,Alto,Alto,28.0,9911.71


In [154]:
sem_registro = df[df['Salário'].isna()]
display(sem_registro)

Unnamed: 0,ID,Nome,Idade,Salário,Cargo,Departamento,Data de Contratação,Avaliação de Desempenho,Tecnologia da Informação,Anos Trabalhados,Categoria de Salário,Desempenho Simplificado,idade_5mais,salario_alto


In [155]:
altos_salarios = len(df[df['Categoria de Salário'] == 'Alto'])
print(f"Existem {altos_salarios} funcionários na categoria de salário 'Alto'.")

Existem 14 funcionários na categoria de salário 'Alto'.


## 6. Exportação do Dataset Limpo

Salvar os dados limpos para uso futuro.


In [156]:
df_limpo = df.dropna()
df_limpo.to_csv('df_limpo.csv', index=False)
display(df_limpo)

Unnamed: 0,ID,Nome,Idade,Salário,Cargo,Departamento,Data de Contratação,Avaliação de Desempenho,Tecnologia da Informação,Anos Trabalhados,Categoria de Salário,Desempenho Simplificado,idade_5mais,salario_alto
0,1,Juan,42.0,9276.79,Florista,Financeiro,2024-03-01,3,Financeiro,1.983562,Alto,Baixo,47.0,9911.71
4,5,Pedro Miguel,47.0,5944.17,Neurocirurgião,RH,2024-06-06,6,RH,1.717808,Médio,Médio,52.0,9911.71
5,6,Emilly,19.0,3272.55,Ginecologista,RH,2020-05-28,3,RH,5.745205,Médio,Baixo,24.0,9911.71
6,7,Valentina,62.0,5974.31,Bedel,Financeiro,2022-01-20,9,Financeiro,4.09589,Médio,Alto,67.0,9911.71
7,8,Laís,30.0,4802.08,Lubrificador de máquinas,Operações,2024-05-25,3,Operações,1.750685,Médio,Baixo,35.0,9911.71
8,9,Beatriz,23.0,8775.87,Jogador de futebol,Marketing,2022-11-07,9,Marketing,3.29863,Alto,Alto,28.0,9911.71
12,13,Pedro Miguel,23.0,2341.04,Moldureiro,RH,2022-11-29,1,RH,3.238356,Baixo,Baixo,28.0,9911.71
13,14,Matheus,35.0,3789.4,Dublador,TI,2022-11-24,7,Tecnologia da Informação,3.252055,Médio,Médio,40.0,9911.71
19,20,Ana Sophia,33.0,6487.0,Cartunista,Financeiro,2024-01-03,6,Financeiro,2.142466,Médio,Médio,38.0,9911.71
21,22,Ana Sophia,41.0,6886.18,Balconista,RH,2020-06-30,2,RH,5.654795,Médio,Baixo,46.0,9911.71
