In [9]:
# Análise Exploratória Inicial


import pandas as pd

# Carregar dataset
df = pd.read_csv('funcionarios_empresa.csv')

# Primeiras linhas
print(df.head())

# Informações gerais
print(df.info())

# Estatísticas descritivas
print(df.describe())

# Ver colunas e tipos
print(df.dtypes)


   ID_Funcionario                Nome  Idade Departamento  \
0               1  Tatiane Mendes 001     40       Vendas   
1               2       Ana Silva 002     23    Marketing   
2               3    Rafael Alves 003     36           TI   
3               4     Carla Souza 004     32    Operações   
4               5     Pedro Costa 005     33   Financeiro   

                      Cargo  Salario  Tempo_Empresa_Meses Data_Admissao  \
0               Vendedor Jr  3685.36                    4    2025-05-18   
1  Coordenador de Marketing  8081.03                    1    2025-08-16   
2       Desenvolvedor Pleno  8491.98                    2    2025-07-17   
3      Gerente de Operações  9745.30                    9    2024-12-19   
4    Analista Financeiro Jr  3556.68                   63    2020-07-13   

      Nivel_Educacao Estado_Civil Tipo_Contrato  Avaliacao_Performance  \
0  Superior Completo    Casado(a)           CLT                    4.8   
1  Superior Completo  Solteiro(a) 

In [10]:
# Identificação de Valores Nulos


# Contagem de valores nulos
print(df.isnull().sum())

# Porcentagem de nulos
print((df.isnull().mean() * 100).round(2))

# Visualizar linhas com nulos (opcional)
df[df.isnull().any(axis=1)].head()


ID_Funcionario            0
Nome                      0
Idade                     0
Departamento              0
Cargo                     0
Salario                   0
Tempo_Empresa_Meses       0
Data_Admissao             0
Nivel_Educacao            5
Estado_Civil              0
Tipo_Contrato             0
Avaliacao_Performance    25
Horas_Extras_Mes          0
Beneficios               10
Faltas_Ultimo_Ano         0
Satisfacao_Trabalho      15
dtype: int64
ID_Funcionario           0.0
Nome                     0.0
Idade                    0.0
Departamento             0.0
Cargo                    0.0
Salario                  0.0
Tempo_Empresa_Meses      0.0
Data_Admissao            0.0
Nivel_Educacao           1.0
Estado_Civil             0.0
Tipo_Contrato            0.0
Avaliacao_Performance    5.0
Horas_Extras_Mes         0.0
Beneficios               2.0
Faltas_Ultimo_Ano        0.0
Satisfacao_Trabalho      3.0
dtype: float64


Unnamed: 0,ID_Funcionario,Nome,Idade,Departamento,Cargo,Salario,Tempo_Empresa_Meses,Data_Admissao,Nivel_Educacao,Estado_Civil,Tipo_Contrato,Avaliacao_Performance,Horas_Extras_Mes,Beneficios,Faltas_Ultimo_Ano,Satisfacao_Trabalho
6,7,João Santos 007,41,RH,Analista de RH Jr,2763.49,24,2023-09-26,Pós-graduação,Solteiro(a),CLT,,4,1238.09,2,5.6
10,11,Gustavo Moreira 011,35,RH,Analista de RH Pleno,4557.05,32,2023-01-29,Ensino Médio,Casado(a),CLT,4.4,15,1010.76,2,
21,22,Larissa Cardoso 022,36,Financeiro,Analista Financeiro Jr,4062.62,1,2025-08-16,Superior Completo,Divorciado(a),CLT,4.0,10,815.21,2,
23,24,Felipe Araújo 024,32,Financeiro,Contador,8152.92,3,2025-06-17,,Casado(a),PJ,4.2,5,894.21,0,4.7
28,29,Maria Oliveira 029,47,Vendas,Coordenador de Vendas,7422.14,10,2024-11-19,Superior Completo,Casado(a),CLT,,9,711.07,2,10.0


In [11]:
# Tratamento de Valores Nulos

# Separar colunas numéricas e categóricas
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

# Tratar nulos numéricos com mediana
for col in num_cols:
    mediana = df[col].median()
    df[col].fillna(mediana, inplace=True)

# Tratar nulos categóricos com moda
for col in cat_cols:
    moda = df[col].mode()[0]
    df[col].fillna(moda, inplace=True)

# Conferir novamente
print(df.isnull().sum())


ID_Funcionario           0
Nome                     0
Idade                    0
Departamento             0
Cargo                    0
Salario                  0
Tempo_Empresa_Meses      0
Data_Admissao            0
Nivel_Educacao           0
Estado_Civil             0
Tipo_Contrato            0
Avaliacao_Performance    0
Horas_Extras_Mes         0
Beneficios               0
Faltas_Ultimo_Ano        0
Satisfacao_Trabalho      0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mediana, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mediana, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as

In [12]:
# Detecção de Outliers

# Separar colunas numéricas e categóricas
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

# Tratar nulos numéricos com mediana
for col in num_cols:
    mediana = df[col].median()
    df[col].fillna(mediana, inplace=True)

# Tratar nulos categóricos com moda
for col in cat_cols:
    moda = df[col].mode()[0]
    df[col].fillna(moda, inplace=True)

# Conferir novamente
print(df.isnull().sum())


ID_Funcionario           0
Nome                     0
Idade                    0
Departamento             0
Cargo                    0
Salario                  0
Tempo_Empresa_Meses      0
Data_Admissao            0
Nivel_Educacao           0
Estado_Civil             0
Tipo_Contrato            0
Avaliacao_Performance    0
Horas_Extras_Mes         0
Beneficios               0
Faltas_Ultimo_Ano        0
Satisfacao_Trabalho      0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mediana, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mediana, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as

In [13]:
# Tratamento de Outliers

# Aplicar o "capping" nos outliers
for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    df[col] = df[col].clip(limite_inferior, limite_superior)


In [14]:
# Salvar dataset tratado

df.to_csv('funcionarios_empresa_tratado.csv', index=False)
