**Aula Prática:** Coleta de dados

##### Primeiro passo: Coletar os dados

Os dados foram obtidos pela plataforma [Kaggle](https://www.kaggle.com/datasets/tawfikelmetwally/employee-dataset).

Este conjunto de dados contém informações sobre funcionários de uma empresa, incluindo: Formação acadêmica, Histórico de trabalho, Dados demográficos, Fatores relacionados ao emprego.

Com essa base é possível analisar fatores que influenciam a rotatividade de funcionários.

Objetivo: **Classificação (predição) se um funcionário se mantém ou não no trabalho**

In [None]:
import pandas as pd

# Lendo o arquivo CSV principal
df = pd.read_csv("../dados/dados_origem.csv", sep = ",")

# Visualizando as primeiras linhas
df.head()

Com base na descrição fornecida pelo autor, vou renomear as colunas para facilitar o entendimento.

1. Education: Formação acadêmica do funcionário
2. Joining Year: Ano em que o funcionário entrou na empresa (tempo de serviço)
3. City: Cidade onde o funcionário está alocado/trabalha
4. Payment Tier: Nível salarial do funcionário
5. Age: Idade do funcionário
6. Gender: Gênero do funcionário
7. Ever Benched: Indica se o funcionário já ficou sem tarefas atribuídas ("encostado")
8. Experience in Current Domain: Anos de experiência no campo de atuação atual
9. Leave or Not (Target): Indica se o funcionário deixou a empresa (1 = Sim, 0 = Não)

In [None]:
# Dicionário de mapeamento (inglês para português simplificado)
mapeamento_colunas = {
    'Education': 'Formacao_Academica',
    'JoiningYear': 'Ano_Admissao',
    'City': 'Cidade',
    'PaymentTier': 'Nivel_Salarial',
    'Age': 'Idade',
    'Gender': 'Genero',
    'EverBenched': 'Ficou_Sem_Tarefas',
    'ExperienceInCurrentDomain': 'Experiencia_Area',
    'LeaveOrNot': 'Deixou_Empresa'
}

# Renomear as colunas
df = df.rename(columns=mapeamento_colunas)

# Verificar o resultado
df.head()

Agora 1 variável será removidas do estudo:
- Cidade pois faremos uma análise mais simples sem considerar a cidade que o funcionário vive

In [None]:
# REMOVER Cidade
df = df.drop(columns=['Cidade'])

# Verificar o resultado
df.head()

##### Segundo passo: Fazer algumas análises

Existe dados faltantes na minha base de dados?

In [None]:
dados_faltantes = df.isna().sum()

# Mostrar o resultado
print("Dados faltantes por coluna:")
print(dados_faltantes)

In [None]:
# Também podemos verificar o tipo de dado de cada coluna
df.info()

Quaal a quantidade de funcionários que deixou a empresa (variável resposta)?

In [None]:
df['Deixou_Empresa'].value_counts()

Qual a distribuição de funcionários por formação acadêmica?

In [None]:
df['Formacao_Academica'].value_counts()

In [None]:
df['Genero'].value_counts()

In [None]:
df['Nivel_Salarial'].value_counts()

In [None]:
df['Experiencia_Area'].value_counts()

Qual a  média de idade por formação acadêmica?

In [None]:
# Calcular a média de idade por formação
media_idade = df.groupby('Formacao_Academica')['Idade'].mean().reset_index()

# Formatando a saída (opcional)
media_idade.columns = ['Formação Acadêmica', 'Idade']
print(media_idade)

Se quiser gerar uma análise gráfica dessas informações:

In [None]:
# Importar biblioteca de visualização de dados
import matplotlib.pyplot as plt

# Contar a quantidade de funcionários por situação (deixou a empresa)
contagem_funcionario = df['Deixou_Empresa'].value_counts()

# Criar o gráfico de barras
plt.figure(figsize=(5, 3))
contagem_funcionario.plot(kind='bar', color='purple')
plt.show()

**Muito Importante**! Algumas variáveis são do tipo "object". Precisaremos fazer uma transformação para a representação numérica antes de executar uma técnica de Aprendizado de Máquina

In [None]:
# Importar método de transformar automaticamento
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
df['Formacao_Academica'] = encoder.fit_transform(df['Formacao_Academica'])

#Exemplo de como recuperar o mapeamento feito pelo método LabelEncoder()
mapeamento_formacao = dict(zip(encoder.classes_, encoder.transform(encoder.classes_)))
print("Mapeamento para 'Formação Academica':", mapeamento_formacao)

In [None]:
df['Genero'] = encoder.fit_transform(df['Genero'])

In [None]:
df['Ficou_Sem_Tarefas'] = encoder.fit_transform(df['Ficou_Sem_Tarefas'])

In [None]:
df.head()

In [None]:
# Verificar se todas as variáveis são numéricas
df.dtypes

Agora vamos salvar a nossa base de dados limpa:

In [None]:
#Salvar o DataFrame transformado em um arquivo CSV

caminho_arquivo = '../dados/dados_transformados.csv'
df.to_csv(caminho_arquivo, index=False, encoding='utf-8-sig')

print(f"DataFrame salvo com sucesso em: {caminho_arquivo}")