<a href="https://colab.research.google.com/github/Taimaraliz/BoostTech3/blob/main/documentacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Documentação final**

🚀 **Machine Learning Aplicado: HR Analytics Challenge**

📘** Descrição do Projeto**

Este projeto é parte do trabalho final da disciplina Machine Learning Aplicado, com foco na aplicação prática de técnicas de ciência de dados para resolução de um problema real de negócios no contexto de Recursos Humanos.

Fomos desafiados a construir um pipeline preditivo completo capaz de identificar colaboradores com alto risco de deixar a empresa (attrition), auxiliando o time de RH na tomada de decisões preventivas.

🏢 **Contexto do Problema**

A TechCorp Brasil, uma das maiores empresas de tecnologia do país, com mais de 50.000 funcionários, está enfrentando uma crise de alta rotatividade de colaboradores. Em apenas um ano, a taxa de attrition aumentou 35%, gerando um impacto financeiro de aproximadamente R$ 45 milhões.

Cada desligamento representa:

Custos diretos de demissão e substituição (cerca de 1,5x o salário anual);
Perda de conhecimento institucional;
Queda na produtividade e moral da equipe;
Atrasos em projetos críticos.
A empresa contratou um Cientista de Dados para desenvolver um sistema preditivo que identifique colaboradores com alto risco de saída, possibilitando ações estratégicas por parte do RH.

📊 **Geração do Dataset Sintético**

**Objetivo**

A função gerar_dataframe(qtd=50000, seed=42) foi desenvolvida com o objetivo de simular um conjunto de dados "realista" de funcionários de uma empresa, permitindo a construção e avaliação de modelos de machine learning para predição de rotatividade (churn). Este dataset simula aspectos demográficos, profissionais e comportamentais dos colaboradores.

**Estrutura da Função**

🔧 **Parâmetros**

Quantidade: Número de funcionários a serem gerados (default = 50.000).

seed: Valor da semente aleatória para garantir reprodutibilidade dos dados.

🔁 **Aleatoriedade Controlada**

np.random.seed(seed) e random.seed(seed) são utilizados para garantir que a geração dos dados seja determinística e repetível, gerando sempre os mesmos resultados para uma mesma seed.

🎯 **Variáveis Simuladas**

A função contempla atributos divididos em:

1. Demográficos

Gênero, Estado Civil, Idade,Cor/Raça, Nacionalidade / Naturalidade, Tipo de moradia,Estado/UF, Pessoa com Deficiência (PCD), Filhos

2. Acadêmico e Profissional

Área de Formação (com variações propositalmente inseridas, como "DS", "Cientista de Dados"), Departamento, Cargo, Anos na Empresa, Promoções,Faixa salarial, Treinamentos, Avaliação de Desempenho, Aumento salarial, Nível de opção de ação.

3. Satisfação e Comportamento

Satisfação com ambiente, trabalho, benefícios e relacionamento, Equilíbrio vida-trabalho, Pretensão de mudar de emprego, Viagem a trabalho, Histórico de afastamentos e atestados, Motivo da saída, Envolvimento no trabalho.

4. Variáveis-Alvo

Saiu da Empresa?: Target binária simulada com probabilidade controlada (16% de saída).
Atributos relacionados ao futuro do funcionário: "Pretende mudar", "Você se vê na empresa", etc.



🛠️ **Tratamento de Dados Intencionais**

Para refletir a realidade dos dados corporativos, foram simulados problemas comuns de qualidade de dados:
Valores nulos inseridos propositalmente em colunas estratégicas como salário e anos na empresa (~5%).
Valores negativos em colunas numéricas (~1%) para testar validação e limpeza de dados.
Outliers salariais adicionados em uma pequena fração dos dados (~0.1%).
Erros de codificação e inconsistência textual (ex: "Dev", "desenvolvedor", etc.) para testar normalização.
UFs inválidas (ex: "XX") foram adicionadas para testar validação geográfica.
Inconsistência de tempo de empresa x idade (ex: jovem com mais tempo de empresa do que idade real) — incluído para verificação de integridade.

🧹 **Tratamento de Dados: Imputação e Outliers**

O tratamento adequado dos dados é essencial para garantir a integridade das análises e a performance dos modelos de Machine Learning. Nesta etapa, foram abordadas imputações de valores ausentes, correção de outliers e verificações estatísticas.

📌 **Imputação de Dados Ausentes**

🔢 Colunas Numéricas

Para as colunas com valores numéricos ausentes, optou-se por usar medidas de tendência central, que são menos sensíveis a outliers:

```
df_funcionarios['Salário Mensal'].fillna(df_funcionarios['Salário Mensal'].median(), inplace=True)
df_funcionarios['Anos na Empresa'].fillna(df_funcionarios['Anos na Empresa'].median(), inplace=True)

```
Colunas Categóricas
Para atributos categóricos com valores ausentes, foi utilizada a moda, ou seja, o valor mais frequente, para preservar a distribuição natural dos dados categóricos.



📈 **Tratamento de Outliers em Salário**

Limitação por Intervalo Interquartil (IQR)

O método IQR (Interquartile Range) foi utilizado para limitar valores extremos;
Valores fora dos limites foram substituídos pelos próprios limites, garantindo que a distribuição se mantenha realista;
Estatísticas descritivas pós-tratamento.

Remoção de Outliers Severos por Desvio Padrão

Para garantir que valores extremos não mascarassem tendências gerais, também foi aplicado o método de 3 desvios padrão.

```
media = df_funcionarios['Salário Mensal'].mean()
desvio = df_funcionarios['Salário Mensal'].std()
limite_superior = media + 3 * desvio
df_funcionarios = df_funcionarios[df_funcionarios['Salário Mensal'] <= limite_superior]

```



🛠️ **Engenharia de Atributos (Feature Engineering)**

A engenharia de atributos é uma etapa essencial na preparação dos dados para análise e modelagem preditiva. Nesta seção, foram aplicadas várias transformações para criar variáveis mais interpretáveis e úteis, além de garantir a qualidade dos dados numéricos.

Criação de Variável Categórica: Idade Categoria
Para facilitar a análise por faixas etárias, a coluna Idade foi categorizada com pd.cut(), criando a nova coluna Idade Categoria.

A variável Saiu da Empresa?, que indica se o funcionário desligou-se da empresa, foi transformada com LabelEncoder().

📉 **Visualização da Distribuição por Faixa Etária**

Para avaliar o equilíbrio dos dados por categoria de idade, foi criado o gráfico. O gráfico mostra o número de funcionários por faixa etária, o que ajuda a identificar possíveis desbalanceamentos.

🧹 **Imputação de Valores Faltantes com Mediana**

Para evitar distorções provocadas por dados ausentes, foi realizada a imputação de valores nulos em colunas numéricas com a mediana, por serem robustas a outliers.Onde o código inclui validações para evitar erros caso as colunas estejam ausentes ou com todos os valores nulos.

**Análise de Outliers com Boxplots**

Por fim, foram plotados boxplots das variáveis numéricas para identificar a presença de outliers. O gráfico também lida com a ausência de dados válidos, mostrando uma mensagem caso não haja dados suficientes para plotar.

🔍 **Análise Exploratória de Dados (EDA)**

Foram realizadas análises visuais para investigar a variável-alvo Saiu da Empresa? e suas relações com outros atributos importantes, como salário, gênero e departamento. Isso é fundamental para identificar padrões, tendências e possíveis variáveis relevantes para predição de saída.

**Distribuição da Variável Alvo – Saiu da Empresa?**

O gráfico mostra a distribuição dos funcionários que saíram ou permaneceram na empresa. É útil para identificar se há desbalanceamento da variável-alvo (problema comum em modelos de classificação).
Um desbalanceamento significativo pode exigir técnicas de balanceamento como SMOTE, undersampling ou pesos personalizados.

💰 **Relação entre Salário Mensal e Saída da Empresa**

O boxplot compara a distribuição dos salários mensais entre funcionários que saíram ou permaneceram na empresa. Com ele é possível:
Identificar tendências salariais relacionadas à evasão;
Detectar outliers em cada grupo;
Avaliar se há indícios de que salários mais baixos estão associados à saída da empresa.
Caso haja uma diferença clara, o salário pode ser uma variável preditora importante no modelo.

🚻 **Análise de Saída da Empresa por Gênero**

```
sns.countplot(data=df_funcionarios, x='Gênero_plot', hue='Saiu da Empresa?')
```
Neste gráfico, é avaliado se a taxa de saída difere entre gêneros. O uso do parâmetro hue='Saiu da Empresa?' permite visualizar a proporção de evasão dentro de cada grupo de gênero.
Esta análise ajuda a identificar possíveis disparidades ou desigualdades que devem ser investigadas ou monitoradas pela área de RH.

**Saída da Empresa por Departamento (Gráfico Interativo - Plotly)**

O histograma interativo exibe a quantidade de funcionários que saíram ou permaneceram em cada departamento.
Com ele é possível:
Verificar departamentos com alta rotatividade;
Avaliar áreas com maior retenção de talentos;
Interagir com o gráfico para analisar detalhes, valores e distribuições específicas.
Pode indicar áreas que necessitam de intervenções estratégicas para retenção.

**Machine Learning**

Como etapa final, criamos uma pipeline completo de Machine Learning aplicado a dados de RH, com o objetivo de prever a probabilidade de um funcionário sair da empresa (problema de classificação binária).
**Modelagem Preditiva – Churn de Funcionários**
Carregamento e Geração de Dados

**Pré-processamento de Dados**

Separação entre colunas numéricas e categóricas
Permite aplicar transformações específicas para cada tipo de variável.

Tratamento de valores nulos
Numéricas: preenchidas com a mediana;

Categóricas: preenchidas com a moda (valor mais frequente).

Correção de valores negativos
Transforma qualquer valor negativo em positivo, assumindo que são erros de digitação ou geração.

Codificação da variável-alvo
Transforma a coluna 'Saiu da Empresa?' em 0 = Não e 1 = Sim.
Preparação de variáveis independentes (X) e dependente (y)
One-Hot Encoding para variáveis categóricas
Transforma categorias em colunas binárias para alimentar o modelo.

**Divisão de Treino/Teste com Estratificação**

```
train_test_split(... stratify=y ...)
```
Com a estratificação tentamos garanti que a proporção de evasões seja mantida nas amostras de treino e teste.

SMOTE: Balanceamento de classes via oversampling sintético;

StandardScaler: Normalização das variáveis numéricas;

RandomForestClassifier: Algoritmo de classificação robusto e interpretável.


**Treinamento do Modelo**

O modelo aprende os padrões dos dados de treino após aplicar balanceamento e escalonamento

```
pipeline.fit(X_train, y_train)
```
**Avaliação do Modelo**

São exibidas as métricas:

Precision: Quantos dos preditos como evasão realmente saíram;
Recall: Quantos dos que saíram foram corretamente identificados;
F1-score: Harmonia entre precision e recall;
AUC-ROC: Capacidade do modelo em distinguir entre as classes.

**Interpretabilidade**

SHAP (SHapley Additive exPlanations) explica a importância de cada variável para a previsão de saída do funcionário:
Visualização da contribuição de cada feature;
Identificação de quais variáveis mais influenciam a evasão.

**Visualização: Probabilidade Média de Saída por Departamento**

Foi gerado um gráfico interativo em Plotly que mostra:
Quais departamentos têm maior risco médio de saída;
Possível identificação de setores problemáticos para estratégias de retenção.

 **Resultado Final do pipeline**
O pipeline apresentado abrange todas as etapas críticas, tais como:
Geração e limpeza de dados;
Engenharia de atributos e codificação;
Balanceamento de classes e escalonamento;
Treinamento e avaliação;
Explicação do modelo;
Visualização de insights para o RH.

🔚 **Conclusão**

Neste projeto, procuramos usar técnicas de ciência de dados para prever quais funcionários podem sair da empresa. Criamos um conjunto de dados sintético, tratamos problemas como valores nulos e negativos, e aplicamos um modelo de Machine Learning com Random Forest, usando também o SMOTE para equilibrar os dados.

Os resultados mostraram que o modelo teve bom desempenho, e com a ajuda do SHAP conseguimos entender melhor os fatores que influenciam a saída dos funcionários. Também visualizamos quais departamentos têm maior risco de perda de talentos, o que pode ajudar na tomada de decisões do RH.