# MVP - Processo Seletivo de P√≥s-Gradua√ß√£o PUC-Rio
## Predi√ß√£o de Aprova√ß√£o de Candidatos usando Machine Learning

**Autor:** Ricardo Fernandes de Almeida
**Data:** Setembro 2025
**Disciplina:** Especializa√ß√£o em Ci√™ncia de Dados - PUC Rio

---

## Resumo

Este projeto implementa uma solu√ß√£o de machine learning para predizer a aprova√ß√£o de candidatos no processo seletivo de p√≥s-gradua√ß√£o da PUC-Rio. O problema √© modelado como uma tarefa de **classifica√ß√£o bin√°ria**, onde o objetivo √© prever se um candidato ser√° aprovado ou rejeitado com base em suas caracter√≠sticas acad√™micas e socioecon√¥micas.

### Objetivos:
1. Desenvolver modelos preditivos para classifica√ß√£o de candidatos
2. Identificar os fatores mais relevantes para aprova√ß√£o
3. Implementar pipeline completo de ML seguindo melhores pr√°ticas
4. Avaliar e comparar diferentes algoritmos de classifica√ß√£o

In [None]:
# Configura√ß√£o inicial e importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime
import time
import os
import sys

# Machine Learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.feature_selection import SelectKBest, f_classif, RFE
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score, 
                           roc_auc_score, classification_report, confusion_matrix, roc_curve)
from sklearn.pipeline import Pipeline

# Algoritmos de ML
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.dummy import DummyClassifier

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_style("whitegrid")

# Configura√ß√£o para reprodutibilidade
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

print(f"Python version: {sys.version}")
print(f"Pandas version: {pd.__version__}")
print(f"Scikit-learn version: {__import__('sklearn').__version__}")
print(f"Data de execu√ß√£o: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("-" * 50)

### üìö **Primeira etapa: Preparando o Ambiente de Trabalho**

**Iniciando!** Configuramos todo o ambiente necess√°rio para resolver o problema de predi√ß√£o de aprova√ß√£o de candidatos.

**üîß Ferramentas Importadas:**
- **Pandas e Numpy**: manipula√ß√£o de dados
- **Matplotlib e Seaborn**: visualizar padr√µes
- **Scikit-learn**: biblioteca mais popular de Machine Learning em Python
- **7 Algoritmos ML**: algoritmos de Machine learning

**üéØ Decis√µes Importantes:**
1. **RANDOM_STATE = 42**: Garantimos reprodutibilidade - qualquer pessoa pode replicar nossos resultados exatos
2. **Warnings desabilitados**: Foco nos resultados sem polui√ß√£o visual
3. **Figuras padronizadas**: Visualiza√ß√µes consistentes e profissionais

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora que nosso ambiente est√° pronto, vamos conhecer nosso problema e carregar os dados dos candidatos!

### üìö **Segunda etapa: Preparando o Ambiente de Desenvolvimento**

**Iniciando!** Acabamos de configurar todo o ambiente necess√°rio para resolver o problema de predi√ß√£o de aprova√ß√£o de candidatos.

**üîß Ferramentas Importadas:**
- **Pandas e Numpy**:  manipula√ß√£o de dados
- **Matplotlib e Seaborn**:  visualizar padr√µes
- **Scikit-learn**: framework de  de Machine Learning em python
- **7 Algoritmos ML**:Algoritmos

**üéØ Decis√µes Importantes:**
1. **RANDOM_STATE = 42**: Garantimos reprodutibilidade - qualquer pessoa pode replicar nossos resultados exatos
2. **Warnings desabilitados**: Foco nos resultados sem polui√ß√£o visual
3. **Figuras padronizadas**: Visualiza√ß√µes consistentes e profissionais

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** carregar os dados dos candidatos!

## 1. Defini√ß√£o do Problema

### 1.1 Descri√ß√£o do Problema

O **Processo Seletivo de P√≥s-Gradua√ß√£o da PUC-Rio** √© um processo competitivo para admiss√£o de mestrandos e doutorandos. Este projeto visa desenvolver um sistema de machine learning capaz de **predizer a aprova√ß√£o de candidatos** com base em seus perfis acad√™micos e socioecon√¥micos.

**Tipo de Problema:** Classifica√ß√£o Bin√°ria Supervisionada
- **Vari√°vel Alvo:** Aprovado (1) vs. Rejeitado (0)
- **Dom√≠nio:** Dados Tabulares - Perfil de Candidatos

### 1.2 Fonte dos Dados

Os dados utilizados neste projeto s√£o **sint√©ticos**, gerados especificamente para demonstra√ß√£o do MVP de Machine Learning. O dataset √© criado pelo m√≥dulo `dataset_generator.py`, mas foi preciso colocar o arquivo gerado por ele chamado dataset_processo_seletivo.csv no ambiente do github para ser carregado via c√≥digo python, que simula:

**üìä Features Acad√™micas:**
- Nota da gradua√ß√£o (5.0 - 10.0)
- Experi√™ncia profissional (0-15 anos)
- N√∫mero de publica√ß√µes cient√≠ficas
- Projetos de pesquisa
- Pontua√ß√£o na prova (30-100)
- Pontua√ß√£o na entrevista (40-100)

**üèõÔ∏è Features Categ√≥ricas:**
- Programa de p√≥s-gradua√ß√£o
- N√≠vel pretendido (Mestrado/Doutorado)
- Tipo de institui√ß√£o de origem
- Regi√£o de origem
- Modalidade de candidatura

**üë• Features Socioecon√¥micas:**
- Idade (22-45 anos)
- Renda familiar
- N√≠vel de ingl√™s

**üéØ L√≥gica de Aprova√ß√£o:**
O target √© gerado usando uma fun√ß√£o que combina m√∫ltiplos fatores com pesos diferentes, simulando crit√©rios realistas de sele√ß√£o.

### üìÇ **O que foi feito: Carregando Nossa Base de Conhecimento**

**Iniciando!** Este dataset sint√©tico foi cuidadosamente criado para simular situa√ß√µes reais de sele√ß√£o acad√™mica.

**üé≠ Por que Dados Sint√©ticos?**
- **Privacidade**: Protegemos informa√ß√µes pessoais reais
- **Controle**: Conhecemos exatamente como o target foi gerado
- **Did√°tico**: Podemos explicar cada padr√£o encontrado
- **√âtico**: Evitamos vieses de dados reais sens√≠veis

**üîç O que Nosso Dataset Representa:**
Cada linha √© um candidato que almeja uma p√≥s-gradua√ß√£o, cada coluna reflete: suas notas, experi√™ncia, origem social, aspira√ß√µes acad√™micas. √â como ter 2000 curr√≠culos estruturados esperando por uma an√°lise justa e baseada em dados.

**üéØ Estrat√©gia Inteligente:**
Usamos a fun√ß√£o `carregar_dataset()` que automaticamente:
- Carrega o arquivo CSV se existir
- Gera novos dados se necess√°rio  
- Valida a integridade dos dados

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos conhecer nossos candidatos atrav√©s de uma an√°lise explorat√≥ria detalhada!

### üìä **O que ser√° feito: An√°lise dos Candidatos**

**üéØ Descobertas Chave:**
- **Taxa de Aprova√ß√£o ~38.75%**: Processo seletivo realista, nem muito f√°cil nem imposs√≠vel
- **70% Mestrado vs 30% Doutorado**: Maioria busca primeiro degrau da p√≥s-gradua√ß√£o
- **Distribui√ß√£o Geogr√°fica**: Sudeste lidera, refletindo concentra√ß√£o acad√™mica real ou hipot√©tica, uma distribui√ß√£o mais ampla seria necess√°rio contempando putrso estados da federa√ß√£o
- **Diversidade Institucional**: Mix equilibrado entre universidades p√∫blicas, privadas e federais

**üè• Diagn√≥stico de Sa√∫de dos Dados:**
‚úÖ **Zero valores ausentes**: Dataset "clinicamente limpo"
‚úÖ **Zero duplicatas**: Cada candidato √© √∫nico
‚úÖ **Balanceamento aceit√°vel**: ~39% aprovados vs ~61% rejeitados (n√£o extremo)

**üî¨ Por que Isso Importa:**
Este balanceamento √© **perfeito para ML**! Se fosse 95% rejeitados, nosso modelo seria viciado. Se fosse 50-50, seria artificial demais. Nossa taxa de ~39% aprova√ß√£o simula um processo seletivo competitivo mas justo.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos fazer uma varredura completa para garantir que nossos dados est√£o prontos para a an√°lise de Machine Learning!

### üß™ **O que foi feito: Varredura no DataSet**

Nosso dataset passou em todos os testes de qualidade como um candidato excepcional passaria em uma prova rigorosa. Implementamos uma **bateria de testes automatizados**.

**‚úÖ Testes Realizados e Resultados:**
1. **Teste de Integridade**: Zero valores ausentes - dados completos!
2. **Teste de Target**: Vari√°vel bin√°ria perfeita (0 e 1) - classifica√ß√£o v√°lida!
3. **Teste de Balanceamento**: Ratio > 0.2 - evita modelos viciados!
4. **Teste de Diversidade**: Features mistas (num√©ricas + categ√≥ricas) - riqueza informacional!

**üèÜ Por que Esta Valida√ß√£o √© Crucial:**
- **Evita Surpresas**: Detecta problemas antes do treinamento
- **Economia de Tempo**: Falhas custam horas de debugging posterior
- **Confian√ßa**: Sabemos que nossos resultados s√£o baseados em dados s√≥lidos
- **Reprodutibilidade**: Qualquer pessoa pode validar nossa metodologia

**üéì Li√ß√£o de ML:**
"*Garbage In, Garbage Out*" - A qualidade dos dados determina o sucesso do modelo. Investir tempo na valida√ß√£o inicial √© como construir uma funda√ß√£o s√≥lida para uma casa.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com dados validados, vamos entrar na An√°lise Explorat√≥ria para descobrir quais padr√µes dos candidatos!

In [None]:
# Carregamento do dataset do processo seletivo
from dataset_generator import carregar_dataset

print("üìÇ CARREGAMENTO DO DATASET")
print("="*50)

# Carregar dataset (se n√£o existir, ser√° gerado automaticamente)
df_candidatos = carregar_dataset('dataset_processo_seletivo.csv')

print(f"\nüìã PRIMEIRAS 5 LINHAS:")
df_candidatos.head()

### üìÇ **O que foi feito : Carregando Nossa Base de Dados**

Foi carregado  2000 candidatos para o processo seletivo da PUC-Rio. Este dataset sint√©tico foi cuidadosamente criado para simular situa√ß√µes reais de sele√ß√£o acad√™mica.

**üé≠ Por que Dados Sint√©ticos?**
- **Privacidade**: Protegemos informa√ß√µes pessoais reais
- **Controle**: Conhecemos exatamente como o target foi gerado
- **Did√°tico**: Podemos explicar cada padr√£o encontrado
- **√âtico**: Evitamos vieses de dados reais sens√≠veis

**üîç O que Nosso Dataset Representa:**
Cada linha √© um candidato que almeja uma p√≥s-gradua√ß√£o, cada coluna contempla: suas notas, experi√™ncia, origem social, aspira√ß√µes acad√™micas. √â como ter 2000 curr√≠culos estruturados esperando por uma an√°lise justa e baseada em dados.

**üéØ Estrat√©gia Inteligente:**
Usamos a fun√ß√£o `carregar_dataset()` que automaticamente:
- Carrega o arquivo CSV se existir
- Gera novos dados se necess√°rio  
- Valida a integridade dos dados

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos conhecer os nossos candidatos atrav√©s de uma an√°lise explorat√≥ria detalhada!

### üìä **O que foi feito: Raio-X Estat√≠stico dos Candidatos**

**üîç Insights Estat√≠sticos Principais:**
- **Notas de Gradua√ß√£o**: M√©dia ~8.2 (candidatos j√° pr√©-selecionados pela qualidade)
- **Experi√™ncia Profissional**: Varia√ß√£o 0-15 anos (desde rec√©m-formados at√© experientes)
- **Publica√ß√µes**: Distribui√ß√£o Poisson (realista - alguns t√™m muitas, maioria tem poucas)
- **Pontua√ß√µes**: Provas ~75, Entrevistas ~80 (entrevistas ligeiramente mais altas)

**üéØ Por que o `.info()` √© Nosso Melhor Amigo:**
- **Memory Usage**: ~203KB (dataset eficiente, cabe na RAM facilmente)
- **Dtypes**: Mix perfeito de int, float e object (dados ricos e variados)
- **Non-Null Count**: 2000 em todas - confirma√ß√£o de integridade total

**üìà Significado das Estat√≠sticas Descritivas:**
O `.describe()` nos mostra que nossos dados t√™m **distribui√ß√µes real√≠sticas**: n√£o h√° valores absurdos, as m√©dias fazem sentido para um processo seletivo acad√™mico, e a variabilidade sugere candidatos genuinamente diversos.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos visualizar esses n√∫meros! As visualiza√ß√µes transformar√£o essas estat√≠sticas de n√∫meros para um modo visual atrav√©s de gr√°ficos.

### üéØ **O que foi feito: Uma Sele√ß√£o Acad√™mica**

**Primeira hist√≥ria visual contada!** Nossos gr√°ficos revelaram a **distribui√ß√£o fundamental** do nosso problema de Machine Learning. √â como olhar para uma fotografia que captura a ess√™ncia de um processo seletivo competitivo.

**üìä Interpreta√ß√£o dos Gr√°ficos:**
- **Gr√°fico de Barras**: Mostra a "frieza dos n√∫meros" - mais rejeitados que aprovados
- **Gr√°fico de Pizza**: Revela a "propor√ß√£o visual" - ~61% vs ~39%
- **Cores Escolhidas**: Vermelho (rejei√ß√£o) vs Verde-azulado (aprova√ß√£o) - psicologia visual intuitiva

**üéØ Por que Esta Distribui√ß√£o √© Ideal para ML:**
1. **N√£o √© extremamente desbalanceada** (evita vi√©s do modelo)
2. **Reflete realidade acad√™mica** (processos seletivos s√£o competitivos)
3. **Permite aprendizado** (classes minorit√°rias ainda t√™m representa√ß√£o significativa)
4. **M√©tricas confi√°veis** (F1-Score ser√° mais informativo que Accuracy)

**üß† Insight Psicol√≥gico:**
Esta distribui√ß√£o conta a hist√≥ria de **candidados almejando uma p√≥s gradua√ß√£o**: para cada candidato aprovado, h√° ~1.6 que n√£o conseguiu. √â exatamente isso que nosso modelo precisa aprender - distinguir entre perfis aprovados e rejeitados de forma justa e precisa.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos entrar nas distribui√ß√µes das features individuais para entender o perfil de cada vari√°vel preditora!

### üìà **O que Descobrifoi feito : A Descri√ß√£o de Cada Vari√°vel**

 Cada histograma conta a hist√≥ria √∫nica de uma caracter√≠stica dos candidatos. √â como ter 7 "impress√µes digitais" diferentes que nosso modelo usar√° para fazer predi√ß√µes.

**üîç An√°lise Individual das Distribui√ß√µes:**

**üìö Nota Gradua√ß√£o**: Distribui√ß√£o normal ligeiramente enviesada para a direita - maioria dos candidatos s√£o bons alunos (faz sentido para p√≥s-gradua√ß√£o!)

**üíº Experi√™ncia Profissional**: Distribui√ß√£o uniforme 0-15 anos - mix saud√°vel de rec√©m-formados e profissionais experientes

**üìÑ Publica√ß√µes**: Distribui√ß√£o Poisson cl√°ssica - muitos com poucas/nenhuma, poucos com muitas (real√≠stico!)

**üî¨ Projetos Pesquisa**: Similar a publica√ß√µes, refletindo que pesquisa acad√™mica √© concentrada

**üìù Pontua√ß√£o Prova**: Normal centrada em 75 - provas padronizadas com distribui√ß√£o esperada

**üó£Ô∏è Pontua√ß√£o Entrevista**: Normal centrada em 80 - entrevistadores tendem a ser mais "generosos"

**üë• Idade**: Distribui√ß√£o uniforme 22-45 - diversidade et√°ria interessante na p√≥s-gradua√ß√£o

**üéØ Import√¢ncia para Machine Learning:**
Cada distribui√ß√£o √∫nica oferece "informa√ß√£o discriminativa" diferente. Nosso modelo combinar√° essas 7 caracter√≠sticas para criar um perfil √∫nico de cada candidato.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com o "retrato" completo dos dados, vamos prepar√°-los para o Machine Learning atrav√©s de limpeza e engenharia de features!

In [None]:
# Informa√ß√µes detalhadas do dataset carregado
print("üìä INFORMA√á√ïES DETALHADAS DO DATASET")
print("="*50)

print(f"üìè Dimens√µes: {df_candidatos.shape}")
print(f"üéØ Taxa de aprova√ß√£o: {df_candidatos['aprovado'].mean():.2%}")

print(f"\nüìä DISTRIBUI√á√ÉO POR PROGRAMA:")
programa_dist = df_candidatos['programa'].value_counts()
for programa, count in programa_dist.items():
    print(f"   ‚Ä¢ {programa}: {count} ({count/len(df_candidatos)*100:.1f}%)")

print(f"\nüéì DISTRIBUI√á√ÉO POR N√çVEL:")
nivel_dist = df_candidatos['nivel_pretendido'].value_counts()
for nivel, count in nivel_dist.items():
    print(f"   ‚Ä¢ {nivel}: {count} ({count/len(df_candidatos)*100:.1f}%)")

print(f"\nüèõÔ∏è DISTRIBUI√á√ÉO POR TIPO DE INSTITUI√á√ÉO:")
inst_dist = df_candidatos['tipo_instituicao_origem'].value_counts()
for tipo, count in inst_dist.items():
    print(f"   ‚Ä¢ {tipo}: {count} ({count/len(df_candidatos)*100:.1f}%)")

# Verificar qualidade dos dados
print(f"\n‚úÖ QUALIDADE DOS DADOS:")
print(f"   ‚Ä¢ Valores ausentes: {df_candidatos.isnull().sum().sum()}")
print(f"   ‚Ä¢ Duplicatas: {df_candidatos.duplicated().sum()}")
print(f"   ‚Ä¢ Tipos de dados: {len(df_candidatos.dtypes.unique())} tipos diferentes")

print(f"\nüéØ ESTAT√çSTICAS DA VARI√ÅVEL TARGET:")
target_stats = df_candidatos['aprovado'].value_counts()
print(f"   ‚Ä¢ Rejeitados (0): {target_stats[0]} ({target_stats[0]/len(df_candidatos)*100:.1f}%)")
print(f"   ‚Ä¢ Aprovados (1): {target_stats[1]} ({target_stats[1]/len(df_candidatos)*100:.1f}%)")
balanceamento = min(target_stats) / max(target_stats)
print(f"   ‚Ä¢ Balanceamento: {balanceamento:.2f} (0=desbal., 1=perfeitamente bal.)")

### üßπ **O que foi feito: Limpeza dos Dados**

**Limpeza conclu√≠da!** Realizamos uma "higieniza√ß√£o" completa dos dados. Cada passo foi cuidadosamente planejado para preservar a qualidade informacional.

**üîç Processo de Limpeza Detalhado:**
1. **C√≥pia Segura**: Preservamos dados originais (backup autom√°tico)
2. **Auditoria de Valores Ausentes**: Zero encontrados - dados j√° "limpos de f√°brica"
3. **Ca√ßa √†s Duplicatas**: Zero encontrados - cada candidato √© √∫nico
4. **Valida√ß√£o Final**: Mantivemos todas as 2000 amostras √≠ntegras

**üéØ Por que Esta Etapa √© Fundamental:**
- **Valores Ausentes** corrompem algoritmos ML (causam erros ou vi√©s)
- **Duplicatas** inflacionam artificialmente padr√µes (overfitting)
- **C√≥pia Defensiva** permite rollback se necess√°rio
- **Documenta√ß√£o** de cada passo garante transpar√™ncia

**‚úÖ Resultado da Limpeza:**
- **Shape Preservado**: 2000 √ó 15 (nenhuma perda de informa√ß√£o)
- **Qualidade Certificada**: Dados prontos para transforma√ß√µes
- **Confian√ßa M√°xima**: Base s√≥lida para pr√≥ximas etapas

**üß† Filosofia de Data Science:**
"*Clean data is happy data*" - Dados limpos s√£o a base de modelos confi√°veis. √â melhor gastar tempo limpando agora do que debugando erros misteriosos depois.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com dados limpos, vamos criar novas features inteligentes que ajudar√£o nosso modelo a "ver" padr√µes mais complexos!

### ‚öôÔ∏è **O que foi feito: Engenharia de Features**

Acabamos de atuar como "arquitetos de informa√ß√£o", criando 7 novas features derivadas que podem revelar padr√µes ocultos nos dados originais.

**üèóÔ∏è Novas Features Criadas e Suas Hist√≥rias:**

**üìä `pontuacao_media`**: Combina prova + entrevista
- *Filosofia*: Performance acad√™mica geral mais robusta que medidas individuais

**üéØ `produtividade_academica`**: (Publica√ß√µes√ó2 + Projetos) / (Experi√™ncia + 1)
- *Filosofia*: Mede "efici√™ncia de pesquisa" - qu√£o produtivo √© o candidato por ano de experi√™ncia

**‚≠ê `score_desempenho`**: Weighted average de notas e pontua√ß√µes
- *Filosofia*: "√çndice de Excel√™ncia" que o comit√™ de sele√ß√£o mentalmente calcula

**üí∞ `log_renda_familiar`**: Transforma√ß√£o logar√≠tmica da renda
- *Filosofia*: Normaliza distribui√ß√£o assim√©trica (R$1K‚Üí10K √© diferente de R$10K‚Üí20K)

**üî¢ Features Bin√°rias** (`tem_publicacoes`, `tem_projetos`, `experiencia_alta`):
- *Filosofia*: √Äs vezes "ter ou n√£o ter" √© mais importante que "quanto"

**üß† Por que Feature Engineering √© M√°gica:**
- **Exp√µe Rela√ß√µes**: Combina informa√ß√µes de formas que algoritmos ML "entendem" melhor
- **Reduz Complexidade**: Transforma√ß√µes tornam padr√µes mais evidentes
- **Imita Cogni√ß√£o Humana**: Como avaliadores humanos processam informa√ß√µes

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos transformar vari√°veis categ√≥ricas em formato num√©rico que nossos algoritmos conseguem processar!

### üè∑Ô∏è **O que foi feito : Transformamos features para N√∫meros**

Convertemos informa√ß√µes categ√≥ricas (palavras) em linguagem num√©rica que algoritmos ML compreendem. 

**üîÑ Transforma√ß√£o Realizada - One-Hot Encoding:**
- **Entrada**: 6 colunas categ√≥ricas (programa, n√≠vel, institui√ß√£o, regi√£o, modalidade, ingl√™s)
- **Sa√≠da**: Expans√£o para m√∫ltiplas colunas bin√°rias (0 ou 1)
- **Resultado**: Dataset cresce de 15 para 37 features!

**üéØ Por que One-Hot Encoding √© Genial:**
1. **Sem Hierarquia Artificial**: "Engenharia Civil" n√£o √© "maior" que "F√≠sica"
2. **Informa√ß√£o Preservada**: Cada categoria mant√©m sua identidade √∫nica
3. **ML-Friendly**: Algoritmos trabalham perfeitamente com 0s e 1s
4. **Evita Vi√©s**: N√£o cria ordena√ß√£o falsa entre categorias

**üìä Impacto na Dimensionalidade:**
- **Features Originais**: 15 ‚Üí **Features Finais**: 37
- **Crescimento Controlado**: Expans√£o necess√°ria mas n√£o explosiva
- **Informa√ß√£o Rica**: Agora temos granularidade m√°xima de cada categoria

**üé™ Separa√ß√£o X vs y:**
- **X (Features)**: 37 colunas preditoras - nossa "caixa de ferramentas"
- **y (Target)**: 1 coluna bin√°ria - nosso "objetivo a atingir"
- **Distribui√ß√£o Preservada**: Target mant√©m propor√ß√£o original 39% aprovados

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com dados num√©ricos puros, vamos dividir estrategicamente em conjuntos de treino, valida√ß√£o e teste!

In [None]:
# Teste r√°pido: Verificar se o dataset est√° pronto para ML
print("üß™ TESTES DE VALIDA√á√ÉO DO DATASET")
print("="*50)

# Teste 1: Verificar se n√£o h√° valores ausentes cr√≠ticos
valores_ausentes = df_candidatos.isnull().sum().sum()
print(f"‚úÖ Teste 1 - Valores ausentes: {valores_ausentes} {'‚úì PASSOU' if valores_ausentes == 0 else '‚ùå FALHOU'}")

# Teste 2: Verificar se a vari√°vel target existe e √© bin√°ria
target_unique = df_candidatos['aprovado'].unique()
target_ok = len(target_unique) == 2 and set(target_unique) == {0, 1}
print(f"‚úÖ Teste 2 - Target bin√°rio: {target_unique} {'‚úì PASSOU' if target_ok else '‚ùå FALHOU'}")

# Teste 3: Verificar balanceamento m√≠nimo (n√£o extremamente desbalanceado)
target_counts = df_candidatos['aprovado'].value_counts()
balanceamento = min(target_counts) / max(target_counts)
balance_ok = balanceamento > 0.2  # Pelo menos 20% da classe minorit√°ria
print(f"‚úÖ Teste 3 - Balanceamento: {balanceamento:.2f} {'‚úì PASSOU' if balance_ok else '‚ùå FALHOU'}")

# Teste 4: Verificar se h√° features num√©ricas e categ√≥ricas
numeric_cols = df_candidatos.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_candidatos.select_dtypes(include=['object']).columns.tolist()
features_ok = len(numeric_cols) > 0 and len(categorical_cols) > 0
print(f"‚úÖ Teste 4 - Features mistas: {len(numeric_cols)} num + {len(categorical_cols)} cat {'‚úì PASSOU' if features_ok else '‚ùå FALHOU'}")

# Resumo dos testes
total_testes = 4
testes_passou = sum([valores_ausentes == 0, target_ok, balance_ok, features_ok])
print(f"\nüèÜ RESULTADO FINAL: {testes_passou}/{total_testes} testes passaram")

if testes_passou == total_testes:
    print("üéâ Dataset est√° PRONTO para Machine Learning!")
else:
    print("‚ö†Ô∏è Dataset precisa de ajustes antes do ML!")
    
print("\nüîÑ Prosseguindo para An√°lise Explorat√≥ria...")

### üß™ **O que foi feito: testes no dataset**

**‚úÖ Testes Realizados e Resultados:**
1. **Teste de Integridade**: Zero valores ausentes - dados completos!
2. **Teste de Target**: Vari√°vel bin√°ria perfeita (0 e 1) - classifica√ß√£o v√°lida!
3. **Teste de Balanceamento**: Ratio > 0.2 - evita modelos viciados!
4. **Teste de Diversidade**: Features mistas (num√©ricas + categ√≥ricas) - riqueza informacional!

**üèÜ Por que Esta Valida√ß√£o √© Crucial:**
- **Evita Surpresas**: Detecta problemas antes do treinamento
- **Economia de Tempo**: Falhas custam horas de debugging posterior
- **Confian√ßa**: Sabemos que nossos resultados s√£o baseados em dados s√≥lidos
- **Reprodutibilidade**: Qualquer pessoa pode validar nossa metodologia

**üéì Li√ß√£o de ML:**
"*Garbage In, Garbage Out*" - A qualidade dos dados determina o sucesso do modelo. Investir tempo na valida√ß√£o inicial √© como construir uma funda√ß√£o s√≥lida para uma casa.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com dados validados, vamos entrar na An√°lise Explorat√≥ria para descobrir os padr√µes dos candidatos!

### üìä **O que foi feito: Estrat√©gia de Dividir para conquistar**

**‚öîÔ∏è Estrat√©gia de Divis√£o Implementada:**

**üéØ Divis√£o Prim√°ria (80-20)**:
- 80% para desenvolvimento (treino + valida√ß√£o)
- 20% para teste final ("cofre forte" nunca tocado)

**üéØ Divis√£o Secund√°ria (60-20-20)**:
- **60% Treino**: Onde o modelo "aprende" os padr√µes
- **20% Valida√ß√£o**: Onde testamos e ajustamos durante desenvolvimento
- **20% Teste**: Onde fazemos avalia√ß√£o final "√†s cegas"

**üî¨ Stratified Split - O Segredo da Justi√ßa:**
- **Preserva propor√ß√µes**: Cada conjunto mant√©m ~39% aprovados
- **Evita vi√©s**: Nenhum conjunto fica "mais f√°cil" ou "mais dif√≠cil"
- **Garante representatividade**: Todas as classes representadas proporcionalmente

**üé™ Valida√ß√£o Cruzada K-Fold Estratificada:**
- **K=5**: Divide treino em 5 partes, testa em cada uma
- **Stratified**: Mant√©m propor√ß√µes de classes em cada fold
- **Robustez**: M√©dia de 5 testes > 1 teste √∫nico
- **Confian√ßa**: Detecta modelos inst√°veis ou com sorte

**üß† Por que Esta Divis√£o √© Cient√≠fica:**
1. **Teste Cego**: Conjunto de teste nunca "visto" durante desenvolvimento
2. **Valida√ß√£o Honesta**: M√∫ltiplas medi√ß√µes > medi√ß√£o √∫nica
3. **Desenvolvimento Iterativo**: Valida√ß√£o permite ajustes sem "trapa√ßa"

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos padronizar as features num√©ricas para que nossos algoritmos trabalhem em "campo nivelado"!

### ‚öñÔ∏è **O que foi feito: Features niveladas**

**üéØ Por que Padroniza√ß√£o √© Crucial:**

**‚ö° Problema Original**:
- `renda_familiar`: escala 1,000-50,000 (dominaria outros algoritmos)
- `nota_graduacao`: escala 5-10 (seria "invis√≠vel" comparada √† renda)
- `idade`: escala 22-45 (escala intermedi√°ria)

**‚úÖ Solu√ß√£o StandardScaler**:
- **M√©dia = 0**: Centraliza todas as distribui√ß√µes
- **Desvio = 1**: Equaliza a "import√¢ncia num√©rica" de cada feature
- **Preserva Distribui√ß√µes**: Mant√©m formato, muda apenas escala

**üîí Protocolo Anti-Vazamento Implementado:**
1. **Fit apenas no Treino**: Scaler "aprende" estat√≠sticas s√≥ do treino
2. **Transform nos outros**: Valida√ß√£o e teste usam estat√≠sticas do treino
3. **Zero Contamina√ß√£o**: Informa√ß√£o futura n√£o "vaza" para o passado
4. **Realismo**: Simula cen√°rio real onde s√≥ temos dados de treino

**üß™ Resultado da Padroniza√ß√£o:**
- **Features num√©ricas identificadas**: Automaticamente detectadas
- **Transforma√ß√£o consistente**: Mesmo scaler para treino/valida√ß√£o/teste
- **Escala uniforme**: Todas as features com import√¢ncia "democr√°tica"


**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Com dados perfeitamente preparados, vamos criar modelos baseline para estabelecer nossa "linha de base" de performance!

## 2. An√°lise Explorat√≥ria dos Dados

### üèÅ **O que foi feito: √â o processo de investigar, resumir e visualizar os dados para:**

**Marcos de refer√™ncia definidos!** Criamos tr√™s "competidores b√°sicos" que estabelecem o m√≠nimo de performance aceit√°vel. √â como cronometrar corredores amadores antes de trazer os atletas ol√≠mpicos para a pista.

**üéØ Nossos 3 Baselines e Suas Filosofias:**

**üé≤ Baseline Maioria**: "Chuta sempre a classe mais comum"
- *Estrat√©gia*: "Rejeita todo mundo" (61% accuracy m√°xima poss√≠vel)
- *Li√ß√£o*: Mostra o que acontece com modelos pregui√ßosos

**üé™ Baseline Estratificado**: "Chuta aleat√≥rio respeitando propor√ß√µes"
- *Estrat√©gia*: Usa distribui√ß√£o real das classes (mais real√≠stico)
- *Li√ß√£o*: Simula "decis√µes aleat√≥rias informadas"

**üìà Baseline Log√≠stica Simples**: "Primeiro modelo real de ML"
- *Estrat√©gia*: Regress√£o log√≠stica b√°sica sem otimiza√ß√£o
- *Li√ß√£o*: Representa "minimum viable model"

**üèÜ Meta Estabelecida:**
O melhor baseline + 1 desvio padr√£o = **nosso padr√£o ouro a superar**

**üéØ Por que Baselines S√£o Sagrados em ML:**
1. **Reality Check**: Evita comemorar modelos "obviamente ruins"
2. **Contexto de Performance**: F1=0.65 √© bom? Depende do baseline!
3. **Detec√ß√£o de Problemas**: Se modelo complexo < baseline = algo est√° errado
4. **Justificativa de Complexidade**: Modelo simples pode ser suficiente

**üìä Valida√ß√£o Cruzada nos Baselines:**
- **M√∫ltiplas medi√ß√µes**: 5-fold CV para cada baseline
- **Estat√≠sticas robustas**: M√©dia ¬± desvio padr√£o
- **Threshold inteligente**: Melhor baseline + margem de erro

**üß† Filosofia de Humildade:**
"*Before you build a rocket, make sure you can beat a bicycle*" - Sempre come√ße simples, complique apenas se necess√°rio.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** visualizar estatisca

In [None]:
# An√°lise explorat√≥ria inicial
print("üìä INFORMA√á√ïES GERAIS DO DATASET")
print(f"Dimens√µes: {df_candidatos.shape}")
print(f"Taxa de aprova√ß√£o: {df_candidatos['aprovado'].mean():.2%}")

# Informa√ß√µes sobre as colunas
print("\nüìã INFORMA√á√ïES DAS COLUNAS")
print(df_candidatos.info())

# Estat√≠sticas descritivas
print("\nüìä ESTAT√çSTICAS DESCRITIVAS")
numeric_cols = df_candidatos.select_dtypes(include=[np.number]).columns
print(df_candidatos[numeric_cols].describe())

### üìä **O que foi feito: Raio-X Estat√≠stico dos Candidatos**

**üîç Insights Estat√≠sticos Principais:**
- **Notas de Gradua√ß√£o**: M√©dia ~8.2 (candidatos j√° pr√©-selecionados pela qualidade)
- **Experi√™ncia Profissional**: Varia√ß√£o 0-15 anos (desde rec√©m-formados at√© experientes)
- **Publica√ß√µes**: Distribui√ß√£o Poisson (realista - alguns t√™m muitas, maioria tem poucas)
- **Pontua√ß√µes**: Provas ~75, Entrevistas ~80 (entrevistas ligeiramente mais altas)

**üéØ Por que o `.info()` √© Nosso Melhor Amigo:**
- **Memory Usage**: ~203KB (dataset eficiente, cabe na RAM facilmente)
- **Dtypes**: Mix perfeito de int, float e object (dados ricos e variados)
- **Non-Null Count**: 2000 em todas - confirma√ß√£o de integridade total

**üìà Significado das Estat√≠sticas Descritivas:**
O `.describe()` nos mostra que nossos dados t√™m **distribui√ß√µes real√≠sticas**: n√£o h√° valores absurdos, as m√©dias fazem sentido para um processo seletivo acad√™mico, e a variabilidade sugere candidatos genuinamente diversos.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos visualizar esses n√∫meros! As visualiza√ß√µes transformar√£o essas estat√≠sticas em gr√°ficos que facilitam a visualiza√ß√£o em compreens√£o.

### ü§ñ **O que foi feito: Execu√ß√£o dos 7 Algoritmos**

**üéØ Logistic Regression**: "O Estrategista"
- *Personalidade*: R√°pido, interpret√°vel, elegante
- *Estrat√©gia*: Combina√ß√µes lineares ponderadas

**üå≥ Random Forest**: "O Democrata"
- *Personalidade*: Robusto, est√°vel, "wisdom of crowds"
- *Estrat√©gia*: Voto de m√∫ltiplas √°rvores independentes

**üöÄ Gradient Boosting**: "O Perfeccionista"
- *Personalidade*: Aprende com erros, iterativo
- *Estrat√©gia*: Corrige erros sequencialmente

**‚öîÔ∏è SVM**: "O Geometrista"
- *Personalidade*: Encontra fronteiras √≥timas
- *Estrat√©gia*: Maximiza margens de separa√ß√£o

**üë• KNN**: "O Social"
- *Personalidade*: "Me diga com quem andas..."
- *Estrat√©gia*: Voto dos vizinhos mais pr√≥ximos

**üå≤ Decision Tree**: "O Questionador"
- *Personalidade*: Pergunta sim/n√£o sequenciais
- *Estrat√©gia*: √Årvore de decis√µes bin√°rias

**üé≤ Naive Bayes**: "O Probabilista"
- *Personalidade*: Assume independ√™ncia features
- *Estrat√©gia*: Teorema de Bayes puro

**üèÜ Ranking e Insights:**
O ranking por F1-Score CV revela n√£o apenas performance, mas **adequa√ß√£o ao problema**. Cada posi√ß√£o conta uma hist√≥ria sobre como diferentes abordagens matem√°ticas "enxergam" padr√µes de aprova√ß√£o acad√™mica.

**üî¨ Valida√ß√£o Cruzada - Nossa Garantia:**
- **5 medi√ß√µes independentes** por modelo
- **M√©dia ¬± desvio** para robustez estat√≠stica
- **Evita "sorte"**: Performance consistente > performance pontual

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos selecionar nossos top 3 algoritmos e vamos otimiz√°-los atrav√©s de fine-tuning de hiperpar√¢metros!

In [None]:
# Visualiza√ß√£o da distribui√ß√£o da vari√°vel target
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Gr√°fico de barras
target_counts = df_candidatos['aprovado'].value_counts()
target_labels = ['Rejeitado', 'Aprovado']
colors = ['#ff6b6b', '#4ecdc4']

axes[0].bar(target_labels, target_counts.values, color=colors, alpha=0.8)
axes[0].set_title('Distribui√ß√£o de Aprova√ß√µes', fontsize=14, fontweight='bold')
axes[0].set_ylabel('N√∫mero de Candidatos')

# Adicionando percentuais
for i, v in enumerate(target_counts.values):
    axes[0].text(i, v + 10, f'{v}\n({v/len(df_candidatos)*100:.1f}%)', 
                ha='center', va='bottom', fontweight='bold')

# Gr√°fico de pizza
axes[1].pie(target_counts.values, labels=target_labels, autopct='%1.1f%%', 
           colors=colors, startangle=90)
axes[1].set_title('Propor√ß√£o de Aprova√ß√µes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

### üéØ **O que foi feito: Cen√°rio de Sele√ß√£o Acad√™mica**

**Primeira vis√£o!** Nossos gr√°ficos revelaram a **distribui√ß√£o fundamental** do nosso problema de Machine Learning. √â como olhar para uma fotografia que captura a ess√™ncia de um processo seletivo competitivo.

**üìä Interpreta√ß√£o dos Gr√°ficos:**
- **Gr√°fico de Barras**: Mostra a "frieza dos n√∫meros" - mais rejeitados que aprovados
- **Gr√°fico de Pizza**: Revela a "propor√ß√£o visual" - ~61% vs ~39%
- **Cores Escolhidas**: Vermelho (rejei√ß√£o) vs Verde-azulado (aprova√ß√£o) - psicologia visual intuitiva

**üéØ Por que Esta Distribui√ß√£o √© Ideal para ML:**
1. **N√£o √© extremamente desbalanceada** (evita vi√©s do modelo)
2. **Reflete realidade acad√™mica** (processos seletivos s√£o competitivos)
3. **Permite aprendizado** (classes minorit√°rias ainda t√™m representa√ß√£o significativa)
4. **M√©tricas confi√°veis** (F1-Score ser√° mais informativo que Accuracy)

**üß† Insight Psicol√≥gico:**
Esta distribui√ß√£o conta a hist√≥ria de **sonhos e realidade**: para cada candidato aprovado, h√° ~1.6 que n√£o conseguiu. √â exatamente isso que nosso modelo precisa aprender - distinguir entre perfis aprovados e rejeitados de forma justa e precisa.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos mergulhar nas distribui√ß√µes das features individuais para entender o cerne de cada vari√°vel preditora!

### üéõÔ∏è **O que foi feito: Treinamneto**

**"Laborat√≥rio" de otimiza√ß√£o conclu√≠do!** Pegamos nossos  3 algoritmos e os colocamos em modo treinamento, testando sistematicamente diferentes configura√ß√µes para extrair sua m√°xima performance.

**üèãÔ∏è‚Äç‚ôÇÔ∏è Processo de Otimiza√ß√£o Implementado:**

**üîç Grid Search Sistem√°tico**:
- **Estrat√©gia**: Testa TODAS as combina√ß√µes poss√≠veis de hiperpar√¢metros
- **Valida√ß√£o**: Cada combina√ß√£o testada com 5-fold CV
- **M√©trica**: F1-Score (nossa m√©trica de ouro para este problema)
- **Objetivo**: Encontrar configura√ß√£o "sweet spot" perfeita

**‚öôÔ∏è Hiperpar√¢metros Testados por Algoritmo:**

**üå≥ Random Forest**: √Årvores (50-200), Profundidade (5-‚àû), Amostragem
**üöÄ Gradient Boosting**: Estimadores (50-200), Learning Rate (0.05-0.2), Profundidade
**üéØ Logistic Regression**: Regulariza√ß√£o C (0.1-100), Penalty (L1/L2)
**‚öîÔ∏è SVM**: Par√¢metro C (0.1-10), Kernel (RBF/Poly), Gamma

**üéØ Por que Esta Otimiza√ß√£o √© Cient√≠fica:**
1. **Busca Exaustiva**: N√£o deixa pedra sobre pedra
2. **Valida√ß√£o Cruzada**: Cada teste √© estatisticamente robusto
3. **Preven√ß√£o Overfitting**: CV evita "sorte" em configura√ß√µes
4. **Documenta√ß√£o Completa**: Melhores par√¢metros s√£o preservados

**üèÜ Resultado da Otimiza√ß√£o:**
- **Modelo Campe√£o**: Identificado cientificamente
- **Melhores Par√¢metros**: Documentados para reprodutibilidade
- **Performance Otimizada**: M√°ximo potencial extra√≠do
- **Confian√ßa Estat√≠stica**: Baseada em m√∫ltiplas valida√ß√µes

**üß† Filosofia do Fine-Tuning:**
"*Good artists copy, great artists steal, but data scientists optimize*" - A diferen√ßa entre um modelo "bom" e "excelente" est√° nos detalhes da configura√ß√£o.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** testar nosso algoritmo otimizado escolhido no conjunto de teste para avalia√ß√£o final!

In [None]:
# Distribui√ß√µes das vari√°veis num√©ricas
numeric_cols = ['nota_graduacao', 'experiencia_profissional', 'publicacoes', 
               'projetos_pesquisa', 'pontuacao_prova', 'pontuacao_entrevista', 'idade']

fig, axes = plt.subplots(3, 3, figsize=(18, 15))
axes = axes.ravel()

for i, col in enumerate(numeric_cols):
    axes[i].hist(df_candidatos[col], bins=30, alpha=0.7, color='skyblue', density=True)
    axes[i].set_title(f'Distribui√ß√£o: {col.replace("_", " ").title()}', fontweight='bold')
    axes[i].set_xlabel(col.replace("_", " ").title())
    axes[i].set_ylabel('Densidade')
    axes[i].grid(True, alpha=0.3)

# Removendo subplots extras
for i in range(len(numeric_cols), len(axes)):
    axes[i].axis('off')

plt.tight_layout()
plt.show()

### üèÜ **O que foi feito: O Resultado**

**üéØ Metodologia do Teste Final:**

**üîÑ Treinamento Final Expandido**:
- **Dados Utilizados**: Treino + Valida√ß√£o combinados (80% do dataset total)
- **Estrat√©gia**: M√°xima informa√ß√£o dispon√≠vel para treinamento
- **Justificativa**: Simula cen√°rio real onde usamos todos os dados dispon√≠veis

**üß™ Teste Cego":
- **Conjunto Virgem**: 20% nunca "visto" pelo modelo
- **Avalia√ß√£o Honesta**: Zero vi√©s, zero "trapa√ßa"
- **M√©tricas M√∫ltiplas**: Accuracy, Precision, Recall, F1, AUC-ROC

**üìä An√°lise de Generaliza√ß√£o:**
- **Gap Calculado**: Diferen√ßa entre performance CV vs Teste
- **Interpreta√ß√£o**: Mede capacidade de generalizar para dados novos
- **Thresholds**:
  - < 0.02: Generaliza√ß√£o excelente üéâ
  - < 0.05: Generaliza√ß√£o boa ‚úÖ
  - > 0.05: Poss√≠vel overfitting ‚ö†Ô∏è

**üé≠ O que as M√©tricas Revelam:**

**Accuracy**: "Quantos acertos no total?"
**Precision**: "Dos que previ aprovados, quantos realmente foram?"
**Recall**: "Dos que foram aprovados, quantos consegui identificar?"
**F1-Score**: "M√©dia harm√¥nica entre Precision e Recall" (nossa estrela!)
**AUC-ROC**: "Qualidade discriminativa geral"

**üß† Filosofia do Teste Final:**
"*The proof of the pudding is in the eating*" - Todo o trabalho anterior se resume a este momento: o modelo funciona no mundo real?

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos visualizar esses resultados em gr√°ficos!

### üìä **O que foi feito: Visualiza√ß√£o dos Resultados**

**Exposi√ß√£o visual conclu√≠da!** Criamos uma "galeria de 4 quadros" que conta visualmente o desempenho do nosso modelo. Cada gr√°fico √© uma janela para aspectos diferentes da capacidade preditiva.

**üñºÔ∏è An√°lise da Nossa Galeria:**

**üé® Quadro 1 - Matriz de Confus√£o**: "O Espelho da Verdade"
- **Historia**: Mostra exatamente onde acertamos e erramos
- **Interpreta√ß√£o**: Diagonal = acertos, off-diagonal = confus√µes
- **Insight**: Revela se erramos mais rejeitando bons candidatos ou aprovando ruins

**üìà Quadro 2 - Curva ROC**: "A Dan√ßa da Discrimina√ß√£o"
- **Hist√≥ria**: Quanto melhor que o chute aleat√≥rio somos?
- **Interpreta√ß√£o**: √Årea sob curva (AUC) mede qualidade discriminativa
- **Insight**: Curva pr√≥xima ao canto superior esquerdo = excelente

**üìä Quadro 3 - M√©tricas Comparadas**: "O Painel de Performance"
- **Hist√≥ria**: Vis√£o panor√¢mica de todas as m√©tricas importantes
- **Interpreta√ß√£o**: Altura das barras = qualidade de cada aspecto
- **Insight**: Mostra se somos "bem-arredondados" ou especialistas em algo

**üéØ Quadro 4 - Distribui√ß√£o de Probabilidades**: "O Mapa da Confian√ßa"
- **Hist√≥ria**: Qu√£o confiante o modelo est√° em suas decis√µes?
- **Interpreta√ß√£o**: Separa√ß√£o clara entre histogramas = boa discrimina√ß√£o
- **Insight**: Sobreposi√ß√£o = incerteza, separa√ß√£o = confian√ßa

**üé≠ Por que Visualiza√ß√£o √© Crucial em ML:**
1. **Comunica√ß√£o**: Stakeholders entendem gr√°ficos > n√∫meros
2. **Diagn√≥stico**: Problemas ficam vis√≠veis instantaneamente
3. **Confian√ßa**: Ver padr√µes aumenta credibilidade do modelo
4. **Insights**: Gr√°ficos revelam nuances que m√©tricas escondem

**üß† Arte + Ci√™ncia:**
"*A picture is worth a thousand metrics*" - N√∫meros dizem o que, gr√°ficos dizem por que e como.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos descobrir quais features nosso modelo considera mais importantes para tomar decis√µes!

## 3. Pr√©-processamento dos Dados

### üîç **O que foi feito: An√°lise Modelo**

**An√°lise conclu√≠da!** Acabamos de "abrir a mente" do nosso modelo para entender exatamente quais caracter√≠sticas ele considera mais importantes ao decidir sobre aprova√ß√µes. √â como descobrir os crit√©rios secretos de um comit√™ de sele√ß√£o.

**üß† Duas Abordagens de An√°lise Implementadas:**

**üå≥ Feature Importances Nativas** (para modelos tree-based):
- **M√©todo**: Baseado na redu√ß√£o de impureza em cada split
- **Interpreta√ß√£o**: Quanto cada feature "purifica" as decis√µes
- **Vantagem**: R√°pido e diretamente do algoritmo

**üé≤ Permutation Importance** (para qualquer modelo):
- **M√©todo**: Embaralha feature e mede perda de performance
- **Interpreta√ß√£o**: "Se eu removesse esta info, qu√£o pior ficaria?"
- **Vantagem**: Funciona universalmente, mede impacto real

**üèÜ Top Features Reveladas:**
O ranking de import√¢ncia revela a **hierarquia de decis√£o** do modelo:
- **Features acad√™micas** dominam? (notas, pontua√ß√µes)
- **Features experienciais** s√£o relevantes? (publica√ß√µes, experi√™ncia)
- **Features categ√≥ricas** fazem diferen√ßa? (programa, institui√ß√£o)
- **Features engineered** funcionaram? (nossa criatividade validada)

**üìä Visualiza√ß√£o Horizontal:**
- **Barras horizontais**: F√°cil leitura dos nomes de features
- **Ordena√ß√£o decrescente**: Do mais importante ao menos
- **Top 15**: Foco nas features que realmente importam

**üéØ Por que Esta An√°lise √© Fundamental:**
1. **Explicabilidade**: Podemos explicar decis√µes para stakeholders
2. **Valida√ß√£o**: Import√¢ncias fazem sentido no contexto?
3. **Otimiza√ß√£o**: Features irrelevantes podem ser removidas
4. **Insights de Neg√≥cio**: Revela crit√©rios "ocultos" de sele√ß√£o

**üß† Filosofia da Transpar√™ncia:**
"*Black boxes are for airplanes, not for academic selection*" - Decis√µes importantes precisam ser explic√°veis e audit√°veis.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** relat√≥rio final abrangente e conclus√µes pr√°ticas!

In [None]:
# Prepara√ß√£o e limpeza dos dados
df_clean = df_candidatos.copy()

print("üßπ LIMPEZA DOS DADOS")
print(f"Dataset original: {df_clean.shape}")

# Verificar valores ausentes
missing_values = df_clean.isnull().sum().sum()
print(f"Valores ausentes: {missing_values}")

# Verificar duplicatas
duplicates = df_clean.duplicated().sum()
print(f"Duplicatas: {duplicates}")

if duplicates > 0:
    df_clean = df_clean.drop_duplicates()
    print(f"Duplicatas removidas. Novo shape: {df_clean.shape}")

print(f"‚úÖ Dataset limpo: {df_clean.shape}")

### üéì **Relat√≥rio: De Dados Brutos a Insights Acion√°veis**

**O que foi feito!** Acabamos de completar a transforma√ß√£o de  2000 perfis de candidatos em um sistema inteligente capaz de predizer aprova√ß√µes acad√™micas.

**üìö O que foi feito - Passo a Passo:**

**üèÅ Passo 1**: Prepara√ß√£o do ambiente  - Importamos ferramentas e definimos o problema
**üìä Passo 2**: Carregando o dataset- Carregamos e exploramos 2000 candidatos
**üßπ Passo 3**: Limpeza e Organiza√ß√£o - Preparamos dados para an√°lise
**‚öôÔ∏è Passo 4**: Novas features - Criamos novas features inteligentes
**üî¢ Passo 5**: Converter - Convertemos categorias para linguagem ML
**üìä Passo 6**: Dividir para conquistar - Dividimos dados para treino/valida√ß√£o/teste
**üèÅ Passo 7**: estabelecer Baselines - Estabelecemos padr√µes m√≠nimos
**ü§ñ Passo 8**: Execu√ß√£po dos 7 Algoritmos - Testamos diferentes abordagens ML
**üéõÔ∏è Passo 9**: Otimiza√ß√£o - Fine-tuning para m√°xima performance
**üèÜ Passo 10**: teste final - Teste final nos dados limpos
**üîç Passo 11**: An√°lise dos modelos - An√°lise de import√¢ncia de features

**üéØ Conquistas Alcan√ßadas:**
- ‚úÖ **Modelo Funcional**: F1-Score competitivo para o problema
- ‚úÖ **Pipeline Completo**: Do raw data ao modelo em produ√ß√£o
- ‚úÖ **Metodologia Cient√≠fica**: Valida√ß√£o cruzada e teste independente
- ‚úÖ **Interpretabilidade**: Sabemos POR QUE o modelo decide
- ‚úÖ **Reprodutibilidade**: Qualquer pessoa pode replicar nossos resultados
- ‚úÖ **Documenta√ß√£o Rica**: Cada etapa explicada e justificada

**üöÄ Impacto e Aplica√ß√£o Pr√°tica:**
Nosso modelo n√£o √© apenas n√∫meros - √© uma **ferramenta de apoio √† decis√£o** que pode:
- Acelerar triagem inicial de candidatos
- Identificar perfis promissores sistematicamente
- Reduzir vi√©s humano em avalia√ß√µes
- Fornecer crit√©rios objetivos e audit√°veis

**üß† Li√ß√µes Aprendidas:**
1. **Dados de qualidade > algoritmos complexos**
2. **Valida√ß√£o rigorosa > performance pontual**
3. **Interpretabilidade > precis√£o absoluta**
4. **Metodologia > resultados isolados**

**üéä Conclus√£o Final:**
Transformamos dados extraidos de uma dataset em conhecimento, dados em insights, e c√≥digo em impacto real. Esta √© a ess√™ncia da Ci√™ncia de Dados - usar matem√°tica e programa√ß√£o para resolver problemas humanos reais!



In [None]:
# Feature Engineering
print("‚öôÔ∏è ENGENHARIA DE FEATURES")
df_processed = df_clean.copy()

# Novas features
df_processed['pontuacao_media'] = (df_processed['pontuacao_prova'] + df_processed['pontuacao_entrevista']) / 2
df_processed['produtividade_academica'] = (df_processed['publicacoes'] * 2 + df_processed['projetos_pesquisa']) / (df_processed['experiencia_profissional'] + 1)
df_processed['score_desempenho'] = (0.4 * df_processed['nota_graduacao'] + 0.3 * df_processed['pontuacao_prova'] / 10 + 0.3 * df_processed['pontuacao_entrevista'] / 10)
df_processed['log_renda_familiar'] = np.log1p(df_processed['renda_familiar'])

# Features bin√°rias
df_processed['tem_publicacoes'] = (df_processed['publicacoes'] > 0).astype(int)
df_processed['tem_projetos'] = (df_processed['projetos_pesquisa'] > 0).astype(int)
df_processed['experiencia_alta'] = (df_processed['experiencia_profissional'] > df_processed['experiencia_profissional'].median()).astype(int)

print(f"‚úÖ Features criadas. Shape atual: {df_processed.shape}")
print("Novas features:")
new_features = ['pontuacao_media', 'produtividade_academica', 'score_desempenho', 'log_renda_familiar', 'tem_publicacoes', 'tem_projetos', 'experiencia_alta']
for feat in new_features:
    print(f"  ‚Ä¢ {feat}")

### ‚öôÔ∏è **O que foi feito: Engenharia de Features**

**A√ß√£o!** Acabamos de atuar como "arquitetos de informa√ß√£o", criando 7 novas features derivadas que podem revelar padr√µes ocultos nos dados originais. 

**üèóÔ∏è Novas Features Criadas e Suas Hist√≥rias:**

**üìä `pontuacao_media`**: Combina prova + entrevista
- *Filosofia*: Performance acad√™mica geral mais robusta que medidas individuais

**üéØ `produtividade_academica`**: (Publica√ß√µes√ó2 + Projetos) / (Experi√™ncia + 1)
- *Filosofia*: Mede "efici√™ncia de pesquisa" - qu√£o produtivo √© o candidato por ano de experi√™ncia

**‚≠ê `score_desempenho`**: Weighted average de notas e pontua√ß√µes
- *Filosofia*: "√çndice de Excel√™ncia" que o comit√™ de sele√ß√£o mentalmente calcula

**üí∞ `log_renda_familiar`**: Transforma√ß√£o logar√≠tmica da renda
- *Filosofia*: Normaliza distribui√ß√£o assim√©trica (R$1K‚Üí10K √© diferente de R$10K‚Üí20K)

**üî¢ Features Bin√°rias** (`tem_publicacoes`, `tem_projetos`, `experiencia_alta`):
- *Filosofia*: √Äs vezes "ter ou n√£o ter" √© mais importante que "quanto"

**üß† Por que Feature Engineering √© M√°gica:**
- **Exp√µe Rela√ß√µes**: Combina informa√ß√µes de formas que algoritmos ML "entendem" melhor
- **Reduz Complexidade**: Transforma√ß√µes tornam padr√µes mais evidentes
- **Imita Cogni√ß√£o Humana**: Como avaliadores humanos processam informa√ß√µes

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos transformar vari√°veis categ√≥ricas em formato num√©rico que nossos algoritmos conseguem processar!

In [None]:
# Codifica√ß√£o de vari√°veis categ√≥ricas
print("üè∑Ô∏è CODIFICA√á√ÉO DE VARI√ÅVEIS CATEG√ìRICAS")

categorical_features = ['programa', 'nivel_pretendido', 'tipo_instituicao_origem', 
                       'regiao_origem', 'modalidade_candidatura', 'ensino_ingles']

# One-Hot Encoding
df_encoded = pd.get_dummies(df_processed, columns=categorical_features, prefix=categorical_features)

print(f"‚úÖ Encoding aplicado. Shape final: {df_encoded.shape}")

# Separar features e target
X = df_encoded.drop('aprovado', axis=1)
y = df_encoded['aprovado']

print(f"Features (X): {X.shape}")
print(f"Target (y): {y.shape}")
print(f"Distribui√ß√£o do target: {y.value_counts().to_dict()}")

## 4. Divis√£o dos Dados

In [None]:
# Divis√£o dos dados em treino, valida√ß√£o e teste
print("üìä DIVIS√ÉO DOS DADOS")

# Primeira divis√£o: separar teste (20%)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=RANDOM_STATE
)

# Segunda divis√£o: separar treino (60%) e valida√ß√£o (20%)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, stratify=y_temp, random_state=RANDOM_STATE
)

print(f"Treino: {X_train.shape[0]} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"Valida√ß√£o: {X_val.shape[0]} amostras ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"Teste: {X_test.shape[0]} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")

# Configura√ß√£o da valida√ß√£o cruzada
cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
print(f"\nüîÑ Valida√ß√£o cruzada configurada: Stratified K-Fold (k=5)")

In [None]:
# Padroniza√ß√£o das features
print("‚öñÔ∏è PADRONIZA√á√ÉO DAS FEATURES")

# Identificar features num√©ricas
numeric_features_final = X_train.select_dtypes(include=[np.number]).columns.tolist()

# Criar e ajustar o scaler apenas no conjunto de treino
scaler = StandardScaler()
X_train_scaled = X_train.copy()
X_val_scaled = X_val.copy()
X_test_scaled = X_test.copy()

# Aplicar padroniza√ß√£o
X_train_scaled[numeric_features_final] = scaler.fit_transform(X_train[numeric_features_final])
X_val_scaled[numeric_features_final] = scaler.transform(X_val[numeric_features_final])
X_test_scaled[numeric_features_final] = scaler.transform(X_test[numeric_features_final])

print(f"‚úÖ {len(numeric_features_final)} features num√©ricas padronizadas")
print("‚úÖ Scaler ajustado apenas no treino (evita vazamento)")

## 5. Modelos Baseline

In [None]:
# Implementa√ß√£o de modelos baseline
print("üèÅ MODELOS BASELINE")

def avaliar_modelo(modelo, X_train, y_train, X_val, y_val, nome_modelo):
    """Fun√ß√£o para avaliar modelos"""
    # Treinar modelo
    start_time = time.time()
    modelo.fit(X_train, y_train)
    train_time = time.time() - start_time
    
    # Predi√ß√µes
    y_pred = modelo.predict(X_val)
    
    # M√©tricas
    accuracy = accuracy_score(y_val, y_pred)
    precision = precision_score(y_val, y_pred)
    recall = recall_score(y_val, y_pred)
    f1 = f1_score(y_val, y_pred)
    
    # Valida√ß√£o cruzada
    cv_scores = cross_val_score(modelo, X_train, y_train, cv=cv_strategy, scoring='f1')
    
    return {
        'modelo': nome_modelo,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1,
        'cv_f1_mean': cv_scores.mean(),
        'cv_f1_std': cv_scores.std(),
        'train_time': train_time
    }

# Modelos baseline
baseline_results = []

# 1. Baseline - Maioria
dummy_majority = DummyClassifier(strategy='most_frequent', random_state=RANDOM_STATE)
result_majority = avaliar_modelo(dummy_majority, X_train_scaled, y_train, X_val_scaled, y_val, 'Baseline_Maioria')
baseline_results.append(result_majority)

# 2. Baseline - Estratificada
dummy_stratified = DummyClassifier(strategy='stratified', random_state=RANDOM_STATE)
result_stratified = avaliar_modelo(dummy_stratified, X_train_scaled, y_train, X_val_scaled, y_val, 'Baseline_Estratificada')
baseline_results.append(result_stratified)

# 3. Baseline - Logistic Regression Simples
lr_simple = LogisticRegression(random_state=RANDOM_STATE, max_iter=1000)
result_lr_simple = avaliar_modelo(lr_simple, X_train_scaled, y_train, X_val_scaled, y_val, 'Baseline_LogReg')
baseline_results.append(result_lr_simple)

# Resultados dos baselines
df_baseline_results = pd.DataFrame(baseline_results)
print("\nüìä RESULTADOS DOS BASELINES:")
print(df_baseline_results[['modelo', 'accuracy', 'f1_score', 'cv_f1_mean']].round(4))

# Melhor baseline
best_baseline = df_baseline_results.loc[df_baseline_results['cv_f1_mean'].idxmax()]
baseline_threshold = best_baseline['cv_f1_mean'] + best_baseline['cv_f1_std']

print(f"\nüèÜ Melhor baseline: {best_baseline['modelo']}")
print(f"üéØ Meta para modelos avan√ßados: F1-Score > {baseline_threshold:.4f}")

### üèÅ **O que foi feito: Iniciando baselines**

**üéØ Nossos 3 Baselines e Suas Filosofias:**

**üé≤ Baseline Maioria**: "Chuta sempre a classe mais comum"
- *Estrat√©gia*: "Rejeita todo mundo" (61% accuracy m√°xima poss√≠vel)
- *Li√ß√£o*: Mostra o que acontece com modelos pregui√ßosos

**üé™ Baseline Estratificado**: "Chuta aleat√≥rio respeitando propor√ß√µes"
- *Estrat√©gia*: Usa distribui√ß√£o real das classes (mais real√≠stico)
- *Li√ß√£o*: Simula "decis√µes aleat√≥rias informadas"

**üìà Baseline Log√≠stica Simples**: "Primeiro modelo real de ML"
- *Estrat√©gia*: Regress√£o log√≠stica b√°sica sem otimiza√ß√£o
- *Li√ß√£o*: Representa "minimum viable model"

**üèÜ Meta Estabelecida:**
O melhor baseline + 1 desvio padr√£o = **nosso padr√£o ouro a superar**

**üéØ Por que Baselines S√£o Sagrados em ML:**
1. **Reality Check**: Evita comemorar modelos "obviamente ruins"
2. **Contexto de Performance**: F1=0.65 √© bom? Depende do baseline!
3. **Detec√ß√£o de Problemas**: Se modelo complexo < baseline = algo est√° errado
4. **Justificativa de Complexidade**: Modelo simples pode ser suficiente

**üß† Filosofia de Humildade:**
"*Before you build a rocket, make sure you can beat a bicycle*" - Sempre comece simples, complique apenas se necess√°rio.

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Agora vamos soltar nossos "7 gladiadores" de Machine Learning na arena para uma batalha √©pica!

## 6. Treinamento de Modelos de ML

In [None]:
# Sele√ß√£o e treinamento de algoritmos de ML
print("ü§ñ ALGORITMOS DE MACHINE LEARNING")

algorithms = {
    'Logistic Regression': LogisticRegression(random_state=RANDOM_STATE, max_iter=1000),
    'Random Forest': RandomForestClassifier(random_state=RANDOM_STATE),
    'Gradient Boosting': GradientBoostingClassifier(random_state=RANDOM_STATE),
    'SVM': SVC(random_state=RANDOM_STATE, probability=True),
    'K-Nearest Neighbors': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(random_state=RANDOM_STATE),
    'Naive Bayes': GaussianNB()
}

def avaliar_modelo_completo(modelo, X_train, y_train, X_val, y_val, nome_modelo, cv_strategy):
    """Avalia√ß√£o completa com m√∫ltiplas m√©tricas"""
    # Treinar modelo
    start_time = time.time()
    modelo.fit(X_train, y_train)
    train_time = time.time() - start_time
    
    # Predi√ß√µes
    y_pred = modelo.predict(X_val)
    
    # M√©tricas
    accuracy = accuracy_score(y_val, y_pred)
    precision = precision_score(y_val, y_pred, zero_division=0)
    recall = recall_score(y_val, y_pred, zero_division=0)
    f1 = f1_score(y_val, y_pred, zero_division=0)
    
    # AUC-ROC
    try:
        y_proba = modelo.predict_proba(X_val)[:, 1]
        auc = roc_auc_score(y_val, y_proba)
    except:
        auc = np.nan
    
    # Valida√ß√£o cruzada
    cv_scores = cross_val_score(modelo, X_train, y_train, cv=cv_strategy, scoring='f1')
    
    return {
        'modelo': nome_modelo,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1,
        'auc_roc': auc,
        'cv_f1_mean': cv_scores.mean(),
        'cv_f1_std': cv_scores.std(),
        'train_time': train_time,
        'trained_model': modelo
    }

# Avaliar todos os modelos
model_results = []
trained_models = {}

for name, model in algorithms.items():
    print(f"üîÑ Avaliando {name}...")
    resultado = avaliar_modelo_completo(
        model, X_train_scaled, y_train, X_val_scaled, y_val, name, cv_strategy
    )
    model_results.append(resultado)
    trained_models[name] = resultado['trained_model']

# Resultados
df_model_results = pd.DataFrame(model_results)
print("\nüìä RESULTADOS DOS MODELOS:")
comparison_cols = ['modelo', 'cv_f1_mean', 'cv_f1_std', 'accuracy', 'auc_roc']
print(df_model_results[comparison_cols].round(4))

# Ranking dos modelos
df_sorted = df_model_results.sort_values('cv_f1_mean', ascending=False)
print("\nüèÜ RANKING DOS MODELOS (por F1-Score CV):")
for i, (idx, row) in enumerate(df_sorted.iterrows(), 1):
    print(f"   {i}¬∫ {row['modelo']}: F1 = {row['cv_f1_mean']:.4f} (¬±{row['cv_f1_std']:.4f})")

### ü§ñ **O que foi feito: Execu√ß√£o 7 Algoritmos**



**üèüÔ∏è Perfil:**

**üéØ Logistic Regression**: "O Estrategista"
- *Personalidade*: R√°pido, interpret√°vel, elegante
- *Estrat√©gia*: Combina√ß√µes lineares ponderadas

**üå≥ Random Forest**: "O Democrata"
- *Personalidade*: Robusto, est√°vel, "wisdom of crowds"
- *Estrat√©gia*: Voto de m√∫ltiplas √°rvores independentes

**üöÄ Gradient Boosting**: "O Perfeccionista"
- *Personalidade*: Aprende com erros, iterativo
- *Estrat√©gia*: Corrige erros sequencialmente

**‚öîÔ∏è SVM**: "O Geometrista"
- *Personalidade*: Encontra fronteiras √≥timas
- *Estrat√©gia*: Maximiza margens de separa√ß√£o

**üë• KNN**: "O Social"
- *Personalidade*: "Me diga com quem andas..."
- *Estrat√©gia*: Voto dos vizinhos mais pr√≥ximos

**üå≤ Decision Tree**: "O Questionador"
- *Personalidade*: Pergunta sim/n√£o sequenciais
- *Estrat√©gia*: √Årvore de decis√µes bin√°rias

**üé≤ Naive Bayes**: "O Probabilista"
- *Personalidade*: Assume independ√™ncia features
- *Estrat√©gia*: Teorema de Bayes puro

**üèÜ Ranking e Insights:**
O ranking por F1-Score CV revela n√£o apenas performance, mas **adequa√ß√£o ao problema**. Cada posi√ß√£o conta uma hist√≥ria sobre como diferentes abordagens matem√°ticas "enxergam" padr√µes de aprova√ß√£o acad√™mica.

**üî¨ Valida√ß√£o Cruzada - Nossa Garantia:**
- **5 medi√ß√µes independentes** por modelo
- **M√©dia ¬± desvio** para robustez estat√≠stica
- **Evita "sorte"**: Performance consistente > performance pontual

**üèÉ‚Äç‚ôÇÔ∏è Pr√≥ximo Passo:** Vamos pegar nossos top 3 campe√µes e otimizar seus "superpoderes" atrav√©s de fine-tuning de hiperpar√¢metros!

## 7. Otimiza√ß√£o de Hiperpar√¢metros

In [None]:
# Otimiza√ß√£o de hiperpar√¢metros dos melhores modelos
print("üéõÔ∏è OTIMIZA√á√ÉO DE HIPERPAR√ÇMETROS")

# Selecionar top 3 modelos
top_models = df_sorted.head(3)['modelo'].tolist()
print(f"Top 3 modelos selecionados: {top_models}")

# Grids de hiperpar√¢metros
hyperparameter_grids = {
    'Random Forest': {
        'n_estimators': [50, 100, 200],
        'max_depth': [5, 10, None],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    },
    'Gradient Boosting': {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.05, 0.1, 0.2],
        'max_depth': [3, 5, 7]
    },
    'Logistic Regression': {
        'C': [0.1, 1, 10, 100],
        'penalty': ['l1', 'l2'],
        'solver': ['liblinear']
    },
    'SVM': {
        'C': [0.1, 1, 10],
        'kernel': ['rbf', 'poly'],
        'gamma': ['scale', 'auto']
    }
}

# Otimizar modelos selecionados
optimized_results = []

for model_name in top_models:
    if model_name in hyperparameter_grids:
        print(f"\nüîç Otimizando {model_name}...")
        
        # Modelo base
        base_model = algorithms[model_name]
        param_grid = hyperparameter_grids[model_name]
        
        # Grid Search
        grid_search = GridSearchCV(
            estimator=base_model,
            param_grid=param_grid,
            cv=cv_strategy,
            scoring='f1',
            n_jobs=-1,
            verbose=0
        )
        
        grid_search.fit(X_train_scaled, y_train)
        
        result = {
            'modelo': model_name,
            'best_params': grid_search.best_params_,
            'best_score': grid_search.best_score_,
            'best_estimator': grid_search.best_estimator_
        }
        
        optimized_results.append(result)
        
        print(f"‚úì Melhor F1-Score: {result['best_score']:.4f}")
        print(f"‚úì Melhores par√¢metros: {result['best_params']}")

# Identificar melhor modelo otimizado
if optimized_results:
    best_optimized = max(optimized_results, key=lambda x: x['best_score'])
    final_model = best_optimized['best_estimator']
    
    print(f"\nüèÜ MELHOR MODELO AP√ìS OTIMIZA√á√ÉO:")
    print(f"   Modelo: {best_optimized['modelo']}")
    print(f"   F1-Score: {best_optimized['best_score']:.4f}")
    print(f"   Par√¢metros: {best_optimized['best_params']}")
else:
    # Se n√£o houver otimiza√ß√£o, usar o melhor modelo original
    best_model_name = df_sorted.iloc[0]['modelo']
    final_model = trained_models[best_model_name]
    print(f"\nüèÜ MELHOR MODELO (sem otimiza√ß√£o): {best_model_name}")

## 8. Avalia√ß√£o Final no Conjunto de Teste

In [None]:
# Avalia√ß√£o final no conjunto de teste
print("üèÜ AVALIA√á√ÉO FINAL NO CONJUNTO DE TESTE")

# Treinar modelo final com treino + valida√ß√£o
X_train_final = pd.concat([X_train_scaled, X_val_scaled], ignore_index=True)
y_train_final = pd.concat([y_train, y_val], ignore_index=True)

print(f"Dataset final de treinamento: {X_train_final.shape}")

# Treinar modelo final
start_time = time.time()
final_model.fit(X_train_final, y_train_final)
final_train_time = time.time() - start_time

# Predi√ß√µes no teste
y_test_pred = final_model.predict(X_test_scaled)
y_test_proba = final_model.predict_proba(X_test_scaled)[:, 1] if hasattr(final_model, 'predict_proba') else None

# M√©tricas finais
test_accuracy = accuracy_score(y_test, y_test_pred)
test_precision = precision_score(y_test, y_test_pred)
test_recall = recall_score(y_test, y_test_pred)
test_f1 = f1_score(y_test, y_test_pred)
test_auc = roc_auc_score(y_test, y_test_proba) if y_test_proba is not None else None

print(f"\nüéØ M√âTRICAS FINAIS DE TESTE:")
print(f"   ‚Ä¢ Accuracy: {test_accuracy:.4f}")
print(f"   ‚Ä¢ Precision: {test_precision:.4f}")
print(f"   ‚Ä¢ Recall: {test_recall:.4f}")
print(f"   ‚Ä¢ F1-Score: {test_f1:.4f}")
if test_auc:
    print(f"   ‚Ä¢ AUC-ROC: {test_auc:.4f}")

# Matriz de confus√£o
cm_test = confusion_matrix(y_test, y_test_pred)
print(f"\nüìä MATRIZ DE CONFUS√ÉO:")
print(cm_test)

# An√°lise de generaliza√ß√£o
if 'best_optimized' in locals():
    cv_f1_score = best_optimized['best_score']
else:
    cv_f1_score = df_sorted.iloc[0]['cv_f1_mean']

generalization_gap = test_f1 - cv_f1_score
print(f"\nüìà AN√ÅLISE DE GENERALIZA√á√ÉO:")
print(f"   ‚Ä¢ F1-Score Valida√ß√£o Cruzada: {cv_f1_score:.4f}")
print(f"   ‚Ä¢ F1-Score Teste: {test_f1:.4f}")
print(f"   ‚Ä¢ Gap de Generaliza√ß√£o: {generalization_gap:+.4f}")

if abs(generalization_gap) < 0.02:
    print(f"   ‚úÖ Excelente generaliza√ß√£o!")
elif abs(generalization_gap) < 0.05:
    print(f"   ‚úÖ Boa generaliza√ß√£o")
else:
    print(f"   ‚ö†Ô∏è Poss√≠vel overfitting - investigar")

In [None]:
# Visualiza√ß√£o final dos resultados
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Matriz de Confus√£o
sns.heatmap(cm_test, annot=True, fmt='d', cmap='Blues', ax=axes[0,0])
axes[0,0].set_title('Matriz de Confus√£o - Conjunto de Teste')
axes[0,0].set_xlabel('Predito')
axes[0,0].set_ylabel('Real')

# 2. Curva ROC
if y_test_proba is not None:
    fpr, tpr, _ = roc_curve(y_test, y_test_proba)
    axes[0,1].plot(fpr, tpr, linewidth=2, label=f'ROC Curve (AUC = {test_auc:.3f})')
    axes[0,1].plot([0, 1], [0, 1], 'k--', label='Random')
    axes[0,1].set_xlabel('Taxa de Falsos Positivos')
    axes[0,1].set_ylabel('Taxa de Verdadeiros Positivos')
    axes[0,1].set_title('Curva ROC - Conjunto de Teste')
    axes[0,1].legend()
    axes[0,1].grid(True, alpha=0.3)
else:
    axes[0,1].text(0.5, 0.5, 'ROC n√£o dispon√≠vel\npara este modelo', 
                  ha='center', va='center', transform=axes[0,1].transAxes)

# 3. Compara√ß√£o de M√©tricas
metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
test_scores = [test_accuracy, test_precision, test_recall, test_f1]

axes[1,0].bar(metrics, test_scores, alpha=0.8, color='skyblue')
axes[1,0].set_ylabel('Score')
axes[1,0].set_title('M√©tricas no Conjunto de Teste')
axes[1,0].set_ylim(0, 1)
axes[1,0].grid(True, alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(test_scores):
    axes[1,0].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# 4. Distribui√ß√£o de Probabilidades
if y_test_proba is not None:
    prob_rejected = y_test_proba[y_test == 0]
    prob_approved = y_test_proba[y_test == 1]
    
    axes[1,1].hist(prob_rejected, alpha=0.7, bins=20, label='Rejeitados', color='red')
    axes[1,1].hist(prob_approved, alpha=0.7, bins=20, label='Aprovados', color='green')
    axes[1,1].set_xlabel('Probabilidade de Aprova√ß√£o')
    axes[1,1].set_ylabel('Frequ√™ncia')
    axes[1,1].set_title('Distribui√ß√£o das Probabilidades Preditas')
    axes[1,1].legend()
    axes[1,1].grid(True, alpha=0.3)
else:
    axes[1,1].text(0.5, 0.5, 'Probabilidades n√£o dispon√≠veis\npara este modelo', 
                  ha='center', va='center', transform=axes[1,1].transAxes)

plt.tight_layout()
plt.show()

## 9. An√°lise de Import√¢ncia das Features

In [None]:
# An√°lise de import√¢ncia das features
print("üîç AN√ÅLISE DE IMPORT√ÇNCIA DAS FEATURES")

if hasattr(final_model, 'feature_importances_'):
    print(f"‚úÖ Modelo suporta an√°lise de import√¢ncia nativa")
    
    # Obter import√¢ncias
    feature_importance = final_model.feature_importances_
    feature_names = X_train_final.columns.tolist()
    
    # DataFrame com import√¢ncias
    df_importance = pd.DataFrame({
        'feature': feature_names,
        'importance': feature_importance
    }).sort_values('importance', ascending=False)
    
    print(f"\nüèÜ TOP 15 FEATURES MAIS IMPORTANTES:")
    for i, (_, row) in enumerate(df_importance.head(15).iterrows(), 1):
        print(f"   {i:2d}¬∫ {row['feature']}: {row['importance']:.4f}")
    
    # Visualiza√ß√£o das import√¢ncias
    plt.figure(figsize=(12, 8))
    top_features = df_importance.head(15)
    
    plt.barh(range(len(top_features)), top_features['importance'], color='skyblue')
    plt.yticks(range(len(top_features)), top_features['feature'])
    plt.xlabel('Import√¢ncia da Feature')
    plt.title(f'Top 15 Features Mais Importantes - {type(final_model).__name__}')
    plt.gca().invert_yaxis()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
    
else:
    print(f"‚ö†Ô∏è Modelo n√£o suporta an√°lise de import√¢ncia nativa")
    
    # Usar import√¢ncia por permuta√ß√£o
    from sklearn.inspection import permutation_importance
    
    print("Calculando import√¢ncia por permuta√ß√£o...")
    perm_importance = permutation_importance(
        final_model, X_test_scaled, y_test, 
        n_repeats=5, random_state=RANDOM_STATE, 
        scoring='f1'
    )
    
    df_perm_importance = pd.DataFrame({
        'feature': X_train_final.columns.tolist(),
        'importance_mean': perm_importance.importances_mean,
        'importance_std': perm_importance.importances_std
    }).sort_values('importance_mean', ascending=False)
    
    print(f"\nüèÜ TOP 15 FEATURES (IMPORT√ÇNCIA POR PERMUTA√á√ÉO):")
    for i, (_, row) in enumerate(df_perm_importance.head(15).iterrows(), 1):
        print(f"   {i:2d}¬∫ {row['feature']}: {row['importance_mean']:.4f} (¬±{row['importance_std']:.4f})")

## 10. Conclus√µes e Relat√≥rio Final

In [None]:
# Relat√≥rio final do projeto
print("üìã RELAT√ìRIO FINAL DO PROJETO")
print("="*60)

# Resumo executivo
print("üéØ RESUMO EXECUTIVO:")
print(f"   ‚Ä¢ Problema: Predi√ß√£o de aprova√ß√£o no processo seletivo PUC-Rio")
print(f"   ‚Ä¢ Tipo: Classifica√ß√£o bin√°ria supervisionada")
print(f"   ‚Ä¢ Dataset: {len(df_clean)} candidatos com {len(X.columns)} features")
print(f"   ‚Ä¢ Melhor modelo: {type(final_model).__name__}")
print(f"   ‚Ä¢ Performance final: F1-Score = {test_f1:.4f}")

# Recursos computacionais
print(f"\nüìä RECURSOS COMPUTACIONAIS:")
print(f"   ‚Ä¢ Tempo de treinamento: {final_train_time:.2f} segundos")
print(f"   ‚Ä¢ Mem√≥ria dos dados: ~{df_clean.memory_usage(deep=True).sum() / (1024**2):.1f} MB")

# Melhoria sobre baseline
improvement = ((test_f1 - baseline_threshold) / baseline_threshold) * 100
print(f"\nüìà MELHORIA SOBRE BASELINE:")
print(f"   ‚Ä¢ Baseline F1-Score: {baseline_threshold:.4f}")
print(f"   ‚Ä¢ Modelo final F1-Score: {test_f1:.4f}")
print(f"   ‚Ä¢ Melhoria: {improvement:+.1f}%")

# An√°lise de overfitting
print(f"\nüîç AN√ÅLISE DE OVERFITTING:")
print(f"   ‚Ä¢ Gap de generaliza√ß√£o: {generalization_gap:.4f}")
if abs(generalization_gap) < 0.02:
    overfitting_status = "N√£o detectado - Excelente generaliza√ß√£o"
elif abs(generalization_gap) < 0.05:
    overfitting_status = "Leve - Generaliza√ß√£o aceit√°vel"
else:
    overfitting_status = "Detectado - Requer aten√ß√£o"
print(f"   ‚Ä¢ Status: {overfitting_status}")

# Limita√ß√µes
print(f"\n‚ö†Ô∏è LIMITA√á√ïES IDENTIFICADAS:")
print(f"   1. Dataset sint√©tico (n√£o reflete complexidade real)")
print(f"   2. Tamanho limitado do dataset ({len(df_clean)} amostras)")
print(f"   3. Features podem n√£o capturar todos os crit√©rios de sele√ß√£o")
print(f"   4. Aspectos subjetivos da entrevista n√£o modelados")

# Sugest√µes de melhorias
print(f"\nüöÄ SUGEST√ïES DE MELHORIAS:")
print(f"   1. Coleta de dados reais de processos seletivos")
print(f"   2. Inclus√£o de features textuais (cartas de motiva√ß√£o)")
print(f"   3. Implementa√ß√£o de explicabilidade (SHAP, LIME)")
print(f"   4. Monitoramento de vi√©s e equidade")
print(f"   5. Ensemble de m√∫ltiplos modelos")

# Interpreta√ß√£o final
print(f"\nüéì APLICA√á√ÉO PR√ÅTICA:")
print(f"   ‚Ä¢ Ferramenta de apoio para triagem inicial")
print(f"   ‚Ä¢ Identifica√ß√£o de perfis promissores")
print(f"   ‚Ä¢ Deve complementar, n√£o substituir, avalia√ß√£o humana")
print(f"   ‚Ä¢ Necess√°ria valida√ß√£o com comiss√£o de sele√ß√£o")

print(f"\n‚úÖ Projeto conclu√≠do com sucesso!")
print(f"üìù Modelo pronto para apresenta√ß√£o e discuss√£o")

### üéì **Conclus√£o: De Dados Brutos a Insights Acion√°veis**

**A√ß√£o!** Acabamos de completar a transforma√ß√£o 2000 perfis de candidatos em um sistema inteligente capaz de predizer aprova√ß√µes acad√™micas.

**üìö O que foi feito - Passo a Passo:**

**üèÅ Passo 1**: Prepara√ß√£o do ambiente - Importamos ferramentas e definimos o problema
**üìä Passo 2**: Conhecendo nosso modelo - Carregamos e exploramos 2000 candidatos
**üßπ Passo 3**: Limpeza e Organiza√ß√£o - Preparamos dados para an√°lise
**‚öôÔ∏è Passo 4**: Engenharia Criativa - Criamos novas features inteligentes
**üî¢ Passo 5**: Converter - Convertemos categorias para linguagem ML
**üìä Passo 6**: Dividir para conquistar - Dividimos dados para treino/valida√ß√£o/teste
**üèÅ Passo 7**: Baselines - Estabelecemos padr√µes m√≠nimos
**ü§ñ Passo 8**: Execu√ß√£o dos 7 Algoritmos - Testamos diferentes abordagens ML
**üéõÔ∏è Passo 9**: Otimiza√ß√£o - Fine-tuning para m√°xima performance
**üèÜ Passo 10**: teste - Teste final em dados limpos
**üîç Passo 11**: Conclus√µes - An√°lise de import√¢ncia de features

**üéØ Conquistas Alcan√ßadas:**
- ‚úÖ **Modelo Funcional**: F1-Score competitivo para o problema
- ‚úÖ **Pipeline Completo**: Do raw data ao modelo em produ√ß√£o
- ‚úÖ **Metodologia Cient√≠fica**: Valida√ß√£o cruzada e teste independente
- ‚úÖ **Interpretabilidade**: Sabemos POR QUE o modelo decide
- ‚úÖ **Reprodutibilidade**: Qualquer pessoa pode replicar nossos resultados
- ‚úÖ **Documenta√ß√£o Rica**: Cada etapa explicada e justificada

**üöÄ Impacto e Aplica√ß√£o Pr√°tica:**
Nosso modelo n√£o √© apenas n√∫meros - √© uma **ferramenta de apoio √† decis√£o** que pode:
- Acelerar triagem inicial de candidatos
- Identificar perfis promissores sistematicamente
- Reduzir vi√©s humano em avalia√ß√µes
- Fornecer crit√©rios objetivos e audit√°veis

**üß† Li√ß√µes Aprendidas:**
1. **Dados de qualidade > algoritmos complexos**
2. **Valida√ß√£o rigorosa > performance pontual**
3. **Interpretabilidade > precis√£o absoluta**
4. **Metodologia > resultados isolados**

**üéä Conclus√£o Final:**
Transformamos dados atrav√©s do carregamento de um dataset em conhecimento, dados em insights, e c√≥digo em impacto real. Esta √© a ess√™ncia da Ci√™ncia de Dados - usar matem√°tica e programa√ß√£o para resolver problemas humanos reais!

**üåü "Data Science is not magic - it's methodology, persistence, and a little bit of curiosity about the patterns that shape our world."**

