<a href="https://colab.research.google.com/github/LeonardoRoig/TECH_5/blob/main/ETL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìå Projeto P√≥s-Gradua√ß√£o - Datathon Fase 5

## Objetivo
Construir um pipeline de Machine Learning para prever a aprova√ß√£o ou reprova√ß√£o de candidatos em processos seletivos, utilizando as bases fornecidas (`applicants.json`, `prospects.json`, `vagas.json`).  
O modelo ser√° treinado com candidatos j√° aprovados/reprovados e aplicado nos candidatos que ainda est√£o "em andamento" no processo.

---

## Bases de Dados
1. **Applicants**  
   - Informa√ß√µes do candidato: dados pessoais, forma√ß√£o, experi√™ncias, curr√≠culos (`cv_pt`, `cv_en`).
   - Colunas aninhadas que precisam ser normalizadas (`infos_basicas`, `informacoes_pessoais`, `informacoes_profissionais`, etc.).

2. **Vagas**  
   - Detalhes das vagas abertas: t√≠tulo, modalidade, √°rea, requisitos.
   - Cont√©m tamb√©m a lista de `prospects` vinculados a cada vaga.

3. **Prospects**  
   - Relaciona candidatos e vagas.
   - Coluna chave: `situacao_candidato` (status do processo seletivo).

---

## Situa√ß√£o do Target
A coluna `situacao_candidato` possui m√∫ltiplos status (ex.: *Aprovado, Reprovado, Em avalia√ß√£o, Entrevista, Proposta Aceita*).  

- ~30% dos registros est√£o em **Aprovado/Reprovado** ‚Üí servem de base para treino.  
- ~70% est√£o em **Em andamento** ‚Üí onde aplicaremos o modelo.  

---

## Estrat√©gia do Target
- **Aprovados (1):** `"Aprovado"`, `"Proposta Aceita"`, `"Contratado pela Decision"`.  
- **Reprovados (0):** `"Reprovado"`, `"Recusado"`, `"N√£o Aprovado pelo RH/Cliente/Requisitante"`, `"Desistiu"`, `"Sem interesse nesta vaga"`.  
- **Em andamento (NaN):** todos os demais status (ex.: `"Em avalia√ß√£o pelo RH"`, `"Entrevista T√©cnica"`, `"Documenta√ß√£o CLT"`).

---

## Pipeline do Projeto

### 1. Pr√©-processamento
- Ler os tr√™s JSONs (`applicants`, `vagas`, `prospects`).
- Explodir e normalizar colunas aninhadas (listas/dicion√°rios).
- Garantir identificadores √∫nicos (`id_candidato`, `id_vaga`).

### 2. Integra√ß√£o
- Unir as bases:
  - `applicants + prospects` (via `id_candidato`).
  - Depois juntar com `vagas` (via `id_vaga`).
- Gerar o `df_final`.

### 3. Defini√ß√£o do Target
- Mapear `situacao_candidato` ‚Üí `target`.
- Separar:
  - `df_train` ‚Üí candidatos com target definido (aprovados/reprovados).
  - `df_predict` ‚Üí candidatos em andamento (sem target).

### 4. Feature Engineering
- Texto: `cv_pt` ‚Üí transformar com **TF-IDF**.
- Categ√≥ricas: `nivel_academico`, `area_atuacao`, etc. ‚Üí OneHotEncoder.
- Num√©ricas: idade, tempo experi√™ncia (se dispon√≠vel).

### 5. Modelagem
- Treinar modelos base: **Logistic Regression**, **RandomForest**.
- Comparar m√©tricas (Acur√°cia, F1, Recall).
- Escolher o melhor e salvar em `.pkl`.

### 6. Aplica√ß√£o
- Rodar o modelo no `df_predict`.
- Gerar probabilidade de aprova√ß√£o para cada candidato em andamento.

### 7. Entrega Final
- Organizar reposit√≥rio:


### Vagas

In [1]:
import pandas as pd
import json
import warnings
warnings.filterwarnings('ignore')

In [9]:

with open("vagas.json", "r", encoding="utf-8") as f:
    jobs_raw = json.load(f)

df_jobs = pd.DataFrame.from_dict(jobs_raw, orient="index")
df_jobs.index.name = "id_vaga"

def flatten_sections(row):
    base   = {f"inf_{k}": v for k, v in row.get("informacoes_basicas", {}).items()}
    perfil = {f"perfil_{k}": v for k, v in row.get("perfil_vaga", {}).items()}
    benef  = {f"benef_{k}": v for k, v in row.get("beneficios", {}).items()}
    return {**base, **perfil, **benef}

flat_data = df_jobs.apply(flatten_sections, axis=1)
vagas = pd.DataFrame(list(flat_data), index=df_jobs.index).reset_index()

# Selecionar s√≥ as colunas √∫teis
colunas_util = [
    "id_vaga",
    "inf_titulo_vaga",
    "inf_cliente",
    "inf_vaga_sap",
    "perfil_nivel_academico",
    "perfil_nivel profissional",
    "perfil_nivel_ingles",
    "perfil_nivel_espanhol",
    "perfil_competencia_tecnicas_e_comportamentais",
    "perfil_principais_atividades"
]

df_vagas = vagas[colunas_util]


In [10]:
df_vagas.head()

Unnamed: 0,id_vaga,inf_titulo_vaga,inf_cliente,inf_vaga_sap,perfil_nivel_academico,perfil_nivel profissional,perfil_nivel_ingles,perfil_nivel_espanhol,perfil_competencia_tecnicas_e_comportamentais,perfil_principais_atividades
0,5185,Operation Lead -,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,S√™nior,Avan√ßado,Fluente,Required Skills:\n‚Ä¢ Prior experience in Cloud ...,Operations Lead\n\nRoles & Responsibilities:\n...
1,5184,Consultor PP/QM S√™nior,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,S√™nior,Fluente,Nenhum,‚Ä¢ Consultor PP/QM S√™nior com experiencia em pr...,Consultor PP/QM Sr.\n\n‚Ä¢ Consultor PP/QM S√™nio...
2,5183,ANALISTA PL/JR C/ SQL,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,Analista,Nenhum,Intermedi√°rio,Requisitos mandat√≥rios:\n\no Conhecimentos T√©c...,Descri√ß√£o ‚Äì Atividades:\n\no Monitoramento das...
3,5182,Technical Architect - 11894809,Nelson-Page,N√£o,Ensino Superior Completo,Analista,B√°sico,B√°sico,Descri√ß√£o/Coment√°rio: Architecture Frameworks ...,Descri√ß√£o/Coment√°rio: Architecture Frameworks ...
4,5181,Consultor SAP AUTHORIZATION (BCA) -Pleno / S√™nior,Mann and Sons,N√£o,Ensino Superior Completo,S√™nior,Intermedi√°rio,Nenhum,Experi√™ncia como Consultor SAP AUTHORIZATION (...,Experi√™ncia como Consultor SAP AUTHORIZATION (...


## Prospect

In [11]:

# 1) Ler prospects.json
with open("prospects.json", "r", encoding="utf-8") as f:
    prospects_raw = json.load(f)

# 2) Criar DataFrame onde cada √≠ndice = id da vaga
df_prospects = pd.DataFrame.from_dict(prospects_raw, orient="index").reset_index()
df_prospects.rename(columns={"index": "id_vaga"}, inplace=True)

# 3) Explodir lista de candidatos (prospects) -> cada candidato vira uma linha
df_vagas_explodida = df_prospects.explode("prospects").reset_index(drop=True)

# 4) Normalizar o dicion√°rio de cada candidato
df_prospects_expandido = pd.json_normalize(df_vagas_explodida["prospects"])

# 5) Concatenar: vaga + info do candidato
prospects = pd.concat(
    [df_vagas_explodida.drop(columns=["prospects"]).reset_index(drop=True),
     df_prospects_expandido.reset_index(drop=True)],
    axis=1
)

# 6) Padronizar colunas importantes
# Em muitos dumps o id do candidato aparece como "codigo"
if "codigo" in prospects.columns:
    prospects.rename(columns={"codigo": "id_candidato"}, inplace=True)

# Se status vier como "situacao" ou "status"
if "situacao" in prospects.columns:
    prospects.rename(columns={"situacao": "situacao_candidado"}, inplace=True)
elif "status" in prospects.columns:
    prospects.rename(columns={"status": "situacao_candidado"}, inplace=True)

# Garantir tipos num√©ricos
prospects["id_vaga"] = pd.to_numeric(prospects["id_vaga"], errors="coerce").astype("Int64")
prospects["id_candidato"] = pd.to_numeric(prospects["id_candidato"], errors="coerce").astype("Int64")

# 7) Manter s√≥ colunas √∫teis (ajuste se quiser mais info da vaga)
df_prospects = prospects[["id_vaga", "id_candidato", "nome","situacao_candidado", "data_candidatura", "recrutador", "titulo"]].dropna(subset=["id_candidato"])


In [12]:
df_prospects["situacao_candidado"].unique()

array(['Encaminhado ao Requisitante', 'Contratado pela Decision',
       'Desistiu', 'Documenta√ß√£o PJ', 'N√£o Aprovado pelo Cliente',
       'Prospect', 'N√£o Aprovado pelo RH', 'Aprovado',
       'N√£o Aprovado pelo Requisitante', 'Inscrito', 'Entrevista T√©cnica',
       'Em avalia√ß√£o pelo RH', 'Contratado como Hunting',
       'Desistiu da Contrata√ß√£o', 'Entrevista com Cliente',
       'Documenta√ß√£o CLT', 'Recusado', 'Documenta√ß√£o Cooperado',
       'Sem interesse nesta vaga', 'Encaminhar Proposta',
       'Proposta Aceita'], dtype=object)

###  Etapa Importante ‚Äî Defini√ß√£o do Target

Um ponto crucial do projeto √© a defini√ß√£o da vari√°vel **target**.  
Ao analisar a base, identificamos que parte dos candidatos j√° possui status finais, como **‚ÄúAprovado‚Äù**, **‚ÄúContratado‚Äù** ou **‚ÄúReprovado/Recusado‚Äù**.  

Esses casos ser√£o utilizados como **conjunto de treino**:  
- **1 ‚Üí Aprovado/Contratado**  
- **0 ‚Üí Reprovado/Recusado**

Com esse hist√≥rico, o modelo aprende os padr√µes e caracter√≠sticas que diferenciam candidatos aprovados dos reprovados.  
Assim, conseguimos **aplicar o modelo nos candidatos em andamento** (ex.: *‚ÄúEm avalia√ß√£o‚Äù, ‚ÄúEntrevista t√©cnica‚Äù*), prevendo a probabilidade de aprova√ß√£o de cada um.  

Dessa forma, os recrutadores passam a ter um **ranking de candidatos mais promissores**, o que permite investir tempo apenas nos perfis com maior chance de sucesso.


In [13]:
map_status = {
    # APROVADOS
    "Aprovado": 1,
    "Proposta Aceita": 1,
    "Contratado pela Decision": 1,

    # REPROVADOS
    "Reprovado": 0,
    "Recusado": 0,
    "N√£o Aprovado pelo RH": 0,
    "N√£o Aprovado pelo Cliente": 0,
    "N√£o Aprovado pelo Requisitante": 0,

    # desist√™ncia tamb√©m pode ser considerado reprova√ß√£o
    "Desistiu": 0,
    "Desistiu da Contrata√ß√£o": 0,
    "Sem interesse nesta vaga": 0
}

# Cria coluna target (1 = aprovado, 0 = reprovado, NaN = em andamento)
df_prospects["target"] = df_prospects["situacao_candidado"].map(map_status)

In [14]:
df_prospects["target"].value_counts(dropna=False)

Unnamed: 0_level_0,count
target,Unnamed: 1_level_1
,41783
0.0,9008
1.0,2968


In [15]:
df_prospects.head()

Unnamed: 0,id_vaga,id_candidato,nome,situacao_candidado,data_candidatura,recrutador,titulo,target
0,4530,25632,Jos√© Vieira,Encaminhado ao Requisitante,25-03-2021,Ana L√≠via Moreira,CONSULTOR CONTROL M,
1,4530,25529,Srta. Isabela Cavalcante,Encaminhado ao Requisitante,22-03-2021,Ana L√≠via Moreira,CONSULTOR CONTROL M,
2,4531,25364,Sra. Yasmin Fernandes,Contratado pela Decision,17-03-2021,Juliana Cassiano,2021-2607395-PeopleSoft Application Engine-Dom...,1.0
3,4531,25360,Alexia Barbosa,Encaminhado ao Requisitante,17-03-2021,Juliana Cassiano,2021-2607395-PeopleSoft Application Engine-Dom...,
5,4533,26338,Arthur Almeida,Contratado pela Decision,29-04-2021,Stella Vieira,2021-2605708-Microfocus Application Life Cycle...,1.0


In [16]:
df_prospects = df_prospects[["id_vaga", "titulo", "id_candidato", "nome", "data_candidatura", "recrutador", "situacao_candidado", "target"]]

In [17]:
df_prospects.isnull().sum()

Unnamed: 0,0
id_vaga,0
titulo,0
id_candidato,0
nome,0
data_candidatura,0
recrutador,0
situacao_candidado,0
target,41783


### Candidatos

In [18]:
with open("applicants.json", "r", encoding="utf-8") as f:
    applicants_raw = json.load(f)

# 2) Normalizar para DataFrame
df_applicants = pd.DataFrame.from_dict(applicants_raw, orient="index")
df_applicants.reset_index(inplace=True)
df_applicants.rename(columns={"index": "id_candidato"}, inplace=True)

# 3) Fun√ß√£o para expandir colunas de dicion√°rio
def expand_dict_column(df, col_name):
    if col_name in df.columns:
        df_expanded = pd.json_normalize(df[col_name])
        df_expanded.index = df.index
        df_expanded.columns = [f"{col_name}.{c}" for c in df_expanded.columns]
        return pd.concat([df.drop(columns=[col_name]), df_expanded], axis=1)
    return df

# 4) Expandir colunas aninhadas (inclu√≠mos formacao e cargo_atual)
cols_dict = [
    "infos_basicas",
    "informacoes_pessoais",
    "informacoes_profissionais",
    "formacao_e_idiomas",
    "cargo_atual"
]

for col in cols_dict:
    df_applicants = expand_dict_column(df_applicants, col)

# 5) Selecionar colunas √∫teis (incluindo skills e experi√™ncias)
colunas_util = [
    "id_candidato",
    "infos_basicas.objetivo_profissional",
    "informacoes_profissionais.titulo_profissional",
    "informacoes_profissionais.area_atuacao",
    "informacoes_profissionais.conhecimentos_tecnicos",
    "informacoes_profissionais.qualificacoes",
    "informacoes_profissionais.certificacoes",
    "informacoes_profissionais.experiencias",
    "formacao_e_idiomas.nivel_academico",
    "formacao_e_idiomas.nivel_ingles",
    "formacao_e_idiomas.nivel_espanhol",
    "cargo_atual.cargo_atual",
    "informacoes_profissionais.nivel_profissional",
    "formacao_e_idiomas.outro_idioma",
    "formacao_e_idiomas.cursos"

]

applicants = df_applicants[colunas_util].copy()

# 6) Renomear colunas para nomes mais claros
applicants.rename(columns={
    "cv_pt": "cv_texto_pt",
    "infos_basicas.objetivo_profissional": "objetivo_profissional",
    "informacoes_profissionais.titulo_profissional": "titulo_profissional",
    "informacoes_profissionais.area_atuacao": "area_atuacao",
    "informacoes_profissionais.conhecimentos_tecnicos": "conhecimentos_tecnicos",
    "informacoes_profissionais.qualificacoes": "qualificacoes",
    "informacoes_profissionais.certificacoes": "certificacoes",
    "informacoes_profissionais.experiencias": "experiencias",
    "formacao_e_idiomas.nivel_academico": "nivel_academico",
    "formacao_e_idiomas.nivel_ingles": "nivel_ingles",
    "formacao_e_idiomas.nivel_espanhol": "nivel_espanhol",
    "cargo_atual.cargo_atual": "cargo_atual",
    "informacoes_profissionais.nivel_profissional": "nivel_profissional",
    "formacao_e_idiomas.outro_idioma": "outro_idioma",
    "formacao_e_idiomas.cursos": "cursos"
}, inplace=True)

applicants = applicants.replace(r'^\s*$', pd.NA, regex=True)
applicants = applicants.replace(r'-', pd.NA, regex=True)
applicants = applicants.fillna("N√£o informado")

In [19]:
applicants.head()

Unnamed: 0,id_candidato,objetivo_profissional,titulo_profissional,area_atuacao,conhecimentos_tecnicos,qualificacoes,certificacoes,experiencias,nivel_academico,nivel_ingles,nivel_espanhol,cargo_atual,nivel_profissional,outro_idioma,cursos
0,31000,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado
1,31001,Analista Administrativo,Analista Administrativo,Administrativa,N√£o informado,N√£o informado,N√£o informado,N√£o informado,Ensino Superior Incompleto,Nenhum,Nenhum,N√£o informado,N√£o informado,N√£o informado,N√£o informado
2,31002,Administrativo | Financeiro,Administrativo | Financeiro,Administrativa,N√£o informado,N√£o informado,N√£o informado,N√£o informado,Ensino Superior Completo,Intermedi√°rio,B√°sico,N√£o informado,N√£o informado,N√£o informado,Administra√ß√£o de Empresas
3,31003,√Årea administrativa,√Årea administrativa,Administrativa,N√£o informado,N√£o informado,N√£o informado,N√£o informado,Ensino Superior Incompleto,Nenhum,Nenhum,N√£o informado,N√£o informado,N√£o informado,N√£o informado
4,31004,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado


## Base Final Unificada

Ap√≥s a leitura, tratamento e padroniza√ß√£o das chaves (`id_vaga` e `id_candidato`), realizamos a jun√ß√£o dos tr√™s datasets:

- **Jobs (Vagas)** ‚Üí informa√ß√µes sobre as vagas dispon√≠veis.  
- **Prospects (Situa√ß√£o do candidato na vaga)** ‚Üí status do processo seletivo (aprovado, recusado, em avalia√ß√£o, etc).  
- **Applicants (Candidatos)** ‚Üí dados do candidato: forma√ß√£o, experi√™ncia, idiomas, skills, etc.  

A jun√ß√£o foi feita em duas etapas:
1. **Jobs + Prospects** ‚Üí unifica√ß√£o pelo campo `id_vaga`.  
2. **(Jobs + Prospects) + Applicants** ‚Üí unifica√ß√£o final pelo campo `id_candidato`.  

### Resultado:
- **DataFrame final:** `df_full`  
- **Linhas:** representa cada candidato em uma vaga, com status e informa√ß√µes pessoais/profissionais.  
- **Colunas:** combina√ß√£o de atributos da vaga, status do processo e caracter√≠sticas do candidato.  

Essa base final servir√° como **entrada para a etapa de EDA e modelagem preditiva**, onde vamos definir vari√°veis explicativas (features) e a vari√°vel target (status aprovado/recusado).


In [20]:
df_vagas.head(1)

Unnamed: 0,id_vaga,inf_titulo_vaga,inf_cliente,inf_vaga_sap,perfil_nivel_academico,perfil_nivel profissional,perfil_nivel_ingles,perfil_nivel_espanhol,perfil_competencia_tecnicas_e_comportamentais,perfil_principais_atividades
0,5185,Operation Lead -,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,S√™nior,Avan√ßado,Fluente,Required Skills:\n‚Ä¢ Prior experience in Cloud ...,Operations Lead\n\nRoles & Responsibilities:\n...


In [21]:
df_prospects.head(1)

Unnamed: 0,id_vaga,titulo,id_candidato,nome,data_candidatura,recrutador,situacao_candidado,target
0,4530,CONSULTOR CONTROL M,25632,Jos√© Vieira,25-03-2021,Ana L√≠via Moreira,Encaminhado ao Requisitante,


In [22]:

df_vagas["id_vaga"] = pd.to_numeric(df_vagas["id_vaga"], errors="coerce").astype("Int64")
df_prospects["id_vaga"] = pd.to_numeric(df_prospects["id_vaga"], errors="coerce").astype("Int64")


df_jobs_prospects = pd.merge(
    df_vagas,
    df_prospects,
    on="id_vaga",
    how="inner"
)

df_jobs_prospects["id_candidato"] = pd.to_numeric(df_jobs_prospects["id_candidato"], errors="coerce").astype("Int64")
applicants["id_candidato"] = pd.to_numeric(applicants["id_candidato"], errors="coerce").astype("Int64")

# Merge
df_full = pd.merge(
    df_jobs_prospects,
    applicants,
    on="id_candidato",
    how="inner"   # s√≥ quem existe nas duas bases
)


In [23]:
df_full.head(1)

Unnamed: 0,id_vaga,inf_titulo_vaga,inf_cliente,inf_vaga_sap,perfil_nivel_academico,perfil_nivel profissional,perfil_nivel_ingles,perfil_nivel_espanhol,perfil_competencia_tecnicas_e_comportamentais,perfil_principais_atividades,...,qualificacoes,certificacoes,experiencias,nivel_academico,nivel_ingles,nivel_espanhol,cargo_atual,nivel_profissional,outro_idioma,cursos
0,5185,Operation Lead -,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,S√™nior,Avan√ßado,Fluente,Required Skills:\n‚Ä¢ Prior experience in Cloud ...,Operations Lead\n\nRoles & Responsibilities:\n...,...,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado


In [24]:
df_full.shape

(45071, 31)

In [25]:
df_full.head(1)

Unnamed: 0,id_vaga,inf_titulo_vaga,inf_cliente,inf_vaga_sap,perfil_nivel_academico,perfil_nivel profissional,perfil_nivel_ingles,perfil_nivel_espanhol,perfil_competencia_tecnicas_e_comportamentais,perfil_principais_atividades,...,qualificacoes,certificacoes,experiencias,nivel_academico,nivel_ingles,nivel_espanhol,cargo_atual,nivel_profissional,outro_idioma,cursos
0,5185,Operation Lead -,"Morris, Moran and Dodson",N√£o,Ensino Superior Completo,S√™nior,Avan√ßado,Fluente,Required Skills:\n‚Ä¢ Prior experience in Cloud ...,Operations Lead\n\nRoles & Responsibilities:\n...,...,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado,N√£o informado


In [26]:
df_full.to_csv("base_completa.csv", index=False)