# Modelagem de Dados Evolutiva: Sistema de Gerenciamento de Buscas de Trabalho

Vamos estruturar seu projeto em etapas progressivas, partindo da planilha existente (CSV com 800+ aplica√ß√µes) at√© um banco de dados relacional robusto para an√°lise e gest√£o de oportunidades.

## 1. An√°lise da Base Existente (Etapa Zero)

Antes de modelar, precisamos entender sua estrutura atual:

**Dados atuais no CSV:**
- Quais colunas existem?
- Quais rela√ß√µes j√° est√£o impl√≠citas?
- Quais dados est√£o sendo repetidos desnecessariamente?
- Quais informa√ß√µes importantes est√£o faltando?

*(Sugiro que voc√™ compartilhe um exemplo da estrutura do CSV para podermos mapear melhor)*

### 1.1.Importando os dados

In [35]:
import pandas as pd

df = pd.read_csv('_raw-data/Application Tracker fce54b225d9b4094962ae10c774c15db_all.csv')

# An√°lise b√°sica
print("=== Estrutura ===")
print(f"Linhas: {len(df)}, Colunas: {len(df.columns)}")
print("\n=== Tipos de Dados ===")
print(df.dtypes)
print("\n=== Dados Faltantes ===")
print(df.isnull().mean().sort_values(ascending=False))

# An√°lise de colunas cr√≠ticas
print("\n=== An√°lise de Empresas ===")
print(df['Company Name'].value_counts().head(10))
print("\n=== An√°lise de Status ===")
print(df['Status'].value_counts())
df.head(20)

=== Estrutura ===
Linhas: 944, Colunas: 32

=== Tipos de Dados ===
Campaing ID         object
Job Title           object
Date Applied        object
Company Name        object
Status              object
Plataforma RH       object
Modalidade          object
Obs                 object
Insgihts            object
Overview            object
JobDes              object
Industry            object
Company size        object
Headquarters        object
Specialties         object
Job Description     object
Senioridade         object
Vaga Afirmativa     object
Beneficios          object
Cover letter        object
Ageing              object
Company-Data        object
Created             object
GLDR-Index         float64
Milestone          float64
Quarter             object
Rollup              object
Step                object
closed              object
cohort rate        float64
cohort: recusa      object
webarquive          object
dtype: object

=== Dados Faltantes ===
Milestone          1.000000
Co

Unnamed: 0,Campaing ID,Job Title,Date Applied,Company Name,Status,Plataforma RH,Modalidade,Obs,Insgihts,Overview,...,Created,GLDR-Index,Milestone,Quarter,Rollup,Step,closed,cohort rate,cohort: recusa,webarquive
0,,,,,Convite 3th Entrevista,,,,,,...,"March 25, 2025 11:10 PM",,,,AM Design,,,,,https://web.archive.org/save/
1,,https://www.linkedin.com/posts/kojieumesmo_ple...,,,,,,,,,...,"March 20, 2025 10:05 PM",,,,,,,,,https://web.archive.org/save/
2,,"Ol√°, Designers! Tenho tr√™s oportunidades para ...",,,,,,,,,...,"March 13, 2025 9:01 PM",,,,,,,,,https://web.archive.org/save/https:%2F%2Fwww.l...
3,,Developer Front (React) Pleno | CI&T | LinkedIn,"March 11, 2025",CI&T,,,,,,,...,"March 11, 2025 7:12 PM",,,25'Q1,,,,,,https://web.archive.org/save/https:%2F%2Fwww.l...
4,,Pleno UI Design | UX Design,,,,,,,,,...,"March 11, 2025 7:01 PM",,,,,,,,,https://web.archive.org/save/https:%2F%2Fimpul...
5,,Product Desginer com Ingl√™s S√™nior,,,,,,,,,...,"February 27, 2025 11:21 AM",,,,,,,,,https://web.archive.org/save/https:%2F%2Famcom...
6,,Product Designer Especialista,,,,,,,,,...,"February 27, 2025 11:19 AM",,,,,,,,,https://web.archive.org/save/https:%2F%2Frecla...
7,v24s5230,Product Designer - S√™nior | Whirlpool,"December 30, 2024",More Talent Tech,"Aplicado, Curr√≠culo, English Test, Inf. Adicio...",recrut.ai,hibrido,,,,...,"February 24, 2025 10:34 AM",,,24'Q4,,99.done,,,,https://web.archive.org/save/
8,v24s5230,Especialista UX,"December 30, 2024",Drogaria Araujo,"13D, 1D, 3D, 5D, Aplicado, Comportamento, Conv...",Easy Aply,"clt, presencial",,,,...,"February 24, 2025 1:19 AM",,,24'Q4,,04.presentation,,,,https://web.archive.org/save/
9,v24s5230,Designer - UI,"December 30, 2024",fueltech,"Aplicado, Curr√≠culo, Inf. Adicionais, Inf. Can...",Gupy,hibrido,,,,...,"January 16, 2025 2:03 AM",,,24'Q4,,02.application,,,,https://web.archive.org/save/


### 2.1.Quais colunas existem?
--------------------------

**Colunas principais (bem preenchidas):**

-   `Job Title`¬†(942/944): T√≠tulo da vaga

-   `Date Applied`¬†(938/944): Data de aplica√ß√£o (como string)

-   `Company Name`¬†(938/944): Nome da empresa

-   `Status`¬†(938/944): Estado atual da aplica√ß√£o (valores compostos)

-   `Plataforma RH`¬†(934/944): Plataforma/canal de aplica√ß√£o

-   `Modalidade`¬†(759/944): Tipo de trabalho (remoto/h√≠brido/presencial)

-   `Step`¬†(937/944): Est√°gio do processo seletivo

**Colunas secund√°rias (pouco preenchidas):**

-   `Senioridade`¬†(9/944): N√≠vel da vaga

-   `JobDes`¬†(9/944) e¬†`Job Description`¬†(14/944): Descri√ß√£o da vaga

-   `Industry`¬†(4/944): Setor da empresa

-   `Company size`¬†(4/944): Porte da empresa

-   `Cover letter`¬†(8/944): Indica uso de carta de apresenta√ß√£o

**Colunas problem√°ticas:**

-   `Insgihts`¬†(4/944) e¬†`Overview`¬†(4/944): Dados quase vazios

-   `Obs`¬†(132/944): Observa√ß√µes livres n√£o estruturadas

-   `Milestone`¬†(0/944): Coluna completamente vazia

-   `webarquive`¬†(944/944): Links de archive repetidos

### 2.2\. Quais rela√ß√µes j√° est√£o impl√≠citas?
---------------------------------------

**Rela√ß√µes identific√°veis:**

1.  **Empresa-Vaga**:

    -   `Company Name`¬†‚Üí Cada empresa pode ter m√∫ltiplas vagas

    -   Problema: Empresas n√£o normalizadas ("CI&T" vs "CI&T Brasil")

2.  **Vaga-Aplica√ß√£o**:

    -   `Job Title`¬†+¬†`Company Name`¬†formam identificador impl√≠cito

    -   Falta: ID √∫nico para vagas

3.  **Status-Processo**:

    -   `Status`¬†cont√©m m√∫ltiplos estados separados por v√≠rgula

    -   `Step`¬†parece ser um est√°gio num√©rico do processo

4.  **Canal-Aplica√ß√£o**:

    -   `Plataforma RH`¬†indica origem da vaga (LinkedIn, site da empresa etc.)

### 2.3\. Quais dados est√£o sendo repetidos desnecessariamente?
---------------------------------------------------------

**Principais redund√¢ncias:**

1.  **Informa√ß√µes de Empresa**:

    -   Mesmo¬†`Company Name`¬†repetido para cada aplica√ß√£o

    -   Dados como¬†`Industry`,¬†`Company size`¬†duplicados (quando preenchidos)

2.  **Dados de Status**:

    -   Hist√≥rico armazenado como string composta na coluna¬†`Status`

    -   Exemplo: "Aplicado, Curr√≠culo, Inf. Adicionais, Inf. Cancelada"

3.  **Webarchive**:

    -   Mesmo link repetido em todas as linhas sem necessidade

4.  **Job Title vs JobDes**:

    -   Duplica√ß√£o de informa√ß√£o sobre t√≠tulo da vaga

### 2.4\. Quais informa√ß√µes importantes est√£o faltando?
-------------------------------------------------

**Dados ausentes cr√≠ticos:**

1.  **Metadados de Aplica√ß√£o**:

    -   Data/hora exata de cada mudan√ßa de status

    -   Feedback estruturado de recrutadores

2.  **Classifica√ß√£o de Vagas**:

    -   √Årea espec√≠fica (UX, Frontend, etc.)

    -   Tecnologias/tags relevantes

    -   Faixa salarial

3.  **Informa√ß√µes de Processo**:

    -   Tempo entre etapas

    -   Contato espec√≠fico em cada empresa

    -   Materiais enviados (vers√£o do curr√≠culo)

4.  **Dados de Empresa Enriquecidos**:

    -   Site corporativo

    -   Cultura/benef√≠cios

    -   Notas pessoais sobre a empresa

### 2.5\. Mapa de Transforma√ß√£o Recomendado
-------------------------------------

| Problema Atual | Solu√ß√£o Proposta |
| --- |  --- |
| Valores compostos em¬†`Status` | Tabela¬†`historico_status`¬†com relacionamento 1-N |
| --- |  --- |
| Empresas n√£o normalizadas | Tabela¬†`empresa`¬†com ID √∫nico |
| M√∫ltiplas colunas para descri√ß√£o | Unificar em¬†`descricao_vaga` |
| Datas como strings | Converter para tipo¬†`date` |
| Modalidade inconsistente | Tabela¬†`tipo_trabalho`¬†com valores padronizados |
| Falta hist√≥rico temporal | Registrar timestamps de cada mudan√ßa |

6\. Pr√≥ximos Passos Imediatos
-----------------------------