# Modelagem de Dados Evolutiva: Sistema de Gerenciamento de Buscas de Trabalho

Vamos estruturar seu projeto em etapas progressivas, partindo da planilha existente (CSV com 800+ aplicações) até um banco de dados relacional robusto para análise e gestão de oportunidades.

## 1. Análise da Base Existente (Etapa Zero)

Antes de modelar, precisamos entender sua estrutura atual:

**Dados atuais no CSV:**
- Quais colunas existem?
- Quais relações já estão implícitas?
- Quais dados estão sendo repetidos desnecessariamente?
- Quais informações importantes estão faltando?

*(Sugiro que você compartilhe um exemplo da estrutura do CSV para podermos mapear melhor)*

### 1.1.Importando os dados

In [17]:
import pandas as pd

In [27]:
df = pd.read_csv('_raw-data/Application Tracker fce54b225d9b4094962ae10c774c15db_all.csv')
df.head()

Unnamed: 0,Campaing ID,Job Title,Date Applied,Company Name,Status,Plataforma RH,Modalidade,Obs,Insgihts,Overview,...,Created,GLDR-Index,Milestone,Quarter,Rollup,Step,closed,cohort rate,cohort: recusa,webarquive
0,,,,,Convite 3th Entrevista,,,,,,...,"March 25, 2025 11:10 PM",,,,AM Design,,,,,https://web.archive.org/save/
1,,https://www.linkedin.com/posts/kojieumesmo_ple...,,,,,,,,,...,"March 20, 2025 10:05 PM",,,,,,,,,https://web.archive.org/save/
2,,"Olá, Designers! Tenho três oportunidades para ...",,,,,,,,,...,"March 13, 2025 9:01 PM",,,,,,,,,https://web.archive.org/save/https:%2F%2Fwww.l...
3,,Developer Front (React) Pleno | CI&T | LinkedIn,"March 11, 2025",CI&T,,,,,,,...,"March 11, 2025 7:12 PM",,,25'Q1,,,,,,https://web.archive.org/save/https:%2F%2Fwww.l...
4,,Pleno UI Design | UX Design,,,,,,,,,...,"March 11, 2025 7:01 PM",,,,,,,,,https://web.archive.org/save/https:%2F%2Fimpul...


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 944 entries, 0 to 943
Data columns (total 32 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Campaing ID      937 non-null    object 
 1   Job Title        942 non-null    object 
 2   Date Applied     938 non-null    object 
 3   Company Name     938 non-null    object 
 4   Status           938 non-null    object 
 5   Plataforma RH    934 non-null    object 
 6   Modalidade       759 non-null    object 
 7   Obs              132 non-null    object 
 8   Insgihts         4 non-null      object 
 9   Overview         4 non-null      object 
 10  JobDes           9 non-null      object 
 11  Industry         4 non-null      object 
 12  Company size     4 non-null      object 
 13  Headquarters     12 non-null     object 
 14  Specialties      4 non-null      object 
 15  Job Description  14 non-null     object 
 16  Senioridade      9 non-null      object 
 17  Vaga Afirmativa 

In [28]:
import pandas as pd
from datetime import datetime

# Carregar dados
df = pd.read_csv('_raw-data/Application Tracker fce54b225d9b4094962ae10c774c15db_all.csv', parse_dates=['Date Applied'])

# Criar tabela normalizada de empresas
empresas = df[['Company Name']].drop_duplicates()
empresas['id_empresa'] = range(1, len(empresas)+1)

# Salvar para análise
empresas.to_csv('dados_normalizados.csv', index=False)

## Importando os dados

In [10]:
import pandas as pd

In [12]:
df = pd.read_csv('dados_normalizados.csv')
df

Unnamed: 0,Company Name,id_empresa
0,,1
1,CI&T,2
2,More Talent Tech,3
3,Drogaria Araujo,4
4,fueltech,5
...,...,...
555,DocPlanner,556
556,Doctoralia,557
557,Suzano,558
558,PSM Company,559
