# üß± `DIM_CURSO` (Gold) ‚Äî Notebook pronto (lendo Silver e salvando em Gold)

Este notebook foi preparado para a estrutura:

```
/bronze
/silver
/gold
```

‚úÖ Ele:
- l√™ **2018_anonimizado.xlsx** e **2019_anonimizado.xlsx** a partir de `../silver/`
- consolida em um √∫nico dataframe
- cria a dimens√£o **DIM_CURSO**
- preenche `AREA_GERAL_CINE` vazia como **"N√£o informado"**
- deduplica por `id_curso` mantendo o registro mais completo
- salva em `gold/output/dim_curso.csv` (ou seja, na mesma pasta do notebook, dentro de `output/`)

> **Como usar:** coloque este notebook dentro da pasta `gold/` do seu reposit√≥rio e rode as c√©lulas em ordem.


## 0) Imports e configura√ß√£o de display

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

## 1) Paths robustos (funciona com o notebook dentro de `gold/`)

In [None]:

BASE_DIR = Path().resolve()  
OUT_DIR = BASE_DIR / "output"
OUT_DIR.mkdir(parents=True, exist_ok=True)

INPUT_FILES = [
    BASE_DIR / "2018_anonimizado.xlsx",
    BASE_DIR / "2019_anonimizado.xlsx",
]

print("üìÅ BASE_DIR:", BASE_DIR)
print("üì• INPUT_FILES:")
for f in INPUT_FILES:
    print(" -", f, "| existe?", f.exists())

print("üì§ OUT_DIR:", OUT_DIR)


üìÅ BASE_DIR: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold
üì• INPUT_FILES:
 - C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\2018_anonimizado.xlsx | existe? True
 - C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\2019_anonimizado.xlsx | existe? True
üì§ OUT_DIR: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\output


## 2) Leitura dos arquivos (Silver) e consolida√ß√£o

In [4]:
dfs = []
for f in INPUT_FILES:
    if not f.exists():
        raise FileNotFoundError(f"Arquivo n√£o encontrado: {f}")
    tmp = pd.read_excel(f, dtype=str)
    tmp["fonte_arquivo"] = f.name
    dfs.append(tmp)

df = pd.concat(dfs, ignore_index=True)

print("‚úÖ Linhas/Colunas consolidadas:", df.shape)
df.head()


‚úÖ Linhas/Colunas consolidadas: (732261, 87)


Unnamed: 0,ULTIMO_PROCESSO,SITUACAO_DO_PROCESSO,IS_SEDE_EAD,NO_DO_PROCESSO,MODALIDADE,ANO_DO_PROTOCOLO,DATA,ORGAO,ATO,CATEGORIA_ATO,...,CINE_AREA_ESPECIFICA,CODIGO_AREA_GERAL_CINE,AREA_GERAL_CINE,CODIGO_AREA_DETALHADA_CINE,AREA_DETALHADA_CINE,CODIGO_AREA_ESPECIFICA_CINE,AREA_ESPECIFICA_CINE,ROTULO_CINE,AVALIACAO_OFICIAL,fonte_arquivo
0,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
1,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
2,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
3,N√ÉO,Aguardando Pagamento,S,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
4,N√ÉO,Arquivado,N,20070028,PRESENCIAL,2008,2008-09-26 00:00:00,SERES/DIREG/CGRERCES,Reconhecimento de Curso,Curso,...,Humanidades (exceto l√≠nguas),2.0,Artes e humanidades,223.0,Filosofia e √©tica,22.0,Humanidades (exceto l√≠nguas),Filosofia,Regula√ß√£o,2018_anonimizado.xlsx


## 3) Fun√ß√µes auxiliares (padroniza√ß√£o e deduplica√ß√£o)

In [5]:
def norm_missing(s: pd.Series) -> pd.Series:
    """Padroniza nulos e strings vazias."""
    x = s.astype(str).str.strip()
    x = x.replace({
        "": np.nan,
        "nan": np.nan, "NAN": np.nan,
        "None": np.nan, "NONE": np.nan
    })
    return x

def dedup_most_complete(df_in: pd.DataFrame, key: str) -> pd.DataFrame:
    """Mant√©m a linha mais 'completa' por chave (mais colunas preenchidas)."""
    score = df_in.notna().sum(axis=1)
    return (df_in.assign(_score=score)
              .sort_values([key, "_score"], ascending=[True, False])
              .drop_duplicates(subset=[key], keep="first")
              .drop(columns=["_score"]))


## 4) Valida√ß√£o de colunas do layout atual

In [None]:
required = [
    "CODIGO_DO_CURSO",
    "NOME_CURSO_REGULACAO",   
    "GRAU",
    "CARGA_HORARIA_CADASTRO",
    "CODIGO_AREA_GERAL_CINE",
    "AREA_GERAL_CINE",
]

missing = [c for c in required if c not in df.columns]
if missing:
    raise KeyError(f"Colunas n√£o encontradas no dataframe: {missing}")

print("‚úÖ Colunas obrigat√≥rias OK.")


‚úÖ Colunas obrigat√≥rias OK.


## 5) Constru√ß√£o da dimens√£o `DIM_CURSO`

In [7]:
dim_curso = df[[
    "CODIGO_DO_CURSO",
    "NOME_CURSO_REGULACAO",
    "GRAU",
    "CARGA_HORARIA_CADASTRO",
    "CODIGO_AREA_GERAL_CINE",
    "AREA_GERAL_CINE",
]].copy()

# Padroniza√ß√£o
dim_curso["CODIGO_DO_CURSO"] = norm_missing(dim_curso["CODIGO_DO_CURSO"])
dim_curso["NOME_CURSO_REGULACAO"] = norm_missing(dim_curso["NOME_CURSO_REGULACAO"])
dim_curso["GRAU"] = norm_missing(dim_curso["GRAU"])
dim_curso["CARGA_HORARIA_CADASTRO"] = norm_missing(dim_curso["CARGA_HORARIA_CADASTRO"])
dim_curso["CODIGO_AREA_GERAL_CINE"] = norm_missing(dim_curso["CODIGO_AREA_GERAL_CINE"])
dim_curso["AREA_GERAL_CINE"] = norm_missing(dim_curso["AREA_GERAL_CINE"]).fillna("N√£o informado")

# Remover cursos sem id
dim_curso = dim_curso.dropna(subset=["CODIGO_DO_CURSO"])

# Renomear para padr√£o dimensional
dim_curso = dim_curso.rename(columns={
    "CODIGO_DO_CURSO": "id_curso",
    "NOME_CURSO_REGULACAO": "nome_curso",
    "GRAU": "grau",
    "CARGA_HORARIA_CADASTRO": "carga_horaria_cadastro",
    "CODIGO_AREA_GERAL_CINE": "cod_cine_area_geral",
    "AREA_GERAL_CINE": "cine_area_geral",
})

# Deduplicar por id_curso (mantendo a linha mais completa)
dim_curso = dedup_most_complete(dim_curso, "id_curso")

# Ordenar
dim_curso = dim_curso.sort_values("id_curso").reset_index(drop=True)

print("‚úÖ DIM_CURSO pronta. Linhas:", len(dim_curso))
dim_curso.head(10)


‚úÖ DIM_CURSO pronta. Linhas: 88437


Unnamed: 0,id_curso,nome_curso,grau,carga_horaria_cadastro,cod_cine_area_geral,cine_area_geral
0,1,DIREITO,Bacharelado,3904,4,"Neg√≥cios, administra√ß√£o e direito"
1,10,ENGENHARIA FLORESTAL,Bacharelado,4364,8,"Agricultura, silvicultura, pesca e veterin√°ria"
2,10000,HIST√ìRIA,Licenciatura,2800,1,Educa√ß√£o
3,100000,MARKETING,Tecnol√≥gico,1800,4,"Neg√≥cios, administra√ß√£o e direito"
4,100002,PRODU√á√ÉO SUCROALCOOLEIRA,Tecnol√≥gico,2600,7,"Engenharia, produ√ß√£o e constru√ß√£o"
5,1000030,MATEM√ÅTICA,Licenciatura,2840,1,Educa√ß√£o
6,100004,CURSO SUPERIOR DE TECNOLOGIA EM LOG√çSTICA,Tecnol√≥gico,1800,4,"Neg√≥cios, administra√ß√£o e direito"
7,100006,GEST√ÉO DE RECURSOS HUMANOS,Tecnol√≥gico,1800,4,"Neg√≥cios, administra√ß√£o e direito"
8,100008,GEST√ÉO DA PRODU√á√ÉO INDUSTRIAL,Tecnol√≥gico,2600,4,"Neg√≥cios, administra√ß√£o e direito"
9,100010,EDUCA√á√ÉO F√çSICA,Licenciatura,3200,1,Educa√ß√£o


## 6) Exportar CSV (Gold)

In [9]:
out_file = OUT_DIR / "dim_curso.csv"
dim_curso.to_csv(out_file, index=False, encoding="utf-8")
print("‚úÖ Salvo em:", out_file)

‚úÖ Salvo em: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\output\dim_curso.csv
