# üß© 13 ‚Äî DIM_MODALIDADE (Gold)

- L√™ `silver/2018_anonimizado.xlsx` e `silver/2019_anonimizado.xlsx`
- Normaliza modalidades
- Exporta em `gold/output/dim_modalidade.csv`


## 0) Imports

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path


## 1) Paths robustos

In [None]:
BASE_DIR = Path().resolve() 
OUT_DIR = BASE_DIR / "output"
OUT_DIR.mkdir(parents=True, exist_ok=True)

INPUT_FILES = [
    BASE_DIR / "2018_anonimizado.xlsx",
    BASE_DIR / "2019_anonimizado.xlsx",
]

print("üìÅ BASE_DIR:", BASE_DIR)
print("üì• INPUT_FILES:")
for f in INPUT_FILES:
    print(" -", f, "| existe?", f.exists())

print("üì§ OUT_DIR:", OUT_DIR)


üìÅ BASE_DIR: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold
üì• INPUT_FILES:
 - C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\2018_anonimizado.xlsx | existe? True
 - C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\2019_anonimizado.xlsx | existe? True
üì§ OUT_DIR: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\output


## 2) Ler Silver (2018 + 2019)

In [3]:
dfs = []
for f in INPUT_FILES:
    if not f.exists():
        raise FileNotFoundError(f"Arquivo n√£o encontrado: {f}")
    tmp = pd.read_excel(f, dtype=str)
    tmp["fonte_arquivo"] = f.name
    dfs.append(tmp)

df = pd.concat(dfs, ignore_index=True)

print("‚úÖ Linhas/Colunas consolidadas:", df.shape)
df.head()


‚úÖ Linhas/Colunas consolidadas: (732261, 87)


Unnamed: 0,ULTIMO_PROCESSO,SITUACAO_DO_PROCESSO,IS_SEDE_EAD,NO_DO_PROCESSO,MODALIDADE,ANO_DO_PROTOCOLO,DATA,ORGAO,ATO,CATEGORIA_ATO,...,CINE_AREA_ESPECIFICA,CODIGO_AREA_GERAL_CINE,AREA_GERAL_CINE,CODIGO_AREA_DETALHADA_CINE,AREA_DETALHADA_CINE,CODIGO_AREA_ESPECIFICA_CINE,AREA_ESPECIFICA_CINE,ROTULO_CINE,AVALIACAO_OFICIAL,fonte_arquivo
0,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
1,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
2,N√ÉO,Aguardando Pagamento,N,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
3,N√ÉO,Aguardando Pagamento,S,200810426,EAD,2009,2009-02-26 00:00:00,,Credenciamento EAD,Institui√ß√£o,...,,,,,,,,,,2018_anonimizado.xlsx
4,N√ÉO,Arquivado,N,20070028,PRESENCIAL,2008,2008-09-26 00:00:00,SERES/DIREG/CGRERCES,Reconhecimento de Curso,Curso,...,Humanidades (exceto l√≠nguas),2.0,Artes e humanidades,223.0,Filosofia e √©tica,22.0,Humanidades (exceto l√≠nguas),Filosofia,Regula√ß√£o,2018_anonimizado.xlsx


## 3) Fun√ß√µes auxiliares

In [None]:

def norm_missing(s: pd.Series) -> pd.Series:
    x = s.astype(str).str.strip()
    return x.replace({"": np.nan, "nan": np.nan, "NAN": np.nan, "None": np.nan, "NONE": np.nan})

def dedup_most_complete(df_in: pd.DataFrame, key: str) -> pd.DataFrame:
    score = df_in.notna().sum(axis=1)
    return (df_in.assign(_score=score)
              .sort_values([key, "_score"], ascending=[True, False])
              .drop_duplicates(subset=[key], keep="first")
              .drop(columns=["_score"]))

def pick_first_existing(candidates, df_):
    return next((c for c in candidates if c in df_.columns), None)


## 4) Construir DIM_MODALIDADE

In [5]:
if "MODALIDADE" not in df.columns:
    raise KeyError("Coluna MODALIDADE n√£o encontrada.")

m = norm_missing(df["MODALIDADE"]).str.upper()

m_norm = (m.replace({
    "EAD": "EAD",
    "PRESENCIAL": "PRESENCIAL",
    "SEMI-PRESENCIAL": "SEMIPRESENCIAL",
    "SEMIPRESENCIAL": "SEMIPRESENCIAL",
})
.fillna("N√ÉO INFORMADO"))

dim_modalidade = (
    pd.DataFrame({"modalidade_norm": m_norm})
      .drop_duplicates()
      .sort_values("modalidade_norm")
      .reset_index(drop=True)
)

dim_modalidade["id_modalidade"] = dim_modalidade["modalidade_norm"].factorize()[0] + 1
dim_modalidade = dim_modalidade[["id_modalidade","modalidade_norm"]]

print("‚úÖ DIM_MODALIDADE pronta:", dim_modalidade.shape)
dim_modalidade


‚úÖ DIM_MODALIDADE pronta: (4, 2)


Unnamed: 0,id_modalidade,modalidade_norm
0,1,EAD
1,2,N√ÉO INFORMADO
2,3,PRESENCIAL
3,4,SEMIPRESENCIAL


## 5) Exportar

In [6]:
out_file = OUT_DIR / "dim_modalidade.csv"
dim_modalidade.to_csv(out_file, index=False, encoding="utf-8")
print("‚úÖ Salvo em:", out_file)


‚úÖ Salvo em: C:\Users\LeaoN\OneDrive\Documents\GitHub\data_case_analysis\gold\output\dim_modalidade.csv
