In [2]:
import os
import pandas as pd
from tqdm import tqdm

# Diretório base de busca
base_dir = r"C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL\data\curated"

# Diretório e arquivo de saída (mesmo nome de saída solicitado)
saida_dir = r"C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL_REFAZIMENTO\data\analises_preliminares"
os.makedirs(saida_dir, exist_ok=True)
saida = os.path.join(saida_dir, "auditoria_cabecalhos.csv")

# 1) Coleta de arquivos .csv
csv_paths = []
for root, _, files in os.walk(base_dir):
    for f in files:
        if f.lower().endswith(".csv"):
            csv_paths.append(os.path.join(root, f))

# 2) Mapeia "nome do arquivo" -> conjunto de variáveis (cabeçalhos)
arquivos_colunas = {}
for caminho in tqdm(csv_paths, desc="Lendo cabeçalhos"):
    nome_arquivo = os.path.basename(caminho)
    try:
        cols = pd.read_csv(caminho, nrows=0, sep=None, engine="python").columns.tolist()
        arquivos_colunas[nome_arquivo] = set(cols)
    except Exception as e:
        print(f"Erro ao ler cabeçalho de {caminho}: {e}")

# 3) Constrói a matriz: linhas = variáveis, colunas = arquivos, valores = 1 (presente) / 0 (ausente)
todas_variaveis = sorted(set().union(*arquivos_colunas.values())) if arquivos_colunas else []
todos_arquivos = sorted(list(arquivos_colunas.keys()))

df_matriz = pd.DataFrame(0, index=todas_variaveis, columns=todos_arquivos, dtype="int64")

for arquivo, cols in arquivos_colunas.items():
    if cols:
        df_matriz.loc[list(cols), arquivo] = 1

# 4) Salva a matriz em CSV
df_matriz.to_csv(saida, encoding="utf-8-sig")

print(f"Concluído. Variáveis: {df_matriz.shape[0]} | Arquivos: {df_matriz.shape[1]}")
print(f"Arquivo salvo em: {saida}")

# Exibe prévia
df_matriz.head(20)


Lendo cabeçalhos: 100%|██████████| 6/6 [00:00<00:00, 223.55it/s]

Concluído. Variáveis: 309 | Arquivos: 6
Arquivo salvo em: C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL_REFAZIMENTO\data\analises_preliminares\auditoria_cabecalhos.csv





Unnamed: 0,a1_physics_informed.csv,a1_physics_informed_enriched.csv,a1_physics_informed_enriched_old.csv,a1_physics_informed_old.csv,a1_physics_informed_proxies.csv,a1_physics_informed_proxies_old.csv
1_lms_pdr_bin_continous_lvl_m,1,1,1,1,1,1
2_lms_pdr_bin_continous_lvl_m,1,1,1,1,1,1
air_primary_knm3_h,0,0,0,0,1,1
air_primary_nm3_h,0,0,0,0,1,1
air_primary_press_z,0,0,0,0,1,1
air_primary_share_pct,0,0,0,0,1,1
air_secondary_knm3_h,0,0,0,0,1,1
air_secondary_nm3_h,0,0,0,0,1,1
air_secondary_press_z,0,0,0,0,1,1
air_total_knm3_h,0,0,0,0,1,1


In [3]:
import os
import shutil

# Caminho de origem (onde o arquivo foi encontrado antes)
origem = r"C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL\data\curated\a1_physics_informed_proxies.csv"

# Caminho de destino
destino_dir = r"C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL_REFAZIMENTO\data\curated"
os.makedirs(destino_dir, exist_ok=True)  # cria diretório se não existir

destino = os.path.join(destino_dir, "a1_physics_informed_proxies.csv")

# Copiar arquivo
shutil.copy2(origem, destino)

print(f"✅ Arquivo copiado com sucesso para: {destino}")


✅ Arquivo copiado com sucesso para: C:\Users\wilso\MBA_EMPREENDEDORISMO\3AGD\A1_LOCAL_REFAZIMENTO\data\curated\a1_physics_informed_proxies.csv
