In [1]:
import pandas as pd
import os

In [2]:
# PASO 1: Ruta relativa desde CNH/PREP hacia CNH/SOURCE
ruta_base = os.path.abspath(os.path.join(os.getcwd(), ".."))  # sube de PREP a CNH
ruta_excel = os.path.join(ruta_base, "SOURCE", "produccion_original.xlsx")

In [5]:
# PASO 2: Leer el archivo Excel
xls = pd.ExcelFile(ruta_excel)
print("Hojas disponibles:", xls.sheet_names)

Hojas disponibles: ['Aceite y condensado', 'Gas Natural']


In [7]:
# PASO 3: Leer las hojas específicas
df_aceite = pd.read_excel(xls, sheet_name="Aceite y condensado")
df_gas = pd.read_excel(xls, sheet_name="Gas Natural")


In [8]:
# PASO 4: Función para limpiar nombres de columnas
def limpiar_columnas(df):
    df.columns = (
        df.columns
        .str.strip()
        .str.lower()
        .str.replace(' ', '_', regex=True)
        .str.replace('á', 'a', regex=False)
        .str.replace('é', 'e', regex=False)
        .str.replace('í', 'i', regex=False)
        .str.replace('ó', 'o', regex=False)
        .str.replace('ú', 'u', regex=False)
        .str.replace('ñ', 'n', regex=False)
        .str.replace(r'[^\w_]', '', regex=True)
    )
    return df

In [9]:
# PASO 5: Limpiar columnas
df_aceite = limpiar_columnas(df_aceite)
df_gas = limpiar_columnas(df_gas)


In [10]:
df_aceite.head(2)



Unnamed: 0,fecha,cuenca,ubicacion,campo,operador,liquidos_mbd,petroleo_mbd,condensado_mbd
0,1960-01-01,Burgos,Terrestre,BRASIL,PEMEX EXPLORACIÓN Y PRODUCCIÓN,0.0,0.0,
1,1960-01-01,Burgos,Terrestre,FRANCISCO CANO,PEMEX EXPLORACIÓN Y PRODUCCIÓN,0.418995,0.418995,


In [15]:
# PASO 7: Definir carpeta de salida (BRONZE)
ruta_bronze = os.path.join(ruta_base, "BRONZE")



In [17]:
# Asegurarse de que existe la carpeta
os.makedirs(ruta_bronze, exist_ok=True)

In [19]:
# PASO 8: Exportar como CSV
ruta_csv_aceite = os.path.join(ruta_bronze, "aceite_condensado.csv")
ruta_csv_gas = os.path.join(ruta_bronze, "gas_natural.csv")

df_aceite.to_csv(ruta_csv_aceite, index=False, encoding='utf-8-sig')
df_gas.to_csv(ruta_csv_gas, index=False, encoding='utf-8-sig')

print("✅ Archivos CSV generados en BRONZE.")


✅ Archivos CSV generados en BRONZE.
