In [1]:
# CNH - Visualización de Insights desde la capa GOLD

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os



In [2]:
# Rutas
ruta_base = os.path.abspath(os.path.join(os.getcwd(), ".."))
ruta_gold = os.path.join(ruta_base, "GOLD")


In [7]:
# ========================
# 2. Cargar datasets existentes desde GOLD
# ========================

# Totales anuales
df_total_aceite = pd.read_parquet(os.path.join(ruta_gold, "total_anual_petroleo.parquet"))
df_total_gas = pd.read_parquet(os.path.join(ruta_gold, "total_anual_gas.parquet"))

# Promedios por operador
df_promedio_operador_aceite = pd.read_parquet(os.path.join(ruta_gold, "promedio_operador_petroleo.parquet"))
df_promedio_operador_gas = pd.read_parquet(os.path.join(ruta_gold, "promedio_operador_gas.parquet"))

# Totales por operador (no promedios)
df_total_operador_aceite = pd.read_parquet(os.path.join(ruta_gold, "total_operador_aceite.parquet"))
df_total_operador_gas = pd.read_parquet(os.path.join(ruta_gold, "total_operador_gas.parquet"))

# Top 1 operador por año
df_top1_operador_aceite = pd.read_parquet(os.path.join(ruta_gold, "top1_operador_petroleo_anual.parquet"))
df_top1_operador_gas = pd.read_parquet(os.path.join(ruta_gold, "top1_operador_gas_anual.parquet"))

# Top 10 campos por producción
df_top10_campos_aceite = pd.read_parquet(os.path.join(ruta_gold, "top10_campos_petroleo.parquet"))
df_top10_campos_gas = pd.read_parquet(os.path.join(ruta_gold, "top10_campos_gas.parquet"))




In [None]:
# 3. Filtros por año
df_total_aceite = df_total_aceite[df_total_aceite["anio"] <= 2024]
df_total_gas = df_total_gas[df_total_gas["anio"] <= 2024]


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Crear la gráfica
plt.figure(figsize=(12, 6))
sns.lineplot(data=df_total_aceite, x="anio", y="petroleo_mbd", marker="o")
plt.title("Producción total anual de petróleo (2016–2024)", fontsize=14)
plt.xlabel("Año", fontsize=12)
plt.ylabel("Millones de barriles diarios (Mbd)", fontsize=12)
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Filtrar hasta 2024
df_total_gas_filtrado = df_total_gas[df_total_gas["anio"] <= 2024]

# Graficar línea de producción de gas
plt.figure(figsize=(12, 6))
sns.lineplot(
    data=df_total_gas_filtrado,
    x="anio",
    y="gas_natural_sin_nitrogeno_mmpcd",
    marker="o"
)
plt.title("Producción total anual de gas natural sin nitrógeno (2016–2024)")
plt.xlabel("Año")
plt.ylabel("Millones de pies cúbicos diarios (MMpcd)")
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
# Unir ambos DataFrames por año
df_comparativa = pd.merge(
    df_total_aceite[["anio", "petroleo_mbd"]],
    df_total_gas[["anio", "gas_natural_sin_nitrogeno_mmpcd"]],
    on="anio"
)

# Filtrar hasta 2024
df_comparativa = df_comparativa[df_comparativa["anio"] <= 2024]

# Graficar
plt.figure(figsize=(14, 6))
sns.lineplot(data=df_comparativa, x="anio", y="petroleo_mbd", marker="o", label="Petróleo (Mbd)")
sns.lineplot(data=df_comparativa, x="anio", y="gas_natural_sin_nitrogeno_mmpcd", marker="s", label="Gas sin Nitrógeno (MMpcd)")
plt.title("Comparativa anual de producción: Petróleo vs Gas (2016–2024)")
plt.xlabel("Año")
plt.ylabel("Volumen")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()# Unir ambos DataFrames por año
df_comparativa = pd.merge(
    df_total_aceite[["anio", "petroleo_mbd"]],
    df_total_gas[["anio", "gas_natural_sin_nitrogeno_mmpcd"]],
    on="anio"
)

# Filtrar hasta 2024
df_comparativa = df_comparativa[df_comparativa["anio"] <= 2024]

# Graficar
plt.figure(figsize=(14, 6))
sns.lineplot(data=df_comparativa, x="anio", y="petroleo_mbd", marker="o", label="Petróleo (Mbd)")
sns.lineplot(data=df_comparativa, x="anio", y="gas_natural_sin_nitrogeno_mmpcd", marker="s", label="Gas sin Nitrógeno (MMpcd)")
plt.title("Comparativa anual de producción: Petróleo vs Gas (2016–2024)")
plt.xlabel("Año")
plt.ylabel("Volumen")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()



In [None]:
# Formato largo para seaborn
df_largo = df_comparativa.melt(id_vars="anio", 
                                value_vars=["petroleo_mbd", "gas_natural_sin_nitrogeno_mmpcd"],
                                var_name="recurso", 
                                value_name="volumen")

# Renombrar para títulos más bonitos
df_largo["recurso"] = df_largo["recurso"].replace({
    "petroleo_mbd": "Petróleo (Mbd)",
    "gas_natural_sin_nitrogeno_mmpcd": "Gas sin Nitrógeno (MMpcd)"
})

# Gráfico
plt.figure(figsize=(14, 6))
sns.barplot(data=df_largo, x="anio", y="volumen", hue="recurso")
plt.title("Producción anual por recurso (2016–2024)")
plt.xlabel("Año")
plt.ylabel("Volumen")
plt.legend(title="Recurso")
plt.tight_layout()
plt.show()


In [None]:
# Asegura orden descendente por producción promedio
df_promedio_operador_aceite = df_promedio_operador_aceite.sort_values("petroleo_mbd", ascending=False)
df_promedio_operador_gas = df_promedio_operador_gas.sort_values("gas_natural_sin_nitrogeno_mmpcd", ascending=False)

# Promedio de petróleo (Mbd)
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_promedio_operador_aceite,
    x="petroleo_mbd",
    y="operador",
    color="steelblue"
)
plt.title("Promedio diario de producción de petróleo por operador (Mbd)")
plt.xlabel("Millones de barriles diarios (Mbd)")
plt.ylabel("Operador")
plt.tight_layout()
plt.grid(True, axis='x')
plt.show()

# Promedio de gas (MMpcd)
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_promedio_operador_gas,
    x="gas_natural_sin_nitrogeno_mmpcd",
    y="operador",
    color="seagreen"
)
plt.title("Promedio diario de producción de gas natural sin nitrógeno por operador (MMpcd)")
plt.xlabel("Millones de pies cúbicos diarios (MMpcd)")
plt.ylabel("Operador")
plt.tight_layout()
plt.grid(True, axis='x')
plt.show()

In [None]:
# Ordenar por volumen total
df_total_operador_aceite = df_total_operador_aceite.sort_values("petroleo_mbd", ascending=False)

# Crear gráfico de barras horizontales con escala logarítmica sin líneas internas
plt.figure(figsize=(10, 12))
sns.barplot(
    data=df_total_operador_aceite,
    y="operador",
    x="petroleo_mbd",
    color="coral"
)

plt.xscale("log")
plt.title("Producción total de petróleo por operador (escala logarítmica)")
plt.xlabel("Millones de barriles diarios acumulados (Mbd, escala log)")
plt.ylabel("Operador")

# Desactivar las líneas internas de la cuadrícula
plt.grid(False)

plt.tight_layout()
plt.show()


In [None]:
# Ordenar por volumen total de gas
df_total_operador_gas = df_total_operador_gas.sort_values("gas_natural_sin_nitrogeno_mmpcd", ascending=False)

# Crear gráfico de barras horizontales con escala logarítmica sin líneas internas
plt.figure(figsize=(10, 12))
sns.barplot(
    data=df_total_operador_gas,
    y="operador",
    x="gas_natural_sin_nitrogeno_mmpcd",
    color="skyblue"
)

plt.xscale("log")
plt.title("Producción total de gas natural por operador (escala logarítmica)")
plt.xlabel("Millones de pies cúbicos diarios acumulados (MMpcd, escala log)")
plt.ylabel("Operador")

# Desactivar líneas de la cuadrícula
plt.grid(False)

plt.tight_layout()
plt.show()


In [None]:
# Ordenar por producción de mayor a menor
df_top10_operadores_aceite = df_top10_operadores_aceite.sort_values("petroleo_mbd", ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_top10_operadores_aceite,
    y="operador",
    x="petroleo_mbd",
    color="coral"
)

plt.title("Top 10 operadores de petróleo por producción acumulada")
plt.xlabel("Millones de barriles diarios (Mbd)")
plt.ylabel("Operador")
plt.grid(False)
plt.tight_layout()
plt.show()


In [None]:
# Filtrar hasta 2024
df_top1_operador_aceite = df_top1_operador_aceite[df_top1_operador_aceite["anio"] <= 2024]
# Gráfico: Top 1 operador de petróleo por año
plt.figure(figsize=(14, 6))
sns.barplot(
    data=df_top1_operador_aceite,
    x="anio",
    y="petroleo_mbd",
    hue="operador",
    palette="Reds_r"
)
plt.title("Top 1 operador por año – Petróleo (Mbd)")
plt.xlabel("Año")
plt.ylabel("Producción total (Mbd)")
plt.legend(title="Operador")
plt.grid(True, axis='y')
plt.tight_layout()
plt.show()


In [None]:
df_top1_operador_gas = df_top1_operador_gas[df_top1_operador_gas["anio"] <= 2024]
# Gráfico: Top 1 operador de gas por año
plt.figure(figsize=(14, 6))
sns.barplot(
    data=df_top1_operador_gas,
    x="anio",
    y="gas_natural_sin_nitrogeno_mmpcd",
    hue="operador",
    palette="Blues_r"
)
plt.title("Top 1 operador por año – Gas sin Nitrógeno (MMpcd)")
plt.xlabel("Año")
plt.ylabel("Producción total (MMpcd)")
plt.legend(title="Operador")
plt.grid(True, axis='y')
plt.tight_layout()
plt.show()


In [None]:
# Estilo visual
sns.set(style="whitegrid")

# ===========================
# Gráfica: Top 10 campos - Petróleo
# ===========================
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_top10_campos_aceite,
    y="campo", x="petroleo_mbd",
    hue="campo", palette="Blues_d",
    legend=False
)
plt.title("Top 10 campos por producción acumulada de petróleo (Mbd)")
plt.xlabel("Millones de barriles diarios acumulados (Mbd)")
plt.ylabel("Campo")
plt.tight_layout()
plt.show()

In [None]:
# ===========================
# Gráfica: Top 10 campos - Gas natural
# ===========================
plt.figure(figsize=(10, 6))
sns.barplot(
    data=df_top10_campos_gas,
    y="campo", x="gas_natural_sin_nitrogeno_mmpcd",
    hue= "campo",
    palette="Greens_d"
)
plt.title("Top 10 campos por producción acumulada de gas natural sin nitrógeno (MMpcd)")
plt.xlabel("Millones de pies cúbicos diarios acumulados (MMpcd)")
plt.ylabel("Campo")
plt.tight_layout()
plt.show()