# Sesión 03: Exploración y Visualización de Datos de Producción Petrolera
# Laboratorio Práctico

Este notebook es parte del programa de Machine Learning Aplicado para la industria petrolera.
En esta sesión aprenderemos a:
1. Realizar análisis exploratorio de datos (EDA) en datasets de producción petrolera
2. Aplicar técnicas estadísticas descriptivas para entender nuestros datos
3. Crear visualizaciones efectivas para comunicar patrones y tendencias
4. Identificar insights que pueden generar valor operativo

In [None]:
# Importamos las librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Para visualizaciones interactivas
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configuramos opciones de visualización
plt.style.use('seaborn-v0_8-whitegrid')  # Estilo visual limpio
sns.set_palette("deep")  # Paleta de colores contrastante
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas

print("¡Entorno configurado correctamente!")

## 1. Carga y Exploración Inicial de Datos

Comenzaremos cargando un conjunto de datos de producción petrolera. Este 
dataset contiene información diaria sobre varios pozos, incluyendo:
- Tasas de producción (petróleo, gas, agua)
- Presiones (cabezal, línea)
- Parámetros operativos (horas operativas, choke)
- Información contextual (fecha, pozo, campo)

In [None]:
# Cargamos los datos
# En un entorno real, podríamos hacer:
# df = pd.read_csv("data/produccion_petrolera.csv")

# Para este ejercicio utilizaremos datos sintéticos
# que recrean patrones típicos de la industria

# Generamos datos sintéticos para el laboratorio
np.random.seed(42)  # Para reproducibilidad

# Período de tiempo: 365 días
fechas = pd.date_range(start='2022-01-01', periods=365, freq='D')

# Creamos 5 pozos con características diferentes
pozos = ['POZO-A', 'POZO-B', 'POZO-C', 'POZO-D', 'POZO-E']

# Lista para almacenar los datos
datos = []

In [None]:
# Función para crear un patrón de producción realista con tendencia de declinación
def generar_produccion(dias, tasa_inicial, declive_anual=0.2, ruido=0.1, intervencion=None):
    # Tendencia de declive exponencial (común en pozos petroleros)
    declive_diario = (1 - declive_anual) ** (1/365)
    tendencia = tasa_inicial * declive_diario ** np.arange(dias)
    
    # Agregamos ruido para simular variaciones naturales
    ruido = np.random.normal(0, ruido * tasa_inicial, dias)
    produccion = tendencia + ruido
    
    # Opcional: simulamos una intervención (workover) que mejora la producción
    if intervencion:
        dia_intervencion, mejora = intervencion
        if dia_intervencion < dias:
            produccion[dia_intervencion:] = produccion[dia_intervencion:] * mejora
    
    return np.maximum(0, produccion)  # No puede haber producción negativa

In [None]:
# Generamos datos para cada pozo
for pozo in pozos:
    # Cada pozo tiene características distintas
    if pozo == 'POZO-A':
        # Pozo con alta producción inicial y rápida declinación
        prod_petroleo = generar_produccion(365, 1200, declive_anual=0.4, intervencion=(180, 1.5))
        prod_gas = prod_petroleo * 1.2 + np.random.normal(0, 50, 365)
        prod_agua = generar_produccion(365, 200, declive_anual=-0.5)  # Incremento de agua
        
    elif pozo == 'POZO-B':
        # Pozo estable con baja declinación
        prod_petroleo = generar_produccion(365, 800, declive_anual=0.15)
        prod_gas = prod_petroleo * 0.8 + np.random.normal(0, 30, 365)
        prod_agua = generar_produccion(365, 300, declive_anual=0.1)
        
    elif pozo == 'POZO-C':
        # Pozo con problemas operativos (caídas súbitas)
        prod_petroleo = generar_produccion(365, 950, declive_anual=0.25)
        # Simulamos problemas en ciertos días
        for problema in [50, 120, 200, 280]:
            ventana = np.random.randint(3, 10)  # Duración del problema
            prod_petroleo[problema:problema+ventana] *= 0.3
        prod_gas = prod_petroleo * 1.5 + np.random.normal(0, 40, 365)
        prod_agua = generar_produccion(365, 250, declive_anual=0.05)
        
    elif pozo == 'POZO-D':
        # Pozo nuevo con alta producción
        prod_petroleo = generar_produccion(365, 1500, declive_anual=0.3)
        prod_gas = prod_petroleo * 1.1 + np.random.normal(0, 60, 365)
        prod_agua = generar_produccion(365, 100, declive_anual=-0.3)
        
    else:  # POZO-E
        # Pozo maduro con oscilaciones
        prod_petroleo = generar_produccion(365, 500, declive_anual=0.1, ruido=0.2)
        prod_gas = prod_petroleo * 0.7 + np.random.normal(0, 20, 365)
        prod_agua = generar_produccion(365, 700, declive_anual=-0.1)
    
    # Parámetros operativos
    presion_cabezal = np.random.normal(1800, 100, 365) - np.arange(365) * 0.2
    presion_linea = np.random.normal(800, 50, 365)
    temperatura = np.random.normal(80, 5, 365) + np.sin(np.arange(365) * 2 * np.pi / 365) * 3
    choke = 50 + np.random.normal(0, 5, 365)
    horas_operativas = np.random.normal(23, 1, 365)
    
    # Ajustamos valores a rangos realistas
    choke = np.clip(choke, 0, 100)
    horas_operativas = np.clip(horas_operativas, 0, 24)
    
    # Creamos registros diarios para este pozo
    for i, fecha in enumerate(fechas):
        registro = {
            'fecha': fecha,
            'pozo': pozo,
            'campo': 'CAMPO-' + pozo[-1],  # Agrupamos por el último carácter del nombre
            'petroleo_bbl': max(0, prod_petroleo[i]),
            'gas_mscf': max(0, prod_gas[i]),
            'agua_bbl': max(0, prod_agua[i]),
            'presion_cabezal_psi': max(0, presion_cabezal[i]),
            'presion_linea_psi': max(0, presion_linea[i]),
            'temperatura_c': temperatura[i],
            'choke_percent': choke[i],
            'horas_operativas': horas_operativas[i]
        }
        
        datos.append(registro)

In [None]:
# Creamos el DataFrame con todos los datos
df = pd.DataFrame(datos)

# Calculamos campos derivados útiles para el análisis
df['liquido_total'] = df['petroleo_bbl'] + df['agua_bbl']
df['corte_agua'] = df['agua_bbl'] / df['liquido_total']
df['gas_petroleo_ratio'] = df['gas_mscf'] / df['petroleo_bbl']
df['produccion_equivalente'] = df['petroleo_bbl'] + df['gas_mscf'] / 6  # Conversión aproximada

# Mostramos las primeras filas para verificar
print("Vista previa de los datos generados:")
df.head()

## 2. Estadísticas Descriptivas para Datos de Producción

Las estadísticas descriptivas son fundamentales para entender nuestros datos:
- Medidas de tendencia central (media, mediana)
- Medidas de dispersión (desviación estándar, rango)
- Percentiles y distribuciones
- Correlaciones entre variables

Estas métricas nos dan una primera visión sobre el comportamiento de los pozos.

In [None]:
# Estadísticas descriptivas generales
print("Estadísticas descriptivas de todo el dataset:")
descripcion = df.describe().T
descripcion['cv'] = descripcion['std'] / descripcion['mean']  # Coeficiente de variación
descripcion

In [None]:
# Analizamos por pozo
print("\nPetróleo promedio por pozo (bbl/día):")
df.groupby('pozo')['petroleo_bbl'].mean().sort_values(ascending=False)

In [None]:
print("\nProducción total acumulada por pozo:")
produccion_acumulada = df.groupby('pozo').agg({
    'petroleo_bbl': 'sum',
    'gas_mscf': 'sum',
    'agua_bbl': 'sum'
})
produccion_acumulada

In [None]:
# Análisis de tendencia mensual (promediando por mes)
df['mes'] = df['fecha'].dt.strftime('%Y-%m')
tendencia_mensual = df.groupby(['pozo', 'mes']).agg({
    'petroleo_bbl': 'mean',
    'gas_mscf': 'mean',
    'agua_bbl': 'mean'
}).reset_index()

print("\nTendencia mensual de producción (primeros 5 meses):")
tendencia_mensual.head()

In [None]:
# Análisis de correlación entre variables
print("\nMatriz de correlación entre variables principales:")
columnas_correlacion = ['petroleo_bbl', 'gas_mscf', 'agua_bbl', 
                        'presion_cabezal_psi', 'presion_linea_psi', 
                        'temperatura_c', 'choke_percent', 'horas_operativas']
matriz_correlacion = df[columnas_correlacion].corr()
matriz_correlacion

## 3. Visualización de Series Temporales de Producción

Las series temporales son fundamentales en datos de producción petrolera.
Visualizarlas adecuadamente nos permite:
- Identificar tendencias de declive natural
- Detectar eventos operativos (cierres, intervenciones)
- Analizar patrones estacionales o cíclicos
- Comparar rendimiento entre pozos

In [None]:
# Gráfico de series temporales de producción de petróleo por pozo
plt.figure(figsize=(12, 6))
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    plt.plot(datos_pozo['fecha'], datos_pozo['petroleo_bbl'], label=pozo)

plt.title('Producción de Petróleo por Pozo (bbl/día)', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Producción (bbl/día)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Gráfico de producción acumulada
plt.figure(figsize=(12, 6))
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    plt.plot(datos_pozo['fecha'], datos_pozo['petroleo_bbl'].cumsum(), label=pozo)

plt.title('Producción Acumulada de Petróleo por Pozo', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Producción Acumulada (bbl)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Visualización de múltiples parámetros para un solo pozo
pozo_analisis = 'POZO-A'
datos_pozo = df[df['pozo'] == pozo_analisis]

# Creamos una figura con subplots
fig, axes = plt.subplots(3, 1, figsize=(12, 12), sharex=True)

# Producción (petróleo, gas, agua)
axes[0].plot(datos_pozo['fecha'], datos_pozo['petroleo_bbl'], 'g-', label='Petróleo (bbl)')
axes[0].plot(datos_pozo['fecha'], datos_pozo['agua_bbl'], 'b-', label='Agua (bbl)')
axes[0].set_ylabel('Producción (bbl/día)')
axes[0].set_title(f'Análisis de Producción - {pozo_analisis}')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Línea secundaria para el gas (escala diferente)
ax_gas = axes[0].twinx()
ax_gas.plot(datos_pozo['fecha'], datos_pozo['gas_mscf'], 'r-', label='Gas (mscf)')
ax_gas.set_ylabel('Gas (mscf/día)')
ax_gas.legend(loc='upper right')

# Presiones
axes[1].plot(datos_pozo['fecha'], datos_pozo['presion_cabezal_psi'], 'r-', label='P. Cabezal')
axes[1].plot(datos_pozo['fecha'], datos_pozo['presion_linea_psi'], 'b-', label='P. Línea')
axes[1].set_ylabel('Presión (psi)')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

# Parámetros operativos
axes[2].plot(datos_pozo['fecha'], datos_pozo['choke_percent'], 'g-', label='Choke (%)')
axes[2].set_ylabel('Choke (%)')
axes[2].set_xlabel('Fecha')
axes[2].legend(loc='upper left')
axes[2].grid(True, alpha=0.3)

# Línea secundaria para horas operativas
ax_horas = axes[2].twinx()
ax_horas.plot(datos_pozo['fecha'], datos_pozo['horas_operativas'], 'k-', alpha=0.5, label='Hrs. Op.')
ax_horas.set_ylabel('Horas Operativas')
ax_horas.legend(loc='upper right')

plt.tight_layout()
plt.show()

## 4. Análisis de Relaciones entre Variables

Entender cómo se relacionan las variables nos permite:
- Identificar factores que afectan la producción
- Optimizar parámetros operativos
- Predecir comportamientos futuros
- Detectar anomalías o comportamientos no esperados

In [None]:
# Gráfico de dispersión: Relación entre presión de cabezal y producción
plt.figure(figsize=(10, 6))
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    plt.scatter(datos_pozo['presion_cabezal_psi'], datos_pozo['petroleo_bbl'], 
               alpha=0.6, label=pozo)

plt.title('Relación entre Presión de Cabezal y Producción de Petróleo', fontsize=14)
plt.xlabel('Presión de Cabezal (psi)', fontsize=12)
plt.ylabel('Producción de Petróleo (bbl/día)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
# Mapa de calor de correlaciones
plt.figure(figsize=(12, 10))
sns.heatmap(matriz_correlacion, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Mapa de Calor: Correlaciones entre Variables Operativas', fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
# Pairplot para analizar múltiples relaciones entre variables
variables_clave = ['petroleo_bbl', 'gas_mscf', 'agua_bbl', 
                  'presion_cabezal_psi', 'choke_percent']
sns.pairplot(df.sample(1000), vars=variables_clave, hue='pozo', height=2.5)
plt.suptitle('Relaciones entre Variables Clave por Pozo', y=1.02, fontsize=16)
plt.show()

## 5. Detección de Outliers y Eventos Anómalos

Los outliers pueden representar:
- Errores de medición o registro
- Eventos operativos reales (cierres, pruebas)
- Comportamientos anómalos que requieren atención

Identificarlos es crucial para análisis correctos y toma de decisiones.

In [None]:
# Gráfico de boxplot para identificar outliers por pozo
plt.figure(figsize=(12, 6))
sns.boxplot(x='pozo', y='petroleo_bbl', data=df)
plt.title('Distribución y Outliers de Producción de Petróleo por Pozo', fontsize=14)
plt.xlabel('Pozo', fontsize=12)
plt.ylabel('Producción de Petróleo (bbl/día)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Método estadístico para detectar outliers (Z-score)
def detectar_outliers_zscore(df, columna, umbral=3):
    """Detecta outliers usando Z-score"""
    z_scores = abs((df[columna] - df[columna].mean()) / df[columna].std())
    return df[z_scores > umbral]

In [None]:
# Detectamos outliers por pozo usando Z-score
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    outliers = detectar_outliers_zscore(datos_pozo, 'petroleo_bbl', umbral=2.5)
    
    if not outliers.empty:
        print(f"\nOutliers detectados en {pozo} (producción de petróleo):")
        print(outliers[['fecha', 'petroleo_bbl', 'gas_mscf', 'agua_bbl']].head())

In [None]:
# Visualización de outliers en la serie temporal
plt.figure(figsize=(12, 6))
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    
    # Graficamos la serie normal
    plt.plot(datos_pozo['fecha'], datos_pozo['petroleo_bbl'], alpha=0.7, label=pozo)
    
    # Identificamos outliers
    outliers = detectar_outliers_zscore(datos_pozo, 'petroleo_bbl', umbral=2.5)
    
    # Marcamos los outliers
    if not outliers.empty:
        plt.scatter(outliers['fecha'], outliers['petroleo_bbl'], 
                   color='red', marker='o', s=50, label=f'{pozo} - Outliers')

plt.title('Producción de Petróleo con Outliers Identificados', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Producción (bbl/día)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.legend()
plt.tight_layout()
plt.show()

## 6. Visualizaciones Avanzadas con Plotly (Interactivas)

Las visualizaciones interactivas proporcionan:
- Exploración más profunda de los datos
- Comunicación efectiva con stakeholders
- Capacidad para "contar historias" con los datos
- Análisis drill-down para identificar causas raíz

In [None]:
# Gráfico interactivo de producción por pozo
fig = px.line(df, x='fecha', y='petroleo_bbl', color='pozo',
             title='Producción de Petróleo por Pozo (Interactivo)',
             labels={'petroleo_bbl': 'Producción (bbl/día)',
                    'fecha': 'Fecha'})
fig.update_layout(xaxis_title='Fecha',
                 yaxis_title='Producción (bbl/día)',
                 legend_title='Pozo',
                 hovermode='closest')
fig.show()

In [None]:
# Dashboard interactivo con múltiples indicadores
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=('Producción de Petróleo', 'Corte de Agua', 
                   'Relación Gas-Petróleo', 'Producción Acumulada'),
    specs=[[{"type": "scatter"}, {"type": "scatter"}],
           [{"type": "scatter"}, {"type": "bar"}]]
)

# 1. Producción de petróleo
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    fig.add_trace(
        go.Scatter(x=datos_pozo['fecha'], y=datos_pozo['petroleo_bbl'],
                  name=pozo, mode='lines'),
        row=1, col=1
    )

# 2. Corte de agua
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    fig.add_trace(
        go.Scatter(x=datos_pozo['fecha'], y=datos_pozo['corte_agua'],
                  name=pozo, mode='lines', visible='legendonly'),
        row=1, col=2
    )

# 3. Relación gas-petróleo
for pozo in pozos:
    datos_pozo = df[df['pozo'] == pozo]
    fig.add_trace(
        go.Scatter(x=datos_pozo['fecha'], y=datos_pozo['gas_petroleo_ratio'],
                  name=pozo, mode='lines', visible='legendonly'),
        row=2, col=1
    )

# 4. Producción acumulada
fig.add_trace(
    go.Bar(x=produccion_acumulada.index, y=produccion_acumulada['petroleo_bbl'],
          name='Petróleo Acumulado'),
    row=2, col=2
)

# Actualizar layout
fig.update_layout(height=800, width=1000, title_text="Dashboard de Producción Petrolera",
                 legend_title='Pozo')
fig.show()

## 7. Ejercicios Prácticos para el Estudiante

Ahora es tu turno de aplicar lo aprendido con estos ejercicios prácticos.
Intenta resolverlos usando las técnicas y herramientas que hemos visto.

In [None]:
# EJERCICIO 1: Identificar el pozo con mayor variabilidad en producción
# PISTA: Usa el coeficiente de variación (CV = desviación estándar / media)

# Tu código aquí


In [None]:
# EJERCICIO 2: Crea un gráfico que muestre la evolución del corte de agua para cada pozo
# PISTA: Usa plt.figure() y un bucle para graficar cada pozo con diferente color

# Tu código aquí


In [None]:
# EJERCICIO 3: Encuentra qué parámetro operativo tiene mayor correlación con la producción de petróleo
# PISTA: Usa la matriz de correlación que ya calculamos

# Tu código aquí


## 8. Conclusiones y Mejores Prácticas

Resumen de lo aprendido:

1. El análisis exploratorio de datos (EDA) es fundamental para entender el comportamiento
   de los pozos y detectar oportunidades de optimización.

2. Las visualizaciones efectivas transforman datos complejos en insights accionables,
   facilitando la comunicación con stakeholders.

3. Las técnicas estadísticas nos ayudan a cuantificar patrones, tendencias y relaciones
   entre variables operativas.

4. La detección de outliers y eventos anómalos permite identificar problemas operativos
   o errores en los datos.

5. Las herramientas interactivas como Plotly permiten análisis más profundos y
   comunicación efectiva de resultados.

Mejores prácticas:

- Siempre comienza con estadísticas descriptivas básicas
- Combina diferentes tipos de visualizaciones
- Considera el contexto operativo al interpretar los datos
- Documenta todos tus hallazgos con visualizaciones claras
- Utiliza herramientas interactivas para presentaciones a stakeholders

In [None]:
print("¡Laboratorio completado con éxito!")