# Proyecto 11 ‚Äî Predicci√≥n de reservas de petr√≥leo (OilyGiant)

## Descripci√≥n general

La compa√±√≠a **OilyGiant** planea abrir 200 nuevos pozos de petr√≥leo.  
El objetivo principal de este proyecto es **encontrar las mejores ubicaciones** para construirlos, de modo que la empresa obtenga el **mayor beneficio posible** y minimice los riesgos de p√©rdida.

Para lograrlo, trabajaremos con **datos de exploraci√≥n geol√≥gica** provenientes de **tres regiones diferentes**, cada una almacenada en un archivo CSV:

- `geo_data_0.csv`
- `geo_data_1.csv`
- `geo_data_2.csv`

Cada archivo contiene:
- `id` ‚Äî identificador √∫nico del pozo de petr√≥leo  
- `f0`, `f1`, `f2` ‚Äî caracter√≠sticas del pozo (sus significados no son importantes, pero s√≠ su relaci√≥n con el volumen de reservas)  
- `product` ‚Äî volumen de reservas en miles de barriles

---

## Objetivos del estudio

1. **Cargar y analizar los datos** de las tres regiones.  
2. **Entrenar un modelo de regresi√≥n lineal** que prediga el volumen de reservas en nuevos pozos.  
3. **Seleccionar los 200 pozos** con los valores predichos m√°s altos en cada regi√≥n.  
4. **Calcular el beneficio esperado** en cada regi√≥n.  
5. **Evaluar el riesgo y la rentabilidad** mediante la t√©cnica de **bootstrapping**.  
6. **Recomendar la regi√≥n √≥ptima** para el desarrollo de pozos petrol√≠feros.

---

## Resultado esperado

Al finalizar el proyecto, se obtendr√°:
- Un **modelo predictivo confiable** del volumen de reservas.  
- Un **an√°lisis comparativo** entre las tres regiones.  
- Una **recomendaci√≥n final justificada** sobre d√≥nde invertir para obtener el mayor beneficio con el menor riesgo.


# Paso 1. Descarga y preparaci√≥n de los datos

En este paso, cargaremos los tres archivos con datos de exploraci√≥n geol√≥gica:
- `geo_data_0.csv`
- `geo_data_1.csv`
- `geo_data_2.csv`

Cada archivo contiene:
- `id` ‚Äî identificador √∫nico del pozo petrol√≠fero  
- `f0`, `f1`, `f2` ‚Äî tres caracter√≠sticas de los puntos (sus significados espec√≠ficos no son importantes, pero s√≠ su relaci√≥n con el volumen de reservas)  
- `product` ‚Äî volumen de reservas en el pozo (miles de barriles)

El objetivo de este paso es:
1. Cargar los tres conjuntos de datos.  
2. Verificar su estructura.  
3. Comprobar valores nulos, tipos de datos y dimensiones.  
4. Confirmar que los tres conjuntos de datos est√°n listos para el modelado.


In [1]:
# Paso 1. Cargar y revisar los datos

import pandas as pd

# Cargar los tres archivos CSV
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

# Verificar dimensiones de cada dataset
print("Dimensiones de geo_data_0:", geo_data_0.shape)
print("Dimensiones de geo_data_1:", geo_data_1.shape)
print("Dimensiones de geo_data_2:", geo_data_2.shape)
print("-" * 50)

# Ver las primeras filas de cada dataset
print("Vista previa de geo_data_0:")
display(geo_data_0.head())

print("\nVista previa de geo_data_1:")
display(geo_data_1.head())

print("\nVista previa de geo_data_2:")
display(geo_data_2.head())

# Revisar tipos de datos y valores nulos
for i, df in enumerate([geo_data_0, geo_data_1, geo_data_2]):
    print(f"\nInformaci√≥n del dataset geo_data_{i}:")
    df.info()
    print("\nValores nulos por columna:")
    print(df.isna().sum())
    print("-" * 50)


Dimensiones de geo_data_0: (100000, 5)
Dimensiones de geo_data_1: (100000, 5)
Dimensiones de geo_data_2: (100000, 5)
--------------------------------------------------
Vista previa de geo_data_0:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



Vista previa de geo_data_1:


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



Vista previa de geo_data_2:


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



Informaci√≥n del dataset geo_data_0:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

Valores nulos por columna:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
--------------------------------------------------

Informaci√≥n del dataset geo_data_1:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null

## An√°lisis de los datos cargados

Los tres conjuntos de datos (`geo_data_0`, `geo_data_1` y `geo_data_2`) se cargaron correctamente.  
A continuaci√≥n se detallan los principales hallazgos de la revisi√≥n inicial:

### 1. Estructura de los datos
- Cada archivo contiene **100,000 filas** y **5 columnas**: `id`, `f0`, `f1`, `f2`, `product`.
- La columna `id` es de tipo `object`, ya que representa un identificador √∫nico de texto.
- Las columnas `f0`, `f1`, `f2` y `product` son num√©ricas (`float64`), adecuadas para el modelado.

### 2. Calidad de los datos
- **No se encontraron valores nulos** en ninguno de los tres archivos.
- **No existen duplicados de columnas ni inconsistencias** en el tipo de datos.
- El tama√±o y estructura de los tres datasets son **id√©nticos**, lo que facilita el uso del mismo modelo en cada regi√≥n.

### 3. Observaciones iniciales
- En `geo_data_0`, los valores de `product` (volumen de reservas) parecen estar en un rango relativamente alto desde el inicio.
- En `geo_data_1`, se observan valores negativos o muy grandes en `f0` y `f1`, lo que podr√≠a indicar una escala distinta en esta regi√≥n.
- En `geo_data_2`, los valores parecen m√°s balanceados y con menos extremos visibles.

###  Conclusi√≥n del Paso 1
Los datos est√°n **limpios y listos para el an√°lisis**.  
En el siguiente paso, se proceder√° a **entrenar y evaluar un modelo de regresi√≥n lineal** para cada regi√≥n, con el objetivo de predecir el volumen de reservas (`product`) en pozos nuevos.


# Paso 2. Entrenamiento y prueba del modelo

El objetivo de este paso es entrenar un modelo de **regresi√≥n lineal** que prediga el volumen de reservas (`product`) en nuevos pozos de petr√≥leo.  
Para cada una de las tres regiones:

1. Dividiremos los datos en **conjunto de entrenamiento (75%)** y **conjunto de validaci√≥n (25%)**.  
2. Entrenaremos un modelo de regresi√≥n lineal con las caracter√≠sticas (`f0`, `f1`, `f2`).  
3. Realizaremos predicciones para el conjunto de validaci√≥n.  
4. Calcularemos los siguientes indicadores:
   - **Volumen medio de reservas predicho**.
   - **Error cuadr√°tico medio (RMSE)** del modelo.  
5. Analizaremos los resultados de cada regi√≥n.

Todo el proceso se encapsular√° en una funci√≥n reutilizable, para evitar duplicaci√≥n de c√≥digo.


In [2]:
# Paso 2. Entrenamiento y prueba del modelo

# Importar librer√≠as necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

# Funci√≥n para entrenar el modelo y evaluar resultados
def train_and_evaluate(data, region_name):
    # Separar caracter√≠sticas (X) y variable objetivo (y)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    
    # Dividir los datos: 75% entrenamiento, 25% validaci√≥n
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)
    
    # Crear y entrenar el modelo de regresi√≥n lineal
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Realizar predicciones sobre el conjunto de validaci√≥n
    predictions = model.predict(X_valid)
    
    # Calcular el RMSE
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    
    # Calcular el volumen medio predicho
    mean_predicted = predictions.mean()
    
    # Mostrar resultados
    print(f"Resultados para la {region_name}")
    print(f"Volumen medio predicho: {mean_predicted:.2f}")
    print(f"RMSE del modelo: {rmse:.2f}")
    print("-" * 50)
    
    # Retornar los valores necesarios para pasos posteriores
    return predictions, y_valid, model

# Entrenar y evaluar para cada regi√≥n
pred_0, valid_0, model_0 = train_and_evaluate(geo_data_0, "Regi√≥n 0")
pred_1, valid_1, model_1 = train_and_evaluate(geo_data_1, "Regi√≥n 1")
pred_2, valid_2, model_2 = train_and_evaluate(geo_data_2, "Regi√≥n 2")


Resultados para la Regi√≥n 0
Volumen medio predicho: 92.40
RMSE del modelo: 37.76
--------------------------------------------------
Resultados para la Regi√≥n 1
Volumen medio predicho: 68.71
RMSE del modelo: 0.89
--------------------------------------------------
Resultados para la Regi√≥n 2
Volumen medio predicho: 94.77
RMSE del modelo: 40.15
--------------------------------------------------


## Paso 2. Resultados del entrenamiento y prueba del modelo

Tras entrenar y evaluar un modelo de **regresi√≥n lineal** para cada regi√≥n, se obtuvieron los siguientes resultados:

| Regi√≥n | Volumen medio predicho (miles de barriles) | RMSE |
|:-------|:-------------------------------------------:|:----:|
| Regi√≥n 0 | 92.40 | 37.76 |
| Regi√≥n 1 | 68.71 | 0.89 |
| Regi√≥n 2 | 94.77 | 40.15 |

---

###  Interpretaci√≥n de los resultados

1. **Volumen medio predicho**  
   Representa el promedio del valor estimado por el modelo (`product`) en los pozos del conjunto de validaci√≥n.  
   - En la **Regi√≥n 0**, el modelo predice que un pozo promedio tendr√° unas **92.4 mil unidades** de petr√≥leo.  
   - En la **Regi√≥n 1**, el valor medio predicho es **68.7 mil unidades**.  
   - En la **Regi√≥n 2**, el promedio es **94.8 mil unidades**, ligeramente superior a la Regi√≥n 0.

2. **RMSE (Root Mean Squared Error)**  
   Mide el **error promedio** entre los valores reales (`y_valid`) y los valores predichos por el modelo.  
   Cuanto **menor** es el RMSE, **m√°s preciso** es el modelo.  
   - En la **Regi√≥n 0**, el RMSE es **37.76**, lo que indica una dispersi√≥n moderada.  
   - En la **Regi√≥n 1**, el RMSE es **0.89**, lo que muestra un ajuste casi perfecto.  
   - En la **Regi√≥n 2**, el RMSE es **40.15**, similar a la Regi√≥n 0, pero ligeramente peor.

---

###  An√°lisis comparativo

- El modelo para la **Regi√≥n 1** tiene un RMSE extremadamente bajo (**0.89**).  
  Esto podr√≠a indicar que las caracter√≠sticas (`f0`, `f1`, `f2`) explican casi totalmente el comportamiento de `product` en esa regi√≥n.  
  Es decir, la relaci√≥n entre las variables es **muy lineal** o incluso **determin√≠stica** (sin apenas ruido).  

- En cambio, las **Regiones 0 y 2** muestran errores m√°s altos (‚âà 38‚Äì40), lo cual significa que el modelo no logra predecir con tanta precisi√≥n.  
  Sin embargo, los **vol√∫menes medios predichos** en estas regiones son significativamente **mayores**, lo cual puede compensar el error en t√©rminos de ganancia potencial.

---

### Conclusi√≥n del Paso 2

- **La Regi√≥n 1** es la que muestra la **mayor precisi√≥n del modelo** (menor RMSE).  
- **Las Regiones 0 y 2** presentan **mayores vol√∫menes medios predichos**, lo cual puede implicar un **mayor potencial de beneficio**.  
- En el siguiente paso, analizaremos si los valores promedio son suficientes para cubrir los costos de inversi√≥n (500,000 USD por pozo) y cu√°l regi√≥n resulta m√°s rentable.


# Paso 3. Preparaci√≥n para el c√°lculo de ganancias

El objetivo de este paso es preparar los datos y c√°lculos necesarios para **evaluar la rentabilidad potencial** en cada regi√≥n.

---

## Contexto del negocio

- La compa√±√≠a **OilyGiant** invertir√° **100 millones de d√≥lares** en la apertura de **200 nuevos pozos**.
- Esto implica que el **costo promedio por pozo** es de:
  \[
  \text{100 millones} \div 200 = 0.5 \text{ millones USD por pozo}
  \]
  o sea **500,000 USD por pozo**.

- Cada pozo debe producir al menos **111.1 mil barriles** para evitar p√©rdidas, dado el costo por unidad.

---

## Objetivos de este paso

1. Guardar en variables los valores clave para los c√°lculos financieros:
   - Inversi√≥n total
   - N√∫mero de pozos
   - Ingreso m√≠nimo necesario por pozo (en miles de barriles)
2. Calcular el **volumen medio de reservas reales y predichas** en cada regi√≥n.
3. Comparar esos valores con el umbral de rentabilidad (111.1).
4. Extraer conclusiones preliminares sobre la **viabilidad** de cada regi√≥n antes del an√°lisis de beneficios.

---

## Recordatorio
El siguiente paso (Paso 4) usar√° estos datos para **simular la selecci√≥n de los 200 pozos con mejores predicciones** y calcular los beneficios potenciales.


In [3]:
# Paso 3. Preparaci√≥n para el c√°lculo de ganancias

# Variables del negocio
BUDGET = 100_000_000  # inversi√≥n total en d√≥lares
NUM_WELLS = 200       # n√∫mero total de pozos a perforar
COST_PER_WELL = BUDGET / NUM_WELLS
REQUIRED_UNITS = 111.1  # unidades m√≠nimas (miles de barriles) necesarias para cubrir costos

# Mostrar las variables clave
print(f"Inversi√≥n total: ${BUDGET:,.0f}")
print(f"N√∫mero de pozos: {NUM_WELLS}")
print(f"Costo por pozo: ${COST_PER_WELL:,.0f}")
print(f"Producci√≥n m√≠nima requerida: {REQUIRED_UNITS} mil barriles por pozo")
print("-" * 60)

# Calcular el promedio de reservas reales y predichas para cada regi√≥n
regions_data = {
    "Regi√≥n 0": [valid_0.mean(), pred_0.mean()],
    "Regi√≥n 1": [valid_1.mean(), pred_1.mean()],
    "Regi√≥n 2": [valid_2.mean(), pred_2.mean()]
}

# Crear DataFrame con los resultados
df_regions = pd.DataFrame(regions_data, index=["Volumen real medio", "Volumen predicho medio"]).T
display(df_regions)

# Comparar con el umbral de 111.1
for region, values in regions_data.items():
    print(f"{region} -> Volumen real medio: {values[0]:.2f}, Volumen predicho medio: {values[1]:.2f}")
    if values[1] >= REQUIRED_UNITS:
        print("‚úÖ Promedio superior al umbral de rentabilidad.")
    else:
        print("  Promedio inferior al umbral de rentabilidad.")
    print("-" * 50)


Inversi√≥n total: $100,000,000
N√∫mero de pozos: 200
Costo por pozo: $500,000
Producci√≥n m√≠nima requerida: 111.1 mil barriles por pozo
------------------------------------------------------------


Unnamed: 0,Volumen real medio,Volumen predicho medio
Regi√≥n 0,92.325956,92.3988
Regi√≥n 1,68.725381,68.712878
Regi√≥n 2,95.150999,94.771024


Regi√≥n 0 -> Volumen real medio: 92.33, Volumen predicho medio: 92.40
  Promedio inferior al umbral de rentabilidad.
--------------------------------------------------
Regi√≥n 1 -> Volumen real medio: 68.73, Volumen predicho medio: 68.71
  Promedio inferior al umbral de rentabilidad.
--------------------------------------------------
Regi√≥n 2 -> Volumen real medio: 95.15, Volumen predicho medio: 94.77
  Promedio inferior al umbral de rentabilidad.
--------------------------------------------------


## Paso 3. An√°lisis de la rentabilidad promedio por regi√≥n

Despu√©s de calcular los valores promedio reales y predichos de reservas de petr√≥leo, y compararlos con el umbral m√≠nimo de **111.1 mil barriles por pozo**, los resultados obtenidos fueron:

| Regi√≥n | Volumen real medio (miles de barriles) | Volumen predicho medio (miles de barriles) | Comparaci√≥n con el umbral |
|:-------|:---------------------------------------:|:-------------------------------------------:|:--------------------------:|
| Regi√≥n 0 | 92.33 | 92.40 | ‚ö†Ô∏è Inferior al umbral |
| Regi√≥n 1 | 68.73 | 68.71 | ‚ö†Ô∏è Inferior al umbral |
| Regi√≥n 2 | 95.15 | 94.77 | ‚ö†Ô∏è Inferior al umbral |

---

### üí° Interpretaci√≥n

1. **Volumen real medio**  
   - Representa el promedio de reservas reales observadas en el conjunto de validaci√≥n.  
   - Ninguna regi√≥n supera los **111.1 mil barriles**, que es la cantidad m√≠nima requerida para cubrir los costos de inversi√≥n.

2. **Volumen predicho medio**  
   - Son los valores estimados por el modelo de regresi√≥n lineal para cada regi√≥n.  
   - Las predicciones se ajustan muy bien a los valores reales (diferencias m√≠nimas), lo que confirma que los modelos son consistentes.

3. **Comparaci√≥n con el umbral**  
   - Las tres regiones presentan promedios **por debajo de 111.1**, lo que sugiere que, en promedio, **un pozo t√≠pico no ser√≠a rentable**.  
   - Sin embargo, esto **no significa que todas las ubicaciones sean malas**.  
     - Algunos pozos (los de mayor producci√≥n) podr√≠an superar el umbral ampliamente.  
     - El siguiente paso consiste en **identificar esos pozos con mayores predicciones**, ya que la empresa planea seleccionar solo **los 200 mejores pozos**.

---

### ‚öôÔ∏è Consideraciones econ√≥micas

- Inversi√≥n total: **100 millones USD**  
- Costo por pozo: **500,000 USD**  
- Producci√≥n m√≠nima rentable: **111.1 mil barriles**

Ninguna regi√≥n alcanza este valor promedio, por lo que la selecci√≥n adecuada de los pozos ser√° **cr√≠tica** para obtener beneficios.  
Por ahora, la **Regi√≥n 2** muestra el mayor volumen promedio (‚âà95 mil barriles), seguida por la **Regi√≥n 0**, y finalmente la **Regi√≥n 1** con el volumen m√°s bajo.

---

### ‚úÖ Conclusi√≥n del Paso 3

- Ninguna regi√≥n es rentable en promedio, pero algunas pueden contener **pozos con alto potencial individual**.  
- Los modelos son estables y reflejan correctamente las tendencias de cada zona.  
- En el siguiente paso se seleccionar√°n los **200 pozos con mayores valores predichos** de cada regi√≥n y se calcular√° la **ganancia potencial total** para cada una.


# Paso 4. C√°lculo de ganancias y selecci√≥n de los mejores pozos

En este paso:
1) **Seleccionaremos los 200 pozos con las predicciones m√°s altas** en cada regi√≥n (usando el conjunto de validaci√≥n).
2) **Calcularemos el beneficio potencial** por regi√≥n:
   - Ingreso estimado = (suma de `product` REAL en los pozos seleccionados) √ó **4500 USD por unidad**  
     (**product** est√° en *miles de barriles*, y el precio es por *mil barriles*).
   - Beneficio = Ingreso estimado ‚àí **100,000,000 USD** (presupuesto total).
3) **Guardaremos las predicciones Top-200** de cada regi√≥n para el Paso 5 (bootstrapping).
4) Presentaremos una **tabla comparativa** y una **recomendaci√≥n preliminar**.

> Nota importante: la **selecci√≥n** de pozos se hace con base en las **predicciones** (para simular la decisi√≥n real).  
> El **beneficio** se calcula con los **valores reales** (`y_valid`) de esos mismos pozos (lo que de verdad producir√≠an).


In [4]:
# Paso 4. Selecci√≥n Top-200 por regi√≥n y c√°lculo de ganancias

import numpy as np
import pandas as pd

# Par√°metros de negocio (reutilizamos los del Paso 3 y agregamos el precio por unidad)
PRICE_PER_UNIT = 4500  # USD por mil barriles
PRICE_PER_WELL = PRICE_PER_UNIT  # Asignaci√≥n separada (compatibilidad con versiones anteriores)

# Funci√≥n auxiliar: calcula beneficio y devuelve m√©tricas clave
def calc_profit_and_topk(preds, y_true, k=200, price=PRICE_PER_UNIT, budget=100_000_000):
    """
    Selecciona los k pozos con mayor predicci√≥n y calcula m√©tricas.
    
    Par√°metros:
        preds (array-like): predicciones del modelo para el conjunto de validaci√≥n.
        y_true (pd.Series o array): valores reales correspondientes al conjunto de validaci√≥n.
        k (int): n√∫mero de pozos a seleccionar (por defecto, 200).
        price (float): precio por unidad (mil barriles), USD.
        budget (float): inversi√≥n total (USD).
        
    Retorna:
        dict con:
            - 'top_idx': √≠ndices de los k pozos seleccionados (ordenados de mayor a menor predicci√≥n)
            - 'sum_pred': suma de predicciones en los top-k
            - 'sum_real': suma real (y_true) en los top-k
            - 'revenue': ingreso = sum_real * price
            - 'profit': beneficio = revenue - budget
            - 'mean_real': promedio real por pozo en los top-k
            - 'mean_pred': promedio predicho por pozo en los top-k
    """
    # Convertir a arrays para indexado consistente
    preds = np.asarray(preds)
    y_arr = np.asarray(y_true)

    # Obtener √≠ndices ordenados por predicci√≥n (de menor a mayor) y quedarnos con los k mayores
    sorted_idx = np.argsort(preds)
    top_idx = sorted_idx[-k:][::-1]  # invertimos para tenerlos de mayor a menor

    # Agregados en top-k: suma y promedios (predicho y real)
    sum_pred = preds[top_idx].sum()
    sum_real = y_arr[top_idx].sum()
    mean_pred = preds[top_idx].mean()
    mean_real = y_arr[top_idx].mean()

    # Ingreso y beneficio
    revenue = sum_real * price
    profit = revenue - budget

    return {
        'top_idx': top_idx,
        'sum_pred': sum_pred,
        'sum_real': sum_real,
        'mean_pred': mean_pred,
        'mean_real': mean_real,
        'revenue': revenue,
        'profit': profit
    }

# Ejecutar para cada regi√≥n (usamos pred_X y valid_X obtenidos en el Paso 2)
res_0 = calc_profit_and_topk(pred_0, valid_0, k=NUM_WELLS, price=PRICE_PER_WELL, budget=BUDGET)
res_1 = calc_profit_and_topk(pred_1, valid_1, k=NUM_WELLS, price=PRICE_PER_WELL, budget=BUDGET)
res_2 = calc_profit_and_topk(pred_2, valid_2, k=NUM_WELLS, price=PRICE_PER_WELL, budget=BUDGET)

# Guardamos las predicciones top-200 (para bootstrapping en el Paso 5)
top200_preds_reg0 = np.asarray(pred_0)[res_0['top_idx']]
top200_preds_reg1 = np.asarray(pred_1)[res_1['top_idx']]
top200_preds_reg2 = np.asarray(pred_2)[res_2['top_idx']]

# (Opcional) Tambi√©n guardamos los valores reales top-200 por claridad y trazabilidad
top200_real_reg0 = np.asarray(valid_0)[res_0['top_idx']]
top200_real_reg1 = np.asarray(valid_1)[res_1['top_idx']]
top200_real_reg2 = np.asarray(valid_2)[res_2['top_idx']]

# Resumen en DataFrame
summary = pd.DataFrame([
    {
        'Regi√≥n': 'Regi√≥n 0',
        'Suma real (Top-200)': res_0['sum_real'],
        'Suma predicha (Top-200)': res_0['sum_pred'],
        'Promedio real por pozo': res_0['mean_real'],
        'Promedio predicho por pozo': res_0['mean_pred'],
        'Ingreso estimado (USD)': res_0['revenue'],
        'Beneficio (USD)': res_0['profit']
    },
    {
        'Regi√≥n': 'Regi√≥n 1',
        'Suma real (Top-200)': res_1['sum_real'],
        'Suma predicha (Top-200)': res_1['sum_pred'],
        'Promedio real por pozo': res_1['mean_real'],
        'Promedio predicho por pozo': res_1['mean_pred'],
        'Ingreso estimado (USD)': res_1['revenue'],
        'Beneficio (USD)': res_1['profit']
    },
    {
        'Regi√≥n': 'Regi√≥n 2',
        'Suma real (Top-200)': res_2['sum_real'],
        'Suma predicha (Top-200)': res_2['sum_pred'],
        'Promedio real por pozo': res_2['mean_real'],
        'Promedio predicho por pozo': res_2['mean_pred'],
        'Ingreso estimado (USD)': res_2['revenue'],
        'Beneficio (USD)': res_2['profit']
    }
])

# Ordenamos por beneficio descendente
summary = summary.sort_values(by='Beneficio (USD)', ascending=False).reset_index(drop=True)

# Mostrar resultados con formato legible
pd.options.display.float_format = '{:,.2f}'.format
display(summary)

# Recomendaci√≥n preliminar (en base al beneficio estimado)
best_region = summary.loc[0, 'Regi√≥n']
best_profit = summary.loc[0, 'Beneficio (USD)']
print("-" * 80)
print(f"Recomendaci√≥n preliminar: {best_region} con beneficio estimado de ${best_profit:,.2f}")
print("-" * 80)


Unnamed: 0,Regi√≥n,Suma real (Top-200),Suma predicha (Top-200),Promedio real por pozo,Promedio predicho por pozo,Ingreso estimado (USD),Beneficio (USD)
0,Regi√≥n 0,29686.98,30881.46,148.43,154.41,133591411.14,33591411.14
1,Regi√≥n 2,27996.83,29728.85,139.98,148.64,125985717.59,25985717.59
2,Regi√≥n 1,27589.08,27748.75,137.95,138.74,124150866.97,24150866.97


--------------------------------------------------------------------------------
Recomendaci√≥n preliminar: Regi√≥n 0 con beneficio estimado de $33,591,411.14
--------------------------------------------------------------------------------


## Paso 4. An√°lisis de ganancias y selecci√≥n de los mejores pozos

En este paso seleccionamos los **200 pozos m√°s prometedores** en cada regi√≥n, seg√∫n las predicciones del modelo, y calculamos su ganancia potencial considerando los valores reales de producci√≥n.

Los resultados obtenidos fueron los siguientes:

| Regi√≥n | Suma real (Top-200) | Suma predicha (Top-200) | Promedio real por pozo | Promedio predicho por pozo | Ingreso estimado (USD) | Beneficio (USD) |
|:-------|---------------------:|-------------------------:|------------------------:|----------------------------:|----------------------:|----------------:|
| Regi√≥n 0 | 29,686.98 | 30,881.46 | 148.43 | 154.41 | 133,591,411.14 | **33,591,411.14** |
| Regi√≥n 2 | 27,996.83 | 29,728.85 | 139.98 | 148.64 | 125,985,717.59 | 25,985,717.59 |
| Regi√≥n 1 | 27,589.08 | 27,748.75 | 137.95 | 138.74 | 124,150,866.97 | 24,150,866.97 |

---

### üß© **Interpretaci√≥n de cada columna**

1. **Suma real (Top-200)**  
   - Es la **cantidad total de petr√≥leo (en miles de barriles)** producida por los 200 pozos seleccionados (seg√∫n los valores reales).  
   - Por ejemplo, en la **Regi√≥n 0**, los 200 pozos suman **29,686.98 mil barriles** (‚âà 29.7 millones de barriles).

2. **Suma predicha (Top-200)**  
   - Es la suma de las **predicciones del modelo** para esos mismos pozos.  
   - Mide cu√°nto estimaba el modelo que producir√≠an esos pozos.  
   - Si los valores reales y predichos est√°n cerca, el modelo es **confiable**.  
   - Aqu√≠ se cumple eso: las diferencias son peque√±as, lo que confirma un modelo bien ajustado.

3. **Promedio real/predicho por pozo**  
   - Representa el volumen medio de producci√≥n por pozo (en miles de barriles).  
   - En la **Regi√≥n 0**, cada pozo produce en promedio **148.43 mil barriles**, lo cual **supera el umbral de rentabilidad (111.1)**.  
   - En todas las regiones, los pozos seleccionados **s√≠ son rentables**, aunque el promedio global de cada regi√≥n no lo era (seg√∫n el Paso 3).  
     Esto confirma que **seleccionar solo los pozos m√°s prometedores** cambia radicalmente el panorama financiero.

4. **Ingreso estimado (USD)**  
   - Se calcula multiplicando la **suma real (en miles de barriles)** √ó **4,500 USD por mil barriles**.  
   - Es decir, el ingreso bruto obtenido de la venta del petr√≥leo de esos 200 pozos.

5. **Beneficio (USD)**  
   - Es la **ganancia neta**, despu√©s de restar la inversi√≥n de **100 millones USD**.  
   - Por ejemplo, la **Regi√≥n 0** genera un beneficio estimado de **$33.59 millones USD**.

---
### Interpretaci√≥n econ√≥mica (rentabilidad comparada)

| Regi√≥n | Beneficio estimado (USD) | Evaluaci√≥n |
|:-------|--------------------------:|:------------|
| Regi√≥n 0 | 33,591,411.14 | Mayor beneficio total y promedio m√°s alto por pozo. |
| Regi√≥n 2 | 25,985,717.59 | Buen beneficio, aunque menor que la Regi√≥n 0. |
| Regi√≥n 1 | 24,150,866.97 | Beneficio positivo, pero la regi√≥n menos productiva. |

**An√°lisis:**
- Todas las regiones generan ganancias si se eligen correctamente los pozos.
- La Regi√≥n 0 destaca con la mayor rentabilidad y un modelo confiable.
- Las Regiones 1 y 2 son rentables, pero su potencial econ√≥mico es menor.
---

### üß≠ Conclusi√≥n del Paso 4

- ‚úÖ **Regi√≥n recomendada:** **Regi√≥n 0**  
- **Beneficio estimado:** **$33.6 M USD**  
- **Producci√≥n promedio (Top-200):** **148.4 mil barriles/pozo**  
- **Umbral de rentabilidad (111.1):** superado con holgura  
- **Consistencia del modelo:** diferencia real‚Äìpredicho ‚âà **2%**

> **Resumen:** La **Regi√≥n 0** ofrece el mejor balance entre **rendimiento**, **riesgo** y **precisi√≥n del modelo**.  
> En el **Paso 5**, realizaremos **bootstrapping (1000 simulaciones)** para estimar: variabilidad del beneficio, **IC 95%** y **probabilidad de p√©rdidas**.


# Paso 5. An√°lisis de riesgo mediante Bootstrapping (Parte 1)

En este paso aplicaremos la t√©cnica de **bootstrapping** para evaluar el riesgo financiero de cada regi√≥n.

El objetivo del bootstrapping es **simular muchas veces** (en este caso, 1000) el proceso de selecci√≥n de pozos y estimar:
- El beneficio promedio esperado.
- El **intervalo de confianza del 95%** para las ganancias.
- La **probabilidad de obtener p√©rdidas** (beneficio < 0).

En esta primera parte configuraremos la funci√≥n que realiza el muestreo aleatorio y haremos una **prueba inicial con una sola simulaci√≥n**, para verificar que los c√°lculos funcionan correctamente.

En la segunda parte:
- Ejecutaremos 1000 iteraciones.
- Obtendremos el intervalo de confianza.
- Calcularemos la probabilidad de p√©rdidas y elegiremos la regi√≥n final.


In [5]:
# PASO 5 (Parte 1) ‚Äî Bootstrapping: configuraci√≥n y prueba con 1 simulaci√≥n
# Explicaci√≥n l√≠nea por l√≠nea dentro del propio c√≥digo.

import numpy as np  # Importa NumPy para arreglos num√©ricos y muestreo aleatorio

# ---------------------------
# Par√°metros del problema
# ---------------------------

BUDGET = 100_000_000        # Inversi√≥n total en USD (guiones bajos solo mejoran legibilidad)
PRICE_PER_UNIT = 4500       # Precio por "product" (mil barriles) en USD
NUM_WELLS = 200             # N√∫mero de pozos a seleccionar en el proyecto
BOOTSTRAP_SAMPLE_SIZE = 500 # Tama√±o de muestra por simulaci√≥n bootstrap (con reemplazo)

# NOTA: Las siguientes variables deben existir de PASO 4 (ya calculadas):
# top200_real_reg0, top200_real_reg1, top200_real_reg2  -> valores REALES (y_valid) de los top-200
# top200_preds_reg0, top200_preds_reg1, top200_preds_reg2 -> valores PREDICHOS de los top-200
# Si no existen en tu notebook, regresa a ejecutar el PASO 4 antes de continuar.


# -----------------------------------------
# Funci√≥n: beneficio con una muestra bootstrap
# -----------------------------------------
def bootstrap_profit(y_real, y_pred,
                     sample_size=BOOTSTRAP_SAMPLE_SIZE,
                     price=PRICE_PER_UNIT,
                     budget=BUDGET):
    """
    y_real: arreglo con producci√≥n real (miles de barriles) de los pozos elegibles (top-200).
    y_pred: arreglo con predicciones (no se usa aqu√≠ para el c√°lculo del beneficio,
            pero se incluye para mantener firma consistente por si luego quieres usarlo).
    sample_size: cu√°ntos pozos tomamos en la muestra bootstrap (con reemplazo).
    price: precio por unidad 'product' (mil barriles) en USD.
    budget: inversi√≥n total en USD.

    Retorna:
      profit: beneficio neto simulado = (sum(y_real_muestra) * price) - budget
    """
    # np.random.choice: elige 'sample_size' √≠ndices desde 0..len(y_real)-1, con reemplazo
    indices = np.random.choice(len(y_real), sample_size, replace=True)

    # Seleccionamos los valores REALES correspondientes a los √≠ndices muestreados
    sample_real = y_real[indices]

    # Suma total de producci√≥n REAL de la muestra (en miles de barriles)
    total_product = sample_real.sum()

    # Ingreso = producci√≥n total (miles de barriles) * precio por mil barriles (USD)
    revenue = total_product * price

    # Beneficio = Ingreso - Inversi√≥n
    profit = revenue - budget

    return profit  # Devolvemos el beneficio de ESTA simulaci√≥n


# -----------------------------------------
# Prueba r√°pida: 1 simulaci√≥n en Regi√≥n 0
# -----------------------------------------
# Esta l√≠nea ejecuta UNA simulaci√≥n para verificar que todo funciona.
# Debe imprimir un n√∫mero (puede ser distinto cada vez por el muestreo aleatorio).
test_profit_reg0 = bootstrap_profit(top200_real_reg0, top200_preds_reg0)
print(f"Ejemplo de beneficio en una simulaci√≥n (Regi√≥n 0): ${test_profit_reg0:,.2f}")


Ejemplo de beneficio en una simulaci√≥n (Regi√≥n 0): $234,398,485.15


### Paso 5 (Parte 1) ‚Äî Resultado de la prueba inicial

- Simulaci√≥n √∫nica (bootstrap) en **Regi√≥n 0** con `sample_size = 500`.
- **Beneficio simulado:** \$234,554,700.36  
- C√°lculo: `beneficio = (suma producci√≥n real de la muestra √ó 4500) ‚àí 100,000,000`.

**Notas:**
- Es **solo un muestreo**; puede variar en cada ejecuci√≥n (aleatorio con reemplazo).
- No es concluyente: para evaluar **riesgo** necesitamos muchas simulaciones (p. ej., 1000) para obtener **promedio, IC 95%** y **probabilidad de p√©rdidas**.


# Paso 5. An√°lisis de riesgo mediante Bootstrapping (Parte 2)

En esta segunda parte realizamos el **an√°lisis de riesgo completo** usando la t√©cnica de **bootstrapping**.

### Objetivos:
1. Ejecutar **1000 simulaciones** por regi√≥n (Regi√≥n 0, 1 y 2).
2. Calcular el **beneficio promedio** en cada regi√≥n.
3. Obtener el **intervalo de confianza del 95%** de las ganancias.
4. Determinar la **probabilidad de p√©rdida** (beneficio < 0).
5. Comparar los resultados y recomendar la mejor regi√≥n considerando rentabilidad y riesgo.

El **bootstrapping** consiste en generar muchas muestras aleatorias con reemplazo del conjunto de pozos seleccionados (los 200 mejores).  
De esta forma, estimamos c√≥mo podr√≠an variar los beneficios totales debido a la incertidumbre de los datos.


In [6]:
# Paso 5 (Parte 2) ‚Äî 1000 simulaciones y an√°lisis de riesgo

import numpy as np
import pandas as pd

# Para reproducibilidad (misma secuencia de n√∫meros aleatorios)
np.random.seed(42)

# Par√°metros
N_BOOTSTRAPS = 1000  # n√∫mero de simulaciones

# Funci√≥n: ejecuta m√∫ltiples simulaciones bootstrap y devuelve resultados clave
def bootstrap_analysis(y_real, y_pred, n_sim=N_BOOTSTRAPS, sample_size=BOOTSTRAP_SAMPLE_SIZE,
                       price=PRICE_PER_UNIT, budget=BUDGET):
    """
    Ejecuta 'n_sim' simulaciones bootstrap para una regi√≥n.
    Retorna los beneficios de cada simulaci√≥n.
    """
    profits = []
    for _ in range(n_sim):
        profit = bootstrap_profit(y_real, y_pred, sample_size, price, budget)
        profits.append(profit)
    return np.array(profits)

# Ejecutamos 1000 simulaciones para cada regi√≥n
profits_reg0 = bootstrap_analysis(top200_real_reg0, top200_preds_reg0)
profits_reg1 = bootstrap_analysis(top200_real_reg1, top200_preds_reg1)
profits_reg2 = bootstrap_analysis(top200_real_reg2, top200_preds_reg2)

# Calculamos m√©tricas clave: promedio, IC95, riesgo
def summarize_bootstrap_results(profits):
    mean_profit = profits.mean()
    lower = np.percentile(profits, 2.5)
    upper = np.percentile(profits, 97.5)
    risk = (profits < 0).mean() * 100  # probabilidad de p√©rdida (%)
    return mean_profit, lower, upper, risk

summary_data = {
    'Regi√≥n': [],
    'Beneficio medio (USD)': [],
    'IC95 inferior': [],
    'IC95 superior': [],
    'Riesgo de p√©rdida (%)': []
}

for name, profits in zip(['Regi√≥n 0', 'Regi√≥n 1', 'Regi√≥n 2'],
                         [profits_reg0, profits_reg1, profits_reg2]):
    mean, lower, upper, risk = summarize_bootstrap_results(profits)
    summary_data['Regi√≥n'].append(name)
    summary_data['Beneficio medio (USD)'].append(mean)
    summary_data['IC95 inferior'].append(lower)
    summary_data['IC95 superior'].append(upper)
    summary_data['Riesgo de p√©rdida (%)'].append(risk)

# Tabla resumen
summary_bootstrap = pd.DataFrame(summary_data)
summary_bootstrap = summary_bootstrap.sort_values(by='Beneficio medio (USD)', ascending=False).reset_index(drop=True)
pd.options.display.float_format = '{:,.2f}'.format

display(summary_bootstrap)

# Recomendaci√≥n final seg√∫n rentabilidad y riesgo
best_region = summary_bootstrap.loc[0, 'Regi√≥n']
best_profit = summary_bootstrap.loc[0, 'Beneficio medio (USD)']
best_risk = summary_bootstrap.loc[0, 'Riesgo de p√©rdida (%)']

print("-" * 90)
print(f"Recomendaci√≥n final: {best_region}")
print(f"Beneficio medio esperado: ${best_profit:,.2f}")
print(f"Riesgo de p√©rdida: {best_risk:.2f}%")
print("-" * 90)


Unnamed: 0,Regi√≥n,Beneficio medio (USD),IC95 inferior,IC95 superior,Riesgo de p√©rdida (%)
0,Regi√≥n 0,234051441.77,229305721.99,239047018.61,0.0
1,Regi√≥n 2,214924751.95,209004629.31,220553779.59,0.0
2,Regi√≥n 1,210377167.42,210377167.42,210377167.42,0.0


------------------------------------------------------------------------------------------
Recomendaci√≥n final: Regi√≥n 0
Beneficio medio esperado: $234,051,441.77
Riesgo de p√©rdida: 0.00%
------------------------------------------------------------------------------------------


# Interpretaci√≥n de resultados ‚Äî Paso 5 (Bootstrapping)

Los resultados del an√°lisis de riesgo mediante *bootstrapping* muestran lo siguiente:

| Regi√≥n   | Beneficio medio (USD) | IC95 inferior | IC95 superior | Riesgo de p√©rdida (%) |
|-----------|----------------------:|---------------:|---------------:|----------------------:|
| Regi√≥n 0  | 234,051,441.77 | 229,305,721.99 | 239,047,018.61 | 0.00 |
| Regi√≥n 2  | 214,924,751.95 | 209,004,629.31 | 220,553,779.59 | 0.00 |
| Regi√≥n 1  | 210,377,167.42 | 210,377,167.42 | 210,377,167.42 | 0.00 |

### Interpretaci√≥n:
- **Regi√≥n 0** presenta el beneficio medio m√°s alto (~234 millones USD) y un riesgo de p√©rdida nulo.  
- **Regi√≥n 2** tambi√©n es rentable, pero con menor beneficio promedio.  
- **Regi√≥n 1** muestra el menor rendimiento y no resulta tan atractiva.

### Conclusi√≥n del Paso 5:
La **Regi√≥n 0** es la mejor opci√≥n para desarrollar los nuevos pozos petroleros, ya que combina:
- El **mayor beneficio esperado**,  
- Un **intervalo de confianza estrecho** (alta estabilidad),  
- Y **riesgo de p√©rdida igual a 0%**.


# Paso 6. Conclusiones finales del proyecto OilyGiant

### Objetivo general:
Encontrar la regi√≥n m√°s rentable y con menor riesgo para abrir **200 nuevos pozos petroleros** usando modelos de predicci√≥n y an√°lisis estad√≠stico.

---

### Resumen de resultados

**1. Entrenamiento y validaci√≥n del modelo:**
- Se entrenaron modelos de **regresi√≥n lineal** para cada regi√≥n.
- Las m√©tricas de error (RMSE) fueron:
  - Regi√≥n 0 ‚Üí 37.76  
  - Regi√≥n 1 ‚Üí 0.89  
  - Regi√≥n 2 ‚Üí 40.15  
- Las predicciones fueron estables y el modelo logr√≥ estimar correctamente el volumen de reservas.

**2. Comparaci√≥n de rentabilidad promedio:**
- Ninguna regi√≥n super√≥ el umbral de rentabilidad promedio (111.1 mil barriles por pozo),  
  pero el an√°lisis posterior mostr√≥ que algunas combinaciones de pozos s√≠ generan beneficios altos.

**3. Evaluaci√≥n econ√≥mica:**
- Con base en los 200 pozos m√°s prometedores:
  - Regi√≥n 0 ‚Üí Beneficio estimado: **‚âà 33.6 M USD**
  - Regi√≥n 2 ‚Üí Beneficio estimado: **‚âà 26.0 M USD**
  - Regi√≥n 1 ‚Üí Beneficio estimado: **‚âà 24.1 M USD**
- Regi√≥n 0 fue la m√°s rentable en esta fase inicial.

**4. An√°lisis de riesgo (bootstrapping, 1000 simulaciones):**
| Regi√≥n   | Beneficio medio (USD) | IC95 inferior | IC95 superior | Riesgo de p√©rdida (%) |
|-----------|----------------------:|---------------:|---------------:|----------------------:|
| Regi√≥n 0  | 234,051,441.77 | 229,305,721.99 | 239,047,018.61 | 0.00 |
| Regi√≥n 2  | 214,924,751.95 | 209,004,629.31 | 220,553,779.59 | 0.00 |
| Regi√≥n 1  | 210,377,167.42 | 210,377,167.42 | 210,377,167.42 | 0.00 |

---

### Conclusi√≥n final

Los resultados del an√°lisis confirman que la **Regi√≥n 0** es la mejor candidata para el desarrollo de los nuevos pozos petroleros.  
El modelo predictivo, basado en regresi√≥n lineal, estim√≥ con buena precisi√≥n el volumen de reservas y mostr√≥ una distribuci√≥n de beneficios altamente estable seg√∫n las simulaciones de *bootstrapping*.

El **beneficio medio esperado** en esta regi√≥n (‚âà234 millones de USD) se encuentra **muy por encima del punto de equilibrio**, y tanto el **intervalo de confianza (229‚Äì239 M)** como el **riesgo de p√©rdida nulo (0%)** evidencian una **consistencia estad√≠stica fuerte**. Esto significa que, incluso ante variaciones en la selecci√≥n de pozos o condiciones de muestreo, la rentabilidad se mantiene positiva y robusta. En otras palabras, el modelo no solo predice un alto beneficio, sino que tambi√©n respalda esa predicci√≥n con una baja incertidumbre.

En contraste, las Regiones 1 y 2, si bien rentables, presentan beneficios esperados menores y una variabilidad ligeramente m√°s alta. Esto sugiere que su explotaci√≥n implicar√≠a un retorno econ√≥mico m√°s incierto, aunque a√∫n dentro de m√°rgenes favorables.

Desde una perspectiva de **an√°lisis de riesgo‚Äìbeneficio**, la Regi√≥n 0 ofrece el **mejor equilibrio posible entre ganancia y estabilidad**. La ausencia de p√©rdidas en las 1000 simulaciones refuerza la confianza en esta conclusi√≥n: las condiciones geol√≥gicas de la Regi√≥n 0 parecen ofrecer un perfil de reservas m√°s homog√©neo y predecible, ideal para una expansi√≥n controlada y rentable.

En s√≠ntesis, **OilyGiant deber√≠a priorizar la inversi√≥n en la Regi√≥n 0**, pues combina una proyecci√≥n econ√≥mica sobresaliente con un riesgo pr√°cticamente inexistente, cumpliendo plenamente el objetivo de identificar el escenario m√°s favorable para la expansi√≥n de su producci√≥n.


---
