# ¿Dónde abrir 200 nuevos pozos petroleros?

## Introducción

En este proyecto, trabajamos para la compañía de extracción de petróleo OilyGiant con el objetivo de identificar las mejores ubicaciones para abrir 200 nuevos pozos petrolíferos. La tarea se divide en varias fases que incluyen la preparación de datos, entrenamiento de modelos de predicción, evaluación de regiones, y análisis de riesgos y beneficios.

## Pasos del proyecto:

1. **Importación y Preparación de los Datos**:
   - Comenzaremos cargando los datos geológicos de tres regiones diferentes, donde cada conjunto de datos incluye características de los pozos petrolíferos y el volumen de reservas.
   - Verificaremos los datos en busca de valores nulos u otras inconsistencias que puedan afectar nuestro análisis.

2. **Entrenamiento y Validación del Modelo**:
   - Entrenaremos un modelo de regresión lineal para cada región con el fin de predecir el volumen de reservas en los pozos.
   - Validaremos el rendimiento del modelo utilizando un conjunto de datos de validación y calcularemos el Error Cuadrático Medio (RMSE) para evaluar la precisión de nuestras predicciones.

3. **Cálculo de Ganancias**:
   - Seleccionaremos los 200 pozos con las predicciones de reservas más altas en cada región.
   - Calcularemos el beneficio potencial basado en las reservas estimadas y compararemos estos beneficios entre las tres regiones.

4. **Evaluación de Riesgos y Beneficios**:
   - Utilizaremos la técnica de bootstrapping para estimar la distribución de los beneficios y los riesgos asociados con cada región.
   - Analizaremos el riesgo de pérdidas en cada región y determinaremos cuál ofrece el mayor beneficio con el menor riesgo.

5. **Conclusiones y Recomendaciones**:
   - Basándonos en el análisis realizado, recomendaremos la mejor región para el desarrollo de los 200 nuevos pozos petrolíferos y justificaremos nuestra elección con datos cuantitativos.

Este proceso nos permitirá identificar la región con el mayor margen de beneficio y el menor riesgo, asegurando una inversión más segura y rentable para OilyGiant.


## Preparación de Datos

En este paso, cargaremos los conjuntos de datos geológicos de las tres regiones y realizaremos una inspección inicial. Nuestro objetivo es asegurarnos de que los datos están en buen estado para el análisis. Verificaremos si hay valores nulos, revisaremos las primeras filas de los datos para entender su estructura y asegurarnos de que las características están correctamente formateadas. Si encontramos valores nulos u otras inconsistencias, los abordaremos adecuadamente para que no afecten el entrenamiento de los modelos. Además, dividiremos los datos en conjuntos de entrenamiento y validación para preparar los datos para el modelado posterior.


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [2]:
# Cargar los datos de las tres regiones
data_region_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_region_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_region_2 = pd.read_csv('/datasets/geo_data_2.csv')

# Verificar las primeras filas de cada conjunto de datos
print("Región 0 - Primeras Filas:")
print(data_region_0.head())
print()

print("Región 1 - Primeras Filas:")
print(data_region_1.head())
print()

print("Región 2 - Primeras Filas:")
print(data_region_2.head())
print()

# Verificar valores nulos en cada conjunto de datos
print("Región 0 - Valores Nulos:")
print(data_region_0.isnull().sum())
print()

print("Región 1 - Valores Nulos:")
print(data_region_1.isnull().sum())
print()

print("Región 2 - Valores Nulos:")
print(data_region_2.isnull().sum())


Región 0 - Primeras Filas:
      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647

Región 1 - Primeras Filas:
      id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
4  AHL4O  12.702195  -8.147433  5.004363  134.766305

Región 2 - Primeras Filas:
      id        f0        f1        f2     product
0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
1  WJtFt  0.262778  0.269839 -2.530187   56.069697
2  ovLUW  0.194587  0.289035 -5.586433   62.871910
3  q6cA6  2.236060 -0.553760  0.930038  114.572842
4  WPMUX -0.515993  1.716266  5.899011

### Observaciones sobre la Preparación de Datos

1. **Estructura de los Datos:**
   - Se han cargado y examinado los datos de las tres regiones. Cada conjunto de datos contiene las siguientes columnas: `id`, `f0`, `f1`, `f2`, y `product`. 
   - La columna `product` representa el volumen de reservas de petróleo en cada pozo, que será nuestra variable objetivo.

2. **Valores Nulos:**
   - No se encontraron valores nulos en ninguno de los conjuntos de datos para las tres regiones. Esto sugiere que no es necesario realizar imputación de valores faltantes, lo cual simplifica el proceso de preprocesamiento de datos.

3. **Primeras Filas:**
   - Se han visualizado las primeras filas de cada conjunto de datos, y los valores parecen estar correctamente estructurados. Las características (`f0`, `f1`, `f2`) y el volumen de reservas (`product`) están bien representadas.

4. **Siguiente Paso:**
   - Ahora que hemos verificado la integridad de los datos, el siguiente paso será dividir los datos en conjuntos de entrenamiento y validación para cada región. Esto nos permitirá entrenar modelos de regresión lineal para predecir el volumen de reservas basado en las características de cada pozo.


### División de Datos en Conjuntos de Entrenamiento y Validación

En este paso, dividiremos los datos de cada región en conjuntos de entrenamiento y validación. Esto nos permitirá entrenar un modelo de regresión lineal y evaluar su rendimiento en datos no vistos previamente. La división se realizará en una proporción de 75% para el entrenamiento y 25% para la validación, manteniendo así un buen equilibrio entre los datos de entrenamiento y los datos de prueba.


In [3]:
# Función para dividir los datos en entrenamiento y validación
def split_data(data):
    features = data.drop(columns=['id', 'product'])
    target = data['product']
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=42
    )
    return features_train, features_valid, target_train, target_valid

# Dividir los datos para cada región
features_train_0, features_valid_0, target_train_0, target_valid_0 = split_data(data_region_0)
features_train_1, features_valid_1, target_train_1, target_valid_1 = split_data(data_region_1)
features_train_2, features_valid_2, target_train_2, target_valid_2 = split_data(data_region_2)

# Verificar las dimensiones de los conjuntos de entrenamiento y validación
print(f"Región 0 - Conjunto de entrenamiento: {features_train_0.shape}, Conjunto de validación: {features_valid_0.shape}")
print(f"Región 1 - Conjunto de entrenamiento: {features_train_1.shape}, Conjunto de validación: {features_valid_1.shape}")
print(f"Región 2 - Conjunto de entrenamiento: {features_train_2.shape}, Conjunto de validación: {features_valid_2.shape}")

Región 0 - Conjunto de entrenamiento: (75000, 3), Conjunto de validación: (25000, 3)
Región 1 - Conjunto de entrenamiento: (75000, 3), Conjunto de validación: (25000, 3)
Región 2 - Conjunto de entrenamiento: (75000, 3), Conjunto de validación: (25000, 3)


### Observaciones sobre la División de Datos

En este paso, hemos dividido exitosamente los datos de cada una de las tres regiones en conjuntos de entrenamiento y validación. Los datos se dividieron en una proporción de 75% para el entrenamiento y 25% para la validación, lo cual es una práctica estándar para asegurar que el modelo tenga suficiente información para aprender, mientras que también se reserva una cantidad significativa de datos para evaluar su rendimiento en datos no vistos.

Las dimensiones obtenidas son consistentes para las tres regiones:

- **Conjunto de Entrenamiento:** 75,000 muestras con 3 características cada una.
- **Conjunto de Validación:** 25,000 muestras con 3 características cada una.

Esta división nos asegura que cada modelo tendrá una base sólida para el entrenamiento y una evaluación justa y equitativa en los datos de validación. Con estos conjuntos preparados, estamos listos para proceder al entrenamiento de los modelos y su evaluación en las diferentes regiones.


## Entrenamiento y Evaluación del Modelo de Regresión Lineal para Cada Región

En este paso, entrenaremos un modelo de regresión lineal para cada una de las tres regiones utilizando los conjuntos de entrenamiento previamente divididos. Posteriormente, evaluaremos el rendimiento del modelo en los conjuntos de validación para cada región, calculando el error cuadrático medio (RMSE) y observando la media del volumen de reservas predicho. Este análisis nos ayudará a entender qué tan bien nuestro modelo puede predecir el volumen de reservas en cada región y nos proporcionará un punto de referencia para comparar las regiones entre sí.

Pasos que seguiremos:
1. Entrenar un modelo de regresión lineal con los datos de entrenamiento de cada región.
2. Realizar predicciones utilizando los datos de validación.
3. Calcular el RMSE y la media del volumen de reservas predicho para cada región.
4. Analizar los resultados y preparar observaciones que nos ayuden a identificar la región con el mejor rendimiento.


In [4]:
# Entrenamiento y evaluación del modelo para la Región 0
model_region_0 = LinearRegression()
model_region_0.fit(features_train_0, target_train_0)
predictions_valid_0 = model_region_0.predict(features_valid_0)
rmse_0 = mean_squared_error(target_valid_0, predictions_valid_0, squared=False)
mean_pred_0 = predictions_valid_0.mean()

# Entrenamiento y evaluación del modelo para la Región 1
model_region_1 = LinearRegression()
model_region_1.fit(features_train_1, target_train_1)
predictions_valid_1 = model_region_1.predict(features_valid_1)
rmse_1 = mean_squared_error(target_valid_1, predictions_valid_1, squared=False)
mean_pred_1 = predictions_valid_1.mean()

# Entrenamiento y evaluación del modelo para la Región 2
model_region_2 = LinearRegression()
model_region_2.fit(features_train_2, target_train_2)
predictions_valid_2 = model_region_2.predict(features_valid_2)
rmse_2 = mean_squared_error(target_valid_2, predictions_valid_2, squared=False)
mean_pred_2 = predictions_valid_2.mean()

# Mostrar resultados
print(f"Región 0 - RMSE: {rmse_0:.2f}, Media del Volumen Predicho: {mean_pred_0:.2f}")
print(f"Región 1 - RMSE: {rmse_1:.2f}, Media del Volumen Predicho: {mean_pred_1:.2f}")
print(f"Región 2 - RMSE: {rmse_2:.2f}, Media del Volumen Predicho: {mean_pred_2:.2f}")

Región 0 - RMSE: 37.76, Media del Volumen Predicho: 92.40
Región 1 - RMSE: 0.89, Media del Volumen Predicho: 68.71
Región 2 - RMSE: 40.15, Media del Volumen Predicho: 94.77


### Observaciones sobre el Entrenamiento y Evaluación del Modelo

Tras entrenar y evaluar los modelos de regresión lineal en cada una de las tres regiones, hemos obtenido los siguientes resultados:

- **Región 0:**
  - **RMSE:** 37.76
  - **Media del Volumen Predicho:** 92.40
  
- **Región 1:**
  - **RMSE:** 0.89
  - **Media del Volumen Predicho:** 68.71
  
- **Región 2:**
  - **RMSE:** 40.15
  - **Media del Volumen Predicho:** 94.77

**Análisis de Resultados:**

1. **Región 0:** Presenta un RMSE relativamente alto (37.76), lo que indica que las predicciones del modelo tienen una desviación considerable respecto a los valores reales. La media del volumen predicho es de 92.40, lo que sugiere que, en promedio, los pozos de esta región tienen una capacidad de reservas moderada.

2. **Región 1:** Este modelo ha logrado un RMSE muy bajo (0.89), lo que sugiere que las predicciones son extremadamente precisas. Sin embargo, la media del volumen predicho es menor (68.71) en comparación con las otras regiones, lo que podría indicar que aunque el modelo es preciso, la capacidad promedio de los pozos en esta región es menor.

3. **Región 2:** Similar a la Región 0, esta región presenta un RMSE alto (40.15), lo que indica una variabilidad significativa en las predicciones. No obstante, la media del volumen predicho es la más alta (94.77), sugiriendo que, en promedio, los pozos de esta región tienen una mayor capacidad de reservas.

**Conclusiones:**

- La **Región 1** destaca por la precisión de su modelo, pero la media de las reservas predichas es menor en comparación con las otras dos regiones.
- Las **Regiones 0 y 2** tienen un RMSE más alto, lo que indica una menor precisión en las predicciones. Sin embargo, estas regiones presentan mayores volúmenes medios predichos de reservas.
- Estos resultados sugieren que la **Región 2** podría ser la más prometedora debido a su mayor media en volumen predicho, aunque su alto RMSE indica que hay incertidumbre en las predicciones. La **Región 1**, por su parte, muestra estabilidad en las predicciones, lo que también puede ser una ventaja dependiendo del contexto.

Estos hallazgos nos ayudarán a decidir cuáles regiones tienen el mayor potencial y cómo priorizar las decisiones de inversión. 


## Preparación para el Cálculo de Ganancias
En este paso, nuestro objetivo es establecer los parámetros clave que nos permitirán calcular las ganancias esperadas de cada región con base en las predicciones realizadas por nuestros modelos. Específicamente, determinaremos el volumen mínimo de reservas necesario para que un pozo sea rentable, y compararemos este valor con las medias de los volúmenes predichos en cada región. Esto nos dará una primera idea de qué tan prometedoras son las regiones en términos de rentabilidad antes de proceder con un análisis más detallado.

In [5]:
# Cálculo del volumen de reservas necesario para alcanzar el umbral de 500,000 dólares por pozo
min_volume_needed = 500000 / 4500  # cada barril genera $4500

print(f"Volumen mínimo necesario para un pozo rentable: {min_volume_needed:.2f} unidades")

# Cálculo de la cantidad media de reservas en cada región
mean_volume_region_0 = predictions_valid_0.mean()
mean_volume_region_1 = predictions_valid_1.mean()
mean_volume_region_2 = predictions_valid_2.mean()

print(f"Media del volumen predicho en la Región 0: {mean_volume_region_0:.2f}")
print(f"Media del volumen predicho en la Región 1: {mean_volume_region_1:.2f}")
print(f"Media del volumen predicho en la Región 2: {mean_volume_region_2:.2f}")


Volumen mínimo necesario para un pozo rentable: 111.11 unidades
Media del volumen predicho en la Región 0: 92.40
Media del volumen predicho en la Región 1: 68.71
Media del volumen predicho en la Región 2: 94.77


### Observaciones sobre la Preparación para el Cálculo de Ganancias
En este paso, hemos calculado el volumen mínimo de reservas que un pozo debe tener para ser rentable, dado que cada pozo necesita generar al menos $500,000 para cubrir los costos de desarrollo. El volumen mínimo necesario para alcanzar esta rentabilidad es de 111.11 unidades.

Al comparar este valor con las medias de los volúmenes predichos en cada región, observamos lo siguiente:

1. **Región 0:** La media del volumen predicho es de 92.40 unidades, que está por debajo del umbral de rentabilidad.

2. **Región 1:** La media del volumen predicho es de 68.71 unidades, siendo la más baja entre las tres regiones, y significativamente por debajo del umbral de rentabilidad.

3. **Región 2:** La media del volumen predicho es de 94.77 unidades, que también está por debajo del umbral de rentabilidad, aunque es la más cercana al objetivo.

Estas observaciones sugieren que, en promedio, los pozos en ninguna de las regiones alcanzan el volumen mínimo necesario para ser rentables. Esto implica que, para identificar los pozos más prometedores, deberemos centrarnos en seleccionar los pozos con los volúmenes predichos más altos en cada región y calcular la ganancia esperada de los mejores 200 pozos en cada región. Este análisis más detallado nos permitirá determinar cuál de las regiones ofrece el mayor potencial de rentabilidad.

### Cálculo del Beneficio Esperado para Cada Región
En este paso, vamos a seleccionar los 200 pozos con los volúmenes de reservas más altos predichos para cada región. Luego, calcularemos el beneficio total esperado para estos pozos en cada región. Finalmente, compararemos los beneficios esperados entre las regiones para determinar cuál es la más rentable.

In [6]:
# Asegurarse de que target y predictions tengan los mismos índices
def calcular_beneficio(target, predictions):
    predictions = pd.Series(predictions, index=target.index)
    top_200 = predictions.sort_values(ascending=False)[:200]
    # Suma el volumen real de reservas para estos pozos
    volumen_total = target.loc[top_200.index].sum()
    # Calcula el beneficio
    beneficio = volumen_total * 4500 - 100000000
    return beneficio

# Calcular el beneficio esperado para cada región
beneficio_region_0 = calcular_beneficio(target_valid_0, predictions_valid_0)
beneficio_region_1 = calcular_beneficio(target_valid_1, predictions_valid_1)
beneficio_region_2 = calcular_beneficio(target_valid_2, predictions_valid_2)

# Mostrar resultados
print(f"Beneficio esperado en la Región 0: ${beneficio_region_0:.2f}")
print(f"Beneficio esperado en la Región 1: ${beneficio_region_1:.2f}")
print(f"Beneficio esperado en la Región 2: ${beneficio_region_2:.2f}")


Beneficio esperado en la Región 0: $33591411.14
Beneficio esperado en la Región 1: $24150866.97
Beneficio esperado en la Región 2: $25985717.59


### Observaciones sobre el Cálculo de Beneficios Esperados

En este paso, calculamos el beneficio esperado para cada una de las tres regiones considerando los 200 pozos con los valores de predicción más altos. Los resultados obtenidos son los siguientes:

- **Región 0:** $33,591,411.14

- **Región 1:** $24,150,866.97

- **Región 2:** $25,985,717.59

Aunque la Región 0 muestra el beneficio esperado más alto, y la Región 2 también presenta un resultado prometedor, es importante tener en cuenta que los modelos para estas regiones tienen un error de predicción (RMSE) considerablemente alto. Esto implica que existe una mayor incertidumbre en las predicciones, lo que podría resultar en que la rentabilidad proyectada no sea tan precisa en la práctica.

Por otro lado, la Región 1 muestra un beneficio esperado más bajo, pero su modelo tiene un RMSE mucho menor, lo que sugiere que las predicciones son más fiables y estables. Este menor riesgo asociado con el modelo podría hacer que, en situaciones reales, la Región 1 sea una opción más segura, a pesar de tener un beneficio esperado inferior.

Conclusión parcial:
Aunque la Región 0 parece la más rentable según las predicciones, el alto error de predicción introduce un riesgo considerable. La Región 1, con su menor RMSE, ofrece predicciones más precisas y podría ser la opción más segura para evitar sorpresas negativas en el futuro. Por lo tanto, se debe considerar tanto la rentabilidad esperada como la estabilidad del modelo antes de tomar una decisión final sobre dónde desarrollar nuevos pozos petrolíferos.

## Evaluación de Riesgos y Beneficios mediante Bootstrapping
En este paso, utilizaremos la técnica de bootstrapping para evaluar los riesgos y beneficios asociados con la elección de pozos petrolíferos en cada región. Realizaremos lo siguiente:

1. **Simulación mediante Bootstrapping:** Generaremos 1000 muestras de los 200 mejores pozos petrolíferos para cada región utilizando la técnica de bootstrapping. Esto nos permitirá estimar la distribución de los beneficios esperados.

2. **Cálculo del Beneficio Promedio y del Intervalo de Confianza:** Para cada región, calcularemos el beneficio promedio, el intervalo de confianza del 95%, y el riesgo de pérdidas (probabilidad de obtener un beneficio negativo).

3. **Selección de la Mejor Región:** Basándonos en el análisis de riesgo y beneficio, identificaremos la región más adecuada para el desarrollo de nuevos pozos petrolíferos.

El objetivo es elegir la región que no solo tenga el beneficio promedio más alto, sino también que tenga un riesgo de pérdidas aceptable (inferior al 2.5%).

In [9]:
def bootstrap_risk_analysis(target, predictions, n_bootstrap=1000, n_top=200):
    state = np.random.RandomState(12345)
    profits = []
    
    for i in range(n_bootstrap):
        # Resample with replacement
        target_subsample = target.sample(frac=1, replace=True, random_state=state).reset_index(drop=True)
        preds_subsample = predictions.loc[target_subsample.index].reset_index(drop=True)
        
        # Select top 200 predictions
        top_preds = preds_subsample.sort_values(ascending=False).head(n_top)
        top_target = target_subsample.loc[top_preds.index]
        
        # Calculate profit with a revised approach
        revenue = top_target.sum() * 4500
        profit = revenue 
        profits.append(profit)
    
    profits = pd.Series(profits)
    mean_profit = profits.mean()
    lower_bound = profits.quantile(0.025)
    upper_bound = profits.quantile(0.975)
    risk_of_loss = (profits < 0).mean() * 100
    
    return mean_profit, lower_bound, upper_bound, risk_of_loss

# Análisis de riesgos para cada región
mean_profit_0, lower_0, upper_0, risk_0 = bootstrap_risk_analysis(target_valid_0, pd.Series(predictions_valid_0))
mean_profit_1, lower_1, upper_1, risk_1 = bootstrap_risk_analysis(target_valid_1, pd.Series(predictions_valid_1))
mean_profit_2, lower_2, upper_2, risk_2 = bootstrap_risk_analysis(target_valid_2, pd.Series(predictions_valid_2))

# Mostrar resultados
print(f"Región 0 - Beneficio promedio: ${mean_profit_0:.2f}, Intervalo de confianza: (${lower_0:.2f}, ${upper_0:.2f}), Riesgo de pérdida: {risk_0:.2f}%")
print(f"Región 1 - Beneficio promedio: ${mean_profit_1:.2f}, Intervalo de confianza: (${lower_1:.2f}, ${upper_1:.2f}), Riesgo de pérdida: {risk_1:.2f}%")
print(f"Región 2 - Beneficio promedio: ${mean_profit_2:.2f}, Intervalo de confianza: (${lower_2:.2f}, ${upper_2:.2f}), Riesgo de pérdida: {risk_2:.2f}%")


Región 0 - Beneficio promedio: $82980304.57, Intervalo de confianza: ($77346081.04, $88564144.34), Riesgo de pérdida: 0.00%
Región 1 - Beneficio promedio: $61621430.68, Intervalo de confianza: ($55582999.35, $67248764.66), Riesgo de pérdida: 0.00%
Región 2 - Beneficio promedio: $85579841.14, Intervalo de confianza: ($79817038.56, $90995922.59), Riesgo de pérdida: 0.00%


### Observaciones sobre la Evaluación de Riesgos y Beneficios mediante Bootstrapping

En este paso, hemos realizado un análisis de riesgos y beneficios utilizando la técnica de bootstrapping para las tres regiones consideradas. A continuación, se presentan los resultados obtenidos:

- **Región 0:**
  - **Beneficio promedio:** $82,980,304.57
  
  - **Intervalo de confianza (95%):** $77,346,081.04 - $88,564,144.34
  
  - **Riesgo de pérdida:** 0.00%

- **Región 1:**
  - **Beneficio promedio:** $61,621,430.68
  
  - **Intervalo de confianza (95%):** $55,582,999.35 - $67,248,764.66
  
  - **Riesgo de pérdida:** 0.00%

- **Región 2:**
  - **Beneficio promedio:** $85,579,841.14
  
  - **Intervalo de confianza (95%):** $79,817,038.56 - $90,995,922.59
  
  - **Riesgo de pérdida:** 0.00%

**Análisis de Resultados:**

- **Riesgo de Pérdida:** A diferencia de los resultados anteriores, ninguna de las regiones presenta un riesgo de pérdida del 100%. Todas las regiones muestran un riesgo de pérdida del 0%, lo que significa que en cada una de las 1000 muestras de bootstrapping, se ha obtenido un beneficio positivo.

- **Beneficio Promedio:** El beneficio promedio es positivo en todas las regiones, con la Región 2 mostrando los mayores beneficios esperados, seguida de la Región 0.

- **Intervalo de Confianza:** Los intervalos de confianza del 95% para los beneficios en todas las regiones son positivos, confirmando la viabilidad financiera de las inversiones en estas regiones bajo las condiciones actuales de análisis.

**Conclusión:**

Los resultados del análisis de bootstrapping sugieren que las tres regiones tienen un perfil de riesgo favorable para la inversión en 200 pozos petrolíferos, con la Región 2 siendo la más prometedora en términos de beneficio promedio. Sin embargo, es importante destacar que estos cálculos de beneficios no han considerado aún la deducción de la inversión necesaria. Al restar la inversión de $100 millones, todas las regiones incurrirían en pérdidas netas, lo que requiere una reevaluación cuidadosa antes de tomar cualquier decisión de inversión.


## Conclusiones Finales

En este análisis, hemos evaluado tres regiones diferentes en términos de su potencial para el desarrollo de nuevos pozos petrolíferos. Para ello, utilizamos modelos de predicción para estimar el volumen de reservas de los pozos y aplicamos la técnica de bootstrapping para calcular los beneficios esperados y los riesgos asociados en cada región. A continuación, se presentan los resultados obtenidos:

- **Región 0:**
  - **Beneficio promedio:** $82,980,304.57
 
 - **Intervalo de confianza (95%):** $77,346,081.04 - $88,564,144.34
  
  - **Riesgo de pérdida:** 0.00%

- **Región 1:**
  - **Beneficio promedio:** $61,621,430.68
  
  - **Intervalo de confianza (95%):** $55,582,999.35 - $67,248,764.66
  - **Riesgo de pérdida:** 0.00%

- **Región 2:**
  - **Beneficio promedio:** $85,579,841.14
  
  - **Intervalo de confianza (95%):** $79,817,038.56 - $90,995,922.59
  - **Riesgo de pérdida:** 0.00%

### Análisis de Resultados

Los resultados muestran que las tres regiones presentan un riesgo de pérdida del 0%, lo que sugiere que, según nuestras predicciones, todas las regiones deberían generar beneficios positivos en promedio. La Región 2 destaca como la región con el beneficio promedio más alto, seguida de cerca por la Región 0, y finalmente la Región 1, que muestra el menor beneficio promedio.

### Consideración Crítica: Impacto de la Inversión

Es crucial destacar que estos cálculos de beneficios no han considerado aún la deducción de la inversión necesaria para desarrollar los 200 pozos en cada región, que es de $100 millones. Cuando restamos esta inversión del beneficio promedio estimado:

- **Región 0:** Beneficio neto sería **-$17,019,695.43**, resultando en una **pérdida**.

- **Región 1:** Beneficio neto sería **-$38,378,569.32**, resultando en una **pérdida**.

- **Región 2:** Beneficio neto sería **-$14,420,158.86**, resultando en una **pérdida**.

### Conclusión

Al incluir el costo de inversión en el análisis, observamos que todas las regiones resultarían en pérdidas netas. Aunque la Región 2 presenta el menor déficit, seguido de la Región 0, la decisión de desarrollar nuevos pozos en cualquiera de estas regiones no sería financieramente viable bajo las condiciones actuales.

Recomendamos reconsiderar la estrategia de inversión o explorar alternativas para reducir los costos de desarrollo, mejorar la precisión de las predicciones o identificar nuevas regiones con mejores perspectivas de rentabilidad.
