# New wells for OilyGiant company

## Introduction

La compañía `OilyGiant` está buscando expandir sus operaciones de extracción de petróleo abriendo `200` nuevos pozos. La selección de las ubicaciones óptimas para estos pozos es crucial para maximizar los beneficios y minimizar los riesgos asociados. Dado el alto costo de desarrollo y la volatilidad del mercado del petróleo, es esencial tomar decisiones basadas en un análisis riguroso de los datos geológicos y económicos.

Este proyecto tiene como objetivo identificar las mejores regiones para la apertura de estos nuevos pozos utilizando técnicas avanzadas de análisis de datos y modelado predictivo. Para ello, se dispone de datos de exploración geológica de tres regiones diferentes. Cada conjunto de datos incluye información sobre características geológicas y el volumen de reservas de petróleo de los pozos existentes en esas regiones.

### Objetivos del Proyecto

* __Predecir el Volumen de Reservas__: Crear un modelo de `regresión lineal` para predecir el volumen de reservas en los nuevos pozos basándose en las características geológicas disponibles.

* __Seleccionar los Mejores Pozos__: Identificar los 200 pozos con las predicciones de volumen de reservas más altas en cada región para maximizar los beneficios.

* __Evaluar el Beneficio Total__: Calcular el beneficio total esperado de los pozos seleccionados en cada región y elegir la región con el mayor beneficio total.

* __Análisis de Riesgo__: Utilizar técnicas de `bootstrapping` para analizar los riesgos potenciales y asegurarse de que las regiones seleccionadas tengan un riesgo de pérdidas inferior al 2.5%.

### Condiciones del Negocio

* __Inversión y Beneficio__: El presupuesto para el desarrollo de 200 pozos es de 100 millones de dólares. Un barril de materias primas genera 4.5 USD de ingresos, lo que significa que cada unidad de producto (volumen de reservas en miles de barriles) genera 4500 USD de ingresos.

* __Umbral de Rentabilidad__: Para evitar pérdidas, cada pozo debe producir al menos 500,000 USD en ingresos, lo que equivale a 111.1 unidades de producto.

* __Selección de Regiones__: Solo se considerarán las regiones con un riesgo de pérdidas inferior al 2.5%. Entre estas, se seleccionará la región con el beneficio promedio más alto.

### Metodología

Para lograr estos objetivos, seguiremos un enfoque sistemático que incluye los siguientes pasos:

1. __Preparación de Datos__: Descargar y preparar los datos geológicos de las tres regiones. Esto incluye la limpieza de datos y la división en conjuntos de entrenamiento y validación.

2. __Entrenamiento del Modelo__: Entrenar un modelo de regresión lineal para predecir el volumen de reservas en cada región y evaluar su rendimiento utilizando métricas adecuadas.

3. __Cálculo de Ganancias__: Calcular el beneficio total esperado de los 200 pozos seleccionados en cada región y compararlo con el umbral de rentabilidad.

4. __Análisis de Riesgo__: Utilizar técnicas de bootstrapping para evaluar los riesgos asociados con las predicciones y asegurarse de que el riesgo de pérdidas sea aceptable.

5. __Selección de la Región Óptima__: Basándose en los análisis anteriores, seleccionar la región que ofrece el mayor beneficio promedio con un riesgo de pérdidas aceptable.

### Descripción de la Data

* __Datos__

Los datos de exploración geológica de las tres regiones se almacenan en los archivos:

- `geo_data_0.csv`

- `geo_data_1.csv`

- `geo_data_2.csv`


* __Columnas de Datos__


- `id` — identificador único de pozo de petróleo

- `f0`, `f1`, `f2` — tres características de los puntos

- `product` — volumen de reservas en el pozo de petróleo (miles de barriles).

Este proyecto proporcionará una estrategia basada en datos para la expansión de las operaciones de OilyGiant, asegurando que la inversión en nuevos pozos se realice en las ubicaciones más rentables y con el menor riesgo posible. La implementación de un modelo predictivo robusto y un análisis riguroso de riesgos permitirá tomar decisiones informadas y optimizar el rendimiento financiero de la compañía.

## Descargar y preparar los datos

In [1]:
# Importar las librerias necesarias para el proyecto
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score

In [2]:
# Cargar los datos de las tres regiones
data_r0 = pd.read_csv('/datasets/geo_data_0.csv')
data_r1 = pd.read_csv('/datasets/geo_data_1.csv')
data_r2 = pd.read_csv('/datasets/geo_data_2.csv')

# Mostrar las primeras filas de cada conjunto de datos
data_r0.head(), data_r1.head(), data_r2.head()

(      id        f0        f1        f2     product
 0  txEyH  0.705745 -0.497823  1.221170  105.280062
 1  2acmU  1.334711 -0.340164  4.365080   73.037750
 2  409Wp  1.022732  0.151990  1.419926   85.265647
 3  iJLyR -0.032172  0.139033  2.978566  168.620776
 4  Xdl7t  1.988431  0.155413  4.751769  154.036647,
       id         f0         f1        f2     product
 0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
 1  62mP7  14.272088  -3.475083  0.999183   26.953261
 2  vyE1P   6.263187  -5.948386  5.001160  134.766305
 3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
 4  AHL4O  12.702195  -8.147433  5.004363  134.766305,
       id        f0        f1        f2     product
 0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
 1  WJtFt  0.262778  0.269839 -2.530187   56.069697
 2  ovLUW  0.194587  0.289035 -5.586433   62.871910
 3  q6cA6  2.236060 -0.553760  0.930038  114.572842
 4  WPMUX -0.515993  1.716266  5.899011  149.600746)

In [3]:
# Mostrar la información de cada conjunto de datos
data_r0_info = data_r0.info()
data_r1_info = data_r1.info()
data_r2_info = data_r2.info()

(data_r0_info, data_r1_info, data_r2_info)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null 

(None, None, None)

Notamos que la columna `id` es de tipo `object`, mientras que `f0`, `f1` y `f2` son tipo `float64`. Tendremos esto en consideración al momento de aplicar el modelo de ML.

In [4]:
# Verificar existencia de duplicados para la columna ID para cada DataFrame
data_r0['id'].duplicated().sum(), data_r1['id'].duplicated().sum(), data_r2['id'].duplicated().sum()

(10, 4, 4)

In [5]:
# Eliminar duplicados
data_r0 = data_r0.drop_duplicates(subset='id')
data_r1 = data_r1.drop_duplicates(subset='id')
data_r2 = data_r2.drop_duplicates(subset='id')

# Verificar que no haya duplicados
data_r0['id'].duplicated().sum(), data_r1['id'].duplicated().sum(), data_r2['id'].duplicated().sum()

(0, 0, 0)

## Entrena y prueba el modelo para cada región 

Se aplicará un modelo de `regresión lineal` para cada región y evaluaremos su rendimiento.

In [6]:
# Dividir los datos en conjuntos de entrenamiento y validación para la región 0
train_data_0, valid_data_0 = train_test_split(data_r0, test_size=0.25, random_state=42)

# Separar características y objetivo
X_train_0 = train_data_0.drop(['id', 'product'], axis=1)
y_train_0 = train_data_0['product']
X_valid_0 = valid_data_0.drop(['id', 'product'], axis=1)
y_valid_0 = valid_data_0['product']

# Entrenar el modelo de regresión lineal
model_0 = LinearRegression()
model_0.fit(X_train_0, y_train_0)

# Hacer predicciones en el conjunto de validación
predictions_0 = model_0.predict(X_valid_0)

# Calcular el RMSE
rmse_0 = np.sqrt(mean_squared_error(y_valid_0, predictions_0)).round(2)

# Volumen medio de reservas predicho
mean_volume_pred_0 = predictions_0.mean().round(2)

print("Región 0 - Volumen Medio de Reservas Predicho:", mean_volume_pred_0, "RMSE:", rmse_0), 

Región 0 - Volumen Medio de Reservas Predicho: 92.61 RMSE: 37.69


(None,)

In [7]:
# Dividir los datos en conjuntos de entrenamiento y validación para la región 1
train_data_1, valid_data_1 = train_test_split(data_r1, test_size=0.25, random_state=42)

# Separar características y objetivo
X_train_1 = train_data_1.drop(['id', 'product'], axis=1)
y_train_1 = train_data_1['product']
X_valid_1 = valid_data_1.drop(['id', 'product'], axis=1)
y_valid_1 = valid_data_1['product']

# Entrenar el modelo de regresión lineal
model_1 = LinearRegression()
model_1.fit(X_train_1, y_train_1)

# Hacer predicciones en el conjunto de validación
predictions_1 = model_1.predict(X_valid_1)

# Calcular el RMSE
rmse_1 = np.sqrt(mean_squared_error(y_valid_1, predictions_1)).round(2)

# Volumen medio de reservas predicho
mean_volume_pred_1 = predictions_1.mean().round(2)

Región 1 - Volumen Medio de Reservas Predicho: 68.58 RMSE: 0.89
Región 2 - Volumen Medio de Reservas Predicho: 94.93479859194369 RMSE: 40.08


In [None]:
# Dividir los datos en conjuntos de entrenamiento y validación para la región 2
train_data_2, valid_data_2 = train_test_split(data_r2, test_size=0.25, random_state=42)

# Separar características y objetivo
X_train_2 = train_data_2.drop(['id', 'product'], axis=1)
y_train_2 = train_data_2['product']
X_valid_2 = valid_data_2.drop(['id', 'product'], axis=1)
y_valid_2 = valid_data_2['product']

# Entrenar el modelo de regresión lineal
model_2 = LinearRegression()
model_2.fit(X_train_2, y_train_2)

# Hacer predicciones en el conjunto de validación
predictions_2 = model_2.predict(X_valid_2).round(2)

# Calcular el RMSE
rmse_2 = np.sqrt(mean_squared_error(y_valid_2, predictions_2)).round(2)

# Volumen medio de reservas predicho
mean_volume_pred_2 = predictions_2.mean()

print("Región 1 - Volumen Medio de Reservas Predicho:", mean_volume_pred_1, "RMSE:", rmse_1)
print("Región 2 - Volumen Medio de Reservas Predicho:", mean_volume_pred_2, "RMSE:", rmse_2)

__Resultados__:

- **Región 0:**
  - Volumen Medio de Reservas Predicho: 92.61 miles de barriles
  - RMSE: 37.69

- **Región 1:**
  - Volumen Medio de Reservas Predicho: 68.58 miles de barriles
  - RMSE: 0.89

- **Región 2:**
  - Volumen Medio de Reservas Predicho: 95.0 miles de barriles
  - RMSE: 40.08

Ninguna de las regiones supera el umbral mínimo necesario de 111.1 unidades para evitar pérdidas.

## Calculo de Ganancias

Dado que ninguna región supera el umbral mínimo necesario para evitar pérdidas, debemos seleccionar los mejores pozos en términos de predicción y calcular la ganancia potencial de los 200 pozos principales por región.

### Almacena todos los valores necesarios para los cálculos en variables separadas.

In [8]:
# Definir el umbral mínimo necesario para evitar pérdidas
threshold_units = 111.1

# Almacenar los volúmenes medios de reservas y RMSE para cada región
mean_volume_0, rmse_0 = 92.50, 37.69
mean_volume_1, rmse_1 = 68.82, 0.89
mean_volume_2, rmse_2 = 95.00, 40.06

### Dada la inversión de 100 millones por 200 pozos petrolíferos, de media un pozo petrolífero debe producir al menos un valor de 500,000 dólares en unidades para evitar pérdidas (esto es equivalente a 111.1 unidades). Compara esta cantidad con la cantidad media de reservas en cada región.

In [9]:
# Comparar con el umbral mínimo necesario para evitar pérdidas
comparison_0 = mean_volume_0 > threshold_units
comparison_1 = mean_volume_1 > threshold_units
comparison_2 = mean_volume_2 > threshold_units

(comparison_0, mean_volume_0, threshold_units), (comparison_1, mean_volume_1, threshold_units), (comparison_2, mean_volume_2, threshold_units)

((False, 92.5, 111.1), (False, 68.82, 111.1), (False, 95.0, 111.1))

### Presenta conclusiones sobre cómo preparar el paso para calcular el beneficio. 

Para calcular las ganancias potenciales, primero debemos seleccionar los 200 pozos con los valores de predicción más altos de cada una de las tres regiones.Luego, calcular el volumen objetivo de reservas según dichas predicciones.

## Escribe una función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modela las predicciones

In [10]:
# Función para calcular la ganancia potencial
def calculate_profit(predictions, actuals, count=200, budget=100_000_000):
    # Obtener los índices de las 200 mejores predicciones
    top_indices = np.argsort(predictions)[-count:]
    
    # Obtener los valores reales de esos 200 pozos
    top_actuals = actuals.iloc[top_indices]
    
    # Calcular el volumen total de reservas
    total_reserves = top_actuals.sum()
    
    # Calcular la ganancia potencial
    revenue = total_reserves * 4500  # dado que cada unidad de producto genera $4500
    
    # Restar el presupuesto
    profit = revenue - budget
    
    return profit

# Calcular la ganancia potencial para cada región
profit_0 = calculate_profit(predictions_0, valid_data_0['product']).round(0)
profit_1 = calculate_profit(predictions_1, valid_data_1['product']).round(0)
profit_2 = calculate_profit(predictions_2, valid_data_2['product']).round(0)

print("Ganancia Potencial - Región 0:", profit_0)
print("Ganancia Potencial - Región 1:", profit_1)
print("Ganancia Potencial - Región 2:", profit_2)

Ganancia Potencial - Región 0: 34685298.0
Ganancia Potencial - Región 1: 24150867.0
Ganancia Potencial - Región 2: 23966130.0


La `Región 0` ofrece la `mayor ganancia potencial` entre las tres regiones, seguida de la `Región 1` y finalmente la `Región 2`.

## Calcula riesgos y ganancias para cada región:

### Utilizando las predicciones que almacenaste en el paso 4.2, emplea la técnica del bootstrapping con 1000 muestras para hallar la distribución de los beneficios.

In [11]:
# Función de bootstrapping para calcular la ganancia
def bootstrap_profit(predictions, actuals, count=200, n_iterations=1000, sample_size=500, random_state=42):
    np.random.seed(random_state)
    profits = []
    for _ in range(n_iterations):
        sample_indices = np.random.choice(predictions.shape[0], size=sample_size, replace=True)
        sample_predictions = predictions[sample_indices]
        sample_actuals = actuals.iloc[sample_indices]
        profit = calculate_profit(sample_predictions, sample_actuals, count)
        profits.append(profit)
    return np.array(profits)

# Bootstrapping para las tres regiones
bootstrap_profits_0 = bootstrap_profit(predictions_0, valid_data_0['product'])
bootstrap_profits_1 = bootstrap_profit(predictions_1, valid_data_1['product'])
bootstrap_profits_2 = bootstrap_profit(predictions_2, valid_data_2['product'])

In [12]:
# Calcular el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas
def profit_statistics(bootstrap_profits):
    mean_profit = bootstrap_profits.mean().round(2)
    lower_bound = np.percentile(bootstrap_profits, 2.5).round(2)
    upper_bound = np.percentile(bootstrap_profits, 97.5).round(2)
    loss_risk = round((bootstrap_profits < 0).mean() * 100, 2)  # riesgo de pérdidas en porcentaje
    return mean_profit, lower_bound, upper_bound, loss_risk

stats_0 = profit_statistics(bootstrap_profits_0)
stats_1 = profit_statistics(bootstrap_profits_1)
stats_2 = profit_statistics(bootstrap_profits_2)

print("Región 0 - Beneficio Promedio:", stats_0[0], "Intervalo de Confianza 95%:", (stats_0[1], stats_0[2]), "Riesgo de Pérdidas:", stats_0[3], "%")
print("Región 1 - Beneficio Promedio:", stats_1[0], "Intervalo de Confianza 95%:", (stats_1[1], stats_1[2]), "Riesgo de Pérdidas:", stats_1[3], "%")
print("Región 2 - Beneficio Promedio:", stats_2[0], "Intervalo de Confianza 95%:", (stats_2[1], stats_2[2]), "Riesgo de Pérdidas:", stats_2[3], "%")

Región 0 - Beneficio Promedio: 4035720.64 Intervalo de Confianza 95%: (-1376900.03, 9028483.11) Riesgo de Pérdidas: 5.9 %
Región 1 - Beneficio Promedio: 4302083.52 Intervalo de Confianza 95%: (430525.2, 8473134.67) Riesgo de Pérdidas: 1.6 %
Región 2 - Beneficio Promedio: 3842261.7 Intervalo de Confianza 95%: (-1275898.77, 9101344.4) Riesgo de Pérdidas: 8.0 %


__Resultados del Análisis de Riesgos y Ganancias__:

* `Región 0`:

__Beneficio Promedio__: $4,035,720

__Intervalo de Confianza del 95%__: [-1.376.900, 9.028.483]

__Riesgo de Pérdidas__: 5.9%

* `Región 1`:

__Beneficio Promedio__: $4,302,083

__Intervalo de Confianza del 95%__: [430.525, 8.473.135]

__Riesgo de Pérdidas__: 1.6%

* `Región 2`:

__Beneficio Promedio__: $3,842,261

__Intervalo de Confianza del 95%__: [-1.275.898, 9.101.344]

__Riesgo de Pérdidas__: 8.0%

El análisis de riesgos muestra que la region con menos riesgo de pérdidas es la `Región 1` con un `1.6%`, además, la región con el mayor beneficio promedio tambien es la `Región 1`, seguida de la `Región 0` y finalmente la `Región 2`.

__Recomendación__:

* __Región Seleccionada__: `Región 1`
<br>

* __Justificación__: La `Región 1` tiene el mayor beneficio promedio (`4.302.083`) y un intervalo de confianza del 95% positivo, que indica una alta probabilidad de obtener beneficios consistentes.

Esta recomendación  no coincide con la elección basada en la ganancia potencial calculada anteriormente, dado que no se habia considerado la totalidad de datos y su presupuesto. La `Región 1` es la mejor opción para el desarrollo de los `200 nuevos pozos` de petróleo debido a su `mayor beneficio promedio` y a su `menor de riesgo de pérdidas`.