# Maximización de la Rentabilidad de Pozos de Petróleo

-----

## Overview

### Descripción

<div style="color: #196CC4;">
Este proyecto implica una exhaustiva evaluación de los datos geológicos de tres regiones, utilizando modelos de regresión lineal para predecir el volumen de reservas en los pozos potenciales. Finalmente, elegiremos la región con el beneficio promedio más alto entre las regiones consideradas para abrir los nuevos pozos, con un riesgo de pérdida inferior al 2.5%.
</div>

### Objetivo

<div style="color: #196CC4;">
Utilizar modelos de regresión lineal para identificar la región más rentable un riesgo de pérdida inferior al 2.5%, para abrir 200 nuevos pozos petroleros, maximizando el beneficio total dentro de un presupuesto de 100 millones de dólares; todo esto mediante la evaluación de datos geológicos de tres regiones y la selección de los mejores puntos utilizando criterios de predicción de volumen de reservas y análisis de riesgo utilizando bootstrapping. 
</div>

### Recursos

<div style="color: #196CC4;">
<b>Los datos de exploración geológica de las tres regiones se almacenan en archivos:</b><br>
▶ Conjunto de datos geo_data_0.csv<br>
▶ Conjunto de datos geo_data_1.csv<br>
▶ Conjunto de datos geo_data_2.csv<br>
▶ id — identificador único de pozo de petróleo<br>
▶ f0, f1, f2 — tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)<br>
▶ product — volumen de reservas en el pozo de petróleo (miles de barriles).


### Condiciones

<div style="color: #196CC4;">
▶ Solo se debe usar la regresión lineal para el entrenamiento del modelo.<br>
▶ Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.<br>
▶ El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.<br>
▶ Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).<br>
▶ Después de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.<br>
▶ Los datos son sintéticos: los detalles del contrato y las características del pozo no se publican.
</div>

### Metodología

<div style="color: #196CC4;">
<b>Procedimiento general para abordar este proyecto:</b><br>

▶ Comprender la estructura y contenido del Dataset<br>
▶ Segmentar los datos será necesario para poder entrenar y validar el modelo.<br>
▶ Antes de calcular las ganancias potenciales, determinar los valores necesarios para evitar pérdidas, como el volumen mínimo de reservas.<br>
▶ Seleccionar y modelar las predicciones de los 200 pozos principales en cada región, estimando así las ganancias potenciales.<br>
▶ Utilizar bootstrapping para estimar las distribuciones de beneficios y calcular métricas de riesgo y ganancia para cada región.<br>
▶ Analizar resultados y generar conclusiones sólidas sobre la mejor región para el desarrollo de pozos petrolíferos, respaldadas por datos detallados.
</div>

<div style="color: #196CC4;"><br>
<b>Procedimiento detallado:</b>
<ol>
<li>Inicialización y Análisis Exploratorio de Datos
<ul>
<li>Se importan las librerías, módulos y los 3 conjuntos de datos: geo_data_0.csv, geo_data_1.csv y geo_data_2.csv.</li>
<li>Se realiza un análisis exploratorio de cada conjunto de datos, identificando correlaciones entre variables numéricas y categóricas, valores faltantes, duplicados y anomalías en la sintaxis.</li>
<li>Se calculan estadísticas descriptivas para cada conjunto de datos.</li>
<li>Se limpia la data eliminando la columna "id" que no es necesaria para el análisis.</li>
</ul>
</li>

<li>Entrenamiento del Modelo
<ul>
<li>Se dividen los datos en conjuntos de entrenamiento y validación en una proporción de 3:1.</li>
<li>Se utiliza regresión lineal para predecir el valor de la variable objetivo (precio).</li>
<li>Se evalúa el desempeño del modelo utilizando el error cuadrático medio (RMSE).</li>
<li>Se crea una función para automatizar el proceso de extracción de características, entrenamiento y evaluación del modelo.</li>
<li>Se aplica la función a cada uno de los conjuntos de datos de los pozos petroleros.</li>
<li>Se presentan los resultados y se identifican los hallazgos más relevantes, como el volumen promedio de reservas, el error RMSE y la región con mejor desempeño.</li>
</ul>
</li>

<li>Preparación de Datos para Análisis de Rentabilidad
<ul>
<li>Se calcula el volumen promedio de reservas para cada región en el conjunto de validación.</li>
<li>Se compara el volumen promedio con el volumen mínimo requerido para determinar la viabilidad económica de cada región.</li>
</ul>
</li>

<li>Cálculo de Ganancias Potenciales
<ul>
<li>Se calculan las ganancias potenciales que se podrían obtener al desarrollar pozos petroleros en cada región.</li>
<li>Se define una función para calcular las ganancias, considerando las predicciones del modelo y el precio por barril.</li>
<li>Se ordenan las predicciones de forma descendente y se seleccionan los 200 pozos con mayor potencial.</li>
<li>Se calculan los ingresos totales multiplicando el volumen total de reservas por el precio por barril.</li>
<li>Se calculan las ganancias netas restando la inversión inicial.</li>
</ul>
</li>

<li>Análisis de Riesgo y Retorno
<ul>
<li>Se utiliza el método de bootstrapping para estimar la distribución de las ganancias en cada región.</li>
<li>Se calcula el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdida para cada distribución.</li>
</ul>
</li>

<li>Conclusiones
<ul>
<li>Se presenta un resumen de los resultados clave obtenidos para cada región.</li>
<li>Se identifica la región más prometedora para el desarrollo de nuevos pozos petroleros, considerando los factores de riesgo y retorno.</li>
</ul>
</li>
</ol>

</div>

-----

## Información general

### Inicialización

In [1]:
# Data treatment
import pandas as pd
import numpy as np

# Models
from sklearn.linear_model import LinearRegression

# Para separar cualquier conjunto de datos en dos: entrenamiento y prueba
from sklearn.model_selection import train_test_split

# mean squared error between predictions and true values
from sklearn.metrics import mean_squared_error

# confidence_interval
from scipy import stats as st

In [2]:
# Import data
geo_0 = pd.read_csv('datasets/geo_data_0.csv')
geo_1 = pd.read_csv('datasets/geo_data_1.csv')
geo_2 = pd.read_csv('datasets/geo_data_2.csv')

### Despliegue de dataset

<div style="color: #196CC4;">
▶ Propiedades generales del Dataframe
</div>

In [3]:
# General Dataframe 1 properties
geo_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
# General Dataframe 2 properties
geo_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
# General Dataframe 3 properties
geo_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


<div style="color: #196CC4;">
▶ Vistazo general del Dataframe
</div>

In [6]:
# General data overview
display(geo_0.head(3))
display(geo_1.head(3))
display(geo_2.head(3))

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191


<div style="color: #196CC4;">
▶ Verificación de valores duplicados.
</div>

In [7]:
# Duplicated values
geo_0_duplicates = geo_0.duplicated()
geo_1_duplicates = geo_1.duplicated()
geo_2_duplicates = geo_2.duplicated()

# Sum of duplicated values
total_geo_0_duplicates = geo_0_duplicates.sum()
total_geo_1_duplicates = geo_1_duplicates.sum()
total_geo_2_duplicates = geo_2_duplicates.sum()

# Duplicated rows
geo_0_duplicates_rows = geo_0[geo_0_duplicates]
geo_1_duplicates_rows = geo_1[geo_1_duplicates]
geo_2_duplicates_rows = geo_2[geo_2_duplicates]

# Display data
print("Total de valores duplicados en geo_0:", total_geo_0_duplicates)
print("Total de valores duplicados en geo_1:", total_geo_1_duplicates)
print("Total de valores duplicados en geo_2:", total_geo_2_duplicates)


Total de valores duplicados en geo_0: 0
Total de valores duplicados en geo_1: 0
Total de valores duplicados en geo_2: 0


<div style="color: #196CC4;">
▶ Estadísticas descriptivas para los datos numéricos.
</div>

In [8]:
# Descriptive statistics
geo_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [9]:
# Descriptive statistics
geo_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [10]:
# Descriptive statistics
geo_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


### Observaciones iniciales

<div style="color: #196CC4;">
<b>Observaciones iniciales:</b><br>
▶ Los nombres de las series empiezan con minúsculas, lo que facilitará trabajar con ellas<br>
▶ No hay valores ausentes en ninguno de los datasets<br>
▶ No hay filas duplicadas<br>
▶ Los tipos de datos son adecuados, ya que la primera serie contiene letras y el resto datos flotantes<br>
▶ La columna "id" es irrelevante para el propósito de este proyecto<br>    
▶ Los detalles del Dataframe se muestran limpios y listos para trabajar
</div>

-----

## Análisis Exploratorio de Datos (EDA)

### Limpieza de datos

<div style="color: #196CC4;">
▶ Se sugiere eliminar la columna "id", ya que no es información de valor y es una serie de tipo "object"
</div>

In [11]:
geo_0 = geo_0.drop('id', axis=1)
geo_1 = geo_1.drop('id', axis=1)
geo_2 = geo_2.drop('id', axis=1)

### Despliegue de información

<div style="color: #196CC4;">
▶ A continuación verifico los cambios realizados en las propiedades de los 3 DataFrames y su previsualización.<br>
</div>

In [12]:
# General data overview
display(geo_0.head(3))
display(geo_1.head(3))
display(geo_2.head(3))

Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647


Unnamed: 0,f0,f1,f2,product
0,-15.001348,-8.276,-0.005876,3.179103
1,14.272088,-3.475083,0.999183,26.953261
2,6.263187,-5.948386,5.00116,134.766305


Unnamed: 0,f0,f1,f2,product
0,-1.146987,0.963328,-0.828965,27.758673
1,0.262778,0.269839,-2.530187,56.069697
2,0.194587,0.289035,-5.586433,62.87191


-----

## Entrenamiento

### Procedimiento

<div style="color: #196CC4;">
<b>A continuación se dividen los datos fuente de la siguiente manera para llegar a una proporción de 3:1:</b><br><br>
▶ 75% Dataset para el entrenamiento<br>
▶ 25% Dataset de validación<br>
▶ Cuanto más grande sea el conjunto de entrenamiento, más datos tendrá el modelo para aprender patrones y relaciones en los datos. Por otro lado el dataset de validación servirá para evaluar el rendimiento del modelo.<br>
    
<b>Regresión lineal:</b><br><br>
▶ La regresión lineal es predecir o explicar el valor medio de la variable dependiente en función de las variables independientes.<br>
▶ Para este modelo, "y" es el objetivo, una variable dependiente que queremos encontrar. En este caso, es el precio. "x" es la característica, una variable independiente que define a la dependiente.<br>
    
<b>RMSE:</b><br>  
▶ RMSE significa "Root Mean Square Error" (Error Cuadrático Medio). Es una medida comúnmente utilizada para evaluar la precisión de un modelo de regresión. <br>
▶ Un RMSE de 0 indicaría que el modelo predice perfectamente los valores observados, lo cual es poco común en la práctica.<br>
▶ En términos generales, el valor del RMSE puede variar desde 0 hasta el mismo rango de los valores observados en los datos. Por ejemplo, si los valores observados están en el rango de 0 a 100, el RMSE podría variar desde 0 hasta 100.<br>
</div>

### Función de ejecución

In [13]:
def geo_training(dataset):
    # Data division
    df_train, df_valid = train_test_split(dataset, test_size=0.25, random_state=12345)

    # Extract features and target variables from the training and validation sets
    X_train = df_train.drop(['product'], axis=1)
    y_train = df_train['product']

    X_val = df_valid.drop(['product'], axis=1)
    y_val = df_valid['product']
    
    # Training
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Predict 
    #predict = pd.Series(model.predict(X_val))
    predict = model.predict(X_val)
    
    #Mean on prediction
    mean_volume = np.mean(predict)
    
    # RMSE
    rmse = np.sqrt(mean_squared_error(y_val, predict))
    
    return {'rmse': rmse, 'predictions': predict, 'mean_volume': mean_volume, 'real_values': y_val}
    # Print
    #print("Dataset:", dataset)

In [14]:
# Function call + Variables
results_geo_0 = geo_training(geo_0)
results_geo_1 = geo_training(geo_1)
results_geo_2 = geo_training(geo_2)

### Despliegue de resultados

<div style="color: #196CC4;">
▶ Almacenar todos los valores necesarios para los cálculos en variables separadas:
Ya hemos calculado el volumen medio de reservas predicho (mean_volume) y el RMSE del modelo (rmse) para cada región. Estos valores son importantes para nuestros cálculos posteriores y los hemos almacenado como variables en nuestro código.</div>

In [15]:
# geo_0 - Data
print("PREDICCIONES PARA REGIÓN 0 <geo_0>")
print("- Volumen promedio de reservas:", results_geo_0['mean_volume'])
print("- RMSE:", results_geo_0['rmse'])
print("- Predictions:", results_geo_0['predictions'])
print()

# geo_1 - Data
print("PREDICCIONES PARA REGIÓN 1 <geo_1>")
print("- Volumen promedio de reservas:", results_geo_1['mean_volume'])
print("- RMSE:", results_geo_1['rmse'])
print("- Predictions:", results_geo_1['predictions'])
print()

# geo_2 - Data
print("PREDICCIONES PARA REGIÓN 2 <geo_2>")
print("- Volumen promedio de reservas:", results_geo_2['mean_volume'])
print("- RMSE:", results_geo_2['rmse'])
print("- Predictions:", results_geo_2['predictions'])
print()

PREDICCIONES PARA REGIÓN 0 <geo_0>
- Volumen promedio de reservas: 92.59256778438035
- RMSE: 37.5794217150813
- Predictions: [ 95.89495185  77.57258261  77.89263965 ...  61.50983303 118.18039721
 118.16939229]

PREDICCIONES PARA REGIÓN 1 <geo_1>
- Volumen promedio de reservas: 68.728546895446
- RMSE: 0.8930992867756165
- Predictions: [ 82.66331365  54.43178616  29.74875995 ... 137.87934053  83.76196568
  53.95846638]

PREDICCIONES PARA REGIÓN 2 <geo_2>
- Volumen promedio de reservas: 94.96504596800489
- RMSE: 40.02970873393434
- Predictions: [ 93.59963303  75.10515854  90.06680936 ...  99.40728116  77.77991248
 129.03241718]



### Hallazgos

<div style="color: #196CC4;">
<b>Volumen promedio</b><br>
▶ La región 2 tiene el volumen promedio de reservas más alto, seguida de la región 0 y 1.<br>
▶ Hay una importante diferencia entre el volumen promedio de reservas de la región 1 y las otras dos regiones.<br><br>
<b>RMSE</b><br>
▶ La región 1 tiene el RMSE más bajo, por lo que hay un mejor ajuste a los datos de esa región en comparación con las otras dos regiones.<br>
▶ La región 0 y la región 2 tienen valores de RMSE más altos, por lo que las predicciones no son tan precisas en esas regiones.<br><br>
<b>La región 1, aunque tiene un volumen promedio de reservas más bajo, tiene un RMSE significativamente más bajo, lo que indica un mejor rendimiento del modelo en esa región.</b> <br>

</div>


-----

## Preparación de datos

### Procedimiento

<div style="color: #196CC4;">
▶ Ya hemos calculado el volumen medio de reservas predicho (mean_volume) y el RMSE del modelo (rmse) para cada región.<br>
▶ Dado que el valor mínimo necesario para evitar pérdidas por pozo es de 500,000 dólares en ingresos, lo cual equivale a 111.1 unidades, valor que podremos comparar con el volumen medio de reservas predicho para cada región.<br>
</div>

### Definición de variables

<div style="color: #196CC4;">
▶ A continuación se muestran las variables que se utilizarán para calcular el beneficio más adelante. Estas variables se muestran el la descripción inicial del proyecto.</div>

In [16]:
# Variables
investment_money = 100_000_000
investment_wells = 200
well_min_profit = 500_000  
barrel_profit = 4.5
revenue_per_unit = 4_500

well_min_reserve = (well_min_profit / barrel_profit)/1000
print("Unidades mínimas para evitar pérdidas", well_min_reserve)

Unidades mínimas para evitar pérdidas 111.11111111111111


### Despliegue de resultados

In [17]:
# Volume function
def compare_mean_volume_with_min_reserve(mean_volume):
    if mean_volume > well_min_reserve:
        return "Tiene un VOLUMEN PROMEDIO MAYOR con respecto al mínimo requerido para evitar pérdidas"
    else:
        return "Tiene un VOLUMEN PROMEDIO MENOR con respecto al mínimo requerido para evitar pérdidas"

# Function Calls
print("Para la región geo_0:\n", results_geo_0['mean_volume'], "→", compare_mean_volume_with_min_reserve(results_geo_0['mean_volume']), "\n")
print("Para la región geo_1:\n", results_geo_1['mean_volume'], "→", compare_mean_volume_with_min_reserve(results_geo_1['mean_volume']), "\n")
print("Para la región geo_2:\n", results_geo_2['mean_volume'], "→", compare_mean_volume_with_min_reserve(results_geo_2['mean_volume']))

Para la región geo_0:
 92.59256778438035 → Tiene un VOLUMEN PROMEDIO MENOR con respecto al mínimo requerido para evitar pérdidas 

Para la región geo_1:
 68.728546895446 → Tiene un VOLUMEN PROMEDIO MENOR con respecto al mínimo requerido para evitar pérdidas 

Para la región geo_2:
 94.96504596800489 → Tiene un VOLUMEN PROMEDIO MENOR con respecto al mínimo requerido para evitar pérdidas


### Hallazgos

<div style="color: #196CC4;">
A continuación se muestran los resultados comparativos entre el volumen promedio de cada región contra el mínimo requerido:<br><br>
▶  <b>Es importante mencionar que estos resultados están basados en el conjunto de datos de validación y no en la totalidad de los datos otorgados, por lo que es normal que el volumen promedio será en todo caso para estos resultados, menor al mínimo requerido.</b><br>
▶  Ninguna de las regiones parece ser económicamente viable para la extracción de petróleo, ya que el volumen promedio de reservas predicho es insuficiente para cubrir los costos mínimos necesarios para evitar pérdidas.<br>
▶  El volumen promedio de reservas predicho para la región geo_2 es más alto en comparación con las otras dos regiones, con 94.97 unidades.
</div>

-----

## Cálculo de ganancias

### Procedimiento

<div style="color: #196CC4;">
A continuación se calculan las ganancias potenciales obtenidas del desarrollo de pozos petrolíferos en las tres regiones:<br>
▶ Se define una función (profit) que recibe las predicciones y el precio por barril.<br>
▶ Convierte las predicciones en una serie pandas y las ordena de forma descendente.<br>
▶ Selecciona los 200 mejores pozos de las predicciones.<br>
▶ Obtiene los valores reales de estos pozos para los siguientes pasos.<br>
▶ Calcula los ingresos potenciales multiplicando el volumen total de reservas por el precio por barril.<br>
▶ Calcula las ganancias restando la inversión inicial (investment_money).<br>
</div>

### Función de ejecución

In [18]:
# Profit function
def profit(data_geo, barrel_prices):
    # Real values sorted
    real_wells = data_geo.sort_values(by="predictions", ascending=False)['real_values'].head(200)

    #Profit of real values
    
    # Volume
    total_reserves_volume = real_wells.sum()
    # income
    income = total_reserves_volume * revenue_per_unit
    #profit
    profit = income - investment_money
    # Return
    return profit

### Despliegue de resultados

<div style="color: #196CC4;">
A continuación se calculan las ganancias potenciales obtenidas del desarrollo de pozos petrolíferos en las tres regiones:<br>
▶ Se usa la función profit para las ganancias potenciales para cada región (geo_0, geo_1 y geo_2).<br>
▶ Se almacenan los resultados en un diccionario.<br>
▶ Se determina la región con la mayor ganancia potencial utilizando la función `max()`.

In [19]:
# Reduced Dataframe
df_results_geo_0 = pd.DataFrame({
    'predictions': results_geo_0['predictions'],
    'real_values': results_geo_0['real_values']  })

df_results_geo_1 = pd.DataFrame({
    'predictions': results_geo_1['predictions'],
    'real_values': results_geo_1['real_values']  })

df_results_geo_2 = pd.DataFrame({
    'predictions': results_geo_2['predictions'],
    'real_values': results_geo_2['real_values']  })

# Print
#print(df_results_geo_0)
#print(df_results_geo_1)
#print(df_results_geo_2)

In [20]:
# Profit
profit_geo_0 = profit(df_results_geo_0, revenue_per_unit)
profit_geo_1 = profit(df_results_geo_1, revenue_per_unit)
profit_geo_2 = profit(df_results_geo_2, revenue_per_unit)

# Dictionary
potential_profits = {
    'geo_0': profit_geo_0,
    'geo_1': profit_geo_1,
    'geo_2': profit_geo_2
}

# Highest profit "max"
best_region = max(potential_profits, key=potential_profits.get)

# Print
print("Ganancias en dólares para geo_0:", profit_geo_0)
print("Ganancias en dólares para geo_1:", profit_geo_1)
print("Ganancias en dólares para geo_2:", profit_geo_2)


Ganancias en dólares para geo_0: 33208260.43139851
Ganancias en dólares para geo_1: 24150866.966815114
Ganancias en dólares para geo_2: 27103499.635998324


### Hallazgos

<div style="color: #196CC4;">
▶ Ganancias en dólares para geo_0 → 33,208,260.43<br>
▶ Ganancias en dólares para geo_1 → 24,150,866.97<br>
▶ Ganancias en dólares para geo_2 → 27,103,499.64<br>

<b>En resumen, la región geo_0 es la más recomendada para el desarrollo de pozos petrolíferos debido a su mayor potencial de ganancias. En segundo lugar en rentabilidad está la región geo_2.</b>

</div>

-----

## Riesgos y ganancias por región

### Bootstrapping

<div style="color: #196CC4;">
▶ El bootstrapping es una técnica de remuestreo que se utiliza para estimar la distribución de una estadística de interés a partir de un conjunto de datos existente. <br>
▶ A continuación se aplican tres llamadas a la función `bootstrapping` para cada una de las tres regiones
</div>

In [21]:
# Random State
state = np.random.RandomState(54321)

# Bootstrapping function
def bootstrapping(df, num_samples=1000, alpha=0.05):
    profits = []
    
    # Loop
    for _ in range(num_samples):
        
        # Sample data with replacement
        wells = pd.DataFrame(df).sample(n=500, replace=True, random_state=state)
        
        # Profit
        benefit_sample = profit(wells, revenue_per_unit)
        
        # Append to the list
        profits.append(benefit_sample)
    
    # Lower and upper bounds (confidence interval) with percentiles
    lower_bound = np.percentile(profits, 2.5)  # Percentile 2.5
    upper_bound = np.percentile(profits, 97.5)  # Percentile 97.5
    
    # Convert to Series
    profits = pd.Series(profits)
    
    # Return
    return profits, (lower_bound, upper_bound)

<div style="color: #196CC4;">
▶ A continuación se aplican tres llamadas a la función `bootstrapping` para cada una de las tres regiones. Esta función genera una distribución de beneficios a partir de las muestras de los datos.
</div>

In [22]:
# Profit per region
bootstrapping_geo_0= bootstrapping(df_results_geo_0)
bootstrapping_geo_1 = bootstrapping(df_results_geo_1)
bootstrapping_geo_2 = bootstrapping(df_results_geo_2)

# Print
print("Boostrapping para la región 0:", bootstrapping_geo_0[0].mean())
print("Boostrapping para la región 1:", bootstrapping_geo_1[0].mean())
print("Boostrapping para la región 2:", bootstrapping_geo_2[0].mean())

Boostrapping para la región 0: 3920829.088547083
Boostrapping para la región 1: 4604869.8247138085
Boostrapping para la región 2: 3964626.5656833537


### Estadísticas clave

<div style="color: #196CC4;">
Ahora se crea una nueva función donde se calculan 3 estadísticas clave:<br><br>
▶ <b>Beneficio Promedio:</b> Se calcula el promedio de la distribución de beneficios.<br>
▶ <b>Intervalo de Confianza al 95%:</b> Se calcula el intervalo de confianza al 95% utilizando la distribución t de Student.<br>
▶ <b>Porcentaje de Riesgo de Pérdida:</b> Se calcula el porcentaje de muestras en la distribución de beneficios que son menores que cero, lo que representa el riesgo de pérdida. Este valor se expresa como un porcentaje.

In [23]:
# mean, 95% confidence interval, risk of loss

def statistics(profit_distribution):
    # Mean profit
    mean_profit = np.mean(profit_distribution)

    # risk_of_loss
    risk_of_loss = np.mean([p < 0 for p in profit_distribution]) * 100
    
    # Return
    return mean_profit, risk_of_loss

### Despliegue de resultados

<div style="color: #196CC4;">
▶ Finalmente se aplican las funciones `statistics` a cada una de las distribuciones de beneficios generadas para las tres regiones y se imprimen los resultados
</div>

In [24]:
# Confidence Interval
confidence_interval_geo_0 = bootstrapping_geo_0[1]
confidence_interval_geo_1 = bootstrapping_geo_1[1]
confidence_interval_geo_2 = bootstrapping_geo_2[1]

# Statistics
mean_profit_geo_0, loss_risk_geo_0 = statistics(bootstrapping_geo_0[0])
mean_profit_geo_1, loss_risk_geo_1 = statistics(bootstrapping_geo_1[0])
mean_profit_geo_2, loss_risk_geo_2 = statistics(bootstrapping_geo_2[0])

In [25]:
# Print
print("Región geo_0:")
print("- Beneficio promedio:", mean_profit_geo_0)
print("- 95% Intervalo de confianza:", confidence_interval_geo_0)
print("- % Riesgo de pérdida:", loss_risk_geo_0)
print()
print("Región geo_1:")
print("- Beneficio promedio:", mean_profit_geo_1)
print("- 95% Intervalo de confianza:", confidence_interval_geo_1)
print("- % Riesgo de pérdida:", loss_risk_geo_1)
print()
print("Región geo_2:")
print("- Beneficio promedio:", mean_profit_geo_2)
print("- 95% Intervalo de confianza:", confidence_interval_geo_2)
print("- % Riesgo de pérdida:", loss_risk_geo_2)
print()

Región geo_0:
- Beneficio promedio: 3920829.088547083
- 95% Intervalo de confianza: (-1108640.0281520828, 9033598.336663691)
- % Riesgo de pérdida: 6.4

Región geo_1:
- Beneficio promedio: 4604869.8247138085
- 95% Intervalo de confianza: (866343.877264005, 8722384.953529775)
- % Riesgo de pérdida: 1.3

Región geo_2:
- Beneficio promedio: 3964626.5656833537
- 95% Intervalo de confianza: (-1052362.8029479317, 9178751.558821613)
- % Riesgo de pérdida: 6.3



-----

## Conclusiones

### Estadísticas proporcionadas

<div style="color: #196CC4;">
<b>Región geo_0:</b><br>
▶ Beneficio Promedio: 3,920,829.09<br>
▶ Intervalo de Confianza al 95%: (-1108640.0281520828, 9033598.336663691)<br>
▶ Riesgo de Pérdida: 6.4%<br><br>
<b>Región geo_1:</b><br>
▶ Beneficio Promedio: 4,604,869.82<br>
▶ Intervalo de Confianza al 95%: (866343.877264005, 8722384.953529775)<br>
▶ Riesgo de Pérdida: 1.3%<br><br>
<b>Región geo_2:</b><br>
▶ Beneficio Promedio: 3,964,626.57<br>
▶ Intervalo de Confianza al 95%: (-1052362.8029479317, 9178751.558821613)<br>
▶ Riesgo de Pérdida: 6.3%<br>
</div>

### Mejor región para el desarrollo de pozos

<div style="color: #196CC4;">
▶ Basándonos en las estadísticas resultantes, podemos observar que <b>la región geo_1 es la mejor opción para el desarrollo de pozos petrolíferos</b>. Tiene el mayor beneficio promedio de 4,604,869.82, junto con un intervalo de confianza al 95% que va desde 866,343.88 hasta 8,722,384.95. Esto significa que hay una alta confianza (95%) en que el beneficio promedio real se encuentra dentro de este rango. Además, presenta el riesgo de pérdida más bajo, con solo un 1.3%. Esto sugiere que es poco probable que haya pérdidas significativas en las inversiones en esta región.
</div>