
<span style="font-size: 28px; font-weight: bold; color: #000080;">OilyGiant.</span>

<h1>Contenido</h1>

## Descripción del proyecto
## Descripcion del codigo
## Cargar librerias
## Cargar datos
## Análisis datos exploratorios
## Preparar datos
## Construcción y Evaluación del modelo
## Calculo de ganancias
## Resumen Ejecutivo

<span style="font-size: 20px;font-weight: bold;">Descripción del proyecto</span>

El proyecto consiste en seleccionar las mejores ubicaciones para abrir 200 nuevos pozos petroleros, utilizando datos de tres regiones. Se emplea regresión lineal para predecir el volumen de reservas, se evalúa el beneficio potencial de cada región considerando el presupuesto y los ingresos esperados, y se calcula el riesgo de pérdidas utilizando bootstrapping. Se elige la región con el mayor beneficio promedio y riesgo de pérdidas inferior al 2.5%. Se deben seguir instrucciones específicas, preparar datos, entrenar modelos, calcular ganancias y riesgos, y justificar la elección de la región óptima

<span style="font-size: 20px; font-weight: bold;"> Descripción del código</span>

Preparación de datos:
Se cargaron y exploraron tres conjuntos de datos (geo_data_0.csv, geo_data_1.csv, geo_data_2.csv) que contienen información sobre características geológicas y volumen de reservas en pozos petroleros.
Se verificó la consistencia de los conjuntos de datos y se observaron las distribuciones de las variables.
Se confirmó que no hay valores negativos en la columna de volumen de reservas ('product').
Se dividió cada conjunto de datos en conjuntos de entrenamiento y validación, escalando las características utilizando StandardScaler.

Entrenamiento de modelos:
Se entrenaron modelos de regresión lineal para cada región utilizando los conjuntos de entrenamiento y se realizaron predicciones en los conjuntos de validación.
Se evaluaron los modelos utilizando métricas como el error cuadrático medio (MSE), la raíz del error cuadrático medio (RMSE) y el coeficiente de determinación (R2).
Se observó que los modelos tienen un rendimiento aceptable en la predicción del volumen de reservas. 

Cálculo de ganancias potenciales:
Se estableció un presupuesto y se calculó la cantidad mínima de reservas necesarias para evitar pérdidas.
Se compararon las predicciones de volumen de reservas promedio con la cantidad necesaria para cada región.
Se identificaron los 200 mejores pozos para cada región y se calculó la ganancia potencial.
Se sugirió una región para el desarrollo de pozos petroleros basada en las ganancias potenciales calculadas.

Evaluación de riesgos y ganancias:
Se utilizó la técnica de bootstrapping para estimar la distribución de ganancias potenciales.
Se calcularon el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas para cada región.
Se propuso una región para el desarrollo de pozos petroleros considerando los riesgos y ganancias estimados.
Se comparó la elección basada en riesgos y ganancias con la elección basada en las ganancias potenciales solamente.

<span style="font-size: 20px; font-weight: bold;">Cargar Librerias</span>

In [None]:
#Carga de librerias
import scipy
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

<span style="font-size: 20px; font-weight: bold;">Cargar datos</span>

In [None]:
# Carga de datos
try:
    region_cero = pd.read_csv('geo_data_0.csv')
except:
    region_cero = pd.read_csv('/datasets/geo_data_0.csv')

try:
    region_uno = pd.read_csv('geo_data_1.csv')
except:
    region_uno = pd.read_csv('/datasets/geo_data_1.csv')

try:
    region_dos = pd.read_csv('geo_data_2.csv')
except:
    region_dos = pd.read_csv('/datasets/geo_data_2.csv')


In [None]:
display(region_cero)

In [None]:

display(region_uno)

In [None]:
display(region_dos)

<span style="font-size: 16px; font-weight: bold;">Análisis Exploratorio de Datos</span>

In [None]:
#Información General datasets.
print('From the tables above, I can understand that the three dataset are equals.')
print('Their shape looks like:')
print()
print(region_cero.shape)
print()
print('The 3 datasets have {0}'.format(region_cero.shape[0]), 'rows.')
print()
print('The 3 datasets have {0}'.format(region_cero.shape[1]), 'columns.')
print()
print('The 3 datasets has {0}'.format(region_cero.duplicated().sum()), 'duplicates.')

In [None]:
#describir método para conjunto de datos.
print('region_cero describe method:')
print(region_cero.describe())
print()
print('region_uno describe method:')
print(region_uno.describe())
print()
print('region_dos describe method:')
print(region_dos.describe())

In [None]:
#Investigando columnas en geo_1
for column in region_uno:
    columnSeriesObj = region_uno[column]
    print('Column Name : ', column)
    print()
    print('Column Contents :')
    print(columnSeriesObj.value_counts(dropna=False))
    print()
    print('The number of unique value is:', columnSeriesObj.nunique())
    print()
    print('--------------------------------------------')
    print()

In [None]:
#Investigando columnas en geo_2
for column in region_dos:
    columnSeriesObj = region_dos[column]
    print('Column Name : ', column)
    print()
    print('Column Contents :')
    print(columnSeriesObj.value_counts(dropna=False))
    print()
    print('The number of unique value is:', columnSeriesObj.nunique())
    print()
    print('--------------------------------------------')
    print()

**Luego del análisis se puede notar que con respecto al estado inicial, los conjuntos de datos geo_0, geo_1, y geo_2 comparten una estructura común de 100,000 filas y 5 columnas, pero muestran diferencias significativas en las estadísticas descriptivas y distribuciones de valores. Aunque no se encontraron duplicados, la presencia de identificadores duplicados en geo_1 y geo_2 podría requerir una mayor investigación. La variación en la distribución de los valores del objetivo sugiere diferentes fuentes de datos o metodologías de recopilación. Estas diferencias deben considerarse cuidadosamente para evitar sesgos en el análisis y modelado subsiguientes. Es crucial abordar estas discrepancias para garantizar la integridad y precisión de cualquier conclusión derivada de estos conjuntos de datos.





<span style="font-size: 16px; font-weight: bold;">Preparación de datos</span>

In [None]:
#  Comprobar si la columna 'producto' contiene valores negativos, se espera un df vacío
print(region_cero.query('product < 0'))
print(region_uno.query('product < 0'))
print(region_dos.query('product < 0'))

In [None]:
print("Don't need to prepare data. I can move further on model training.")
print("Doesn't even make any sense to analyze target balance. Considered that we need to perfom a linear regression.")

In [None]:
# Define colors para cada region
colors = ['green', 'yellow', 'orange']  

fig, axs = plt.subplots(1, 3, figsize=(15, 5))  # 1 row, 3 columns

for i, region in enumerate([region_cero, region_uno, region_dos]):
  # Calculate column index for each region (avoiding modulo)
  col = i

  # Create histogram with specific color and transparency
  axs[col].hist(region['product'], color=colors[i], alpha=0.5)

  # Set title for each subplot
  axs[col].set_title(f'Region {i+1} Histogram')

In [None]:
# **Relaciones entre variables con gráficos de dispersión**
# Matriz de dispersión para geo_0
sns.pairplot(region_cero, palette="Green")
plt.show()


**Comentarios sobre la matriz de dispersión para geo_0:

1. Identificación de relaciones entre variables:
La matriz de dispersión muestra las relaciones entre todas las variables numéricas en el conjunto de datos geo_0. Cada punto en la matriz representa la relación entre dos variables específicas. Si los puntos forman una nube densa alrededor de la diagonal, indica una correlación débil o nula entre las variables. Si los puntos se distribuyen en forma de línea diagonal ascendente o descendente, indica una correlación positiva o negativa, respectivamente.

2. Análisis de la fuerza de la correlación:
La fuerza de la correlación se puede evaluar visualmente observando la densidad de los puntos alrededor de la diagonal. Cuanto más densa sea la nube, más fuerte es la correlación. Además, se puede utilizar una escala de color para representar la fuerza de la correlación, donde los colores más intensos indican una correlación más fuerte.

3. Identificación de variables relevantes:
Al analizar la matriz de dispersión, se pueden identificar las variables que tienen una correlación más fuerte con la variable objetivo (en este caso, "product"). Estas variables pueden ser más relevantes para el modelo de aprendizaje automático que se está desarrollando.

Ejemplo:

En la imagen proporcionada, se observan algunas correlaciones interesantes entre las variables:

La variable a parece tener una correlación positiva moderada con la variable 0.
La variable 0500 parece tener una correlación negativa débil con la variable 50.
La variable 100 parece tener una correlación positiva débil con la variable 150.
Es importante recordar que la matriz de dispersión solo proporciona una vista visual de las relaciones entre variables. Para una evaluación más precisa de la correlación, se pueden utilizar medidas estadísticas como el coeficiente de correlación de Pearson.

In [None]:
# Relaciones entre la variable objetivo ('product') y otras variables numéricas en geo_0
for col in region_cero.select_dtypes(include=[np.number]):
    if col != 'product':
        sns.scatterplot(
            x=region_cero[col],
            y=region_cero['product'],
            alpha=0.7
        )
        plt.title(f'Relación entre {col} y Producto en region_cero')
        plt.xlabel(col)
        plt.ylabel('Producto')
        plt.grid(True)
        plt.show()

In [None]:
fig = px.histogram(region_cero, x="product")
fig.show()

In [None]:
# **Relaciones entre variables con gráficos de dispersión**
# Matriz de dispersión para geo_0
sns.pairplot(region_uno)
plt.show()

In [None]:
# Relaciones entre la variable objetivo ('product') y otras variables numéricas en geo_1
for col in region_uno.select_dtypes(include=[np.number]):
    if col != 'product':
        sns.scatterplot(
            x=region_uno[col],
            y=region_uno['product'],
            alpha=0.7
        )
        plt.title(f'Relación entre {col} y Producto en region_uno')
        plt.xlabel(col)
        plt.ylabel('Producto')
        plt.grid(True)
        plt.show()

In [None]:
fig = px.histogram(region_uno, x="product")
fig.show()

In [None]:
# Distribución de frecuencias del producto por categorías en geo_1
region_uno['product'].value_counts().plot(kind='bar')
plt.title('Distribución de Producto por Categoría en region_uno')
plt.xlabel('Categoría de Producto')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()

In [None]:
# Matriz de dispersión para geo_2
sns.pairplot(region_dos)
plt.show()


In [None]:
# Relaciones entre la variable objetivo ('product') y otras variables numéricas en geo_2
for col in region_dos.select_dtypes(include=[np.number]):
    if col != 'product':
        sns.scatterplot(
            x=region_dos[col],
            y=region_dos['product'],
            alpha=0.7
        )
        plt.title(f'Relación entre {col} y Producto en region_dos')
        plt.xlabel(col)
        plt.ylabel('Producto')
        plt.grid(True)
        plt.show()

In [None]:
fig = px.histogram(region_dos, x="product")
fig.show()

**Resumen - Punto 1**

Empezamos importando los tres conjuntos de datos sobre regiones. Los 3 marcos de datos presentan 100 mil filas cada uno, divididas en 5 columnas. Estos tres conjuntos de datos tienen una estructura poco comprensible y no necesitamos entender qué significan las columnas. Lo importante al trabajar con esos datos es entender que tenemos 3 columnas como características, una para el id de los pozos y otra que es nuestro objetivo representa el volumen de producto para cada pozo. Teniendo en cuenta que cada unidad puede generar 4500$, podemos continuar nuestro estudio.

Los datos ya están preparados no necesitamos preprocesarlos ya que no presentan duplicados ni NaN en las filas.

Tratándose de una variable continua como objetivo está claro que necesitamos un modelo de tipo regresión para tratarlas.

**Entrenar y probar el modelo para cada región.

**Los conjuntos de datos geo_0, geo_1 y geo_2 muestran variaciones en las distribuciones de datos, evidenciadas por diferencias en estadísticas descriptivas y la distribución de valores objetivo (product). Aunque no se encontraron valores negativos en la columna product, indicando consistencia en los datos, las características y los objetivos pueden diferir entre regiones. Por lo tanto, para el modelado y análisis subsiguientes, es crucial considerar estas variaciones y adaptar las estrategias según las particularidades de cada región.





**Separar los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25.**

In [None]:
#geo_0
features_0 = region_cero.drop(['product','id'], axis=1)
target_0 = region_cero['product']

In [None]:
#geo_0
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(features_0, target_0, test_size=0.25, random_state=0)

In [None]:
#Crear una variable objetivo para geo_1
y_true = region_uno['product'].values

#Impresion de variable misma y len de variable
print('y_true:',y_true)
print()
print('y_true lenght:',len(y_true)) #Debería devolver la longitud del marco de datos inicial.

#Realizo este paso sólo en este marco de datos, porque no puedo estratificar marcos de datos donde valores únicos == len(data).

In [None]:
#geo_1
train_1, valid_1 = train_test_split(region_uno, stratify=y_true, test_size=0.25, random_state=1)

In [None]:
#geo_1
features_train_1 = train_1.drop(['product','id'], axis=1)
target_train_1 = train_1['product']
features_valid_1 = valid_1.drop(['product','id'], axis=1)
target_valid_1 = valid_1['product']

In [None]:
#geo_2
features_2 = region_dos.drop(['product','id'], axis=1)
target_2 =region_dos['product']

In [None]:
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(features_2, target_2, test_size=0.25, random_state=2)

In [None]:
#Asignar escalador -scaler
scaler = StandardScaler()

In [None]:
#Escala geo_0 df.
features_train_0 = scaler.fit_transform(features_train_0)
features_valid_0 = scaler.transform(features_valid_0) 

In [None]:
# Escalar geo_1 df.
features_train_1 = scaler.fit_transform(features_train_1)
features_valid_1 = scaler.transform(features_valid_1)

In [None]:
#Escala geo_2 df.
features_train_2 = scaler.fit_transform(features_train_2)
features_valid_2 = scaler.transform(features_valid_2) 

**Los datos de la región 1 no se escalan porque la estratificación basada en el objetivo (y_true) ya está realizada antes de dividir los datos en conjuntos de entrenamiento y validación. La estratificación garantiza que la distribución de los valores objetivo sea la misma en ambos conjuntos. Dado que la estratificación ya equilibra la distribución del objetivo entre los conjuntos de entrenamiento y validación, el escalado adicional puede no ser necesario.

Entrenar el modelo y hacer predicciones para el conjunto de validación.

<span style="font-size: 16px; font-weight: bold;">Construcción del modelo y Evaluación del modelo</span>

In [None]:
# Modelo de regresión lineal para geo_0
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predictions_valid_0 = model_0.predict(features_valid_0) 

mse = mean_squared_error(target_valid_0, predictions_valid_0)
rmse = mean_squared_error(target_valid_0, predictions_valid_0)**0.5
r2 = r2_score(target_valid_0, predictions_valid_0)
print('Coefficient:', model_0.coef_)
print('Intercept:', model_0.intercept_)
print('Linear regression mse (Mean Squared Error):', mse)
print('Linear regression rmse (Root-Mean-Square Deviation):', rmse) 
print('Linear regression r2 score (Coefficient of Determination):', r2)
print()
print('Average volume of predictions for geo_0 model is:', predictions_valid_0.mean())

In [None]:
sns.set_style('darkgrid')
plt.figure(figsize=(15, 8))
sns.scatterplot(x=target_valid_0, y=predictions_valid_0, alpha=0.5)
plt.show()

In [None]:
#geo_1 Modelo de regresión lineal.
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1) # < entrenar el modelo >
predictions_valid_1 = model_1.predict(features_valid_1) 

mse = mean_squared_error(target_valid_1, predictions_valid_1)
rmse = mean_squared_error(target_valid_1, predictions_valid_1)**0.5
r2 = r2_score(target_valid_1, predictions_valid_1)
print('Coefficient:', model_1.coef_)
print('Intercept:', model_1.intercept_)
print('Linear regression mse (Mean Squared Error):', mse)
print('Linear regression rmse (Root-Mean-Square Deviation):', rmse) 
print('Linear regression r2 score (Coefficient of Determination):', r2)
print()
print('Average volume of predictions for geo_1 model is:', predictions_valid_1.mean())

In [None]:
sns.set_style('darkgrid')
plt.figure(figsize=(15, 8))
sns.scatterplot(x=target_valid_1, y=predictions_valid_1, alpha=0.5)
plt.show()

In [None]:
print('Unique values in geo_1 target:',region_uno['product'].nunique())
print()
print('region_uno target normalized count of values:')
print(region_uno['product'].value_counts(normalize=True)) 

In [None]:
#geo_2 Modelo de regresión lineal.
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2) # 
predictions_valid_2 = model_2.predict(features_valid_2) 

mse = mean_squared_error(target_valid_2, predictions_valid_2)
rmse = mean_squared_error(target_valid_2, predictions_valid_2)**0.5
r2 = r2_score(target_valid_2, predictions_valid_2)
print('Coefficient:', model_2.coef_)
print('Intercept:', model_2.intercept_)
print('Linear regression mse (Mean Squared Error):', mse)
print('Linear regression rmse (Root-Mean-Square Deviation):', rmse) 
print('Linear regression r2 score (Coefficient of Determination):', r2)
print()
print('Average volume of predictions for geo_2 model is:', predictions_valid_2.mean())

In [None]:
sns.set_style('darkgrid')
plt.figure(figsize=(15, 8))
sns.scatterplot(x=target_valid_2, y=predictions_valid_2, alpha=0.5)
plt.show()

Guardar las predicciones y las respuestas correctas para el conjunto de validación.

In [None]:
print('Saving cross validation target values in variables to be able, to compare that to the model results obtained.')
print()
checking_values_0 = target_valid_0 #Esto se convertirá en el array para comprobar la precisión de nuestro modelo.
checking_values_1 = target_valid_1 
checking_values_2 = target_valid_2 

print('checking_values_0 is an array with', len(checking_values_0),'values.')
print('checking_values_1 is an array with', len(checking_values_1),'values.')
print('checking_values_2 is an array with', len(checking_values_2),'values.')

**Resumen - Punto 2**

Al principio de este paso he dividido los tres dataframes con un ratio de 75:25, definiendo cuales son las características y el objetivo. Obviamente, excluí el índice de ambas categorías, ya que esta columna sólo es útil para identificar el pozo. Solo para el "Area Geografica 1" decidi estratificar la division en la variable objetivo. He hecho este paso solo con este marco de datos ya que no tiene sentido hacer lo mismo en las otras dos areas geograficas considerando que estan distribuidas demasiado uniformemente.
Escalado de los tres dataframes con la librería StandardScaler.
Como dije antes el modelo elegido para el proyecto es uno de regresión lineal.
Comencé a construir los modelos y a calcular las distintas métricas para cada uno de ellos:
Obtuve para el "Área Geográfica 0" un rmse de 37.48, un r2_score de 0.28 y un volumen medio de mis predicciones de 92.51. Trazando esta área geográfica podemos ver fácilmente la correlación lineal y la distribución de los puntos en el diagrama de dispersión.
Para el "Área geográfica 1" se ha obtenido un rmse de 0,88, un r2_score de 0,99 y un volumen medio de mis predicciones de 68,82. Trazando esta área geográfica vemos una correlación positiva más fuerte y los puntos están distribuidos casi por igual en los mismos lugares, podemos identificar 12 grupos de puntos en el diagrama de dispersión, esto respecto a los valores únicos encontrados en el objetivo (12).
He obtenido para el "Área geográfica 2" un rmse de 39,98, un r2_score de 0,19 y el volumen medio de mis predicciones es de 95,13. 

<span style="font-size: 16px; font-weight: bold;">Calculo de ganancias</span>

Almacene todos los valores clave para los cálculos en variables separadas.

In [None]:
#Almacenando variables útiles.
BUDGET=100000000 #En USD.
BARREL_REVENUE = 4.5 #Dolares.
RESERVES = 1000
UNIT_PRODUCT_REVENUE = 4500 #Dolares
MILLION = 1000000
COUNT = 200

**Calcular el volumen de reservas suficiente para desarrollar un nuevo pozo sin pérdidas. Compara el valor obtenido con el volumen medio de reservas de cada región.**

In [None]:
#Barriles necesarios para alcanzar nuestro presupuesto.
BARREL_NEEDED = BUDGET / BARREL_REVENUE 
print('To reach 100 Million dollars necessaries for 200 oil wells are needed: {:.2f}'.format(BARREL_NEEDED/MILLION), 'Million barrels.')

In [None]:
#Unidades de producto necesarias para alcanzar nuestro presupuesto en la región.
UNITS_REGION = BUDGET / UNIT_PRODUCT_REVENUE
print('To reach our Budget we need {:.2f}'.format(UNITS_REGION),'product units in the entire region.')

In [None]:
#Unidades de producto necesarias para alcanzar nuestro presupuesto en un solo pozo.
UNITS_WELL = UNITS_REGION / 200
print('To reach our Budget we need {:.2f}'.format(UNITS_WELL),'product units in a single well.')

In [None]:
#Comparar el resultado con las medias.

result_0 = predictions_valid_0.mean() - UNITS_WELL
result_1 = predictions_valid_1.mean() - UNITS_WELL
result_2 = predictions_valid_2.mean() - UNITS_WELL

In [None]:
print('The comparation between average volume in wells and units needed per wells in geo_0 is: {:.2f}'.format(result_0))
print('The comparation between average volume in wells and units needed per wells in geo_1 is: {:.2f}'.format(result_1))
print('The comparation between average volume in wells and units needed per wells in geo_2 is: {:.2f}'.format(result_2))

**Resumen - Punto 3**

Almacenados todos los valores necesarios para concluir el análisis y calcular los ingresos.
Las constantes derivadas son
el presupuesto = 100 millones de dólares
el precio de un barril de petróleo = 4,5 dólares
las reservas = 1000 (cada unidad contiene 1000 barriles)
los ingresos por cada unidad de producto 4500
constante con un valor de 1 Millón sólo para evitar repetir números y dejar que el código sea más legible
He calculado el número de barriles necesarios para alcanzar los 100 millones (nuestro presupuesto), resultando 22,22 millones de barriles de petróleo. Esto hace un total de 22222.22 unidades de producto necesarias y 111.11 para cada pozo.
Se comparan las unidades de producto necesarias para cada pozo con el volumen medio: geo_0 = -18.84 geo_1 = -42.29 geo_2 = -16.25

**Escribir una función para calcular el beneficio de un conjunto de pozos petrolíferos seleccionados y las predicciones del modelo.

In [None]:
#Definir una función para obtener los 200 mejores pozos de cada región.
def profit(geo, predictions):
    predictions_sorted = pd.Series(predictions, geo.index).sort_values(ascending=False)
    top_target = geo.loc[predictions_sorted.index][:COUNT]
    profit = (((top_target.sum() * UNIT_PRODUCT_REVENUE) - BUDGET) / MILLION)
    return profit

#Obtener las predicciones de los 200 mejores pozos para cada región, guardando los valores obtenidos en diferentes variables.
profit_geo_0 = profit(target_valid_0, predictions_valid_0)
profit_geo_1 = profit(target_valid_1, predictions_valid_1)
profit_geo_2 = profit(target_valid_2, predictions_valid_2)
profit_df = (pd.DataFrame([profit_geo_0, profit_geo_1, profit_geo_2], columns=['Profit']))
profit_df = profit_df.reset_index()
profit_df.columns=['Geographic Area (geo)', 'Profit (USD Millions)']
profit_df = profit_df.set_index('Geographic Area (geo)')
display(profit_df)

**Resumen - Punto 4**

Definida una función para calcular el beneficio, esta función toma antes los 200 mejores pozos y devuelve el beneficio en Millones. Esta función necesita ser pasada a la técnica de bootstrapping para obtener por cada 500 muestras los mejores 200 pozos. Y devolver el cuantil superior e inferior.
He trazado un gráfico mostrando el beneficio resultante de los 200 mejores pozos para las 3 áreas geográficas.

<span style="font-size: px; font-weight: bold;">Bootstrapping y cálculo estadístico</span>

In [None]:
#Definir función para ejecutar bootstrapping para encontrar intervalos de confianza.
def bootstrap(target, predictions):
    state = np.random.RandomState(12345)
    # Almacenar los valores de los cuantiles del 95% en la variable valores. 
    #Como nos interesa el cuantil del 95%, buscamos valores entre el 2,5% y el 97,5%.
    profit_list = []
    target_valid = target.reset_index(drop=True)
    for i in range(1000):
        target_subsample = target_valid.sample(n=500, replace=True, random_state=state)
        predictions_subsample = predictions[target_subsample.index]
        profit_list.append(profit(target_subsample, predictions_subsample)) 
    profit_list = pd.Series(profit_list)
    lower = profit_list.quantile(0.025)
    upper = profit_list.quantile(0.975)
    risk = len(profit_list[profit_list < 0]) / len(profit_list) * 100
    print('The distribution of product volume is included in a range among {:.2f}'.format(lower),'and {:.2f}'.format(upper), 'units.')
    print('The risk percentage is:', risk,'%')

In [None]:
#Calcular la gama de volúmenes de productos geo_0 y los posibles riesgos.
print('Confidence interval for geo_0.')
bootstrap(target_valid_0, predictions_valid_0)

In [None]:
#Calcular el rango de volumen de producto geo_0 y los posibles riesgos
print('Confidence interval for geo_1.')
bootstrap(target_valid_1, predictions_valid_1)

In [None]:
#Cálculo de la gama de volúmenes del producto geo_0 y posibles riesgos.
print('Confidence interval for geo_2.')
bootstrap(target_valid_2, predictions_valid_2)

**Mantener sólo las regiones con un riesgo de pérdidas inferior al 2,5%.**

**La zona más conveniente para invertir es geo_1 porque tiene un riesgo negativo.**
Esto significa que en esta zona estamos casi seguros de no tener pérdidas. El intervalo de confianza de la región nos lleva a pensar que es la zona mucho más conveniente.

**Resumen - Punto 5**

Se crean dos listas para almacenar los valores inferiores y superiores de nuestros intervalos de confianza, esto para permitirnos ser capaces de definir el riesgo de la región. Definí una función para realizar bootstrappings en las distintas regiones. Esta función bootstrap calcular el intervalo de confianza para el 95% de los valores cuantílicos. Manteniendo fuera el 2,5% de la parte inferior y el 2,5% de la parte superior de nuestra distribución. La muestra utilizada en nuestra técnica bootstrap está compuesta por 500 pozos y se repite el proceso durante 1000 veces.
Para calcular los riesgos, voy a tomar la proporción de valores de beneficios negativos sobre el total de valores de beneficios y obteniendo sus porcentajes.
Intervalos de confianza :
geo_0 entre -0,61 y 9,81.
geo_1 entre +0,71 y 9,51.
geo_2 entre -2,27 y 8,53.
Riesgos:
geo_0 igual a + 4,70%
geo_1 igual a + 1,40%.
geo_2 igual a +12, Después de estos cálculos resultó que geo_1 es la zona más conveniente para construir un nuevo pozo de petróleo ya que no tenemos en absoluto riesgos de pérdidas y nuestro intervalo de confianza está entre números positivos.

<span style="font-size: 16px; font-weight: bold;">Resumen Ejecutivo</span>

**Objetivo:**

Analizar datos geológicos para predecir el volumen de producción en pozos petroleros y estimar las ganancias potenciales en diferentes áreas geográficas.

**Metodología:**

Se importaron y analizaron tres conjuntos de datos geológicos.
Se dividieron los datos en entrenamiento y validación.
Se entrenaron modelos de regresión lineal para cada área geográfica.
Se calcularon las métricas de evaluación del modelo (MSE, RMSE, R-squared).
Se visualizó la relación entre las variables reales y predichas.
Se definió una función para calcular el beneficio.
Se calculó el beneficio para los 200 pozos principales en cada región.
Se realizó un análisis de bootstrapping para estimar el intervalo de confianza de la producción predicha.
Se calculó el riesgo de obtener una producción menor a la estimada.

**Resultados:**

El "Área Geográfica 1" presenta la mejor correlación entre las variables y el menor riesgo de obtener una producción menor a la estimada.
El intervalo de confianza para el "Área Geográfica 1" se encuentra entre valores positivos, lo que indica un alto potencial de ganancias.
Se recomienda invertir en el "Área Geográfica 1" para la construcción de un nuevo pozo petrolero.

**Conclusiones:**

El análisis de datos geológicos permite identificar áreas con alto potencial de producción de petróleo.
El uso de modelos de regresión lineal y técnicas de bootstrapping ayuda a estimar las ganancias potenciales y el riesgo asociado a la inversión.
El "Área Geográfica 1" es la zona más favorable para la inversión en la construcción de un nuevo pozo petrolero.
