# Indice

1. [Introducción](#titulo_principal)
2. [Importación de librerías](#titulo_principal_1)
3. [Preprocesado de datos](#titulo_principal_2)
4. [Creación de los modelos](#titulo_principal_3)
5. [Calculo de ganacias](#titulo_principal_4)
6. [Función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados](#titulo_principal_5)
7. [Calculo de riesgo y ganacia para cada región](#titulo_principal_6)
8. [Conclusión](#titulo_principal_7)

## Introducción<a id="titulo_principal"></a>

Este proyecto se lleva a cabo en colaboración con la empresa petrolera OilyGiant, que busca abrir 200 nuevos pozos de petróleo. Utilizando los datos de tres regiones específicas, el objetivo es desarrollar un modelo predictivo que identifique los 200 pozos más rentables en cada región, ayudando así a determinar la viabilidad de cada área.

El proceso se divide en varias etapas clave. En primer lugar, se realiza un exhaustivo procesamiento de datos para prepararlos adecuadamente para el modelado de regresión lineal. Luego, se entrena un modelo utilizando estos datos preparados, y se evalúa su desempeño calculando los beneficios potenciales y el Root Mean Square Error (RMSE) del modelo.

Posteriormente, se emplea la técnica de Bootstrap para analizar si el modelo mejora su precisión. Este proceso implica generar múltiples muestras de los datos y calcular la distribución de los beneficios, lo que nos permite obtener una evaluación más robusta de la viabilidad de cada región.

Finalmente, se selecciona la región más adecuada para el desarrollo de los nuevos pozos, comparando los resultados obtenidos antes y después de aplicar Bootstrap. Esta comparación nos proporciona una visión clara de cómo el proceso de bootstrapping puede influir en la elección de la región más rentable y viable para la empresa OilyGiant.

## Importación de librerias<a id="titulo_principal_1"></a>

In [1]:
import numpy as np
import pandas as pd
from sklearn.utils import resample
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [2]:
# Carga del datasets

df_0 = pd.read_csv('geo_data_0.csv')
df_1 = pd.read_csv('geo_data_1.csv')
df_2 = pd.read_csv('geo_data_2.csv')

## Preprocesado de datos <a id="titulo_principal_2"></a>

### Analisis de 'df_0'

In [3]:
df_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
df_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [5]:
df_0.duplicated().sum()

0

### Analisis de 'df_1'

In [6]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
df_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [8]:
df_1.duplicated().sum()

0

### Analisis de 'df_2'

In [9]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [10]:
df_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


In [11]:
df_2.duplicated().sum()

0

In [12]:
df_0['id'].value_counts()

id
fiKDv    2
QcMuo    2
AGS9W    2
Tdehs    2
74z30    2
        ..
x8osI    1
gZ7tR    1
Zw8hj    1
zcrQO    1
1CWhH    1
Name: count, Length: 99990, dtype: int64

Veo que los 3 datasets contienen toda su información completa (no hay datos nulos) y las columnas de tipos de datos del trio de dataset estan bien. Además, las caracteristica f0, f1 y f2, son significativas pues no se deben de escalar entoces los datos estan listo para crear el modelo, la columna de ids, sera removida pues no aporta información valiosa para la finalidad del modelo.

In [13]:
# División del dataset en features y targets

features_0 = df_0.drop(['id','product'], axis=1)
features_1 = df_1.drop(['id','product'], axis=1)
features_2 = df_2.drop(['id','product'], axis=1)

targets_0 = df_0['product']
targets_1 = df_1['product']
targets_2 = df_2['product']


In [14]:
# División del dataset en entrenamiento y validación

features_train_0, features_valid_0, targets_train_0, targets_valid_0 = train_test_split(features_0, targets_0, test_size=0.25, random_state=12345)
features_train_0, features_valid_1, targets_train_1, targets_valid_1 = train_test_split(features_1, targets_1, test_size=0.25, random_state=12345)
features_train_0, features_valid_2, targets_train_2, targets_valid_2 = train_test_split(features_2, targets_2, test_size=0.25, random_state=12345)


##  Creación de los modelos <a id="titulo_principal_3"></a>

Para su creación utilizare un regresión lineal

In [15]:
def Model_Petro(features, targets, features_valid, targets_valid):
    # Inicializa y entrena el modelo de regresión lineal
    model = LinearRegression()
    model.fit(features, targets)

    # Realiza predicciones sobre el conjunto de validación
    predictions = model.predict(features_valid)

    # Calcula la media de las predicciones
    mean_pred = np.mean(predictions)
    
    # Calcula el RMSE
    rmse = np.sqrt(mean_squared_error(targets_valid, predictions))
    
    # Imprime los resultados
    print('La media de las predicciones es:', mean_pred)
    print('El RMSE del modelo es:', rmse)
    
    return mean_pred, rmse, predictions




### 'df_0'

In [16]:
mean_pred_0, rmse_0, predictions_0 = Model_Petro(features_0, targets_0, features_valid_0, targets_valid_0)

La media de las predicciones es: 92.46564781325566
El RMSE del modelo es: 37.57547919032473


In [17]:
targets_valid_0.describe()

count    25000.000000
mean        92.078597
std         44.286913
min          0.004022
25%         56.059494
50%         90.897664
75%        128.160698
max        185.315412
Name: product, dtype: float64

Puedo observar que el modelo hizo un buen trabajo a la hora de predecir la media de los promedios de los volumenes de reservas reales del conjunto de validación, sin embargo el RMSE es alto debido a que representa alrededor del 80% de la desviación estandar de los targets de validación

### 'df_1'

In [18]:
mean_pred_1, rmse_1, predictions_1 = Model_Petro(features_1, targets_1, features_valid_1, targets_valid_1)

La media de las predicciones es: 68.72718652381816
El RMSE del modelo es: 0.8930685055287836


In [19]:
targets_valid_1.describe()

count    25000.000000
mean        68.723136
std         46.022165
min          0.000000
25%         26.953261
50%         57.085625
75%        107.813044
max        137.945408
Name: product, dtype: float64

En el caso de la zona geografica numero 1 veo que el RMSE es muy bajo y la media de las predicciones muy acorde a la media de los targets reales 

### 'df_2'

In [20]:
mean_pred_2, rmse_2, predictions_2 = Model_Petro(features_2, targets_2, features_valid_2, targets_valid_2)

La media de las predicciones es: 94.94513027263157
El RMSE del modelo es: 40.026749644748875


In [21]:
targets_valid_2.describe()

count    25000.000000
mean        94.884233
std         44.902982
min          0.000000
25%         59.217876
50%         94.979468
75%        130.568416
max        190.010982
Name: product, dtype: float64

En este ulimo caso de los datos de la zona geografica 2 veo que el RMSE es extremadamente alto pues es mas de un 90% del valor de la desviación estandar, sin embargo al igual que en las otras 2 zonas, la media de las predicciónes salió muy acorde a la real de los targets verdaderos

## Calculo de ganancias <a id="titulo_principal_4"></a>

A continuacón realizare una función que primeramente tome rsme, media y las demás varibales de inversión que pide la empresa y calcularemos si la zona cumple con el umbral dado 

In [22]:
def Invest_worth(rmse, mean_pred, invest=100000000, wells=200):
    
     price_per_unit = invest / wells / 500000
     threshold_units = 111.1
     
     if mean_pred >= threshold_units:
         print('La cantidad media de reservas es suficiente para evitar pérdidas.')
     else:
         print('La cantidad media de reservas no es suficiente para evitar pérdidas.')
         
def presentar_conclusiones(mean_pred, threshold_units):
    print(f"El volumen medio de reservas predicho es de {mean_pred:.2f} unidades.")
    print(f"Para evitar pérdidas, cada pozo debe producir al menos {threshold_units:.2f} unidades en promedio.")
    if mean_pred >= threshold_units:
        print("Con base en las predicciones, es probable que la inversión sea rentable.")
    else:
        print("Con base en las predicciones, es probable que la inversión no sea rentable.")

     
    

    

### 'df_0'

In [23]:
Invest_worth(rmse_0, mean_pred_0)

presentar_conclusiones(mean_pred_0, 111.1)

La cantidad media de reservas no es suficiente para evitar pérdidas.
El volumen medio de reservas predicho es de 92.47 unidades.
Para evitar pérdidas, cada pozo debe producir al menos 111.10 unidades en promedio.
Con base en las predicciones, es probable que la inversión no sea rentable.


### 'df_1'

In [24]:
Invest_worth(rmse_1, mean_pred_1)

presentar_conclusiones(mean_pred_1, 111.1)

La cantidad media de reservas no es suficiente para evitar pérdidas.
El volumen medio de reservas predicho es de 68.73 unidades.
Para evitar pérdidas, cada pozo debe producir al menos 111.10 unidades en promedio.
Con base en las predicciones, es probable que la inversión no sea rentable.


### 'df_2'

In [25]:
Invest_worth(rmse_2, mean_pred_2)

presentar_conclusiones(mean_pred_2, 111.1)

La cantidad media de reservas no es suficiente para evitar pérdidas.
El volumen medio de reservas predicho es de 94.95 unidades.
Para evitar pérdidas, cada pozo debe producir al menos 111.10 unidades en promedio.
Con base en las predicciones, es probable que la inversión no sea rentable.


Basandonos en los resultados podemos ver que si aleatoriamente elegimos 200 pozos en cualquiera de las zonas, la media no se acerca al umbral de profit que requiere la empresa petrolera para poder generar ganancias, por lo tanto se deben de tomar otras estrategias para elegir correctamente la zona para que supere ese umbral

## Función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados <a id="titulo_principal_5"></a>

In [26]:
def select_top_200_pozos(predictions, targets):
    data = pd.DataFrame({'predictions': predictions, 'targets': targets})
    top_200 = data.nlargest(200, 'predictions')
    return top_200

def calculate_gain(top_200_pozos):
    revenue_per_unit = 500000 / 111.1
    total_revenue = top_200_pozos['targets'].sum() * revenue_per_unit
    investment_cost = 100000000
    profit = total_revenue - investment_cost
    return profit

In [27]:
# Funciones en la zona 0

top_200_0 = select_top_200_pozos(predictions_0, targets_valid_0)
profit_0 = calculate_gain(top_200_0)



In [28]:
# Funciones en la zona 1

top_200_1 = select_top_200_pozos(predictions_1, targets_valid_1)
profit_1 = calculate_gain(top_200_1)



In [29]:
# Funciones en la zona 2

top_200_2 = select_top_200_pozos(predictions_2, targets_valid_2)
profit_2 = calculate_gain(top_200_2)


In [30]:
# Imprimir las ganancias potenciales
print('Ganancia potencial para la región 0:', profit_0)
print('Ganancia potencial para la región 1:', profit_1)
print('Ganancia potencial para la región 2:', profit_2)


print()
# Proponer una región para el desarrollo de pozos petrolíferos
if profit_0 > profit_1 and profit_0 > profit_2:
    print("Se recomienda desarrollar pozos en la región 0.")
elif profit_1 > profit_0 and profit_1 > profit_2:
    print("Se recomienda desarrollar pozos en la región 1.")
else:
    print("Se recomienda desarrollar pozos en la región 2.")

Ganancia potencial para la región 0: 33221582.589657485
Ganancia potencial para la región 1: 24163283.295144632
Ganancia potencial para la región 2: 27336645.095843896

Se recomienda desarrollar pozos en la región 0.


Se puede observar que la región 0 fue la que más profit genero, al menos para las predicciones que se generaron a partir de los top 200 pozos con mas profit de cada región

## Calculo de riesgo y ganacia para cada región <a id="titulo_principal_6"></a>

In [31]:
def top_200(predictions, targets):
    # Convertir a arrays de numpy en caso de que no lo sean
    targets = np.asarray(targets)
    predictions = np.asarray(predictions)
    
    sorted_indices = np.argsort(predictions)[::-1]
    top_200_indices = sorted_indices[:200]
    selected_predictions = predictions[top_200_indices]
    selected_targets = targets[top_200_indices]
    
    return selected_predictions, selected_targets  

def bootstrap_profit(predictions, targets, n_iterations=1000, sample_size=500, investment_cost=100000000, revenue_per_unit=4500):
    state = np.random.RandomState(12345)
    profits = []
    for i in range(n_iterations):
        # Tomar una muestra bootstrap de las predicciones y targets
        sample_predictions, sample_targets = resample(predictions, targets, n_samples=sample_size, random_state=state)
        
        # Seleccionar los 200 mejores pozos de las muestras
        _, sample_top_targets = top_200(sample_predictions, sample_targets)
        
        # Calcular el beneficio total para esta muestra
        total_revenue = sample_top_targets.sum() * revenue_per_unit
        profit = total_revenue - investment_cost
        profits.append(profit)
        
    
    
    # Convertir los beneficios a un array de numpy
    profits = np.array(profits)
    
    # Calcular el beneficio promedio
    avg_profit = profits.mean()
    
    # Calcular el intervalo de confianza del 95%
    conf_interval = np.percentile(profits, [2.5, 97.5])
    
    # Calcular el riesgo de pérdidas (beneficio negativo)
    risk_of_loss = (profits < 0).mean() * 100  # Como porcentaje
    
    return avg_profit, conf_interval, risk_of_loss

# Uso de funciones
avg_profit_0, conf_interval_0, risk_of_loss_0 = bootstrap_profit(predictions_0, targets_valid_0)
avg_profit_1, conf_interval_1, risk_of_loss_1 = bootstrap_profit(predictions_1, targets_valid_1)
avg_profit_2, conf_interval_2, risk_of_loss_2 = bootstrap_profit(predictions_2, targets_valid_2)

In [32]:
# Imprimir los resultados
print("Región 0: Beneficio promedio =", avg_profit_0, ", IC 95% =", conf_interval_0, ", Riesgo de pérdidas =", risk_of_loss_0, "%")
print("Región 1: Beneficio promedio =", avg_profit_1, ", IC 95% =", conf_interval_1, ", Riesgo de pérdidas =", risk_of_loss_1, "%")
print("Región 2: Beneficio promedio =", avg_profit_2, ", IC 95% =", conf_interval_2, ", Riesgo de pérdidas =", risk_of_loss_2, "%")


Región 0: Beneficio promedio = 3964927.666096237 , IC 95% = [-1088816.18926101  9138435.96291906] , Riesgo de pérdidas = 6.4 %
Región 1: Beneficio promedio = 4560451.057866608 , IC 95% = [ 338205.09398985 8522894.53866035] , Riesgo de pérdidas = 1.5 %
Región 2: Beneficio promedio = 4053867.734904668 , IC 95% = [-1680474.36516634  9519024.87781419] , Riesgo de pérdidas = 7.8 %


In [33]:
# Proponer una región para el desarrollo de pozos petrolíferos
best_region = np.argmax([avg_profit_0, avg_profit_1, avg_profit_2])
regions = ["Región 0", "Región 1", "Región 2"]
print("Se recomienda desarrollar pozos en la", regions[best_region])

Se recomienda desarrollar pozos en la Región 1


Viendo los resultados y comparandolos despues de hacer un boostrap para mejorar la toma de desiciones vemos que teniamos previamente esto:

Ganancia potencial para la región 0: 33221582.589657485
Ganancia potencial para la región 1: 24163283.295144632
Ganancia potencial para la región 2: 27336645.095843896

Se recomienda desarrollar pozos en la región 0.

Para pasar a:

    Región 0: Beneficio promedio = 3964927.666096237 , IC 95% = [-1088816.18926101  9138435.96291906] , Riesgo de pérdidas = 6.4 %
    Región 1: Beneficio promedio = 4560451.057866608 , IC 95% = [ 338205.09398985 8522894.53866035] , Riesgo de pérdidas = 1.5 %
    Región 2: Beneficio promedio = 4053867.734904668 , IC 95% = [-1680474.36516634  9519024.87781419] , Riesgo de pérdidas = 7.8 %

Se recomienda desarrollar pozos en la Región 1

Vemos que haciendo un Bootstrap de 1000 iteraciones con 500 pozos y de esos 500 pozos se escogen las 200 mejores predicciones para hacer el calculo del beneficio, la Región 1 es la que menor riesgo tiene con un 1.5% de riesgos de perdida. Además podemos observar que la región 1 en el intervalo de confianza es el intervalo menos amplio, lo que da un punto extra, además es el unico intervalo que no tiene como banda baja perdidas IC 95% = [ 338205.09398985 8522894.53866035]. 


## Conclusión <a id="titulo_principal_7"></a>

En este proyecto se determinaron los siguientes puntos:

- **Procesado de dtos**: se realizo un analisis de lso 3 datasets para determianr si había filas duplicadas, datos nulos o alguna columna sin su tipo de dato bien asignado
- **Creación de modelo**: Se realizo un modelo de regresión lineal para predecir nuestra variable target (`product` — volumen de reservas en el pozo de petróleo (miles de barriles).) a partir de 3 caracteristicas de los puntos
- **Función**: Se creo una función para poder calcular la ganacia para cierto conjunto de pozos
-**Calculo de riesgo**: En este apartado se realizo una bootstrap para mejorar la presición del beneficio promedio por zona, se calculo el riesgo de perdidas economicas y además se calculo un intervalo de confianza del 95% para cada región 


Al final se concluyo que la mejor zona, es la zona gegrafica 1 pues es la región que mejor profit dio y la única que cumple con la condición de que haya menos de un 2.5% de riesgo de perdidas.

