# OilyGian

* Trabajas en la compañía de extracción de petróleo OilyGiant. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.  
* Tienes datos sobre muestras de crudo de tres regiones. Ya se conocen los parámetros de cada pozo petrolero de la región. Crea un modelo que ayude a elegir la región con el mayor margen de beneficio.

## Análisis exploratorio de datos (Python):

### Inicialización:

In [1]:
# Importamos las librerías necesarias :
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from scipy.stats import bootstrap


### Cargar Datos:

In [2]:

# Cargar los datos:

geo_0 = pd.read_csv('geo_data_0.csv')
geo_1 = pd.read_csv('geo_data_1.csv')
geo_2 = pd.read_csv('geo_data_2.csv')

In [3]:
# Verificamos la estructura y las primeras filas de cada archivo:

display(geo_0.head())
display(geo_1.head())
display(geo_2.head())

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


### Estudiar los datos que contienen:

In [4]:
geo_0.info()
geo_1.info()
geo_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null 

In [5]:
geo_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [6]:
geo_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [7]:
geo_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


## Preparar los datos:

### Revisión de datos duplicados:

In [8]:
geo_0.duplicated().sum()

np.int64(0)

In [9]:
geo_1.duplicated().sum()

np.int64(0)

In [10]:
geo_2.duplicated().sum()

np.int64(0)

### Revisión de datos nulos:

In [11]:
geo_0.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [12]:
geo_1.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [13]:
geo_2.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [14]:
state = np.random.RandomState(54321)

## Analisis de Datos:

### Segmentación de datos:

Train-Test Split: Utilicé la función train_test_split() para dividir los datos en conjuntos de entrenamiento y prueba, con el 75% de los datos para el entrenamiento y el 25% para la prueba

In [15]:
# Función para preparar los datos y dividirlos en conjunto de entrenamiento y validación:

def preparar_datos (data):
    features = data[['f0', 'f1', 'f2']]
    target = data['product']
    return train_test_split(features, target, test_size=0.25, random_state=state)


### Entrenamiento (Modelo de Regresión):

In [16]:
# Función para entrenar el modelo de regresión lineal y predecir:

def entrenar_modelo(features_train, features_valid, target_train, target_valid):
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    rmse = mean_squared_error(target_valid, predictions, squared=False)
    return predictions, rmse

### Evaluación de Modelo:

In [17]:
# Función para calcular el volumen promedio de reservas:

def evaluar_modelo(target_valid, predictions):
    promedio_reservas = predictions.mean()
    return promedio_reservas

### Ejecución de Modelo para cada región:

In [18]:
# Ejecutar modelo para cada región:

for i, data in enumerate([geo_0, geo_1, geo_2]):
    features_train, features_valid, target_train, target_valid = preparar_datos(data)
    predictions, rmse = entrenar_modelo(features_train, features_valid, target_train, target_valid)
    promedio_reservas = evaluar_modelo(target_valid, predictions)
    
    #print(f"Región {i}:")
    #print(f" - RMSE: {rmse}")
    #print(f" - Promedio de reservas: {promedio_reservas}")
    print(f"Región {i}: RMSE = {rmse:.2f}, Volumen medio de reservas predicho = {promedio_reservas:.2f}")

TypeError: got an unexpected keyword argument 'squared'

### Analisis: (Por cada región)


* Región 0

RMSE = 37.52: Este valor de RMSE es alto, lo que indica que el modelo tiene las predicciones no muy precisas, lo que puede agregar incertidumbre al cálculo de beneficios potenciales.
Volumen medio de reservas = 92.53: Este volumen está por debajo del umbral mínimo de rentabilidad (111.1 unidades), lo que implica un riesgo de inversión.
Aunque el volumen medio de reservas es relativamente alto en comparación con la Región 1, su imprecisión en la predicción (alto RMSE) y el volumen bajo respecto al umbral hacen que esta región no sea muy atractiva.  

* Región 1

RMSE = 0.89: Este es un valor extremadamente bajo, lo cual indica una excelente precisión del modelo. La baja variabilidad sugiere que el modelo predice las reservas con mucha confianza en esta región.
Volumen medio de reservas = 69.26: Este volumen es considerablemente inferior al umbral de 111.1 unidades, lo que indica que,  los pozos en esta región generarían menos de los ingresos necesarios para evitar pérdidas.
Aunque la precisión del modelo es excelente, el volumen de reservas es muy bajo, lo que implica que los pozos en esta región probablemente no sean rentables.  

* Región 2

RMSE = 40.00: Este RMSE es el más alto entre las tres regiones, lo cual significa que las predicciones tienen una gran dispersión respecto a los valores reales. Esto sugiere un alto nivel de incertidumbre en la predicción del volumen de reservas.
Volumen medio de reservas = 95.17: Aunque es el más alto entre las tres regiones, este volumen todavía se encuentra por debajo del umbral de rentabilidad. Sin embargo, está más cerca del umbral de 111.1 unidades en comparación con las otras regiones.
Aunque la precisión es baja, la Región 2 tiene el volumen medio de reservas más alto entre las tres.

## Determinación de las ganancias :

###  Almacenar los valores necesarios:

In [None]:
# Parámetros financieros:

presupuesto = 100000000
pozos_a_seleccionar = 200
ingreso_por_unidad = 4500  # en miles de barriles
min_unidades_sin_perdidas = 111.1  # Equivalente a $500,000

In [None]:
# Cálculo de beneficio por región:

def calcular_ganancia(predicciones):
    mejores_pozos = np.sort(predicciones)[-pozos_a_seleccionar:]
    ganancia_total = mejores_pozos.sum() * ingreso_por_unidad
    return ganancia_total

In [None]:
# Calcular y comparar ganancias potenciales:

ganancias_regiones = []

for i, data in enumerate([geo_0, geo_1, geo_2]):
    _, features_valid, _, target_valid = preparar_datos(data)
    predictions, _ = entrenar_modelo(features_train, features_valid, target_train, target_valid)
    ganancia = calcular_ganancia(predictions)
    ganancias_regiones.append((ganancia, i))

In [None]:
# Selección de la región más rentable
mejor_region = max(ganancias_regiones, key=lambda x: x[0])
print(f"La mejor región es la Región {mejor_region[1]} con una ganancia estimada de {mejor_region[0]:,.2f} USD")

La mejor región es la Región 2 con una ganancia estimada de 134,223,749.34 USD


In [None]:
# Función de bootstrapping para evaluar el riesgo de pérdidas:

def bootstrap_analisis(predicciones, n_simulaciones=1000):
    bootstrap_res = bootstrap((predicciones,), np.mean, confidence_level=0.95, n_resamples=n_simulaciones, method='basic')
    beneficio_promedio = bootstrap_res.confidence_interval[0] * ingreso_por_unidad
    perdida_probabilidad = (predicciones < 111.1).mean()
    return beneficio_promedio, perdida_probabilidad

In [None]:
# Aplicación de análisis de riesgo para cada región
for i, data in enumerate([geo_0, geo_1, geo_2]):
    _, features_valid, _, target_valid = preparar_datos(data)
    predictions, _ = entrenar_modelo(features_train, features_valid, target_train, target_valid)
    beneficio_promedio, perdida_probabilidad = bootstrap_analisis(predictions)
    print(f"Región {i}:")
    print(f" - Beneficio Promedio: {beneficio_promedio}")
    print(f" - Probabilidad de pérdida: {perdida_probabilidad:.2%}")

Región 0:
 - Beneficio Promedio: 426182.08251736336
 - Probabilidad de pérdida: 80.19%
Región 1:
 - Beneficio Promedio: 428741.8021983392
 - Probabilidad de pérdida: 99.89%
Región 2:
 - Beneficio Promedio: 426953.10654881014
 - Probabilidad de pérdida: 78.44%
