----

# 1. Importar las librerías y cargar los datos del archivo

In [1]:
# Importando todas las librerías que se van a utilizar
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_curve
from sklearn.metrics import roc_auc_score, mean_squared_error, mean_absolute_error, confusion_matrix
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.utils import shuffle, resample

In [2]:
# Cargar los datos
df_0 = pd.read_csv("/datasets/geo_data_0.csv")
df_0

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [3]:
df_0.shape

(100000, 5)

In [None]:
# Revisar id únicos
df_0['id'].nunique()

99990

In [5]:
df_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [None]:
# Identificar los IDs duplicados
df_0['id'].value_counts().head(15)

AGS9W    2
HZww2    2
bxg6G    2
TtcGQ    2
QcMuo    2
A5aEY    2
74z30    2
Tdehs    2
bsk9y    2
fiKDv    2
lV7xa    1
JuXoE    1
iQJnv    1
nlkzi    1
MoplW    1
Name: id, dtype: int64

In [None]:
# Ver filas duplicadas
df_0[df_0['id'].duplicated(keep=False)].sort_values('id')

Unnamed: 0,id,f0,f1,f2,product
66136,74z30,1.084962,-0.312358,6.990771,127.643327
64022,74z30,0.741456,0.459229,5.153109,140.771492
51970,A5aEY,-0.180335,0.935548,-2.094773,33.020205
3389,A5aEY,-0.039949,0.156872,0.209861,89.249364
69163,AGS9W,-0.933795,0.116194,-3.655896,19.230453
42529,AGS9W,1.454747,-0.479651,0.68338,126.370504
931,HZww2,0.755284,0.368511,1.863211,30.681774
7530,HZww2,1.061194,-0.373969,10.43021,158.828695
63593,QcMuo,0.635635,-0.473422,0.86267,64.578675
1949,QcMuo,0.506563,-0.323775,-2.215583,75.496502


In [None]:
# Ordenado por la columna product
df_0.sort_values(by='product', ascending=False).head(15)

Unnamed: 0,id,f0,f1,f2,product
8826,rjMou,1.797736,0.098212,6.14826,185.364347
99818,7cHIv,0.518445,-0.41279,4.951916,185.36269
94175,uCDzR,0.351428,-0.400244,7.227618,185.355615
1925,IfqrC,0.62443,-0.469312,5.753677,185.35498
45291,5FEPb,1.758787,-0.395038,6.719085,185.352015
28690,bII2i,1.620518,-0.084109,7.616198,185.344675
45259,8nZzW,1.813483,0.085809,4.337725,185.33837
22823,jMdal,0.109721,0.017532,10.10127,185.337352
98975,AXcMW,0.395034,-0.56022,5.112276,185.330529
93314,TBC3a,0.162192,0.230608,8.359679,185.317346


In [9]:
# Cargar los datos
df_1 = pd.read_csv("/datasets/geo_data_1.csv")
df_1

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [10]:
df_1.shape

(100000, 5)

In [None]:
# Ver ids únicos
df_1['id'].nunique()

99996

In [None]:
# Ver info del df
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [None]:
# Identificar los IDs duplicados
df_1['id'].value_counts().head(8)

5ltQ6    2
wt4Uk    2
bfPNe    2
LHZR0    2
V2Hwu    1
WIZvW    1
XSCRU    1
blc3h    1
Name: id, dtype: int64

In [None]:
# Filas de los IDs duplicados
df_1[df_1['id'].duplicated(keep=False)].sort_values('id')

Unnamed: 0,id,f0,f1,f2,product
5849,5ltQ6,-3.435401,-12.296043,1.999796,57.085625
84461,5ltQ6,18.213839,2.191999,3.993869,107.813044
1305,LHZR0,11.170835,-1.945066,3.002872,80.859783
41906,LHZR0,-8.989672,-4.286607,2.009139,57.085625
2721,bfPNe,-9.494442,-5.463692,4.006042,110.992147
82178,bfPNe,-6.202799,-4.820045,2.995107,84.038886
47591,wt4Uk,-9.091098,-8.109279,-0.002314,3.179103
82873,wt4Uk,10.259972,-9.376355,4.994297,134.766305


In [None]:
# Ver filas en función de la columna product
df_1.sort_values(by='product', ascending=False).head(15)

Unnamed: 0,id,f0,f1,f2,product
53864,MzRzn,2.901352,-3.475398,5.001393,137.945408
97083,nW6eC,-4.03043,-14.020643,5.009571,137.945408
88340,xwJzQ,-3.373117,-9.227661,4.994369,137.945408
64879,Xd8DC,-5.360281,-2.388204,5.001439,137.945408
7288,Stdrb,-8.058661,-2.24484,5.000753,137.945408
64875,ImlRy,-8.847193,-11.074386,5.003542,137.945408
16302,WzBhx,-12.8573,-8.330972,5.000053,137.945408
7293,qqyeH,-12.480495,-6.341109,4.991407,137.945408
40368,c0mBf,-3.37611,-8.685217,5.008846,137.945408
40388,tlA9U,4.209045,-3.08307,5.000436,137.945408


In [16]:
# Cargar los datos
df_2 = pd.read_csv("/datasets/geo_data_2.csv")
df_2

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [17]:
df_2.shape

(100000, 5)

In [None]:
# Ver los IDs únicos
df_2['id'].nunique()

99996

In [19]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [None]:
# Identificar los IDs duplicados
df_2['id'].value_counts().head(8)

VF7Jo    2
Vcm5J    2
KUPhW    2
xCHr8    2
K1jRp    1
CndeH    1
tqWLB    1
os3fe    1
Name: id, dtype: int64

In [None]:
# Ver las filas duplicadas
df_2[df_2['id'].duplicated(keep=False)].sort_values('id')

Unnamed: 0,id,f0,f1,f2,product
45404,KUPhW,0.231846,-1.698941,4.990775,11.716299
55967,KUPhW,1.21115,3.176408,5.54354,132.831802
11449,VF7Jo,2.122656,-0.858275,5.746001,181.716817
49564,VF7Jo,-0.883115,0.560537,0.723601,136.23342
44378,Vcm5J,-1.229484,-2.439204,1.222909,137.96829
95090,Vcm5J,2.587702,1.986875,2.482245,92.327572
28039,xCHr8,1.633027,0.368135,-2.378367,6.120525
43233,xCHr8,-0.847066,2.101796,5.59713,184.388641


In [None]:
# Ordenar filas en función de la columna product
df_1.sort_values(by='product', ascending=False).head(15)

Unnamed: 0,id,f0,f1,f2,product
53864,MzRzn,2.901352,-3.475398,5.001393,137.945408
97083,nW6eC,-4.03043,-14.020643,5.009571,137.945408
88340,xwJzQ,-3.373117,-9.227661,4.994369,137.945408
64879,Xd8DC,-5.360281,-2.388204,5.001439,137.945408
7288,Stdrb,-8.058661,-2.24484,5.000753,137.945408
64875,ImlRy,-8.847193,-11.074386,5.003542,137.945408
16302,WzBhx,-12.8573,-8.330972,5.000053,137.945408
7293,qqyeH,-12.480495,-6.341109,4.991407,137.945408
40368,c0mBf,-3.37611,-8.685217,5.008846,137.945408
40388,tlA9U,4.209045,-3.08307,5.000436,137.945408


# 2. Entrenamiento y prueba del modelo para cada región

# geo_data_0.csv

In [23]:
# División de los datos en un conjunto de entrenamiento y uno de validación
target_0 = df_0['product']
features_0 = df_0.drop(['id','product'],axis=1)

features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)

print(features_train_0.shape)
print(features_valid_0.shape)
print(target_train_0.shape)
print(target_valid_0.shape)

(75000, 3)
(25000, 3)
(75000,)
(25000,)


In [24]:
# Entrenamiento del modelo y predicciones para el conjunto de validación
model_0 = LinearRegression()
model_0.fit(features_train_0,target_train_0)
predicted_value_0 = model_0.predict(features_valid_0)

In [25]:
# Guardar predicciones y respuestas correctas
results_0 = pd.DataFrame({"Actual": target_valid_0, "Predicted": predicted_value_0})
results_0

Unnamed: 0,Actual,Predicted
71751,10.038645,95.894952
80493,114.551489,77.572583
2655,132.603635,77.892640
53233,169.072125,90.175134
91141,122.325180,70.510088
...,...,...
12581,170.116726,103.037104
18456,93.632175,85.403255
73035,127.352259,61.509833
63834,99.782700,118.180397


In [26]:
print(target_valid_0.mean())

92.07859674082927


In [27]:
# Volumen medio de reservas predicho y RMSE del modelo
rmse_0 = np.sqrt(mean_squared_error(target_valid_0, predicted_value_0))

# Mostrar resultados
print(f"Volumen medio de reservas predicho: {predicted_value_0.mean():.2f}")
print(f"RMSE del modelo: {rmse_0:.2f}")

Volumen medio de reservas predicho: 92.59
RMSE del modelo: 37.58


In [28]:
# Prueba de cordura
# Modelo constante: la media se compara al modelo para saber si la regresión está aportando

# Calcular la media real del conjunto de validación
mean_0 = target_valid_0.mean()

# Crear un array con la media como predicción constante
mean_prediction_0 = np.full_like(target_valid_0, mean_0)

# Calcular el RMSE para el modelo de la media
rmse_mean_0 = mean_squared_error(target_valid_0, mean_prediction_0, squared=False)

print(f"RMSE del modelo base (predice la media): {rmse_mean_0:.4f}")

RMSE del modelo base (predice la media): 44.2860


In [29]:
df_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Análisis de los resultados: 
1. El modelo es mejor que una simple media. La regresión lineal ha reducido el error, lo que sugiere que hay alguna relación entre las variables independientes (f0, f1, f2) y la variable objetivo (product), aunque tampoco es muy grande, lo que podría indicar que los patrones en los datos no son completamente lineales. 
2. Los valores de product varían bastante. El mínimo es 0, mientras que el máximo llega a 185.36. Esto puede significar que hay escenarios donde la predicción puede estar fallando más de lo esperado.
3. La mediana (50% en describe()) de product es de 91.85. Esto está bastante cerca de la media (~92.50), lo que indica que la distribución es aproximadamente simétrica.
4. El volumen medio de reservas predicho (92.59) es bastante cercano al valor real promedio de product (92.50). Esto sugiere que el modelo al menos captura la tendencia central correctamente.

# geo_data_1.csv

In [30]:
# División de los datos en un conjunto de entrenamiento y uno de validación
target_1 = df_1['product']
features_1 = df_1.drop(['id','product'],axis=1)

features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)

print(features_train_1.shape)
print(features_valid_1.shape)
print(target_train_1.shape)
print(target_valid_1.shape)

(75000, 3)
(25000, 3)
(75000,)
(25000,)


In [31]:
# Entrenamiento del modelo y predicciones para el conjunto de validación
model_1 = LinearRegression()
model_1.fit(features_train_1,target_train_1)
predicted_value_1 = model_1.predict(features_valid_1)

In [32]:
# Guardar predicciones y respuestas correctas
results_1 = pd.DataFrame({"Actual": target_valid_1, "Predicted": predicted_value_1})
results_1

Unnamed: 0,Actual,Predicted
71751,80.859783,82.663314
80493,53.906522,54.431786
2655,30.132364,29.748760
53233,53.906522,53.552133
91141,0.000000,1.243856
...,...,...
12581,137.945408,136.869211
18456,110.992147,110.693465
73035,137.945408,137.879341
63834,84.038886,83.761966


In [33]:
print(target_valid_1.mean())

68.72313602435997


In [34]:
# Volumen medio de reservas predicho y RMSE del modelo
rmse_1 = np.sqrt(mean_squared_error(target_valid_1, predicted_value_1))

# Mostrar resultados
print(f"Volumen medio de reservas predicho: {predicted_value_1.mean():.4f}")
print(f"RMSE del modelo: {rmse_1:.4f}")

Volumen medio de reservas predicho: 68.7285
RMSE del modelo: 0.8931


In [35]:
# Prueba de cordura
# Modelo constante: la media se compara al modelo para saber si la regresión está aportando

# Calcular la media real del conjunto de validación
mean_1 = target_valid_1.mean()

# Crear un array con la media como predicción constante
mean_prediction_1 = np.full_like(target_valid_1, mean_1)

# Calcular el RMSE para el modelo de la media
rmse_mean_1 = mean_squared_error(target_valid_1, mean_prediction_1, squared=False)

print(f"RMSE del modelo base (predice la media): {rmse_mean_1:.4f}")

RMSE del modelo base (predice la media): 46.0212


In [36]:
df_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


El modelo tiene un RMSE del modelo base (que predice la media) de 46.02, mientras que el RMSE del modelo entrenado es de 0.89. Lo que significa una mejora muy significativa del modelo, los datos se ajustan a una distribución lineal. Y mejor aún considerando que la desviación estándar es de 45.94, lo cual indica variablidad. El modelo mantiene la tendencia central.

# geo_data_2.csv

In [37]:
# División de los datos en un conjunto de entrenamiento y uno de validación
target_2 = df_2['product']
features_2 = df_2.drop(['id','product'],axis=1)

features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)

print(features_train_2.shape)
print(features_valid_2.shape)
print(target_train_2.shape)
print(target_valid_2.shape)

(75000, 3)
(25000, 3)
(75000,)
(25000,)


In [38]:
# Entrenamiento del modelo y predicciones para el conjunto de validación
model_2 = LinearRegression()
model_2.fit(features_train_2,target_train_2)
predicted_value_2 = model_2.predict(features_valid_2)

In [39]:
# Guardar predicciones y respuestas correctas
results_2 = pd.DataFrame({"Actual": target_valid_2, "Predicted": predicted_value_2})
results_2

Unnamed: 0,Actual,Predicted
71751,61.212375,93.599633
80493,41.850118,75.105159
2655,57.776581,90.066809
53233,100.053761,105.162375
91141,109.897122,115.303310
...,...,...
12581,28.492402,78.765887
18456,21.431303,95.603394
73035,125.487229,99.407281
63834,99.422903,77.779912


In [40]:
print(target_valid_2.mean())

94.88423280885438


In [41]:
# Voumen medio de reservas predicho y RMSE del modelo
rmse_2 = np.sqrt(mean_squared_error(target_valid_2, predicted_value_2))

# Mostrar resultados
print(f"Volumen medio de reservas predicho: {predicted_value_2.mean():.4f}")
print(f"RMSE del modelo: {rmse_2:.4f}")

Volumen medio de reservas predicho: 94.9650
RMSE del modelo: 40.0297


In [42]:
# Prueba de cordura
# Modelo constante: la media se compara al modelo para saber si la regresión está aportando

# Calcular la media real del conjunto de validación
mean_2 = target_valid_2.mean()

# Crear un array con la media como predicción constante
mean_prediction_2 = np.full_like(target_valid_2, mean_2)

# Calcular el RMSE para el modelo de la media
rmse_mean_2 = mean_squared_error(target_valid_2, mean_prediction_2, squared=False)

print(f"RMSE del modelo base (predice la media): {rmse_mean_2:.4f}")

RMSE del modelo base (predice la media): 44.9021


In [43]:
df_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


La reducción del RMSE es menor en comparación con el caso anterior (solo baja 4.87), lo que indica que el modelo no está aportando tanto valor en este caso como en df_1 e incluso menos que en el df_0. Volumen medio real (product): 95.00
Volumen medio predicho: 94.96. Esto muestra que el modelo sigue capturando bien la tendencia central. Hay que considerar que se presenta una alta variablidad en los datos y que la regresión lineal podría no estarse ajustando a la distribución de los mismo. 

Conclusiones: A pesar de que el df_0 y el df_2 no se ajustan tan bien como el df_1 a la regresión lineal, se va a seguir considerando el modelo porque aprobaron la prueba de cordura, el modelo mejoró al modelo constante que tiene la media. 

# 3. Preparar el cálculo de las ganancias

In [44]:
# Inversión total
total_inversion = 100_000_000  

# Número total de pozos
total_pozos = 200  

# Producción mínima requerida en unidades de reserva para evitar pérdidas
inversion_por_pozo = 500_000  
unidad_en_dolares = 4500 # columna product
minimo_unidades_por_pozo = inversion_por_pozo/unidad_en_dolares # 111.1

# Media de reservas en cada región (extraída del dataset)
media_reservas_region0 = predicted_value_0.mean()
media_reservas_region1 = predicted_value_1.mean()
media_reservas_region2 = predicted_value_2.mean()

In [45]:
print(f"Media de reservas en Región 0: {media_reservas_region0:.2f}")
print(f"Media de reservas en Región 1: {media_reservas_region1:.2f}")
print(f"Media de reservas en Región 2: {media_reservas_region2:.2f}")
print(f"Cantidad mínima necesaria por pozo: {minimo_unidades_por_pozo:.2f}")

# Evaluación
if media_reservas_region0 > minimo_unidades_por_pozo:
    print("Región 0 parece viable para inversión.")
else:
    print("Región 0 podría no ser rentable.")

if media_reservas_region1 > minimo_unidades_por_pozo:
    print("Región 1 parece viable para inversión.")
else:
    print("Región 1 podría no ser rentable.")

if media_reservas_region2 > minimo_unidades_por_pozo:
    print("Región 2 parece viable para inversión.")
else:
    print("Región 2 podría no ser rentable.")

Media de reservas en Región 0: 92.59
Media de reservas en Región 1: 68.73
Media de reservas en Región 2: 94.97
Cantidad mínima necesaria por pozo: 111.11
Región 0 podría no ser rentable.
Región 1 podría no ser rentable.
Región 2 podría no ser rentable.


Conclusiones: Dado que la media no nos favorece, la clave será elegir los mejores 200 pozos en lugar de seleccionar al azar. Si logramos encontrar pozos con reservas superiores a 111.1 en suficiente cantidad, aún podemos hacer rentable la inversión.

In [46]:
# Obteniendo la media de las primeras 200 predicciones del df_0
# Convertir predicciones en pandas.Series para poder ordenarlas
predicciones_0 = pd.Series(predicted_value_0)
    
# Seleccionar los 200 pozos con mayores predicciones
mejores_predicciones_0 = predicciones_0.sort_values(ascending=False).head(200)

# Calcular la media de estos 200 valores
media_mejores_200_0 = mejores_predicciones_0.mean()

# Mostrar el resultado
print(f"Media de las 200 mejores predicciones en df_0: {media_mejores_200_0:.4f}")

Media de las 200 mejores predicciones en df_0: 155.5117


In [47]:
# Obteniendo la media de las primeras 200 predicciones del df_1
# Convertir predicciones en pandas.Series para poder ordenarlas
predicciones_1 = pd.Series(predicted_value_1)
    
# Seleccionar los 200 pozos con mayores predicciones
mejores_predicciones_1 = predicciones_1.sort_values(ascending=False).head(200)

# Calcular la media de estos 200 valores
media_mejores_200_1 = mejores_predicciones_1.mean()

# Mostrar el resultado
print(f"Media de las 200 mejores predicciones en df_0: {media_mejores_200_1:.4f}")

Media de las 200 mejores predicciones en df_0: 138.7301


In [48]:
# Obteniendo la media de las primeras 200 predicciones del df_2
# Convertir predicciones en pandas.Series para poder ordenarlas
predicciones_2 = pd.Series(predicted_value_2)
    
# Seleccionar los 200 pozos con mayores predicciones
mejores_predicciones_2 = predicciones_2.sort_values(ascending=False).head(200)

# Calcular la media de estos 200 valores
media_mejores_200_2 = mejores_predicciones_2.mean()

# Mostrar el resultado
print(f"Media de las 200 mejores predicciones en df_0: {media_mejores_200_2:.4f}")

Media de las 200 mejores predicciones en df_0: 148.0195


Conclusiones: Después de obtener la media, las prediciones de df_0 son las que tienen un mayor promedio de unidades, por lo que sería el elegido, y sí supera las 111.1 unidades que es el mínimo por pozo.

# 4. Función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modela las predicciones

# Creación de función

In [49]:
def calcular_ganancia(predicciones, target_real):
    # Convertir predicciones en pandas.Series para poder ordenarlas
    predicciones = pd.Series(predicciones, index=target_real.index)
    
    # Seleccionar los 200 pozos con mayores predicciones
    mejores_indices = predicciones.sort_values(ascending=False).index[:200]
    
    # Guardar las predicciones seleccionadas
    mejores_predicciones = predicciones.loc[mejores_indices]

    # Obtener el volumen real de los 200 pozos seleccionados
    volumen_total = target_real.loc[mejores_indices].sum()
    
    # Calcular la ganancia total
    ganancia = volumen_total * 4500 - 100_000_000
    
    return ganancia, mejores_predicciones

# geo_data_0.csv

In [50]:
# Calcular ganancias
ganancia_0, _ = calcular_ganancia(predicted_value_0, target_valid_0)

# Imprimir solo la ganancia
print(f"Ganancia estimada Región 0: ${ganancia_0:,.2f}")

Ganancia estimada Región 0: $33,208,260.43


# geo_data_1.csv

In [51]:
# Calcular ganancias
ganancia_1, _ = calcular_ganancia(predicted_value_1, target_valid_1)

# Imprimir solo la ganancia
print(f"Ganancia estimada Región 1: ${ganancia_1:,.2f}")

Ganancia estimada Región 1: $24,150,866.97


# geo_data_2.csv

In [52]:
# Calcular ganancias
ganancia_2, _ = calcular_ganancia(predicted_value_2, target_valid_2)

# Imprimir solo la ganancia
print(f"Ganancia estimada Región 1: ${ganancia_2:,.2f}")

Ganancia estimada Región 1: $27,103,499.64


La región 0 es la que tiene mayores ganancias, por lo que debería ser la elegida.

# 5. Cálculo de los riesgos y ganancias para cada región

# Creación de función

In [53]:
# Función para calcular la ganancia
def revenue(target, probabilities):
    
    # Convertir probabilities en una serie de pandas con el mismo índice que target
    probs_series = pd.Series(probabilities, index=target.index)

    # Seleccionar 500 pozos **al azar con reemplazo** (bootstrapping)
    sampled_target = target.sample(n=500, replace=True, random_state=None)
    sampled_probs = probs_series.loc[sampled_target.index]

    # Tomar los 200 pozos con mayores predicciones dentro de la muestra de 500
    top_200_indices = sampled_probs.sort_values(ascending=False).index[:200]
    top_200_target = sampled_target.loc[top_200_indices]
    
    # Calcular la ganancia
    return top_200_target.sum() * 4500 - 100_000_000 

In [54]:
# Simulaciones de bootstrapping para df_0
np.random.seed(42)
values_0 = []

for i in range(1000):
    values_0.append(revenue(target_valid_0, predicted_value_0))

values_0 = pd.Series(values_0)

# Beneficio promedio
mean_0 = values_0.mean()

# Intervalo de confianza del 95%
ci_lower_0 = values_0.quantile(0.025)  # Límite inferior
ci_upper_0 = values_0.quantile(0.975)  # Límite superior

# Riesgo de pérdidas (proporción de valores negativos)
risk_0 = (values_0 < 0).mean() * 100  # Convertir a porcentaje

# Imprimir resultados
print("Beneficio promedio:", mean_0)
print(f"Intervalo de confianza del 95%: ({ci_lower_0}, {ci_upper_0})")
print(f"Riesgo de pérdidas: {risk_0:.2f}%")

Beneficio promedio: 5867268.432456819
Intervalo de confianza del 95%: (-230984.98171102477, 11894826.672667705)
Riesgo de pérdidas: 2.70%


In [55]:
# Simulaciones de bootstrapping para df_1
np.random.seed(42)
values_1 = []

for i in range(1000):
    values_1.append(revenue(target_valid_1, predicted_value_1))

values_1 = pd.Series(values_1)

# Beneficio promedio
mean_1 = values_1.mean()

# Intervalo de confianza del 95%
ci_lower_1 = values_1.quantile(0.025)  # Límite inferior
ci_upper_1 = values_1.quantile(0.975)  # Límite superior

# Riesgo de pérdidas (proporción de valores negativos)
risk_1 = (values_1 < 0).mean() * 100  # Convertir a porcentaje

# Imprimir resultados
print("Beneficio promedio:", mean_1)
print(f"Intervalo de confianza del 95%: ({ci_lower_1}, {ci_upper_1})")
print(f"Riesgo de pérdidas: {risk_1:.2f}%")

Beneficio promedio: 6562429.81558303
Intervalo de confianza del 95%: (1673526.6620060499, 11808383.025377596)
Riesgo de pérdidas: 0.10%


In [56]:
# Simulaciones de bootstrapping para df_2
np.random.seed(42)
values_2 = []

for i in range(1000):
    values_2.append(revenue(target_valid_2, predicted_value_2))

values_2 = pd.Series(values_2)

# Beneficio promedio
mean_2 = values_2.mean()

# Intervalo de confianza del 95%
ci_lower_2 = values_2.quantile(0.025)  # Límite inferior
ci_upper_2 = values_2.quantile(0.975)  # Límite superior

# Riesgo de pérdidas (proporción de valores negativos)
risk_2 = (values_2 < 0).mean() * 100  # Convertir a porcentaje

# Imprimir resultados
print("Beneficio promedio:", mean_2)
print(f"Intervalo de confianza del 95%: ({ci_lower_2}, {ci_upper_2})")
print(f"Riesgo de pérdidas: {risk_2:.2f}%")

Beneficio promedio: 6005664.69070398
Intervalo de confianza del 95%: (-306514.88403670705, 12586354.078390274)
Riesgo de pérdidas: 3.30%


Conclusión: En el Punto 4, la Región 0 parecía la mejor en base a la ganancia estimada, pero con la evaluación de riesgo y bootstrapping, se concluye que la Región 1 es la más adecuada para el desarrollo de pozos. Además, es la única región que tiene un riesgo de pérdidas menor al 2.5%, que es una de las condiciones que se indicaron al principio del proyecto.