In [1]:
# Importa bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [2]:
# Función para cargar y preparar los datos con manejo de excepciones
def cargar_datos(ruta_archivo):
    try:
        data = pd.read_csv(ruta_archivo)
        print(f"Carga exitosa del conjunto de datos {ruta_archivo}.")
        return data
    except FileNotFoundError:
        print(f"El archivo {ruta_archivo} no se encuentra en la ruta especificada.")
        return None

In [6]:
# Carga los DataFrames con manejo de excepciones
geo_data_0_df = cargar_datos('files/datasets/input/geo_data_0.csv')
geo_data_1_df = cargar_datos('files/datasets/input/geo_data_1.csv')
geo_data_2_df = cargar_datos('files/datasets/input/geo_data_2.csv')

Carga exitosa del conjunto de datos files/datasets/input/geo_data_0.csv.
Carga exitosa del conjunto de datos files/datasets/input/geo_data_1.csv.
Carga exitosa del conjunto de datos files/datasets/input/geo_data_2.csv.


In [7]:
# Realiza exploración y análisis exploratorio de datos
print("Información general de geo_data_0_df:")
print(geo_data_0_df.info())

Información general de geo_data_0_df:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


In [8]:
print("Información general de geo_data_1_df:")
print(geo_data_0_df.info())

Información general de geo_data_1_df:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


In [9]:
print("Información general de geo_data_2_df:")
print(geo_data_0_df.info())

Información general de geo_data_2_df:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


In [10]:
# Explora los primeros registros
display(geo_data_0_df.head())
display(geo_data_1_df.head())
display(geo_data_2_df.head())

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [12]:
# Entrenamiento y prueba del modelo
# Función para entrenar y probar el modelo
def train_and_test_model(data):
    train_data, valid_data = train_test_split(data, test_size=0.25, random_state=12345)
    features_train = train_data.drop(['id', 'product'], axis=1)
    target_train = train_data['product']
    features_valid = valid_data.drop(['id', 'product'], axis=1)
    target_valid = valid_data['product']
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    rmse = np.sqrt(mean_squared_error(target_valid, predictions))
    print(f"Volumen promedio de reservas predicho: {predictions.mean()}")
    print(f"RMSE del modelo: {rmse}")
    
    return model, predictions, target_valid

# Entrenamiento y prueba para geo_data_0
model_0, predictions_0, target_valid_0 = train_and_test_model(geo_data_0_df)

Volumen promedio de reservas predicho: 92.59256778438035
RMSE del modelo: 37.5794217150813


In [13]:
# Entrenamiento y prueba para geo_data_1
model_1, predictions_1, target_valid_1 = train_and_test_model(geo_data_1_df)

Volumen promedio de reservas predicho: 68.72854689544602
RMSE del modelo: 0.8930992867756165


In [14]:
# Entrenamiento y prueba para geo_data_2
model_2, predictions_2, target_valid_2 = train_and_test_model(geo_data_2_df)

Volumen promedio de reservas predicho: 94.96504596800489
RMSE del modelo: 40.02970873393434


In [17]:
# Preparación para el cálculo de ganancias
# Almacena valores clave
budget = 100000000  # Presupuesto en dólares
wells_to_drill = 200  # Número de pozos a perforar
income_per_unit = 4500  # Ingreso por unidad de producto en dólares

In [18]:
# Calcula el valor mínimo por pozo para evitar pérdidas en unidades de producto
min_value_per_well = budget / wells_to_drill / income_per_unit
print(f"Valor mínimo por pozo para evitar pérdidas: {min_value_per_well:.2f} unidades de producto")

Valor mínimo por pozo para evitar pérdidas: 111.11 unidades de producto


In [19]:
# Compara el valor mínimo con el volumen medio de reservas en cada región
# Obtiene el volumen medio de reservas para cada región
mean_volume_0 = geo_data_0_df['product'].mean()
mean_volume_1 = geo_data_1_df['product'].mean()
mean_volume_2 = geo_data_2_df['product'].mean()

# Imprime los resultados
print(f"Volumen medio de reservas en geo_data_0.csv: {mean_volume_0:.2f}")
print(f"Volumen medio de reservas en geo_data_1.csv: {mean_volume_1:.2f}")
print(f"Volumen medio de reservas en geo_data_2.csv: {mean_volume_2:.2f}")

Volumen medio de reservas en geo_data_0.csv: 92.50
Volumen medio de reservas en geo_data_1.csv: 68.83
Volumen medio de reservas en geo_data_2.csv: 95.00


In [20]:
# Compara con el valor mínimo por pozo
if mean_volume_0 > min_value_per_well:
    print("La región geo_data_0 es adecuada para la inversión.")
else:
    print("La región geo_data_0 no es adecuada para la inversión.")

if mean_volume_1 > min_value_per_well:
    print("La región geo_data_1 es adecuada para la inversión.")
else:
    print("La región geo_data_1 no es adecuada para la inversión.")

if mean_volume_2 > min_value_per_well:
    print("La región geo_data_2 es adecuada para la inversión.")
else:
    print("La región geo_data_2 no es adecuada para la inversión.")

La región geo_data_0 no es adecuada para la inversión.
La región geo_data_1 no es adecuada para la inversión.
La región geo_data_2 no es adecuada para la inversión.


In [21]:
# Conclusiones sobre la preparación para el cálculo de ganancias
print("Conclusiones sobre la preparación para el cálculo de ganancias:")
if mean_volume_0 >= min_value_per_well and mean_volume_1 >= min_value_per_well and mean_volume_2 >= min_value_per_well:
    print("Todas las regiones cumplen con el valor mínimo por pozo para evitar pérdidas.")
else:
    print("Al menos una región no cumple con el valor mínimo por pozo para evitar pérdidas.")

Conclusiones sobre la preparación para el cálculo de ganancias:
Al menos una región no cumple con el valor mínimo por pozo para evitar pérdidas.


In [22]:
# Cálculo de ganancias y riesgos
# Función para calcular ganancias y riesgos

def calculate_profit(predictions, wells_to_drill, income_per_unit, target_valid, budget):
    # Ordena las predicciones de mayor a menor
    sorted_indices = np.argsort(predictions)[::-1]

    # Selecciona las primeras 'wells_to_drill' predicciones
    selected_indices = sorted_indices[:wells_to_drill]

    # Obtiene los valores reales (target) correspondientes a las predicciones seleccionadas
    selected_target = target_valid.iloc[selected_indices]

    # Calcula el volumen total de reservas en barriles
    total_volume = np.sum(selected_target)

    # Calcula las ganancias
    total_income = total_volume * income_per_unit
    total_expenses = budget
    total_profit = total_income - total_expenses

    return total_profit, total_volume

In [23]:
# Calcula ganancias y riesgos para cada región
# Calcula ganancias y riesgos para geo_data_0
profit_0, target_volume_0 = calculate_profit(predictions_0, wells_to_drill, income_per_unit, target_valid_0, budget)

# Calcula ganancias y riesgos para geo_data_1
profit_1, target_volume_1 = calculate_profit(predictions_1, wells_to_drill, income_per_unit, target_valid_1, budget)

# Calcula ganancias y riesgos para geo_data_2
profit_2, target_volume_2 = calculate_profit(predictions_2, wells_to_drill, income_per_unit, target_valid_2, budget)

# Muestra los resultados
print(f"Ganancia potencial en geo_data_0: ${profit_0:.2f} (Volumen objetivo: {target_volume_0:.2f} barriles)")
print(f"Ganancia potencial en geo_data_1: ${profit_1:.2f} (Volumen objetivo: {target_volume_1:.2f} barriles)")
print(f"Ganancia potencial en geo_data_2: ${profit_2:.2f} (Volumen objetivo: {target_volume_2:.2f} barriles)")

Ganancia potencial en geo_data_0: $33208260.43 (Volumen objetivo: 29601.84 barriles)
Ganancia potencial en geo_data_1: $24150866.97 (Volumen objetivo: 27589.08 barriles)
Ganancia potencial en geo_data_2: $27103499.64 (Volumen objetivo: 28245.22 barriles)


In [24]:
# Aplica bootstrapping para encontrar distribución del beneficio
# Variable para la cantidad deseada de pozos en la muestra
desired_wells_to_sample = 500

# Aplica bootstrapping para encontrar la distribución del beneficio
def bootstrap(data_valid, predictions, desired_wells_to_sample, income_per_unit, budget, iterations=1000):
    profits = []

    for i in range(iterations):
        # Resetear el índice del conjunto de validación antes del muestreo
        data_valid = data_valid.reset_index(drop=True)

        # Toma una muestra aleatoria del conjunto de validación
        sampled_data = data_valid.sample(n=desired_wells_to_sample, replace=True, random_state=i)

        # Toma la submuestra del target_valid y las predicciones
        sampled_targets = sampled_data['product']

        # Selecciona las filas correspondientes de las predicciones
        sampled_predictions = predictions[sampled_data.index]

        # Calcula el beneficio para la submuestra utilizando la función calculate_profit
        profit, _ = calculate_profit(sampled_predictions, 200, income_per_unit, sampled_targets, budget)
        profits.append(profit)

    # Convierte la lista de beneficios en una serie de pandas y devuélvela
    return pd.Series(profits)

In [25]:
# Aplica bootstrapping para los DataFrames
# Dividir el conjunto de datos original en entrenamiento y validación
train_geo_data_0, geo_data_0_df_valid = train_test_split(geo_data_0_df, test_size=0.25, random_state=12345)
train_geo_data_1, geo_data_1_df_valid = train_test_split(geo_data_1_df, test_size=0.25, random_state=12345)
train_geo_data_2, geo_data_2_df_valid = train_test_split(geo_data_2_df, test_size=0.25, random_state=12345)

In [26]:
# Aplica bootstrapping para los DataFrames
profits_0 = bootstrap(geo_data_0_df_valid, predictions_0, desired_wells_to_sample, income_per_unit, budget)
profits_1 = bootstrap(geo_data_1_df_valid, predictions_1, desired_wells_to_sample, income_per_unit, budget)
profits_2 = bootstrap(geo_data_2_df_valid, predictions_2, desired_wells_to_sample, income_per_unit, budget)

In [27]:
# Calcula las estadísticas
mean_profit_0 = np.mean(profits_0)
confidence_interval_0 = np.percentile(profits_0, [2.5, 97.5])
risk_of_loss_0 = sum([1 for profit in profits_0 if profit < 0]) / len(profits_0) * 100

mean_profit_1 = np.mean(profits_1)
confidence_interval_1 = np.percentile(profits_1, [2.5, 97.5])
risk_of_loss_1 = sum([1 for profit in profits_1 if profit < 0]) / len(profits_1) * 100

mean_profit_2 = np.mean(profits_2)
confidence_interval_2 = np.percentile(profits_2, [2.5, 97.5])
risk_of_loss_2 = sum([1 for profit in profits_2 if profit < 0]) / len(profits_2) * 100

In [28]:
# Muestra resultados del bootstrapping para geo_data_0
print("Resultados del bootstrapping para geo_data_0:")
print(f"Ganancia promedio: ${mean_profit_0:.2f}")
print(f"Intervalo de confianza del 95%: ${confidence_interval_0[0]:.2f} - ${confidence_interval_0[1]:.2f}")
print(f"Riesgo de pérdidas: {risk_of_loss_0:.2f}%")

Resultados del bootstrapping para geo_data_0:
Ganancia promedio: $3883450.43
Intervalo de confianza del 95%: $-998680.30 - $8773652.89
Riesgo de pérdidas: 6.60%


In [29]:
# Muestra resultados del bootstrapping para geo_data_1
print("Resultados del bootstrapping para geo_data_1:")
print(f"Ganancia promedio: ${mean_profit_1:.2f}")
print(f"Intervalo de confianza del 95%: ${confidence_interval_1[0]:.2f} - ${confidence_interval_1[1]:.2f}")
print(f"Riesgo de pérdidas: {risk_of_loss_1:.2f}%")

Resultados del bootstrapping para geo_data_1:
Ganancia promedio: $4573215.71
Intervalo de confianza del 95%: $502583.70 - $8723271.30
Riesgo de pérdidas: 1.70%


In [30]:
# Muestra resultados del bootstrapping para geo_data_2
print("Resultados del bootstrapping para geo_data_2:")
print(f"Ganancia promedio: ${mean_profit_2:.2f}")
print(f"Intervalo de confianza del 95%: ${confidence_interval_2[0]:.2f} - ${confidence_interval_2[1]:.2f}")
print(f"Riesgo de pérdidas: {risk_of_loss_2:.2f}%")

Resultados del bootstrapping para geo_data_2:
Ganancia promedio: $3875514.95
Intervalo de confianza del 95%: $-955100.56 - $8813186.76
Riesgo de pérdidas: 6.50%
