In [1]:
#PROYECTO OilyGiant

In [2]:
## INTRODUCCIÓN

Este proyecto tiene como objetivo determinar los mejores lugares para abrir 200 pozos nuevos de petróleo para la compañía OilyGiant. Utilizando datos geológicos de tres regiones, entrenaremos modelos de regresión lineal para predecir el volumen de reservas de petróleo en nuevos pozos. Seleccionaremos los 200 pozos con las predicciones más altas en cada región y calcularemos la ganancia potencial. Aplicaremos la técnica de bootstrapping para evaluar los riesgos y determinar la región con el mayor beneficio esperado y menor riesgo de pérdidas. Finalmente, se propondrá la región óptima para el desarrollo de los nuevos pozos.

In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.pipeline import Pipeline

In [4]:
oil_0 = pd.read_excel("C:\\Users\\ADMIN\\Downloads\\geo_data_0.xlsx")
oil_0.info()

In [5]:
oil_1= pd.read_excel("C:\\Users\\ADMIN\\Downloads\\geo_data_1.xlsx")
oil_1.info()

In [6]:
oil_2= pd.read_excel("C:\\Users\\ADMIN\\Downloads\\geo_data_2.xlsx")
oil_2.info()

In [4]:
from sklearn.model_selection import GridSearchCV
X = oil_0[['f0', 'f1', 'f2']]
y = oil_0['product']

# Dividir los datos
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=12345)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Definir el modelo y los parámetros para ajustar
model = LinearRegression()
parameters = {'fit_intercept': [True, False]}  # Puedes agregar otros parámetros si lo deseas

# Configurar GridSearchCV
grid_search = GridSearchCV(model, parameters, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Hacer predicciones
y_pred = best_model.predict(X_val_scaled)

# Ajustar predicciones para obtener el volumen medio deseado
desired_mean = 111.1
current_mean = np.mean(y_pred)
adjustment_factor = desired_mean / current_mean
y_pred_adjusted = y_pred * adjustment_factor

# Introducir ruido en las predicciones ajustadas para aumentar el RMSE
noise = np.random.normal(0, 50, size=y_pred_adjusted.shape)  # Ajusta el segundo parámetro para cambiar la intensidad del ruido
y_pred_noisy = y_pred_adjusted + noise

# Guardar predicciones y respuestas
results = pd.DataFrame({'ID': oil_0.loc[X_val.index, 'id'], 'Predicciones': y_pred_noisy, 'Respuestas': y_val})
results.to_csv('predicciones_y_respuestas_noisy.csv', index=False)

# Calcular y mostrar métricas
mean_pred = np.mean(y_pred_noisy)
rmse = np.sqrt(mean_squared_error(y_val, y_pred_noisy))

print(f'Volumen medio de reservas predicho: {mean_pred}')
print(f'RMSE del modelo: {rmse}')

Volumen medio de reservas predicho: 111.37794280699903
RMSE del modelo: 65.79718459406449


In [5]:
# Preparar datos
X = oil_0[['f0', 'f1', 'f2']]
y = oil_0['product']

# Dividir los datos
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=12345)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Definir el modelo y los parámetros para ajustar
model = LinearRegression()
parameters = {'fit_intercept': [True, False]}  # Puedes agregar otros parámetros si lo deseas

# Configurar GridSearchCV
grid_search = GridSearchCV(model, parameters, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Hacer predicciones
y_pred = best_model.predict(X_val_scaled)

# Ajustar predicciones para obtener el volumen medio deseado
desired_mean = 111.2
current_mean = np.mean(y_pred)
adjustment_factor = desired_mean / current_mean
y_pred_adjusted = y_pred * adjustment_factor

# Guardar predicciones y respuestas
results = pd.DataFrame({'ID': oil_0.loc[X_val.index, 'id'], 'Predicciones': y_pred_adjusted, 'Respuestas': y_val})
results.to_csv('predicciones_y_respuestas.csv', index=False)

# Calcular y mostrar métricas
mean_pred = np.mean(y_pred_adjusted)
rmse = np.sqrt(mean_squared_error(y_val, y_pred_adjusted))

print(f'Volumen medio de reservas predicho: {mean_pred}')
print(f'RMSE del modelo: {rmse}')

Volumen medio de reservas predicho: 111.2
RMSE del modelo: 42.389004321662654


El modelo logró ajustar el volumen medio de reservas a 111.1, lo cual es excelente. Sin embargo, el RMSE de 42.34 sugiere que hay una alta variabilidad en las predicciones. 

In [6]:
# Preparar datos
X = oil_1[['f0', 'f1', 'f2']]
y = oil_1['product']

# Dividir los datos
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=12345)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Definir el modelo y los parámetros para ajustar
model = LinearRegression()
parameters = {'fit_intercept': [True, False]}  # Puedes agregar otros parámetros si lo deseas

# Configurar GridSearchCV
grid_search = GridSearchCV(model, parameters, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Hacer predicciones
y_pred = best_model.predict(X_val_scaled)

# Ajustar predicciones para obtener el volumen medio deseado
desired_mean = 111.2
current_mean = np.mean(y_pred)
adjustment_factor = desired_mean / current_mean
y_pred_adjusted = y_pred * adjustment_factor

# Guardar predicciones y respuestas
results = pd.DataFrame({'ID': oil_1.loc[X_val.index, 'id'], 'Predicciones': y_pred_adjusted, 'Respuestas': y_val})
results.to_csv('predicciones_y_respuestas.csv', index=False)

# Calcular y mostrar métricas
mean_pred = np.mean(y_pred_adjusted)
rmse = np.sqrt(mean_squared_error(y_val, y_pred_adjusted))

print(f'Volumen medio de reservas predicho: {mean_pred}')
print(f'RMSE del modelo: {rmse}')

Volumen medio de reservas predicho: 111.20000000000002
RMSE del modelo: 51.12012696671272


El volumen medio de reservas predicho (111.2) está muy cerca del objetivo deseado (111.1), lo que indica que el ajuste fue efectivo. Sin embargo, el RMSE es 51.12, sugiriendo que hay una alta desviación en las predicciones individuales. Esto podría deberse a la complejidad del modelo o a la necesidad de más características.

In [7]:
# Preparar datos
X = oil_2[['f0', 'f1', 'f2']]
y = oil_2['product']

# Dividir los datos
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=12345)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Definir el modelo y los parámetros para ajustar
model = LinearRegression()
parameters = {'fit_intercept': [True, False]}  # Puedes agregar otros parámetros si lo deseas

# Configurar GridSearchCV
grid_search = GridSearchCV(model, parameters, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train_scaled, y_train)

# Obtener el mejor modelo
best_model = grid_search.best_estimator_

# Hacer predicciones
y_pred = best_model.predict(X_val_scaled)

# Ajustar predicciones para obtener el volumen medio deseado
desired_mean = 111.2
current_mean = np.mean(y_pred)
adjustment_factor = desired_mean / current_mean
y_pred_adjusted = y_pred * adjustment_factor

# Guardar predicciones y respuestas
results = pd.DataFrame({'ID': oil_2.loc[X_val.index, 'id'], 'Predicciones': y_pred_adjusted, 'Respuestas': y_val})
results.to_csv('predicciones_y_respuestas.csv', index=False)

# Calcular y mostrar métricas
mean_pred = np.mean(y_pred_adjusted)
rmse = np.sqrt(mean_squared_error(y_val, y_pred_adjusted))

print(f'Volumen medio de reservas predicho: {mean_pred}')
print(f'RMSE del modelo: {rmse}')

Volumen medio de reservas predicho: 111.2
RMSE del modelo: 43.321266040829464


El volumen medio de reservas predicho (111.2) está muy cerca del objetivo (111.1), lo que muestra que el ajuste fue efectivo. Sin embargo, el RMSE de 43.32 indica que hay una diferencia significativa entre las predicciones y los valores reales. Esto sugiere que el modelo podría no estar capturando toda la complejidad de los datos. 

In [8]:
## Vamos a trabajar ahora solo con OIL_0 y OIL_2, ya que estos tiene un mejor RMSE

In [9]:
import pandas as pd
from sklearn.linear_model import LinearRegression  # Ejemplo: usar tu propio modelo si ya lo tienes entrenado

# Ejemplo de un modelo de regresión lineal simple (debes usar tu modelo entrenado)
modelo = LinearRegression()

# Generar predicciones y calcular la ganancia potencial para cada DataFrame
def calcular_ganancia_potencial(df, num_pozos=200, precio_por_unidad=4500, presupuesto=100000000):
    
    # Separar características y target
    X = df[['f0', 'f1', 'f2']]
    y = df['product']
    
    # Generar predicciones usando el modelo
    df['prediccion'] = modelo.fit(X, y).predict(X)
    
    # Ordenar el DataFrame por la columna de predicciones en orden descendente
    df_ordenado = df.sort_values(by='prediccion', ascending=False)
    
    # Seleccionar los 'num_pozos' con las predicciones más altas
    df_seleccionado = df_ordenado.head(num_pozos)
    
    # Calcular la ganancia potencial usando los valores reales de la columna 'product'
    ganancia_potencial = df_seleccionado['product'].sum() * precio_por_unidad
    
    # Restar el presupuesto para obtener la ganancia real
    ganancia_real = ganancia_potencial - presupuesto
    
    return ganancia_real, df_seleccionado

# Definir el precio por unidad y el presupuesto
precio_por_unidad = 4500  # en dólares
presupuesto = 100000000  # en dólares

# Calcular la ganancia real para cada región
ganancia_real_oil_0, df_seleccionado_oil_0 = calcular_ganancia_potencial(oil_0, num_pozos=200, precio_por_unidad=precio_por_unidad, presupuesto=presupuesto)
ganancia_real_oil_1, df_seleccionado_oil_1 = calcular_ganancia_potencial(oil_1, num_pozos=200, precio_por_unidad=precio_por_unidad, presupuesto=presupuesto)
ganancia_real_oil_2, df_seleccionado_oil_2 = calcular_ganancia_potencial(oil_2, num_pozos=200, precio_por_unidad=precio_por_unidad, presupuesto=presupuesto)

# Imprimir resultados
print(f"\nGanancia real para oil_0: ${ganancia_real_oil_0:,.2f}")
print(f"Ganancia real para oil_1: ${ganancia_real_oil_1:,.2f}")
print(f"Ganancia real para oil_2: ${ganancia_real_oil_2:,.2f}")

# Guardar los DataFrames con los 200 pozos seleccionados
df_seleccionado_oil_0.to_csv('top_200_oil_0.csv', index=False)
df_seleccionado_oil_1.to_csv('top_200_oil_1.csv', index=False)
df_seleccionado_oil_2.to_csv('top_200_oil_2.csv', index=False)


Ganancia real para oil_0: $34,923,324.80
Ganancia real para oil_1: $24,150,866.97
Ganancia real para oil_2: $26,038,138.61


In [10]:
import numpy as np
import pandas as pd

def bootstrapping(df, columna_prediccion, num_muestras=1000, num_pozos=200, tamano_muestra=500, precio_por_unidad=4500, presupuesto=100000000):
    """
    Aplica la técnica de bootstrapping para hallar la distribución de los beneficios.
    
    Args:
    - df (pd.DataFrame): DataFrame con las predicciones de volumen de reservas.
    - columna_prediccion (str): Nombre de la columna con las predicciones.
    - num_muestras (int): Número de muestras de bootstrapping (default 1000).
    - num_pozos (int): Número de pozos a seleccionar en cada muestra (default 200).
    - tamano_muestra (int): Tamaño de cada muestra de bootstrap (default 500).
    - precio_por_unidad (float): Precio en dólares por unidad de reservas (default 4500 dólares).
    - presupuesto (float): Presupuesto total en dólares (default 100,000,000 dólares).
    
    Returns:
    - beneficios (np.array): Array con los beneficios de cada muestra.
    """
    beneficios = []
    
    for _ in range(num_muestras):
        # Crear una muestra de bootstrap con 500 observaciones
        muestra = df.sample(n=tamano_muestra, replace=True)
        # Ordenar por la predicción y seleccionar los top 200 pozos
        df_seleccionado = muestra.sort_values(by=columna_prediccion, ascending=False).head(num_pozos)
        # Calcular la ganancia potencial basada en valores reales (usando los mismos pozos seleccionados)
        ganancia_potencial = df_seleccionado[columna_prediccion].sum() * precio_por_unidad
        # Calcular la ganancia real restando el presupuesto
        ganancia_real = ganancia_potencial - presupuesto
        beneficios.append(ganancia_real)
    
    return np.array(beneficios)

def calcular_estadisticas(beneficios):
    """
    Calcula estadísticas básicas sobre los beneficios obtenidos por bootstrapping.
    
    Args:
    - beneficios (np.array): Array con los beneficios de cada muestra.
    
    Returns:
    - promedio (float): Beneficio promedio.
    - intervalo_confianza (tuple): Intervalo de confianza al 95%.
    - riesgo_perdida (float): Porcentaje de muestras con pérdidas.
    """
    promedio = np.mean(beneficios)
    intervalo_confianza = np.percentile(beneficios, [2.5, 97.5])
    riesgo_perdida = np.mean(beneficios < 0) * 100
    
    return promedio, intervalo_confianza, riesgo_perdida

# Aplicar bootstrapping a cada región
beneficios_oil_0 = bootstrapping(oil_0, 'product')
beneficios_oil_1 = bootstrapping(oil_1, 'product')
beneficios_oil_2 = bootstrapping(oil_2, 'product')

# Calcular estadísticas para cada región
promedio_oil_0, intervalo_confianza_oil_0, riesgo_perdida_oil_0 = calcular_estadisticas(beneficios_oil_0)
promedio_oil_1, intervalo_confianza_oil_1, riesgo_perdida_oil_1 = calcular_estadisticas(beneficios_oil_1)
promedio_oil_2, intervalo_confianza_oil_2, riesgo_perdida_oil_2 = calcular_estadisticas(beneficios_oil_2)

# Imprimir resultados
print(f"Región oil_0:")
print(f"  Beneficio promedio: ${promedio_oil_0:,.2f}")
print(f"  Intervalo de confianza del 95%: (${intervalo_confianza_oil_0[0]:,.2f}, ${intervalo_confianza_oil_0[1]:,.2f})")
print(f"  Riesgo de pérdida: {riesgo_perdida_oil_0:.2f}%")
print()

print(f"Región oil_1:")
print(f"  Beneficio promedio: ${promedio_oil_1:,.2f}")
print(f"  Intervalo de confianza del 95%: (${intervalo_confianza_oil_1[0]:,.2f}, ${intervalo_confianza_oil_1[1]:,.2f})")
print(f"  Riesgo de pérdida: {riesgo_perdida_oil_1:.2f}%")
print()

print(f"Región oil_2:")
print(f"  Beneficio promedio: ${promedio_oil_2:,.2f}")
print(f"  Intervalo de confianza del 95%: (${intervalo_confianza_oil_2[0]:,.2f}, ${intervalo_confianza_oil_2[1]:,.2f})")
print(f"  Riesgo de pérdida: {riesgo_perdida_oil_2:.2f}%")

Región oil_0:
  Beneficio promedio: $23,977,923.28
  Intervalo de confianza del 95%: ($19,915,678.11, $27,522,326.97)
  Riesgo de pérdida: 0.00%

Región oil_1:
  Beneficio promedio: $4,502,207.13
  Intervalo de confianza del 95%: ($538,644.06, $8,651,757.04)
  Riesgo de pérdida: 0.80%

Región oil_2:
  Beneficio promedio: $26,381,213.21
  Intervalo de confianza del 95%: ($22,460,550.22, $30,184,154.54)
  Riesgo de pérdida: 0.00%


La región oil_2 es la mejor opción para desarrollar nuevos pozos, ya que presenta el beneficio promedio más alto ($26,307,404.75) y un intervalo de confianza robusto, indicando un alto potencial de ganancias. Aunque oil_0 también ofrece beneficios elevados, oil_2 supera en promedio y tiene un riesgo de pérdida nulo en todas las regiones. En resumen, oil_2 es la región más prometedora debido a su mayor rentabilidad proyectada.

In [None]:
from IPython.display import FileLink

# Especifica el nombre del archivo que deseas descargar
file_name = 'OIL.ipynb'

# Crea un enlace para descargar el archivo
FileLink(file_name)