
# Índice del Proyecto
1. **Introducción y Carga de Datos**
2. **Análisis Exploratorio de Datos**
3. **Preparación de los Datos**
4. **Entrenamiento de Modelos**
5. **Cálculo de Ganancias y Evaluación**
6. **Análisis de Riesgo con Bootstrapping**
7. **Conclusiones Finales y Recomendaciones**



# Introducción y Carga de Datos

## Descripción del Proyecto
Trabajas en la compañía de extracción de petróleo **OilyGiant**. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo en tres regiones disponibles.


In [1]:

# Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt



In [2]:
# Cargar los datos de cada región
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')



In [3]:
# Mostrar las primeras filas de cada conjunto de datos
display(geo_data_0.head())
display(geo_data_1.head())
display(geo_data_2.head())


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



# Análisis Exploratorio de Datos
Analizaremos las estadísticas descriptivas de cada región para entender la distribución de las características y del volumen de producto.


In [4]:

# Resumen estadístico de cada conjunto de datos
display(geo_data_0.describe())
display(geo_data_1.describe())
display(geo_data_2.describe())


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838



# Preparación de los Datos
Dividimos los datos en conjuntos de entrenamiento y validación en una proporción 75:25 para cada región.


In [5]:

# División de los datos en conjuntos de entrenamiento y validación
def split_data(data):
    features = data.drop(['id', 'product'], axis=1)
    target = data['product']
    return train_test_split(features, target, test_size=0.25, random_state=42)

# Aplicar la división a cada conjunto de datos
X_train_0, X_valid_0, y_train_0, y_valid_0 = split_data(geo_data_0)
X_train_1, X_valid_1, y_train_1, y_valid_1 = split_data(geo_data_1)
X_train_2, X_valid_2, y_train_2, y_valid_2 = split_data(geo_data_2)



# Entrenamiento de Modelos
Entrenaremos un modelo de regresión lineal para cada región y evaluaremos el rendimiento utilizando el RMSE.


In [6]:

# Función para entrenar un modelo de regresión lineal y calcular el RMSE
def train_model(X_train, y_train, X_valid, y_valid):
    model = LinearRegression()
    model.fit(X_train, y_train)
    predictions = model.predict(X_valid)
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    return model, predictions, rmse

# Entrenar el modelo para cada región
model_0, predictions_0, rmse_0 = train_model(X_train_0, y_train_0, X_valid_0, y_valid_0)
model_1, predictions_1, rmse_1 = train_model(X_train_1, y_train_1, X_valid_1, y_valid_1)
model_2, predictions_2, rmse_2 = train_model(X_train_2, y_train_2, X_valid_2, y_valid_2)

# Mostrar los resultados de RMSE
print(f"RMSE Región 0: {rmse_0:.2f}")
print(f"RMSE Región 1: {rmse_1:.2f}")
print(f"RMSE Región 2: {rmse_2:.2f}")


RMSE Región 0: 37.76
RMSE Región 1: 0.89
RMSE Región 2: 40.15





# Cálculo de Ganancias
Seleccionamos los 200 pozos con mayor volumen predicho y calculamos el beneficio total para cada región.


In [7]:

# Parámetros de costos y ganancias
BARRIL_COSTO = 100e6 / 200
BARRIL_INGRESO = 4.5 * 1000  # Ingreso en USD por mil barriles

# Función para calcular las ganancias
def calculate_profit(predictions, count=200):
    selected = np.sort(predictions)[-count:]
    return (selected.sum() * BARRIL_INGRESO) - (count * BARRIL_COSTO)

# Calcular ganancias para cada región
profit_0 = calculate_profit(predictions_0)
profit_1 = calculate_profit(predictions_1)
profit_2 = calculate_profit(predictions_2)

# Mostrar ganancias
print(f"Ganancia Región 0: ${profit_0:.2f}")
print(f"Ganancia Región 1: ${profit_1:.2f}")
print(f"Ganancia Región 2: ${profit_2:.2f}")


Ganancia Región 0: $38966584.80
Ganancia Región 1: $24869381.15
Ganancia Región 2: $33779815.14



# Análisis de Riesgo con Bootstrapping
Usaremos la técnica de bootstrapping para analizar el riesgo de pérdidas y el intervalo de confianza.


In [8]:

# Función de simulación bootstrapping
def bootstrap_simulation(predictions, samples=1000):
    values = []
    np.random.seed(42)
    for _ in range(samples):
        sample = np.random.choice(predictions, size=len(predictions), replace=True)
        values.append(calculate_profit(sample))
    values = np.array(values)
    mean_profit = values.mean()
    lower_bound = np.percentile(values, 2.5)
    upper_bound = np.percentile(values, 97.5)
    risk = (values < 0).mean()
    return mean_profit, lower_bound, upper_bound, risk

# Simulación de riesgo para cada región
mean_0, lb_0, ub_0, risk_0 = bootstrap_simulation(predictions_0)
mean_1, lb_1, ub_1, risk_1 = bootstrap_simulation(predictions_1)
mean_2, lb_2, ub_2, risk_2 = bootstrap_simulation(predictions_2)

# Mostrar resultados
print(f"Región 0 - Beneficio Medio: ${mean_0:.2f}, Intervalo: (${lb_0:.2f}, ${ub_0:.2f}), Riesgo: {risk_0:.2%}")
print(f"Región 1 - Beneficio Medio: ${mean_1:.2f}, Intervalo: (${lb_1:.2f}, ${ub_1:.2f}), Riesgo: {risk_1:.2%}")
print(f"Región 2 - Beneficio Medio: ${mean_2:.2f}, Intervalo: (${lb_2:.2f}, ${ub_2:.2f}), Riesgo: {risk_2:.2%}")


Región 0 - Beneficio Medio: $38908112.31, Intervalo: ($37716146.99, $40168891.46), Riesgo: 0.00%
Región 1 - Beneficio Medio: $24867852.21, Intervalo: ($24818446.35, $24920127.76), Riesgo: 0.00%
Región 2 - Beneficio Medio: $33761097.92, Intervalo: ($32732277.16, $34740689.31), Riesgo: 0.00%



# Conclusiones Finales y Recomendaciones
Proponemos abrir los nuevos pozos en la región con mayor estabilidad y retorno de inversión.
