<b>¡Hola Marcelo!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Antención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que deberás atender para aprobar la revisión.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Es factible que, a lo largo del proceso de revisión, quieras dejarme comentarios. Si es el caso, por favor realízalo dentro de celdas azules como esta.
</div>
Respecto del proceso de revisión, tu proyecto será aceptado una vez que los comentarios en rojo hayan sido atendidos.
¡Empecemos!

______________


# Índice del Proyecto
1. **Introducción y Carga de Datos**
2. **Análisis Exploratorio de Datos**
3. **Preparación de los Datos**
4. **Entrenamiento de Modelos**
5. **Cálculo de Ganancias y Evaluación**
6. **Análisis de Riesgo con Bootstrapping**
7. **Conclusiones Finales y Recomendaciones**



# Introducción y Carga de Datos

## Descripción del Proyecto
Trabajas en la compañía de extracción de petróleo **OilyGiant**. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo en tres regiones disponibles.


In [10]:

# Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt



In [11]:
# Cargar los datos de cada región
geo_data_0 = pd.read_csv('geo_data_0.csv')
geo_data_1 = pd.read_csv('geo_data_1.csv')
geo_data_2 = pd.read_csv('geo_data_2.csv')



In [12]:
# Mostrar las primeras filas de cada conjunto de datos
display(geo_data_0.head())
display(geo_data_1.head())
display(geo_data_2.head())


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



# Análisis Exploratorio de Datos
Analizaremos las estadísticas descriptivas de cada región para entender la distribución de las características y del volumen de producto.


<div class="alert alert-block alert-warning"> <b>Atención</b> <a class="tocSkip"></a> Sugiero añadir visualizaciones (histogramas y gráficos de dispersión) para observar mejor la distribución de los datos y la relación entre características. </div>

In [13]:

# Resumen estadístico de cada conjunto de datos
display(geo_data_0.describe())
display(geo_data_1.describe())
display(geo_data_2.describe())


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838



# Preparación de los Datos
Dividimos los datos en conjuntos de entrenamiento y validación en una proporción 75:25 para cada región.


In [14]:

# División de los datos en conjuntos de entrenamiento y validación
def split_data(data):
    features = data.drop(['id', 'product'], axis=1)
    target = data['product']
    return train_test_split(features, target, test_size=0.25, random_state=42)

# Aplicar la división a cada conjunto de datos
X_train_0, X_valid_0, y_train_0, y_valid_0 = split_data(geo_data_0)
X_train_1, X_valid_1, y_train_1, y_valid_1 = split_data(geo_data_1)
X_train_2, X_valid_2, y_train_2, y_valid_2 = split_data(geo_data_2)


<div class="alert alert-block alert-success"> <b>Éxito</b> <a class="tocSkip"></a> Bien por eliminar la columna `id` ya que no es útil para el modelo de predicción. </div>


# Entrenamiento de Modelos
Entrenaremos un modelo de regresión lineal para cada región y evaluaremos el rendimiento utilizando el RMSE.


In [15]:
# Función para entrenar un modelo de regresión lineal y calcular el RMSE
def train_model(X_train, y_train, X_valid, y_valid):
    # Entrenamiento del modelo
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Predicción para el conjunto de validación
    predictions = model.predict(X_valid)
    
    # Cálculo del RMSE
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    return model, predictions, rmse

# Entrenar el modelo para cada región
model_0, predictions_0, rmse_0 = train_model(X_train_0, y_train_0, X_valid_0, y_valid_0)
model_1, predictions_1, rmse_1 = train_model(X_train_1, y_train_1, X_valid_1, y_valid_1)
model_2, predictions_2, rmse_2 = train_model(X_train_2, y_train_2, X_valid_2, y_valid_2)

# Mostrar los resultados de RMSE e interpretar
print(f"RMSE Región 0: {rmse_0:.2f} - Esto indica la desviación promedio de las predicciones en la Región 0.")
print(f"RMSE Región 1: {rmse_1:.2f} - Esto indica la desviación promedio de las predicciones en la Región 1.")
print(f"RMSE Región 2: {rmse_2:.2f} - Esto indica la desviación promedio de las predicciones en la Región 2.")

# Interpretación de los resultados
if rmse_0 < rmse_1 and rmse_0 < rmse_2:
    print("El modelo tiene la mayor precisión en la Región 0.")
elif rmse_1 < rmse_0 and rmse_1 < rmse_2:
    print("El modelo tiene la mayor precisión en la Región 1.")
else:
    print("El modelo tiene la mayor precisión en la Región 2.")


RMSE Región 0: 37.76 - Esto indica la desviación promedio de las predicciones en la Región 0.
RMSE Región 1: 0.89 - Esto indica la desviación promedio de las predicciones en la Región 1.
RMSE Región 2: 40.15 - Esto indica la desviación promedio de las predicciones en la Región 2.
El modelo tiene la mayor precisión en la Región 1.




<div class="alert alert-block alert-warning"> <b>Atención</b> <a class="tocSkip"></a> Se recomienda interpretar los resultados de RMSE para evaluar la precisión del modelo en cada región. </div>


# Cálculo de Ganancias
Seleccionamos los 200 pozos con mayor volumen predicho y calculamos el beneficio total para cada región.


In [16]:

# Parámetros de costos y ganancias
BARRIL_COSTO = 100e6 / 200
BARRIL_INGRESO = 4.5 * 1000  # Ingreso en USD por mil barriles

# Función para calcular las ganancias
def calculate_profit(predictions, count=200):
    selected = np.sort(predictions)[-count:]
    return (selected.sum() * BARRIL_INGRESO) - (count * BARRIL_COSTO)

# Calcular ganancias para cada región
profit_0 = calculate_profit(predictions_0)
profit_1 = calculate_profit(predictions_1)
profit_2 = calculate_profit(predictions_2)

# Mostrar ganancias
print(f"Ganancia Región 0: ${profit_0:.2f}")
print(f"Ganancia Región 1: ${profit_1:.2f}")
print(f"Ganancia Región 2: ${profit_2:.2f}")


Ganancia Región 0: $38966584.80
Ganancia Región 1: $24869381.15
Ganancia Región 2: $33779815.14



# Análisis de Riesgo con Bootstrapping
Usaremos la técnica de bootstrapping para analizar el riesgo de pérdidas y el intervalo de confianza.


In [17]:
# Verificar las estadísticas de las predicciones
print("Predicciones Región 0:", pd.Series(predictions_0).describe())
print("Predicciones Región 1:", pd.Series(predictions_1).describe())
print("Predicciones Región 2:", pd.Series(predictions_2).describe())

# Comparar con las estadísticas reales de los datos
print("Valores Reales Región 0:", y_valid_0.describe())
print("Valores Reales Región 1:", y_valid_1.describe())
print("Valores Reales Región 2:", y_valid_2.describe())

# Verificar si las predicciones están por debajo del umbral necesario para evitar pérdidas
print("Volumen mínimo necesario para evitar pérdidas: 111.1 unidades")

# Calcular el porcentaje de pozos que están por debajo del valor crítico
critical_value = 111.1
print(f"Porcentaje de pozos por debajo del valor crítico en Región 0: {(predictions_0 < critical_value).mean() * 100:.2f}%")
print(f"Porcentaje de pozos por debajo del valor crítico en Región 1: {(predictions_1 < critical_value).mean() * 100:.2f}%")
print(f"Porcentaje de pozos por debajo del valor crítico en Región 2: {(predictions_2 < critical_value).mean() * 100:.2f}%")


Predicciones Región 0: count    25000.000000
mean        92.398800
std         23.217563
min         -9.836371
25%         76.788865
50%         92.414871
75%        108.036487
max        176.536104
dtype: float64
Predicciones Región 1: count    25000.000000
mean        68.712878
std         45.946672
min         -2.070621
25%         28.578501
50%         57.918041
75%        109.313612
max        139.983277
dtype: float64
Predicciones Región 2: count    25000.000000
mean        94.771024
std         19.927375
min         16.196849
25%         81.157678
50%         94.612618
75%        108.357649
max        170.529209
dtype: float64
Valores Reales Región 0: count    25000.000000
mean        92.325956
std         44.277512
min          0.021781
25%         56.300099
50%         90.785176
75%        128.117571
max        185.355615
Name: product, dtype: float64
Valores Reales Región 1: count    25000.000000
mean        68.725381
std         45.945586
min          0.000000
25%         30

In [18]:
# Simulación de bootstrapping con selección completamente aleatoria para capturar variabilidad real
def bootstrap_simulation_random(predictions, selected_pozos=500, samples=1000):
    """
    Realiza la simulación de bootstrapping seleccionando aleatoriamente `selected_pozos` de las predicciones
    sin aplicar ningún filtrado o umbral, reflejando así escenarios de bajo rendimiento.

    Parámetros:
    - predictions: Predicciones del volumen de reservas para los pozos en la región.
    - selected_pozos: Número de pozos seleccionados para el cálculo de beneficio.
    - samples: Número de iteraciones para la simulación.

    Retorna:
    - mean_profit: Beneficio promedio.
    - lower_bound: Límite inferior del intervalo de confianza (95%).
    - upper_bound: Límite superior del intervalo de confianza (95%).
    - risk: Probabilidad de pérdida (ganancia negativa).
    """
    values = []
    np.random.seed(42)  # Para reproducibilidad de resultados

    # Realizar el muestreo con reemplazo en cada iteración
    for _ in range(samples):
        # Selección aleatoria de pozos con reemplazo de toda la población
        sample = np.random.choice(predictions, size=selected_pozos, replace=True)
        
        # Calcular la ganancia de la muestra
        profit = calculate_profit(sample)
        values.append(profit)

    # Convertir a array para análisis estadístico
    values = np.array(values)
    mean_profit = values.mean()
    lower_bound = np.percentile(values, 2.5)
    upper_bound = np.percentile(values, 97.5)
    risk = (values < 0).mean()  # Proporción de muestras con pérdida

    return mean_profit, lower_bound, upper_bound, risk

# Aplicar la nueva simulación aleatoria a cada región para evaluar el riesgo real
mean_0_rand, lb_0_rand, ub_0_rand, risk_0_rand = bootstrap_simulation_random(predictions_0, selected_pozos=500)
mean_1_rand, lb_1_rand, ub_1_rand, risk_1_rand = bootstrap_simulation_random(predictions_1, selected_pozos=500)
mean_2_rand, lb_2_rand, ub_2_rand, risk_2_rand = bootstrap_simulation_random(predictions_2, selected_pozos=500)

# Mostrar resultados con la simulación aleatoria
print(f"Región 0 (Aleatorio) - Beneficio Medio: ${mean_0_rand:.2f}, Intervalo: (${lb_0_rand:.2f}, ${ub_0_rand:.2f}), Riesgo: {risk_0_rand:.2%}")
print(f"Región 1 (Aleatorio) - Beneficio Medio: ${mean_1_rand:.2f}, Intervalo: (${lb_1_rand:.2f}, ${ub_1_rand:.2f}), Riesgo: {risk_1_rand:.2%}")
print(f"Región 2 (Aleatorio) - Beneficio Medio: ${mean_2_rand:.2f}, Intervalo: (${lb_2_rand:.2f}, ${ub_2_rand:.2f}), Riesgo: {risk_2_rand:.2%}")


Región 0 (Aleatorio) - Beneficio Medio: $3314833.09, Intervalo: ($1054250.47, $5552614.92), Riesgo: 0.30%
Región 1 (Aleatorio) - Beneficio Medio: $4498562.87, Intervalo: ($639316.95, $8525087.77), Riesgo: 1.60%
Región 2 (Aleatorio) - Beneficio Medio: $2686884.18, Intervalo: ($766596.99, $4776784.83), Riesgo: 0.30%


<div class="alert alert-block alert-danger"> <b>A resolver</b> <a class="tocSkip"></a> 

Hay algo raro aquí. Parece que tus simulaciones con bootstrapping están seleccionando pozos **demasiado optimistas**, basados solo en predicciones altas, lo que no refleja escenarios de pérdidas.

Asegúrate de que las muestras de pozos incluyan variabilidad suficiente y reflejen escenarios de bajo rendimiento.

No deberias obtener riesgo 0. 
    
</div>


# Conclusiones Finales y Recomendaciones
Proponemos abrir los nuevos pozos en la región con mayor estabilidad y retorno de inversión.
