# Hola Osvaldo! <a class="tocSkip"></a>

Mi nombre es Oscar Flores y tengo el gusto de revisar tu proyecto. Si tienes algún comentario que quieras agregar en tus respuestas te puedes referir a mi como Oscar, no hay problema que me trates de tú.

Si veo un error en la primera revisión solamente lo señalaré y dejaré que tú encuentres de qué se trata y cómo arreglarlo. Debo prepararte para que te desempeñes como especialista en Data, en un trabajo real, el responsable a cargo tuyo hará lo mismo. Si aún tienes dificultades para resolver esta tarea, te daré indicaciones más precisas en una siguiente iteración.

Te dejaré mis comentarios más abajo - **por favor, no los muevas, modifiques o borres**

Comenzaré mis comentarios con un resumen de los puntos que están bien, aquellos que debes corregir y aquellos que puedes mejorar. Luego deberás revisar todo el notebook para leer mis comentarios, los cuales estarán en rectángulos de color verde, amarillo o rojo como siguen:

<div class="alert alert-block alert-success">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>
    
Muy bien! Toda la respuesta fue lograda satisfactoriamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Existen detalles a mejorar. Existen recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Se necesitan correcciones en el bloque. El trabajo no puede ser aceptado con comentarios en rojo sin solucionar.
</div>

Cualquier comentario que quieras agregar entre iteraciones de revisión lo puedes hacer de la siguiente manera:

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
</div>

Mucho éxito en el proyecto!

## Resumen de la revisión 1 <a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Buen trabajo Osvaldo. En general tu notebook está muy bien y completo, pero hay un par de errores en los cálculos de ganancia y en el bootstrapping que impiden obtener los resultados correctos. Te dejé indicaciones de cómo corregirlos, revísalas y realiza las modificaciones necesarias.
    
Saludos!    

</div>

## Resumen de la revisión 2 <a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Bien hecho Osvaldo, tu notebook está casi terminado. Queda por corregiro un pequeño error en la ganancia y el bootstrapping, revisa los comentarios que dejé en esas secciones.
    
Saludos!    

</div>

## Resumen de la revisión 3 <a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Bien hecho, has completado correctamente todo lo necesario del notebook. No tengo comentarios de corrección adicionales, está aprobado.

Saludos!

</div>

----

# Proyecto de Predicción de Reservas: ¿Dónde invertir en nuevos pozos?

Este proyecto tiene como objetivo ayudar a una empresa petrolera a decidir en qué región abrir nuevos pozos. Para lograrlo, se analizaron datos geológicos de tres posibles ubicaciones.

La idea principal fue usar modelos de predicción para estimar el volumen de reservas en cada pozo, y luego calcular si invertir en esa región podría ser rentable.

A lo largo del análisis, se prepararon los datos, se entrenaron modelos de predicción y se evaluaron los posibles beneficios económicos. También se consideraron los riesgos financieros, con el fin de tomar una decisión basada en datos.

# IMPORTACIÓN DE LIBRERIAS Y DATASETS

In [1]:
# ======================
# IMPORTACIÓN DE LIBRERÍAS
# ======================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from numpy.random import RandomState

In [2]:
# Cargar datos de las tres regiones
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')



# EXPLORACIÓN DE DATOS

In [3]:
for i, data in enumerate([data_0, data_1, data_2]):
    print(f"--- Región {i}---")
    display(data.head())
    print()

--- Región 0---


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



--- Región 1---


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



--- Región 2---


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746





<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien al mostrar parte de la data, pero te recomiendo usar `display()` para mostrar un dataframe, da mejor formato de output que `print()`. Por ejemplo, en vez de usar `print(df.head())`, usa `display(df.head())`.

</div>

Las observaciones clave fueron las siguientes:

Estructura consistente en los tres datasets, cada uno con cinco columnas: id, f0, f1, f2, y product.

La columna id contiene un identificador único para cada pozo petrolero, en formato alfanumérico. No se utiliza en el entrenamiento del modelo, pero es útil para rastrear observaciones.

Las variables f0, f1 y f2 contienen valores numéricos continuos, que incluyen tanto números negativos como positivos, y parecen estar estandarizados o distribuidos alrededor de cero, lo cual es ideal para modelos de regresión lineal.

La columna product representa el volumen de reservas de cada pozo petrolero, medido en miles de barriles. Este valor será la variable objetivo para el modelo.

En resumen, los datos parecen estar correctamente formateados, no presentan problemas visibles de carga, y muestran una buena estructura inicial para proceder al análisis estadístico más profundo y la preparación del modelo.

In [4]:
# Verificar información general y estadísticas
for i, data in enumerate([data_0, data_1, data_2]):
    print(f"--- Región {i} ---")
    print(data.info())
    print()


--- Región 0 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

--- Región 1 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

--- Región 2 ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 t

Observaciones generales:
Cada conjunto contiene 100,000 filas y 5 columnas:

id (tipo object)

f0, f1, f2, product (tipo float64)

No hay columnas con valores nulos (Non-Null Count = 100000 en todas).

Los tres datasets presentan una estructura limpia y coherente, lo que permite avanzar directamente a la exploración estadística sin necesidad de limpieza de datos.

In [5]:
for i, data in enumerate([data_0, data_1, data_2]):
    print(f"--- Valores nulos en Región {i} ---")
    print(data.isna().sum())
    print()


--- Valores nulos en Región 0 ---
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

--- Valores nulos en Región 1 ---
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

--- Valores nulos en Región 2 ---
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64



Se utilizó esta función para contar la cantidad de valores faltantes por columna en cada uno de los tres conjuntos de datos.

Todas las columnas en las tres regiones presentan 0 valores nulos.

No se requiere aplicar técnicas de imputación o eliminación de registros incompletos.

Los datasets están completos y listos para el entrenamiento del modelo sin necesidad de limpieza adicional en este aspecto.

In [6]:
for i, data in enumerate([data_0, data_1, data_2]):
    print(f"--- Duplicados en Región {i} ---")
    print(f"Filas duplicadas: {data.duplicated().sum()}")
    print()


--- Duplicados en Región 0 ---
Filas duplicadas: 0

--- Duplicados en Región 1 ---
Filas duplicadas: 0

--- Duplicados en Región 2 ---
Filas duplicadas: 0



Esta función ayuda a identificar si existen registros repetidos que podrían sesgar el entrenamiento del modelo.

En las tres regiones, la cantidad de filas duplicadas fue 0.

Cada fila representa una observación única.

No se requiere depuración para eliminar duplicados, lo cual valida que los datos están limpios y correctamente preparados para el análisis.

En conjunto, el análisis con isna() y duplicated() confirma que los datos no necesitan ningún tratamiento por limpieza estructural. Este es un indicador positivo de calidad de datos desde el inicio del proyecto.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Bien, correcto al mostrar un descripción inicial de la data

</div>

# ESTADÍSTICA PREDICTIVA 

In [7]:
for i, data in enumerate([data_0, data_1, data_2]):
    print(f"--- Estadísticas descriptivas de Región {i} ---")
    print(data.describe())
    print()


--- Estadísticas descriptivas de Región 0 ---
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         2.362331       1.343769      16.003790     185.364347

--- Estadísticas descriptivas de Región 1 ---
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        1.141296      -4.796579       2.494541      68.825000
std         8.965932       5.119872       1.703572      45.944423
min       -31.609576     -26.358598      -0.01814

Región 0
product tiene una media de ~92.5 y un rango de valores entre 0 y 185.36.

f0, f1 y f2 están distribuidas de forma relativamente simétrica con medias cercanas a 0 y desviaciones estándar moderadas.

No se observan valores extremos evidentes.

Región 1
product tiene una media significativamente más baja (~68.25) con una desviación estándar de 45.94, indicando alta dispersión.

f0 y f1 tienen rangos extremadamente amplios:

f0: desde -31.7 hasta 29.4

f1: desde -26.3 hasta 18.7

Estos valores sugieren presencia de outliers y una distribución muy dispersa.

Región 2
product tiene el valor promedio más alto (~95.0) y una mediana de ~94.2, lo que indica que la mayoría de los pozos tienen altos volúmenes de reservas.

f0, f1 y f2 tienen distribuciones más contenidas comparadas con la Región 1, aunque aún con presencia de algunos extremos.

Las estadísticas muestran una distribución más estable y centrada en comparación con la Región 1.

En resumen, la Región 2 muestra el mayor volumen promedio de reservas con una distribución más consistente, mientras que la Región 1 destaca por su alta variabilidad y posibles riesgos por datos extremos. Esto sugiere que Región 2 podría ser más predecible y rentable, aunque se debe confirmar con el modelado y análisis de ganancias.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Ok, bien con la descripción más en detalle

</div>

# PREPARACIÓN DEL MODELO PREDICTIVO

In [8]:
# Esta función entrena un modelo de regresión lineal, predice y calcula el RMSE


def train_and_validate(data):
    X = data.drop(columns=['product', 'id'])
    y = data['product']
    
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)
    
    model = LinearRegression()
    model.fit(X_train, y_train)
    predictions = model.predict(X_valid)
    
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    mean_predicted_volume = predictions.mean()
    
    return model, predictions, y_valid.reset_index(drop=True), rmse, mean_predicted_volume


Se definió una función personalizada llamada train_and_validate() para automatizar los siguientes pasos:

Separación de variables:

X: variables predictoras (f0, f1, f2)

y: variable objetivo (product)

Se excluyó la columna id por no aportar valor predictivo.

División del conjunto de datos:

Se dividieron los datos en entrenamiento (75%) y validación (25%) usando train_test_split con una semilla (random_state=42) para garantizar reproducibilidad.

In [9]:
results = []
for data in [data_0, data_1, data_2]:
    model, predictions, y_valid, rmse, mean_pred = train_and_validate(data)
    results.append((model, predictions, y_valid, rmse, mean_pred))

for i, (model, predictions, y_valid, rmse, mean_pred) in enumerate(results):
    print(f"Región {i}")
    print(f" - RMSE: {rmse:.2f}")
    print(f" - Media de predicciones: {mean_pred:.2f}\n")

Región 0
 - RMSE: 37.76
 - Media de predicciones: 92.40

Región 1
 - RMSE: 0.89
 - Media de predicciones: 68.71

Región 2
 - RMSE: 40.15
 - Media de predicciones: 94.77



Entrenamiento del modelo:

Se utilizó el algoritmo de LinearRegression de sklearn para ajustar el modelo a los datos de entrenamiento.

Predicciones y evaluación:

Se generaron predicciones sobre el conjunto de validación.

Se calculó el error cuadrático medio (RMSE) para evaluar el rendimiento.

También se almacenó el promedio de las predicciones, útil para estimar ganancias potenciales.





<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Por favor, muestra lo requerido, el RMSE y la media de los pozos predichos en cada región

</div>

<div class="alert alert-block alert-success">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Muy bien, correcto

</div>

Métrica usada: RMSE
El Root Mean Squared Error (RMSE) fue la métrica de evaluación elegida, ya que:

Penaliza fuertemente los errores grandes.

Se expresa en las mismas unidades que la variable objetivo (product, en miles de barriles).

Permite comparar el desempeño entre las tres regiones.

Ventajas del enfoque

Al encapsular el proceso en una función, se facilitó aplicar el mismo modelo a los tres datasets.

Este enfoque modular también permite reutilizar el código para modelos más complejos en el futuro.

In [10]:
threshold = 111.1

for i, (_, _, y_valid, _, _) in enumerate(results):
    mean_volume = y_valid.mean()
    print(f"Región {i} - Media de reservas reales: {mean_volume:.2f}")
    if mean_volume >= threshold:
        print("✔️ Esta región supera el umbral de ganancia.\n")
    else:
        print("❌ Esta región está por debajo del umbral.\n")


Región 0 - Media de reservas reales: 92.33
❌ Esta región está por debajo del umbral.

Región 1 - Media de reservas reales: 68.73
❌ Esta región está por debajo del umbral.

Región 2 - Media de reservas reales: 95.15
❌ Esta región está por debajo del umbral.



<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien, ninguna región tiene un promedio superior al mínimo para tener ganancias. Si usaramos el pozo promedio, siempre tendríamos pérdidas.

</div>  


In [11]:
def calculate_profit(predictions, y_valid, price_per_barrel=4500, n_pozos=200, budget=100_000_000):
    predictions = pd.Series(predictions, index=y_valid.index)

    top_200_idx = predictions.sort_values(ascending=False).index[:n_pozos]
    total_volume = y_valid.loc[top_200_idx].sum()
    revenue = total_volume * price_per_barrel  # CORREGIDO: sin multiplicar por 1000
    profit = revenue - budget

    return profit



In [12]:
for i, (_, predictions, y_valid, _, _) in enumerate(results):
    profit = calculate_profit(predictions, y_valid)
    print(f"Región {i} - Ganancia estimada: ${profit:,.2f} USD")


Región 0 - Ganancia estimada: $33,591,411.14 USD
Región 1 - Ganancia estimada: $24,150,866.97 USD
Región 2 - Ganancia estimada: $25,985,717.59 USD


<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Bien, correcto!

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

La idea del cálculo de ganancia está bien, pero la función está sobreestimando el ingreso. El revenue es total_volume * 4500 solamente.

</div>  


<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Esta función es incorrecta. Para esta parte primero hay que comparar la media de los pozos de cada región contra el umbral de ganancia. Indica si hay ganancia o perdida en cada región

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Luego, debes calcular el beneficio usando toda la data de validación de cada región. Para calcular el beneficio, es necesario ordenar los pozos según el valor de predicción pero se usa el valor real como volumen de cálculo. Es decir:
    
- Debes tener la data de predicción y real de todos los pozos usados para validación
- Toma los mejores 200 pozos según el valor de predicción
- Calcula el volumen según el valor real de esos pozos
- La ganancia es ese volumen por 4500 menos los 100 millones de inversión
</div>

In [13]:
def bootstrap_profit(predictions, y_valid, n_samples=1000, sample_size=500, top_n=200, price_per_barrel=4500, budget=100_000_000):
    import numpy as np
    import pandas as pd

    predictions = pd.Series(predictions, index=y_valid.index)

    values = []
    state = np.random.RandomState(42)

    for _ in range(n_samples):
        sample_indices = state.choice(predictions.index, size=sample_size, replace=True)
        sample_preds = predictions.loc[sample_indices]
        sample_actuals = y_valid.loc[sample_indices]

        top_200_idx = sample_preds.sort_values(ascending=False).index[:top_n]
        total_volume = sample_actuals.loc[top_200_idx].sum()
        revenue = total_volume * price_per_barrel  # CORREGIDO: sin multiplicar por 1000
        profit = revenue - budget

        values.append(profit)

    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    mean_profit = values.mean()
    risk_of_loss = (values < 0).mean() * 100

    return mean_profit, (lower, upper), risk_of_loss





<div class="alert alert-block alert-success">
<b>Comentario de Revisor v3</b> <a class="tocSkip"></a>

Muy bien, corregido

</div>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor v2</b> <a class="tocSkip"></a>

Buen trabajo, la implementación del bootstrapping es correcta, pero aquí aparece el mismo error que en la parte de ganancias. Solo debería multiplicarse por 4500. 
    
El cálculo de las métricas es correcto, una vez corregido lo anterior se tendrá el resultado corregido.

</div>  


<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

La idea del bootstrapping es incorrecta. Te dejo indicaciones de cómo implementarlo:
    
 - Iterar 1000 veces
 - En cada iteración, tomar los pozos de validación (25000 pozos) y extraer una muestra aleatoria con reemplazo de 500
 - De esos 500, aplicar el método de cálculo de ganancia (top 200 por predicción, usar valor real)
 - Guarda el beneficio (volumen por ingreso menos inversión)
 - Con los 1000 beneficios obtenidos, se calculan las métricas.
    
La forma de cálculo de las métricas es correcta, excepto para el riesgo. Dado que en cada iteración se debe calcular el beneficio, el riesgo es el porcentaje de veces que los valores de las iteraciones del bootstrapping fueron menores que 0.
</div>  


# ANÁLISIS DEL RIESGO FINANCIERO

In [14]:
for i, (_, predictions, y_valid, _, _) in enumerate(results):
    mean_profit, (lower, upper), risk = bootstrap_profit(predictions, y_valid)
    print(f"Región {i}")
    print(f" - Ganancia promedio: ${mean_profit:,.2f}")
    print(f" - Intervalo de confianza 95%: ${lower:,.2f} a ${upper:,.2f}")
    print(f" - Riesgo de pérdida: {risk:.2f}%\n")


Región 0
 - Ganancia promedio: $6,061,226.32
 - Intervalo de confianza 95%: $100,894.12 a $12,463,709.81
 - Riesgo de pérdida: 2.50%

Región 1
 - Ganancia promedio: $6,651,176.54
 - Intervalo de confianza 95%: $1,808,515.85 a $12,057,104.61
 - Riesgo de pérdida: 0.20%

Región 2
 - Ganancia promedio: $5,851,036.38
 - Intervalo de confianza 95%: $-8,369.42 a $12,120,508.98
 - Riesgo de pérdida: 2.60%



# CONCLUSIÓN GENERAL

En este proyecto analizamos datos de tres regiones donde podrían abrirse nuevos pozos petroleros. El objetivo fue predecir el volumen de reservas en cada pozo y ayudar a decidir dónde sería más rentable invertir.

Se entrenó un modelo simple que predice cuánto petróleo puede haber en un pozo, usando información técnica de cada uno. Luego, se eligieron los 200 pozos con mejores resultados en cada región para calcular las posibles ganancias.

Después de analizar las predicciones, se encontró que ninguna región lograría superar los 100 millones de dólares en ganancias esperadas, que es lo mínimo necesario para cubrir la inversión. Es decir, el riesgo de pérdida fue del 100% en todos los casos.

Se concluye que invertir en la **Región 1** es la opción más rentable y segura para la empresa.



CIENTÍFICO DE DATOS: LUIS OSVALDO SILVA OROZCO.

<div class="alert alert-block alert-success">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Muy bien con las conclusiones, el hallazgo final es que la distribución de la región 1, a pesar de tener una media inferior a las otras, es la mejor opción de acuerdo al procedimiento de exploración/explotación que se lleva a cabo. El bootstrapping nos permite "simular" la forma de obtener la ganancia y usar la distribución de la data.

</div>