¡Hola!

Mi nombre es Tonatiuh Cruz. Me complace revisar tu proyecto hoy.

Al identificar cualquier error inicialmente, simplemente los destacaré. Te animo a localizar y abordar los problemas de forma independiente como parte de tu preparación para un rol como data-scientist. En un entorno profesional, tu líder de equipo seguiría un enfoque similar. Si encuentras la tarea desafiante, proporcionaré una pista más específica en la próxima iteración.

Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o elimines**.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. Todo está hecho correctamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesita corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con comentarios en rojo.
</div>

Puedes responderme utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>
</div>

Proyecto: Selección Óptima de Pozos Petrolíferos para OilyGiant

Descripción
Este proyecto utiliza modelos de Machine Learning para predecir el volumen de reservas de petróleo en diferentes regiones y seleccionar los mejores lugares para la perforación de 200 nuevos pozos para la compañía de extracción petrolera OilyGiant.

El objetivo principal es identificar la región con el mayor potencial de ganancias y menor riesgo de pérdidas utilizando un enfoque basado en Regresión Lineal y Bootstrapping. Los datos incluyen características geológicas y el volumen de reservas de tres regiones distintas, permitiendo el análisis y la selección estratégica de las ubicaciones más rentables.

Objetivos
Predecir el volumen de reservas de petróleo utilizando un modelo de regresión lineal entrenado en datos geológicos.
Seleccionar los 200 pozos más productivos en cada región según las predicciones del modelo.
Calcular la ganancia potencial para cada región basada en los 200 pozos seleccionados.
Evaluar el riesgo de pérdidas mediante la técnica de Bootstrapping para simular escenarios y calcular la probabilidad de resultados negativos.
Recomendar la mejor región para el desarrollo de nuevos pozos en función del beneficio potencial y el riesgo asociado.


## Descarga y prepara los datos. 

In [18]:
import pandas as pd
import numpy as np
from numpy.random import RandomState


from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
# Cargar los archivos CSV
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')


In [3]:
# Mostrar las primeras filas de cada dataset para inspección preliminar
print("Primeras filas de geo_data_0:")
display(geo_data_0.head())

print("\nPrimeras filas de geo_data_1:")
display(geo_data_1.head())

print("\nPrimeras filas de geo_data_2:")
display(geo_data_2.head())

# Exploración de las columnas y el tipo de datos en cada conjunto
print("\nInformación sobre geo_data_0:")
display(geo_data_0.info())

print("\nInformación sobre geo_data_1:")
display(geo_data_1.info())

print("\nInformación sobre geo_data_2:")
display(geo_data_2.info())

Primeras filas de geo_data_0:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



Primeras filas de geo_data_1:


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



Primeras filas de geo_data_2:


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



Información sobre geo_data_0:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None


Información sobre geo_data_1:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None


Información sobre geo_data_2:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

In [4]:
print("\nNulos geo_data_0:")
print(geo_data_0.isnull().sum())

print("\nNulos geo_data_1:")
print(geo_data_1.isnull().sum())

print("\nNulos geo_data_2:")
print(geo_data_2.isnull().sum())


Nulos geo_data_0:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Nulos geo_data_1:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Nulos geo_data_2:
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [5]:
#duplicados
print(geo_data_0.duplicated().sum())
print(geo_data_1.duplicated().sum())
print(geo_data_2.duplicated().sum())

0
0
0


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien! Eliminar duplicados y valores nulos es importante para disminuir el ruido durante el entrenamiento del modelo de regresión.
</div>

##  Entrena y prueba el modelo para cada región en geo_data_0.csv

In [6]:
# Dividir los datos en características (f0, f1, f2) y objetivo (product)
X = geo_data_0[['f0', 'f1', 'f2']]
y = geo_data_0['product']

# 1.- Dividir en conjunto de entrenamiento (75%) y validación (25%)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo segmentando, solamente re comiendo el escalando la información. El escalado te puede ser muy útil para mejorar el rendimiento del modelo al asegurar que todas las características tienen el mismo rango. 
</div>



In [7]:
# 2.- Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de validación
y_pred = model.predict(X_val)

In [8]:
# 3.- Guardar las predicciones y las respuestas correctas
predicciones = pd.DataFrame({'Predicciones': y_pred, 'Respuestas': y_val})
display(predicciones.head())

Unnamed: 0,Predicciones,Respuestas
75721,101.901017,122.07335
80184,78.217774,48.73854
19864,115.266901,131.338088
76699,105.618618,88.327757
92991,97.980185,36.959266


In [9]:

# 4.- Calcular el RMSE
rmse = np.sqrt(mean_squared_error(y_val, y_pred))

# Calcular el volumen medio de reservas predicho
volumen_medio_reservas = np.mean(y_pred)

print(f"Volumen medio de reservas predicho: {volumen_medio_reservas:.2f} miles de barriles")
print(f"RMSE: {rmse:.2f} miles de barriles")

Volumen medio de reservas predicho: 92.40 miles de barriles
RMSE: 37.76 miles de barriles


El volumen medio de reservas predicho te indica cuánto espera el modelo que un pozo típico contenga.

El RMSE te muestra el error promedio de las predicciones con respecto a las reservas reales. Cuanto más bajo sea el RMSE, mejor es el rendimiento del modelo

In [10]:
# 6.- Función para entrenar el modelo y calcular el volumen medio y el RMSE
def entrenar_y_evaluar_modelo(data):
    # Dividir los datos en características (f0, f1, f2) y objetivo (product)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    
    # Dividir en conjunto de entrenamiento (75%) y validación (25%)
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)
    
    # Crear y entrenar el modelo de regresión lineal
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Realizar predicciones en el conjunto de validación
    y_pred = model.predict(X_val)
    
    # Calcular el RMSE
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    
    # Calcular el volumen medio de reservas predicho
    volumen_medio_reservas = np.mean(y_pred)
    
    # Retornar las predicciones, el volumen medio y el RMSE
    return y_pred, y_val, volumen_medio_reservas, rmse


In [11]:
# Aplicar la función a geo_data_0
predicciones_0, respuestas_0, volumen_medio_0, rmse_0 = entrenar_y_evaluar_modelo(geo_data_0)
print(f"Región 0 - Volumen medio de reservas: {volumen_medio_0:.2f}, RMSE: {rmse_0:.2f}")

# Aplicar la función a geo_data_1 y geo_data_2
predicciones_1, respuestas_1, volumen_medio_1, rmse_1 = entrenar_y_evaluar_modelo(geo_data_1)
print(f"Región 1 - Volumen medio de reservas: {volumen_medio_1:.2f}, RMSE: {rmse_1:.2f}")

predicciones_2, respuestas_2, volumen_medio_2, rmse_2 = entrenar_y_evaluar_modelo(geo_data_2)
print(f"Región 2 - Volumen medio de reservas: {volumen_medio_2:.2f}, RMSE: {rmse_2:.2f}")

Región 0 - Volumen medio de reservas: 92.40, RMSE: 37.76
Región 1 - Volumen medio de reservas: 68.71, RMSE: 0.89
Región 2 - Volumen medio de reservas: 94.77, RMSE: 40.15


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Implementaste el modelo de regresión logística de forma excelente para los 3 conjuntos de datos! En este punto ya puedes obervar cuál es el modelo con el mayor $R^2$ y menor RMSE.
</div>

## Preparar para el cálculo de ganancias

In [13]:
# 1.- Almacenar las cantidades mínimas necesarias para evitar pérdidas
costo_total = 100_000_000  # 100 millones de dólares
pozos = 200
valor_minimo_por_pozo = 500_000  # Cada pozo debe producir al menos este valor
cantidad_minima_unidades = valor_minimo_por_pozo / 4500  # Equivalente en unidades de reservas

# Valores medios de reservas predichas por región (ya calculados)
volumen_medio_0 = volumen_medio_0  # Para geo_data_0
volumen_medio_1 = volumen_medio_1  # Para geo_data_1
volumen_medio_2 = volumen_medio_2  # Para geo_data_2

# 2.- Comparar las cantidades mínimas con las reservas predichas por cada región
print(f"Cantidad mínima de reservas por pozo para evitar pérdidas: {cantidad_minima_unidades:.2f} unidades")

print(f"Volumen medio predicho en Región 0: {volumen_medio_0:.2f} unidades")
print(f"Volumen medio predicho en Región 1: {volumen_medio_1:.2f} unidades")
print(f"Volumen medio predicho en Región 2: {volumen_medio_2:.2f} unidades")

# Comparaciones directas
if volumen_medio_0 >= cantidad_minima_unidades:
    print("Región 0 puede evitar pérdidas según el volumen medio de reservas.")
else:
    print("Región 0 no alcanzará el mínimo para evitar pérdidas.")

if volumen_medio_1 >= cantidad_minima_unidades:
    print("Región 1 puede evitar pérdidas según el volumen medio de reservas.")
else:
    print("Región 1 no alcanzará el mínimo para evitar pérdidas.")

if volumen_medio_2 >= cantidad_minima_unidades:
    print("Región 2 puede evitar pérdidas según el volumen medio de reservas.")
else:
    print("Región 2 no alcanzará el mínimo para evitar pérdidas.")

Cantidad mínima de reservas por pozo para evitar pérdidas: 111.11 unidades
Volumen medio predicho en Región 0: 92.40 unidades
Volumen medio predicho en Región 1: 68.71 unidades
Volumen medio predicho en Región 2: 94.77 unidades
Región 0 no alcanzará el mínimo para evitar pérdidas.
Región 1 no alcanzará el mínimo para evitar pérdidas.
Región 2 no alcanzará el mínimo para evitar pérdidas.


Cantidad mínima para evitar pérdidas: Para evitar pérdidas, cada pozo debe producir al menos 111.1 unidades (111,100 barriles) de petróleo.

Comparación por región:

Región 0: Tiene un volumen medio predicho de 92.40 unidades, por lo que no alcanzará el mínimo para evitar pérdidas.

Región 1: Tiene un volumen medio predicho de 68.71 unidades, por lo que tampoco alcanzará el mínimo.

Región 2: Con un volumen medio predicho de 94.77 unidades, tampoco logra alcanzar el umbral de 111.1 unidades para evitar pérdidas.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy bien calculado el beneficio bruto de las 3 regiones! Estos cálculos te ayudarán en la elección de la mejor región teniendo en cuenta también los beneficios brutos según las predicciones, pero a pesar de que el beneficio bruto sea mayor en tu conjunto data2, es necesario comprobar los riesgos que implica.
</div>

## Escribir una función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados y modela las predicciones

In [16]:
# 1.- Definir función para calcular la ganancia de los 200 pozos más productivos
def calcular_ganancia_top_pozos(predicciones, cantidad_pozos=200, precio_por_unidad=4500):
    # Ordenar las predicciones de mayor a menor
    predicciones_ordenadas = np.sort(predicciones)[::-1]
    
    # Seleccionar las predicciones más altas (200 pozos)
    top_pozos = predicciones_ordenadas[:cantidad_pozos]
    
    # 2.- Calclar el volumen total de reservas de los 200 pozos
    volumen_total = np.sum(top_pozos)
    
    # Calcular la ganancia total
    ganancia_total = volumen_total * precio_por_unidad
    
    # Retornar el volumen total y la ganancia total
    return volumen_total, ganancia_total

# 3.- Calcular las ganancias para cada región usando las predicciones ya generadas
volumen_total_0, ganancia_total_0 = calcular_ganancia_top_pozos(predicciones_0)
volumen_total_1, ganancia_total_1 = calcular_ganancia_top_pozos(predicciones_1)
volumen_total_2, ganancia_total_2 = calcular_ganancia_top_pozos(predicciones_2)

# Mostrar los resultados
print(f"Región 0 - Volumen total de reservas de los 200 pozos: {volumen_total_0:.2f} miles de barriles")
print(f"Región 0 - Ganancia total potencial: ${ganancia_total_0:.2f} USD")

print(f"\nRegión 1 - Volumen total de reservas de los 200 pozos: {volumen_total_1:.2f} miles de barriles")
print(f"Región 1 - Ganancia total potencial: ${ganancia_total_1:.2f} USD")

print(f"\nRegión 2 - Volumen total de reservas de los 200 pozos: {volumen_total_2:.2f} miles de barriles")
print(f"Región 2 - Ganancia total potencial: ${ganancia_total_2:.2f} USD")

Región 0 - Volumen total de reservas de los 200 pozos: 30881.46 miles de barriles
Región 0 - Ganancia total potencial: $138966584.80 USD

Región 1 - Volumen total de reservas de los 200 pozos: 27748.75 miles de barriles
Región 1 - Ganancia total potencial: $124869381.15 USD

Región 2 - Volumen total de reservas de los 200 pozos: 29728.85 miles de barriles
Región 2 - Ganancia total potencial: $133779815.14 USD


Tras obtener las ganancias potenciales de cada región, podemos determinar que la región 0 es la más rentable para el desarrollo de los pozos petrolíferos.

## Calcular riesgos y ganancias para cada región

In [19]:

# Definir la función para realizar bootstrapping y calcular ganancias y riesgos
def bootstrapping(predicciones, precio_por_unidad=4500, n_samples=1000):
    rng = RandomState(42)
    ganancias = []
    
    for _ in range(n_samples):
        # Tomar una muestra con reemplazo de 200 pozos
        sample = rng.choice(predicciones, size=200, replace=True)
        
        # Calcular la ganancia total para la muestra
        ganancia = np.sum(sample) * precio_por_unidad
        ganancias.append(ganancia)
    
    # Convertir a array para análisis
    ganancias = np.array(ganancias)
    
    # Calcular el beneficio promedio y el intervalo de confianza del 95%
    beneficio_promedio = np.mean(ganancias)
    intervalo_confianza = np.percentile(ganancias, [2.5, 97.5])
    
    # Calcular el riesgo de pérdida (ganancia negativa)
    riesgo_perdida = np.mean(ganancias < 0)
    
    return beneficio_promedio, intervalo_confianza, riesgo_perdida

# Realizar bootstrapping para cada región
beneficio_promedio_0, intervalo_confianza_0, riesgo_perdida_0 = bootstrapping(predicciones_0)
beneficio_promedio_1, intervalo_confianza_1, riesgo_perdida_1 = bootstrapping(predicciones_1)
beneficio_promedio_2, intervalo_confianza_2, riesgo_perdida_2 = bootstrapping(predicciones_2)

# Mostrar los resultados para cada región
print(f"Región 0 - Beneficio promedio: ${beneficio_promedio_0:.2f}, Intervalo de confianza 95%: {intervalo_confianza_0}, Riesgo de pérdida: {riesgo_perdida_0:.2%}")
print(f"Región 1 - Beneficio promedio: ${beneficio_promedio_1:.2f}, Intervalo de confianza 95%: {intervalo_confianza_1}, Riesgo de pérdida: {riesgo_perdida_1:.2%}")
print(f"Región 2 - Beneficio promedio: ${beneficio_promedio_2:.2f}, Intervalo de confianza 95%: {intervalo_confianza_2}, Riesgo de pérdida: {riesgo_perdida_2:.2%}")

Región 0 - Beneficio promedio: $83233775.74, Intervalo de confianza 95%: [80140418.97196116 86165423.28155154], Riesgo de pérdida: 0.00%
Región 1 - Beneficio promedio: $61898748.12, Intervalo de confianza 95%: [55858090.21636575 67436881.04198448], Riesgo de pérdida: 0.00%
Región 2 - Beneficio promedio: $85317638.33, Intervalo de confianza 95%: [82704865.84064385 87711780.23711924], Riesgo de pérdida: 0.00%


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente trabajo calculando el beneficio promedio, los intervalos de confianza del 95% y el riesgo de pérdidas. El uso de percentiles para los intervalos de confianza es una muy buena práctica este tipo de análisis. Tus cálculos están bien fundamentados y proporcionan información valiosa sobre el rendimiento de las simulaciones de bootstrap.
</div>



## Conclusión

La Región 2 tiene el mayor beneficio promedio (85.32 millones de dólares) y el intervalo de confianza más alto, lo que indica que es la región con las mejores perspectivas económicas.

La Región 0 también tiene un beneficio significativo (83.23 millones de dólares), con un intervalo de confianza bastante cercano.

La Región 1 tiene el menor beneficio promedio (61.90 millones de dólares), lo que la hace la menos atractiva.

Recomendación:
La Región 2 es la opción más favorable para desarrollar los pozos, ya que ofrece el mayor beneficio promedio con un bajo riesgo de pérdidas.

<div class="alert alert-block alert-success">
<b>Resumen de la revisión</b> <a class="tocSkip"></a>

Excelente trabajo! Tu código es ordenado y limpio, tanto tu exploración y procesamiento de datos es correcta y eficiente y además la implementación del modelo de regresión lineal y los análisis posteriores brindaron información confiable y suficiente para la toma de decisiones. Sigue con el excelente trabajo!

</div>

