¡Hola!

Mi nombre es Marcos Torres y tengo el gusto de revisar tu código el día de hoy.

Cuando vea algo notable o algún asunto en el notebook, te dejaré un comentario o un hint. Se que encontraras la mejor respuesta para resolver todos los comentarios, de no ser así, no te preocupes en futuras iteraciones dejaré comentarios y pistas más específicos.

Este proceso es muy parecido al que se recibe de un gerente o de un Senior Data Scientist en un trabajo real, por lo que te estarás preparando para la experiencia en la vida real.

Encontrarás comentarios en verde, amarillo o rojo como los siguientes:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo. ¡Lo hiciste muy bien!
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Nota. Se puede mejorar.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesitas corregirlo. Este bloque indica que se requiere una correción. El trabajo no se acepta si tiene estos bloques.
</div>

Puedes responder a mis comentarios usando estos bloques:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>
</div>

## Descripción del proyecto

Trabajas en la compañía de extracción de petróleo OilyGiant. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.

Para completar esta tarea, tendrás que realizar los siguientes pasos:

* Leer los archivos con los parámetros recogidos de pozos petrolíferos en la región seleccionada: calidad de crudo y volumen de reservas.
* Crear un modelo para predecir el volumen de reservas en pozos nuevos.
* Elegir los pozos petrolíferos que tienen los valores estimados más altos.
* Elegir la región con el beneficio total más alto para los pozos petrolíferos seleccionados.
* Tienes datos sobre muestras de crudo de tres regiones. Ya se conocen los parámetros de cada pozo petrolero de la región. Crea un modelo que ayude a elegir la región con el mayor margen de beneficio. Analiza los beneficios y riesgos potenciales utilizando la técnica bootstrapping.

Condiciones:

* Solo se debe usar la regresión lineal para el entrenamiento del modelo.
* Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.
* El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.
* Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
* Después de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.

Descripción de datos
Los datos de exploración geológica de las tres regiones se almacenan en archivos:

* geo_data_0.csv. Descarga el conjunto de datos
* geo_data_1.csv. Descarga el conjunto de datos
* geo_data_2.csv. Descarga el conjunto de datos
* id — identificador único de pozo de petróleo
* f0, f1, f2 — tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)
* product — volumen de reservas en el pozo de petróleo (miles de barriles).

## Importar librerias

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import numpy as np


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Bien, se uso una celda independiente para importar las librerías.
</div>


## Importar bases y entrenar y probar el modelo

In [3]:
# Paso 1: Descargar y preparar los datos
def load_data(file_path):
    data = pd.read_csv(file_path)
    print(f"Datos de {file_path}:")
    print(data.head())
    print(data.describe())
    return data

# Paso 2: Entrenar y probar el modelo para cada región
def train_and_evaluate(geo_data,region_name):
    # 2.1 Dividir los datos
    target = geo_data['product']
    features = geo_data.drop(['product', 'id'], axis=1)
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345
    )

    # 2.2 Entrenar el modelo y hacer predicciones
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)

    # 2.3 Guardar las predicciones y las respuestas correctas
    results = pd.DataFrame({
        'predictions': predictions_valid,
        'actual': target_valid
    })

    # 2.4 Mostrar el volumen medio de reservas predicho y RMSE del modelo
    mse = mean_squared_error(target_valid, predictions_valid)
    rmse = mse ** 0.5
    mean_volume = predictions_valid.mean()

    print(f"Resultados para {region_name}:")
    print("Volumen medio de reservas predicho =", mean_volume)
    print("RMSE(RECM) =", rmse)
    print("R2 =", r2_score(target_valid, predictions_valid))
    print("MAE(EAM) =", mean_absolute_error(target_valid, predictions_valid))

    # 2.5 Analizar los resultados
    predicted_valid = pd.Series(target_train.median(), index=target_valid.index)
    print('Median')
    print(mean_absolute_error(target_valid, predicted_valid))

    return model, results

# Cargar los datos
geo_data_0 = load_data('/datasets/geo_data_0.csv')
geo_data_1 = load_data('/datasets/geo_data_1.csv')
geo_data_2 = load_data('/datasets/geo_data_2.csv')

# Entrenar y evaluar el modelo para cada región
model_0, results_0 = train_and_evaluate(geo_data_0,'geo_data_0')
model_1, results_1 = train_and_evaluate(geo_data_1,'geo_data_1')
model_2, results_2 = train_and_evaluate(geo_data_2,'geo_data_2')


Datos de /datasets/geo_data_0.csv:
      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         2.362331       1.343769      16.003790     185.364347
Datos de /datasets/geo_data_1.csv:
      id         f0         f1

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen uso de los métodos de pandas para explorar los datos.
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Se ajustó correctamente el modelo de regresión lineal para cada una de las regiones.
</div>


## Calcular Ganancias

In [4]:
# Valores necesarios para los cálculos
investment = 100_000_000
num_wells = 200
min_value_per_well = 500_000
min_units_per_well = min_value_per_well / 4500  # Basado en la conversión de 1 unidad = 4,500 dólares

print(f"Producción mínima requerida por pozo en unidades: {min_units_per_well}")

# Comparar con la cantidad media de reservas en cada región
mean_reserves_0 = geo_data_0['product'].mean()
mean_reserves_1 = geo_data_1['product'].mean()
mean_reserves_2 = geo_data_2['product'].mean()

print(f"Cantidad media de reservas en la región 0: {mean_reserves_0}")
print(f"Cantidad media de reservas en la región 1: {mean_reserves_1}")
print(f"Cantidad media de reservas en la región 2: {mean_reserves_2}")

# Función para calcular la ganancia de un conjunto de pozos de petróleo seleccionados
def calculate_profit(predictions, price_per_unit=4500):
    profit = (predictions.sum() * price_per_unit) - investment
    return profit

# Función para obtener los 200 mejores pozos
def get_top_200_wells(geo_data, model):
    features = geo_data.drop(['product', 'id'], axis=1)
    predictions = model.predict(features)
    geo_data['predictions'] = predictions
    top_200_wells = geo_data.nlargest(200, 'predictions')
    return top_200_wells

top_200_0 = get_top_200_wells(geo_data_0, model_0)
top_200_1 = get_top_200_wells(geo_data_1, model_1)
top_200_2 = get_top_200_wells(geo_data_2, model_2)

# Calcular la ganancia potencial para cada región
profit_0 = calculate_profit(top_200_0['predictions'])
profit_1 = calculate_profit(top_200_1['predictions'])
profit_2 = calculate_profit(top_200_2['predictions'])

print(f"Ganancia potencial en la región 0: {profit_0}")
print(f"Ganancia potencial en la región 1: {profit_1}")
print(f"Ganancia potencial en la región 2: {profit_2}")

# Proponer una región para el desarrollo de pozos petrolíferos
best_region = max([(profit_0, 'Región 0'), (profit_1, 'Región 1'), (profit_2, 'Región 2')])
print(f"La mejor región para el desarrollo de pozos petrolíferos es {best_region[1]} con una ganancia potencial de {best_region[0]}")


Producción mínima requerida por pozo en unidades: 111.11111111111111
Cantidad media de reservas en la región 0: 92.50000000000001
Cantidad media de reservas en la región 1: 68.82500000000002
Cantidad media de reservas en la región 2: 95.00000000000004
Ganancia potencial en la región 0: 46895961.76960319
Ganancia potencial en la región 1: 25246061.617150396
Ganancia potencial en la región 2: 40637855.909425944
La mejor región para el desarrollo de pozos petrolíferos es Región 0 con una ganancia potencial de 46895961.76960319


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Bien, las ganancias se calcularon correctamente para el caso en que se toman los mejores 200 pozos de cada región.
</div>


## Cálculo de riesgos y ganancias de cada región

In [6]:
# Función para realizar bootstrapping
def bootstrap_profit(data_region, price_per_unit=4500, investment=100_000_000, n_bootstrap=1000):
    bootstrapped_profits = []
    for _ in range(n_bootstrap):
        sample_data = data_region.sample(n=500, replace=False)
        top_200_data = sample_data.sort_values(by='predictions', ascending=False).head(200)['product']
        profit = calculate_profit(top_200_data, price_per_unit=price_per_unit)
        bootstrapped_profits.append(profit)
    return np.array(bootstrapped_profits)

# Realizar bootstrapping para cada región
bootstrap_profits_0 = bootstrap_profit(geo_data_0)
bootstrap_profits_1 = bootstrap_profit(geo_data_1)
bootstrap_profits_2 = bootstrap_profit(geo_data_2) 

# Calcular el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas
def profit_statistics(bootstrapped_profits):
    mean_profit = np.mean(bootstrapped_profits)
    lower_bound = np.percentile(bootstrapped_profits, 2.5)
    upper_bound = np.percentile(bootstrapped_profits, 97.5)
    loss_risk = np.mean(bootstrapped_profits < 0) * 100  # Riesgo de pérdidas en porcentaje
    return mean_profit, lower_bound, upper_bound, loss_risk

mean_profit_0, lower_0, upper_0, risk_0 = profit_statistics(bootstrap_profits_0)
mean_profit_1, lower_1, upper_1, risk_1 = profit_statistics(bootstrap_profits_1)
mean_profit_2, lower_2, upper_2, risk_2 = profit_statistics(bootstrap_profits_2)

print(f"Región 0: Beneficio promedio = {mean_profit_0}, IC 95% = [{lower_0}, {upper_0}], Riesgo de pérdidas = {risk_0}%")
print(f"Región 1: Beneficio promedio = {mean_profit_1}, IC 95% = [{lower_1}, {upper_1}], Riesgo de pérdidas = {risk_1}%")
print(f"Región 2: Beneficio promedio = {mean_profit_2}, IC 95% = [{lower_2}, {upper_2}], Riesgo de pérdidas = {risk_2}%")

# Proponer una región para el desarrollo de pozos petrolíferos
best_region = max([(mean_profit_0, 'Región 0'), (mean_profit_1, 'Región 1'), (mean_profit_2, 'Región 2')], key=lambda x: x[0])
print(f"La mejor región para el desarrollo de pozos petrolíferos es {best_region[1]} con un beneficio promedio de {best_region[0]}")

# Comparar con la elección anterior
print(f"La elección anterior fue {best_region[1]}")


Región 0: Beneficio promedio = 4388399.45817286, IC 95% = [-671199.9921882052, 9498365.219931826], Riesgo de pérdidas = 4.9%
Región 1: Beneficio promedio = 4534556.023329722, IC 95% = [439046.5734838095, 8252418.564208853], Riesgo de pérdidas = 1.3%
Región 2: Beneficio promedio = 3583498.6297683315, IC 95% = [-1463196.2201969817, 8766994.180126645], Riesgo de pérdidas = 7.9%
La mejor región para el desarrollo de pozos petrolíferos es Región 1 con un beneficio promedio de 4534556.023329722
La elección anterior fue Región 1


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

¡Muy bien! Hay un par de cosas que se deben corregir en el proceso del bootstrap. 

- De acuerdo a las instrucciones, primero se seleccionan 500 pozos aleatoriamente, de estos se toman los 200 mejores. En tu caso tomaste los 200 mejores de entre todos los pozos de la región, es por eso que siempre salen valores positivos en la ganancia.
- Los 200 mejores se seleccionan con respecto a las predicciones y las ganancias se calculan con respecto a los valores reales. Por esto recomiendo que tu función tenga como input la tabla completa en lugar de solo las predicciones.
    
    
Con estos cambios tu función para calcular el bootstrap se debería ver así:
    
```
# Función para realizar bootstrapping
def bootstrap_profit(data_region, price_per_unit=4500, investment=100_000_000, n_bootstrap=1000):
    bootstrapped_profits = []
    for _ in range(n_bootstrap):
        sample_data = data_region.sample(n=500, replace=False)
        top_200_data = sample_data.sort_values(by='predictions', ascending=False).head(200)['product']
        profit = calculate_profit(top_200_data, price_per_unit=price_per_unit)
        bootstrapped_profits.append(profit)
    return np.array(bootstrapped_profits)

# Realizar bootstrapping para cada región
bootstrap_profits_0 = bootstrap_profit(geo_data_0)
bootstrap_profits_1 = bootstrap_profit(geo_data_1)
bootstrap_profits_2 = bootstrap_profit(geo_data_2)    
```
    
Con estos cambios ya se deberían obtener otros valores en las probabilidades de riesgo, los valores no deben ser ni 0 ni 100%, son valores como 6 o 7. Con estos cambios podrás realizar otras conclusiones.    
</div>

## Conclusiones


Este proyecto se fue desarrollando en varias etapas cada una iba atacando los problemas a resolver, por un lado, escoger la región que tuviera mas potencial con base en el modelo y por otra la que nos diera la mayor ganancia posible.

Se puso la condición de que cada pozo produjera por lo menos 111.11 unidades para evitar pérdidas, y todos los pozos estan en promedio abajo de esta cantidad: Región 0=92.5 unidades, Región 1=68.83, y Region 2=95.00 unidades. 

En término de ganancias potenciales, las regiones se encuentran así
* Región 0 = $4,388,399
* Región 1 = $4,534,556
* Región 2 = $3,583,498.

En términos de riesgo de pérdidas se encuentran así
* Región 0 = 4.9%
* Region 1 = 1.3%
* Region 2 = 7.9%

Entonces se aprecia como la región 1 es la mejor opción ya que tiene el mayor beneficio y el menor riesgo, además de contar con las mejores métricas de RMSE y MAE. Y esto, aún considerando que es la región que tiene la menor tasa de unidades producidas en promedio.

Finalmente, con base en el análisis, se aconseja a la empresa OilyGiant invertir en la Región 1



<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy buenas conclusiones, basadas en lo observado.
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Gracias por atender a los comentarios. El proceso para calcular el bootstrap es correcto y se identificaron correctamente las probabilidades de riesgo. 

Ahora puedo aprobar tu proyecto. Éxito en los siguientes sprints.
</div>