<div class="alert alert-block alert-success">
<b>Comentario general del revisor</b> <a class="tocSkip"></a><br />
Status del proyecto: <b>Aprobado</b>
</div>


¡Hola!<br />
Soy **Francisco Cortés**, estoy contento de revisar tu proyecto y ser parte de tu proceso de aprendizaje.
A lo largo del texto, haré algunas observaciones sobre mejoras en el código y también haré comentarios sobre tus percepciones sobre el tema. Si existe algún error en el código, no te preocupes, estoy aquí para ayudarte a mejorarlo, en la primera iteración te lo señalaré para que tengas la oportunidad de corregirlo, pero si aún no encuentras una solución para esta tarea, te daré una pista más precisa en la próxima iteración y también algunos ejemplos prácticos. Estaré abierto a retroalimentación y discusiones sobre el tema.<br />
Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o borres**.
Revisaré cuidadosamente tu código para comprobar que se han cumplido con los requisitos y te proporcionaré mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Si la ejecución fue perfecta succesfully.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Si existe alguna recomendación para que tu código mejore.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Si existen correcciones necesarias para cumplir con los requisitos. El trabajo no puede ser aceptado si hay alguna caja roja.
</div>

Puedes responderme de la siguiente manera:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>
</div>

# Proyecto Sprint 11

## Cargar datos

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split


# Cargar los datos de los tres archivos CSV
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

# Mostrar las primeras filas para inspeccionar los datos
print(data_0.head())
print(data_1.head())
print(data_2.head())

      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647
      id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
4  AHL4O  12.702195  -8.147433  5.004363  134.766305
      id        f0        f1        f2     product
0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
1  WJtFt  0.262778  0.269839 -2.530187   56.069697
2  ovLUW  0.194587  0.289035 -5.586433   62.871910
3  q6cA6  2.236060 -0.553760  0.930038  114.572842
4  WPMUX -0.515993  1.716266  5.899011  149.600746


## Entrenando el Modelo

In [3]:
def train_and_evaluate(data):
    # Separar características (f0, f1, f2) y etiqueta (product)
    X = data[['f0', 'f1', 'f2']]
    y = data['product']
    
    # Dividir los datos en conjunto de entrenamiento (75%) y validación (25%)
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.25, random_state=42)
    
    # Crear el modelo de regresión lineal
    model = LinearRegression()
    
    # Entrenar el modelo
    model.fit(X_train, y_train)
    
    # Predecir en el conjunto de validación
    y_pred = model.predict(X_val)
    
    # Calcular el RMSE
    rmse = np.sqrt(mean_squared_error(y_val, y_pred))
    
    # Mostrar el volumen promedio de reservas y RMSE
    mean_pred = np.mean(y_pred)
    print(f'Volumen medio de reservas predicho: {mean_pred:.2f} miles de barriles')
    print(f'RMSE: {rmse:.2f}')
    
    return y_pred, y_val

# Evaluar el modelo para cada archivo
pred_0, true_0 = train_and_evaluate(data_0)
pred_1, true_1 = train_and_evaluate(data_1)
pred_2, true_2 = train_and_evaluate(data_2)

Volumen medio de reservas predicho: 92.40 miles de barriles
RMSE: 37.76
Volumen medio de reservas predicho: 68.71 miles de barriles
RMSE: 0.89
Volumen medio de reservas predicho: 94.77 miles de barriles
RMSE: 40.15


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br />
Bien hecho!<br/>

Buena manera de construir una función para dividir los datos y entrenar el modelo
</div>


## Preparando el calcualo de ganancias

In [4]:
def calculate_profit(predictions, top_n=200):
    # Seleccionar los 200 pozos con los valores de predicción más altos
    top_predictions = np.argsort(predictions)[-top_n:]
    total_reservoirs = np.sum(predictions[top_predictions])
    
    # Calcular la ganancia total: 4.5 USD por barril, y las reservas están en miles de barriles
    profit = total_reservoirs * 4.5 * 1000  # Multiplicamos por 1000 para obtener la ganancia en USD
    return profit

profit_0 = calculate_profit(pred_0)
profit_1 = calculate_profit(pred_1)
profit_2 = calculate_profit(pred_2)

print(f'Beneficio estimado para la región 0: {profit_0:.2f} USD')
print(f'Beneficio estimado para la región 1: {profit_1:.2f} USD')
print(f'Beneficio estimado para la región 2: {profit_2:.2f} USD')

Beneficio estimado para la región 0: 138966584.80 USD
Beneficio estimado para la región 1: 124869381.15 USD
Beneficio estimado para la región 2: 133779815.14 USD


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br />
Correcto, buena manera de crear una función para calcular el margen de ganancias de cada región
</div>


## Calculo de Ganancia con Bootstrapping

In [22]:


def bootstrapping(predictions, n_iterations=1000):
    """
    Función para realizar bootstrapping y calcular el beneficio medio, el intervalo de confianza y el riesgo de pérdidas.
    
    Parámetros:
    - predictions: lista o array de las predicciones de volumen de reservas.
    - n_iterations: número de iteraciones de bootstrapping (por defecto 1000).
    
    Retorna:
    - mean_profit: el beneficio promedio
    - lower: el límite inferior del intervalo de confianza del 95%
    - upper: el límite superior del intervalo de confianza del 95%
    - loss_risk: el riesgo de pérdidas (probabilidad de obtener una ganancia negativa).
    """
    
    profits = []
    
    for _ in range(n_iterations):
        # Crear una muestra aleatoria con reemplazo
        sample = np.random.choice(predictions, size=len(predictions), replace=True)
        
        # Calcular el beneficio para la muestra
        total_reserves = np.sum(sample)  # Volumen total de reservas en miles de barriles
        revenue = total_reserves * 4500  # Ingresos en dólares (4500 USD por unidad)
        
        # Calcular los costos (el presupuesto es 100 millones de dólares para 200 pozos)
        cost = 100_000_000  # Coste total de desarrollo de los 200 pozos
        
        # Calcular el beneficio
        profit = revenue - cost
        profits.append(profit)
    
    # Calcular el beneficio promedio y el intervalo de confianza del 95%
    mean_profit = np.mean(profits)
    lower = np.percentile(profits, 2.5)  # Límite inferior del intervalo de confianza del 95%
    upper = np.percentile(profits, 97.5)  # Límite superior del intervalo de confianza del 95%
    
    # Calcular el riesgo de pérdidas (probabilidad de obtener beneficio negativo)
    loss_risk = np.sum(np.array(profits) < 0) / n_iterations * 100
    
    return mean_profit, lower, upper, loss_risk


# Asegúrate de que tienes las predicciones para cada región (pred_0, pred_1, pred_2)
mean_profit_0, lower_0, upper_0, loss_risk_0 = bootstrapping(pred_0)
mean_profit_1, lower_1, upper_1, loss_risk_1 = bootstrapping(pred_1)
mean_profit_2, lower_2, upper_2, loss_risk_2 = bootstrapping(pred_2)

# Mostrar resultados de bootstrapping
print(f'Región 0: Beneficio medio: {mean_profit_0:.2f}, IC del 95%: ({lower_0:.2f}, {upper_0:.2f}), Riesgo de pérdidas: {loss_risk_0:.2f}%')
print(f'Región 1: Beneficio medio: {mean_profit_1:.2f}, IC del 95%: ({lower_1:.2f}, {upper_1:.2f}), Riesgo de pérdidas: {loss_risk_1:.2f}%')
print(f'Región 2: Beneficio medio: {mean_profit_2:.2f}, IC del 95%: ({lower_2:.2f}, {upper_2:.2f}), Riesgo de pérdidas: {loss_risk_2:.2f}%')


Región 0: Beneficio medio: 10293938628.10, IC del 95%: (10263128497.54, 10327573970.94), Riesgo de pérdidas: 0.00%
Región 1: Beneficio medio: 7631693337.17, IC del 95%: (7567680965.91, 7696101791.17), Riesgo de pérdidas: 0.00%
Región 2: Beneficio medio: 10561727725.93, IC del 95%: (10534048696.69, 10589949244.96), Riesgo de pérdidas: 0.00%


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br />
Bien hecho!<br/>

Correcta manera de hacer una función para mostrar las metricas de cada una de las regiones
</div>


## Riesgos y ganancias por región

In [24]:
def choose_region(profit_0, profit_1, profit_2, risk_0, risk_1, risk_2):
    # Seleccionar solo las regiones con riesgo de pérdidas < 2.5%
    regions = {
        'Region 0': (profit_0, risk_0),
        'Region 1': (profit_1, risk_1),
        'Region 2': (profit_2, risk_2)
    }
    
    best_region = None
    best_profit = -np.inf
    
    for region, (profit, risk) in regions.items():
        if risk < 2.5 and profit > best_profit:
            best_profit = profit
            best_region = region
    
    return best_region

best_region = choose_region(profit_0, profit_1, profit_2, loss_risk_0, loss_risk_1, loss_risk_2)
print(f'La mejor región para desarrollar pozos es: {best_region}')


La mejor región para desarrollar pozos es: Region 0


## Conclusiones

La Región 0 mostró el mayor beneficio estimado, seguido por la Región 2, mientras que la Región 1 tuvo el beneficio más bajo de las tres. Esto indica que, a pesar de que la Región 1 tiene un RMSE más bajo, su beneficio total es menor en comparación con las otras dos regiones.

Después de analizar tanto los beneficios potenciales como los riesgos asociados a cada región, la mejor región para desarrollar los pozos es la Región 0. Esta región ofrece el mayor beneficio estimado y el mayor beneficio medio, lo que la hace la opción más rentable para el desarrollo de los pozos petroleros.

Aunque la Región 2 también presentó beneficios significativos, el mayor beneficio promedio de la Región 0 y su perfil de riesgo similar en comparación con las otras regiones hace que esta sea la opción más favorable.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br />
Has realizado un buen trabajo, me doy cuenta de que has aplicado los conocimientos que has adquirido durante el curso y los procedimientos realizados son correctos, esta es una gran herramienta que nos ayuda en muchos casos y es bastante útil en proyectos reales.<br/>
    
El documento que entregas es organizado y fácil de entender.<br/>

Este tipo de analisis nos ayuda a confirmar suposiciones o apoyar decisiones de negocio las cuales muchas veces entre más puntos de vista se analisen mejores resultados se obtendrán al final.
Continúa con el buen trabajo y mucho éxito en el siguiente Sprint!
</div>
