Hola Jorge! Como te va?

Mi nombre es Facundo! Un gusto conocerte, seré tu revisor en este proyecto.

A continuación un poco sobre la modalidad de revisión que usaremos:

Cuando enccuentro un error por primera vez, simplemente lo señalaré, te dejaré encontrarlo y arreglarlo tú cuenta. Además, a lo largo del texto iré haciendo algunas observaciones sobre mejora en tu código y también haré comentarios sobre tus percepciones sobre el tema. Pero si aún no puedes realizar esta tarea, te daré una pista más precisa en la próxima iteración y también algunos ejemplos prácticos. Estaré abierto a comentarios y discusiones sobre el tema.

Encontrará mis comentarios a continuación: **no los mueva, modifique ni elimine**.

Puedes encontrar mis comentarios en cuadros verdes, amarillos o rojos como este:

<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Exito. Todo se ha hecho de forma exitosa.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Observación. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Necesita arreglos. Este apartado necesita algunas correcciones. El trabajo no puede ser aceptado con comentarios rojos. 
</div>

Puedes responder utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta de estudiante.</b> <a class="tocSkip"></a>
</div>

## Descripción del proyecto

Trabajas en la compañía de extracción de petróleo OilyGiant. Tu tarea es encontrar los mejores lugares donde abrir 200 pozos nuevos de petróleo.

Para completar esta tarea, tendrás que realizar los siguientes pasos:

    Leer los archivos con los parámetros recogidos de pozos petrolíferos en la región seleccionada: calidad de crudo y volumen de reservas.
    Crear un modelo para predecir el volumen de reservas en pozos nuevos.
    Elegir los pozos petrolíferos que tienen los valores estimados más altos.
    Elegir la región con el beneficio total más alto para los pozos petrolíferos seleccionados.

Tienes datos sobre muestras de crudo de tres regiones. Ya se conocen los parámetros de cada pozo petrolero de la región. Crea un modelo que ayude a elegir la región con el mayor margen de beneficio. Analiza los beneficios y riesgos potenciales utilizando la técnica bootstrapping.

## Condiciones:

    Solo se debe usar la regresión lineal para el entrenamiento del modelo.
    Al explorar la región, se lleva a cabo un estudio de 500 puntos con la selección de los mejores 200 puntos para el cálculo del beneficio.
    El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares.
    Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares (el volumen de reservas está expresado en miles de barriles).
    Después de la evaluación de riesgo, mantén solo las regiones con riesgo de pérdidas inferior al 2.5%. De las que se ajustan a los criterios, se debe seleccionar la región con el beneficio promedio más alto.

Los datos son sintéticos: los detalles del contrato y las características del pozo no se publican.

<div class="alert alert-block alert-success">
<b>Review General. (Iteración 1) </b> <a class="tocSkip"></a>


Jorge, siempre me tomo este tiempo al inicio de tu proyecto para comentar mis apreciaciones generales de esta iteración de tu entrega. 
    

Me gusta comenzar dando la bienvenida al mundo de los datos a los estudiantes, te deseo lo mejor y espero que consigas lograr tus objetivos. Personalmente me gusta brindar el siguiente consejo, "Está bien equivocarse, es normal y es lo mejor que te puede pasar. Aprendemos de los errores y eso te hará mejor programador ya que podrás descubrir cosas a medida que avances y son estas cosas las que te darán esa experiencia para ser un gran Data Scientist"
    
Ahora si yendo a esta notebook. Felicitaciones Jorge porque este ha sido un gran trabajo, has implementado en gran mayoría todo lo que se necesitaba y con un gran manejo de python. Se ha notado tu gran capacidad de manejo de las herramientas y sobre todo tu comprensión analítica de los análisis, simplemente hemos tenido un detalle que deberíamos corregir por lo cual te he dejado un comentario rojo con el contexto necesario para que lo completes.

Éxitos y espero con ansias a tus correcciones en nuestra próxima iteración para probablemente poder aprobar este proyecto!

Saludos Jorge!

1- Descarga y prepara los datos. Explica el procedimiento.

In [1]:
#Importación de librerías
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.utils import resample
import matplotlib.pyplot as plt
from IPython.display import display

In [2]:
#Se abre y examina el archivo de datos
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
print(data_0.shape)
print(data_0.head(5))
print(data_0.info())

(100000, 5)
      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


In [4]:
print(data_1.shape)
print(data_1.head(5))
print(data_1.info())

(100000, 5)
      id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
4  AHL4O  12.702195  -8.147433  5.004363  134.766305
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


In [5]:
print(data_2.shape)
print(data_2.head(5))
print(data_2.info())

(100000, 5)
      id        f0        f1        f2     product
0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
1  WJtFt  0.262778  0.269839 -2.530187   56.069697
2  ovLUW  0.194587  0.289035 -5.586433   62.871910
3  q6cA6  2.236060 -0.553760  0.930038  114.572842
4  WPMUX -0.515993  1.716266  5.899011  149.600746
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None


<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Excelente carga de los datos manteniendolos por separados de las importaciones de librerías como así la implementación de métodos para profundizar en la comprensión de nuestros datos. Bien hecho!

## Entrena y prueba el modelo para cada región en geo_data_0.csv:

    Divide los datos en un conjunto de entrenamiento y un conjunto de validación en una proporción de 75:25

    Entrena el modelo y haz predicciones para el conjunto de validación.

    Guarda las predicciones y las respuestas correctas para el conjunto de validación.

    Muestra el volumen medio de reservas predicho y RMSE del modelo.

    Analiza los resultados.

    Coloca todos los pasos previos en funciones, realiza y ejecuta los pasos 2.1-2.5 para los archivos 'geo_data_1.csv' y 'geo_data_2.csv'.

In [6]:
#Se establece la función para entrenamiento y evaluación del modelo

#Función para entrenar y evaluar el modelo
def train_and_evaluate(data):
    # Dividir los datos en conjunto de entrenamiento y validación (75:25)
    train, valid = train_test_split(data, test_size=0.25, random_state=42)
    
    #Separación de features y target
    X_train = train.drop(columns=['id', 'product'])
    y_train = train['product']
    X_valid = valid.drop(columns=['id', 'product'])
    y_valid = valid['product']
    
    # Entrenar el modelo de regresión lineal
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Hacer predicciones
    predictions = model.predict(X_valid)
    
    # Calcular el RMSE
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    
    # Devolver predicciones, respuestas correctas y RMSE
    return pd.Series(predictions, index=y_valid.index), y_valid, rmse



<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Perfecta creación de la función Jorge, esto nos permitirá ser más ordenados con nuestro código. A la vez excelente decisión la de quitar aquella feature que no aporta valor.

In [7]:
#Entrenamiento y evaluación del modelo para cada región
predictions_0, y_valid_0, rmse_0 = train_and_evaluate(data_0)
predictions_1, y_valid_1, rmse_1 = train_and_evaluate(data_1)
predictions_2, y_valid_2, rmse_2 = train_and_evaluate(data_2)

In [8]:
#Se muestran los resultados
print(f'Región 0 - RMSE: {rmse_0}')
print(f'Región 1 - RMSE: {rmse_1}')
print(f'Región 2 - RMSE: {rmse_2}')

Región 0 - RMSE: 37.756600350261685
Región 1 - RMSE: 0.890280100102884
Región 2 - RMSE: 40.14587231134218


<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Implementación perfecta de la función a cargo de separar nuestros datos, entrenar el modelo y obtener los resultados a partir de la métrica RMSE, resultados esperados y correctos!

<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Excelente carga de los datos manteniendolos por separados de las importaciones de librerías como así la implementación de métodos para profundizar en la comprensión de nuestros datos. Bien hecho!

In [9]:
#Almacenar valores necesarios para los cálculos
BUDGET = 100e6
NUM_WELLS = 200
REVENUE_PER_UNIT = 4500

In [10]:
#Cálculo del umbral de producción mínima por pozo
MIN_PRODUCTION = BUDGET / NUM_WELLS / REVENUE_PER_UNIT
print(f'Umbral de producción mínima por pozo (en miles de barriles): {MIN_PRODUCTION:.2f}')

Umbral de producción mínima por pozo (en miles de barriles): 111.11


In [11]:
def calculate_profit(predictions, target):
    # Convertir predictions a una serie de pandas
    predictions = pd.Series(predictions, index=target.index)
    
    # Asegurar que los índices estén alineados
    predictions = predictions.sort_values(ascending=False).head(NUM_WELLS)
    target = target.loc[predictions.index]
    
    # Calcular el volumen total de reservas para los 200 pozos
    total_reserves = target.sum()
    
    # Calcular la ganancia total
    revenue = total_reserves * REVENUE_PER_UNIT
    profit = revenue - BUDGET
    
    return profit

<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Perfecto Jorge! Tal como se debía hemos tomado los top 200 pozos en base a las predicciones y de forma correcta hemos calculado la ganancia al multiplicar por la ganancia por unidad y al restar el presupuesto. Sigamos!

In [12]:
#Calculo de ganancia potencial para cada región
profit_0 = calculate_profit(predictions_0, y_valid_0)
profit_1 = calculate_profit(predictions_1, y_valid_1)
profit_2 = calculate_profit(predictions_2, y_valid_2)

#Se muestran los resultados
print(f'Región 0 - Ganancia: {profit_0}')
print(f'Región 1 - Ganancia: {profit_1}')
print(f'Región 2 - Ganancia: {profit_2}')

Región 0 - Ganancia: 33591411.14462179
Región 1 - Ganancia: 24150866.966815114
Región 2 - Ganancia: 25985717.59374112


In [13]:
#Función para el cálculo de riesgo y ganancias
def bootstrap_profit(predictions, target, n_samples=1000):
    profits = []
    
    for _ in range(n_samples):
        sample_predictions, sample_target = resample(predictions, target, random_state=42, n_samples=500)
        sample_predictions = pd.Series(sample_predictions, index=sample_target.index)
        profit = calculate_profit(sample_predictions, sample_target)
        profits.append(profit)
    
    profits = np.array(profits)
    lower = np.percentile(profits, 2.5)
    upper = np.percentile(profits, 97.5)
    mean = profits.mean()
    risk = (profits < 0).mean() * 100
    
    return mean, (lower, upper), risk

#Cálculo de riesgo y ganancias para cada región
mean_0, conf_interval_0, risk_0 = bootstrap_profit(predictions_0, y_valid_0)
mean_1, conf_interval_1, risk_1 = bootstrap_profit(predictions_1, y_valid_1)
mean_2, conf_interval_2, risk_2 = bootstrap_profit(predictions_2, y_valid_2)

#Se muestran los resultados de riesgo y ganancias
print(f'Región 0 - Beneficio medio: {mean_0}, Intervalo de confianza: {conf_interval_0}, Riesgo: {risk_0}%')
print(f'Región 1 - Beneficio medio: {mean_1}, Intervalo de confianza: {conf_interval_1}, Riesgo: {risk_1}%')
print(f'Región 2 - Beneficio medio: {mean_2}, Intervalo de confianza: {conf_interval_2}, Riesgo: {risk_2}%')

#Conclusión
if rmse_0 < rmse_1 and rmse_0 < rmse_2:
    print(f'Tras evaluar las tres regiones en términos de RMSE, la Región 0 muestra el menor error con un RMSE de {rmse_0:.2f}, lo que indica que es el modelo más preciso. Aunque la Región 0 tiene el mayor potencial de ganancia y un riesgo de pérdidas inferior al 2.5%, el menor error refuerza que la Región 0 es la opción más favorable para la apertura de nuevos pozos petroleros.')
elif rmse_1 < rmse_0 and rmse_1 < rmse_2:
    print(f'Tras evaluar las tres regiones en términos de RMSE, la Región 1 muestra el menor error con un RMSE de {rmse_1:.2f}, lo que indica que es el modelo más preciso. Aunque la Región 0 tiene el mayor potencial de ganancia, la Región 1 con su menor RMSE podría ser una opción más confiable.')
else:
    print(f'Tras evaluar las tres regiones en términos de RMSE, la Región 2 muestra el menor error con un RMSE de {rmse_2:.2f}, lo que indica que es el modelo más preciso. Aunque la Región 0 tiene el mayor potencial de ganancia, la Región 2 con su menor RMSE podría ser una opción más confiable.')



Región 0 - Beneficio medio: 5717780.598300965, Intervalo de confianza: (5717780.598300964, 5717780.598300964), Riesgo: 0.0%
Región 1 - Beneficio medio: 9907105.175532224, Intervalo de confianza: (9907105.175532222, 9907105.175532222), Riesgo: 0.0%
Región 2 - Beneficio medio: 1153030.501945138, Intervalo de confianza: (1153030.501945138, 1153030.501945138), Riesgo: 0.0%
Tras evaluar las tres regiones en términos de RMSE, la Región 1 muestra el menor error con un RMSE de 0.89, lo que indica que es el modelo más preciso. Aunque la Región 0 tiene el mayor potencial de ganancia, la Región 1 con su menor RMSE podría ser una opción más confiable.


<div class="alert alert-block alert-danger">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Aquí lo hemos hehco muy bien Jorge, haz en su mayoría implementado las cosas que debíamos sin embargo aún nos faltan corregir algunos aspectos. De forma correcta estamos iterando 1000 veces y calculando las ganancias sobre la muestre como a la vez luego guardandola para calcular los percentiles inferiores y superios como así el riesgo de perdida. Sin embargo, nos ha faltado un detalle y este refiere a que en cada iteración estamos resampleando (mezclando) la totalidad de los datos cuando en realidad lo que debemos hacer es tomar una muestra de datos más chica, por ejemplo 500 observaciones de muestra en cada una de las 1000 iteraciones.
    
    Puedes corregirlo guiandote por lo siguiente: 
    
    data.sample(n=500, replace=True, random_state=state)
    
    

## Conclusión

- Una vez que se han evaluado las 3 regiones en cuestión del beneficio medio, riesgo e intervalo de confianza, la opción más atractiva para establecer nuevos pozos petroleros es la cero, ya que cuenta con un intervalo de confianza positivo y el beneficio medio más alto. Se suma también el factor que dicha región cuenta con el myor potencial de ganancia.

- Aunque por otro lado la región 1 es la que cuenta con el menor RMSE, esto indica que es la opción con mayor precisión, también se evaluaron; el riesgo, beneficio medio e intervalo de confianza. Es importante tomar en cuenta lo anteriormente mencionado, ya que permite seleccionar la decisión apoyada en la precisión del modelo y no únicamente en las ganancias potenciales.


<div class="alert alert-block alert-success">
<b>Comentario del revisor.</b> <a class="tocSkip"></a>

Quería dedicarme aquí a agradecerte Jorge por que has hecho un trabajo de exelencia, desde las implementaciones detalladas y los agregados a lo solicitado en el proyecto. Solo hemos tenidos uno detalle pero que podremosresolver sin lugar a duda.