# Hola Nikolai! <a class="tocSkip"></a>

Mi nombre es Oscar Flores y tengo el gusto de revisar tu proyecto. Si tienes algún comentario que quieras agregar en tus respuestas te puedes referir a mi como Oscar, no hay problema que me trates de tú.

Si veo un error en la primera revisión solamente lo señalaré y dejaré que tú encuentres de qué se trata y cómo arreglarlo. Debo prepararte para que te desempeñes como especialista en Data, en un trabajo real, el responsable a cargo tuyo hará lo mismo. Si aún tienes dificultades para resolver esta tarea, te daré indicaciones más precisas en una siguiente iteración.

Te dejaré mis comentarios más abajo - **por favor, no los muevas, modifiques o borres**

Comenzaré mis comentarios con un resumen de los puntos que están bien, aquellos que debes corregir y aquellos que puedes mejorar. Luego deberás revisar todo el notebook para leer mis comentarios, los cuales estarán en rectángulos de color verde, amarillo o rojo como siguen:

<div class="alert alert-block alert-success">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>
    
Muy bien! Toda la respuesta fue lograda satisfactoriamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Existen detalles a mejorar. Existen recomendaciones.
</div>

<div class="alert alert-block alert-danger">

<b>Comentario de Reviewer</b> <a class="tocSkip"></a>

Se necesitan correcciones en el bloque. El trabajo no puede ser aceptado con comentarios en rojo sin solucionar.
</div>

Cualquier comentario que quieras agregar entre iteraciones de revisión lo puedes hacer de la siguiente manera:

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
</div>

Mucho éxito en el proyecto!

## Resumen de la revisión 1 <a class="tocSkip"></a>

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Hola Nikolai. El método `root_mean_squared_error` no está disponible en la plataforma de tripleten. Revisa el código y modifícalo para poder ejecutarlo. Antes de enviar el notebook, reinicia el kernel y ejecuta todas las celdas para revisar que no hayan problemas de compilación o de librerías. 
    
Te dejé otros comentarios para corregir el cálculo del beneficio y del boostrapping.    
    
Saludos    

</div>

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
Gracias!
</div>

----

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error #Cambio de root_mean_squered_error por problemas en la plataforma

In [2]:
def load_data(file_location):
    """
    Load data from a CSV file and separate it into features and target variables.

    Parameters:
    -----------
    file_location : str
        The path to the CSV file containing the dataset.

    Returns:
    --------
    features : pandas.DataFrame
        A DataFrame containing all columns except the first and the last.
    
    target : pandas.Series
        A Series containing the last column of the dataset.

    Notes:
    ------
    - The function assumes the dataset has at least two columns.
    - The first column is ignored, and the last column is treated as the target variable.
    - Requires pandas to be imported as `pd`.
    """
    data = pd.read_csv(file_location)
    features = data.iloc[:,1:-1]
    target = data.iloc[:,-1]
    return features,target

In [3]:
def split_data(features,target,size=0.25):
    """
    Split the dataset into training and validation sets.

    Parameters:
    -----------
    features : pandas.DataFrame
        The feature variables (independent variables).
    
    target : pandas.Series
        The target variable (dependent variable).
    
    size : float, optional (default=0.25)
        The proportion of the dataset to include in the validation split.

    Returns:
    --------
    features_train : pandas.DataFrame
        The training set features.
    
    features_valid : pandas.DataFrame
        The validation set features.
    
    target_train : pandas.Series
        The training set target values.
    
    target_valid : pandas.Series
        The validation set target values.

    Notes:
    ------
    - Uses `train_test_split` from `sklearn.model_selection`, so ensure it is imported.
    - `random_state` is used for reproducibility.
    - Default validation size is 25% of the dataset.
    """
    features_train, features_valid, target_train, target_valid = train_test_split(features,target,test_size=size,random_state=42)
    return features_train, features_valid, target_train, target_valid

In [4]:
def modelo(features_train, features_valid, target_train, target_valid):
    """
    Train a Linear Regression model and evaluate its performance.

    Parameters:
    -----------
    features_train : pandas.DataFrame
        The training set features.
    
    features_valid : pandas.DataFrame
        The validation set features.
    
    target_train : pandas.Series
        The training set target values.
    
    target_valid : pandas.Series
        The validation set target values.

    Returns:
    --------
    predictions : numpy.ndarray
        The predicted values for the validation set.

    Prints:
    -------
    - Mean reserve volume predicted.
    - Root Mean Squared Error (RMSE) of the model.

    Notes:
    ------
    - Uses `LinearRegression` from `sklearn.linear_model`, so ensure it is imported.
    - Assumes `root_mean_squared_error` is defined elsewhere or imported.
    """
    model = LinearRegression()
    model.fit(features_train,target_train)
    predictions = model.predict(features_valid)
    print(f"Mean reserve volume predicted: {predictions.mean()}")
    print(f"RSME: {np.sqrt(mean_squared_error(target_valid,predictions))}")
    return predictions, model

In [5]:
def process(file_location):
    """
    Load data, split it into training and validation sets, train a model, and generate predictions.

    Parameters:
    -----------
    file_location : str
        The path to the CSV file containing the dataset.

    Returns:
    --------
    predictions : numpy.ndarray
        The predicted values for the validation set.

    target_valid : pandas.Series
        The actual target values for the validation set.

    Notes:
    ------
    - Calls `load_data()` to load and preprocess the dataset.
    - Uses `np.random.RandomState(42)` to ensure reproducibility.
    - Calls `split_data()` to divide the data into training and validation sets.
    - Calls `model()` to train a Linear Regression model and generate predictions.
    - Assumes that `load_data`, `split_data`, and `model` are defined elsewhere.
    - Requires `numpy` to be imported as `np`.
    """
    features, target = load_data(file_location)
    features_train, features_valid, target_train, target_valid = split_data(features,target)
    predictions, model = modelo(features_train, features_valid, target_train, target_valid)
    return predictions,features_valid,target_valid,model

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Bien, las funciones para el modelo y la predicción se ven correctas. No compilan porque no se logra importar el método `root_mean_squared_error`

</div>

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
Cambiado a mean_squared_error y hecho el cálculo con numpy para sacarle raíz.
</div>

In [6]:
predictions_0,features_valid_0,target_valid_0,model_0 = process("datasets/geo_data_0.csv")

Mean reserve volume predicted: 92.39879990657768
RSME: 37.75660035026169


In [7]:
predictions_1,features_valid_1,target_valid_1,model_1 = process("datasets/geo_data_1.csv")

Mean reserve volume predicted: 68.71287803913762
RSME: 0.8902801001028854


In [8]:
predictions_2,features_valid_2,target_valid_2,model_2 = process("datasets/geo_data_2.csv")

Mean reserve volume predicted: 94.77102387765939
RSME: 40.145872311342174


In [9]:
investment = 100000000
gain_per_unit = 4500
n_oil_wells = 200

In [10]:
print(f"Average volume of oil per oil well to avoid losses: {investment/n_oil_wells/gain_per_unit:.2f}")

Average volume of oil per oil well to avoid losses: 111.11


- La región 0 tiene en promedio 9 unidades menos de las necesarias para evitar pérdidas. Pero el error es de 37 unidades y se toman en cuenta todos los pozos y no sólo los mejores 200, por lo que hay muy alta posibilidad de que sea una buena región.
- La región 1 tiene en promedio 42 unidades menos de las necesarias para evitar pérdidas. Aunque se tomen a los mejores 200 pozos, el error es mínimo en esta región y el déficit es bastante grande, por lo que tal vez no sea tan buena idea invertir aquí.
- La región 2 es muy similar a la 0, con un poco más de unidades en promedio pero con un poco más de error. Ambas regiones, 0 y 2, son potencialmente buenas.

In [43]:
def calcular_ganancia(predictions,target_valid):
    investment = 100000000
    gain_per_unit = 4500
    predictions_top_200 = pd.Series(predictions).sort_values(ascending=False)[:200]
    valid_top_200 = target_valid.iloc[predictions_top_200.index]
    total_reserves_predicted = valid_top_200.sum()
    benefit = total_reserves_predicted*gain_per_unit - investment
    return benefit, predictions_top_200, valid_top_200

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

Para calcular el beneficio, es necesario ordenar los pozos según el valor de predicción pero se usa el valor real para calcular el beneficio. Es decir:
    
- Debes tener la data de predicción y real de todos los pozos usados para validación
- Toma los mejores 200 pozos según el valor de predicción
- Calcula el volumen según el valor real de esos pozos
- La ganancia es ese volumen por 4500 menos los 100 millones de inversión
</div>

<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
Creo que ya quedó.
</div>

In [44]:
benefit_0, predictions_top_200_0, valid_top_200_0 = calcular_ganancia(predictions_0,target_valid_0)
print(f"Benefit: {benefit_0:.2f}")

Benefit: 33591411.14


In [45]:
benefit_1, predictions_top_200_1, valid_top_200_1 = calcular_ganancia(predictions_1,target_valid_1)
print(f"Benefit: {benefit_1:.2f}")

Benefit: 24150866.97


In [46]:
benefit_2, predictions_top_200_2, valid_top_200_2 = calcular_ganancia(predictions_2,target_valid_2)
print(f"Benefit: {benefit_2:.2f}")

Benefit: 25985717.59


En las 3 regiones se obtiene una buena cantidad de beneficio. Pero se confirman mis sospechas de que la región 0 es potencialmente mucho mejor que la región 1. También vemos que la región 2 se parece más a la región 1 que a la 0.

In [56]:
def calculo_riesgos_y_ganancias(features_valid,target_valid,model):
    state = np.random.RandomState(42)
    means = []
    for i in range(1000):
        sample = features_valid.sample(n=500,replace=True,random_state=state)
        predictions = model.predict(sample)
        benefit,_,_ = calcular_ganancia(predictions,target_valid)
        means.append(benefit)
    means = pd.Series(means)
    mean = means.mean()
    lower = means.quantile(q=0.025) 
    upper = means.quantile(q=0.975)
    benefit_interval = np.array((lower,upper)) #Intervalo de confianza del beneficio
    n_losses = (means<=0).sum() #Número de casos en donde el promedio de volumen es menor al requerido para evitar perdidas
    loss_probability = n_losses/1000
    print(f"Beneficio promedio: {mean}\nIntervalo de confianza del 95%: {benefit_interval}\nProbabilidad de pérdida: {loss_probability*100}%")

<div class="alert alert-block alert-danger">
<b>Comentario de Revisor</b> <a class="tocSkip"></a>

El bootstrapping es incorrecto, se debe tomar una muestra de la data de validación y además se requieren los valores reales y de predicción. Te dejo indicaciones de cómo implementarlo:
    
 - Iterar 1000 veces
 - En cada iteración, tomar los pozos de validación (25000 pozos) y extraer una muestra aleatoria con reemplazo de 500
 - De esos 500, aplicar el método de cálculo de ganancia (top 200 por predicción, usar valor real)
 - Guarda el beneficio
 - Con los 1000 beneficios obtenidos, se calculan las métricas.
    
La forma de cálculo de las métricas me parece correcta, una vez modificado el procedimiento anterior se podrá revisar mejor.
</div>  


<div class="alert alert-block alert-info">
<b>Respuesta estudiante.</b> <a class="tocSkip"></a>
Mucha diferencia. Creo que ahora entiendo un poco más lo que estoy haciendo. Muchas gracias!
</div>

In [57]:
calculo_riesgos_y_ganancias(features_valid_0,target_valid_0,model_0)

Beneficio promedio: -15067044.217699485
Intervalo de confianza del 95%: [-19260788.94937892 -10634540.84756481]
Probabilidad de pérdida: 100.0%


In [58]:
calculo_riesgos_y_ganancias(features_valid_1,target_valid_1,model_1)

Beneficio promedio: -37424627.27167337
Intervalo de confianza del 95%: [-42170778.07618178 -33243484.82353693]
Probabilidad de pérdida: 100.0%


In [59]:
calculo_riesgos_y_ganancias(features_valid_2,target_valid_2,model_2)

Beneficio promedio: -15016376.6850429
Intervalo de confianza del 95%: [-19147307.82122898 -10696477.57732603]
Probabilidad de pérdida: 100.0%


Oh sorpresa! Aquí todas las ganancias aparecen negativas. Resulta que aunque tomemos las mejores 200 de una muestra de 500, el volumen promedio de petroleo sigue estando por debajo de los 111.11, por lo que en todas las regiones hay pérdidas.