Hola &#x1F600;

Soy **Hesus Garcia**, revisor de código de Practicum, y voy a examinar el proyecto que has desarrollado recientemente. Si encuentro algún error, te lo señalaré para que lo corrijas, ya que mi objetivo es ayudarte a prepararte para un ambiente de trabajo real, donde el líder de tu equipo actuaría de la misma manera. Si no puedes solucionar el problema, te proporcionaré más información en la próxima oportunidad. Cuando encuentres un comentario,  **por favor, no los muevas, no los modifiques ni los borres**. 

Revisaré cuidadosamente todas las implementaciones que has realizado para cumplir con los requisitos y te proporcionaré mis comentarios de la siguiente manera:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

</br>

**¡Empecemos!**  &#x1F680;


# OilyGiant

# Descripción del proyecto

Se trabaja para la compañía minera OilyGiant. El objetivo es encontrar el mejor lugar para un nuevo pozo, para ello es necesario del uso de los parámetros del pozo de petróleo en la regiones seleccionadas, calidad del petróleo y volumen de reservas. La petición del cliente es construir un modelo para predecir el volumen de reservas en los nuevos pozos seleccionando los pozos de petróleo con los valores estimados más altos obteniendo así el mayor beneficio total para los pozos de petróleo seleccionados.

El departamento de OilyGiant nos brinda datos sobre muestras de crudo de tres regiones; ya se conocen los parámetros de cada pozo petrolero de la región.

# Tabla de contenido

1. [Introducción](#Introducción)

    1.1 [Objetivo general](#Objetivo-general)
    
    1.2 [Objetivos particulares](#Objetivos-particulares)
    
    
2. [Descripción de los datos](#Descripción-de-los-datos)


3. [Limpieza de datos](#Limpieza-de-datos)


4. [Procesamiento de datos](#Procesamiento-de-datos)


5. [Generación de modelo predictivo](#Generación-de-modelo-predictivo)

    5.1 [Hallazgos preliminares](#Hallazgos-preliminares)
    
    
6. [Cálculo de ganancias](#Cálculo-de-ganancias)


7. [Cálculo de riesgos con respecto a las características del pozo](#Cálculo-de-riesgos-con-respecto-a-las-características-del-pozo)


8. [Cálculo de beneficio predictivo por región](#Cálculo-de-beneficio-predictivo-por-región)

    8.1 [Cálculo de ganancias con respecto a una muestra aleatoria por región](#Cálculo-de-ganancias-con-respecto-a-una-muestra-aleatoria-por-región)


6. [Conclusión](#Conclusión)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Excelente incluir una tabla de contenido con hipervinculos
</div>


## Introducción



## Objetivo general

- Desarrollar un modelo que ayude a predecir la mejor region para instalar un pozo con el mejor beneficio.

## Objetivos particulares

- Recolectar los parámetros del pozo de petróleo en la región seleccionada: calidad del petróleo y volumen de reservas.
- Construir un modelo para predecir el volumen de reservas en los nuevos pozos.
- Selecciona los pozos de petróleo con los valores estimados más altos.
- Eligir la región con el mayor beneficio total para los pozos de petróleo seleccionados.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Bien, es clave realizar una descripción del proyecto que estamos abordando y sus objetivos!
</div>

In [1]:
# importar las librerías que se van a utilizar
import pandas as pd
import numpy as np
import math
from numpy.random import RandomState

# para la división y subconjunto de datos (entrenamiento y validación)
from sklearn.model_selection import train_test_split

# importar modelo de predicción en formato de regresión logística
from sklearn.linear_model import LinearRegression

# librerías para análisis estadístico
from sklearn.metrics import mean_squared_error, r2_score

# comparativa de medias poblacionales
from scipy import stats as st

from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

In [2]:
# importar el archivo con formato csv que se va autilizar para trabajar

try:
    geo_1 = pd.read_csv('/datasets/geo_data_0.csv')
    geo_2 = pd.read_csv('/datasets/geo_data_1.csv')
    geo_3 = pd.read_csv('/datasets/geo_data_2.csv')
except:
    geo_1 = pd.read_csv('geo_data_0.csv')
    geo_2 = pd.read_csv('geo_data_1.csv')
    geo_3 = pd.read_csv('geo_data_2.csv')

In [3]:
# vista preliminar de los datos
geo_1.info()
geo_1.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
geo_2.info()
geo_2.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [5]:
geo_3.info()
geo_3.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



<div class="alert alert-block alert-warning">
<b>Comentarios del Revisor</b> <a class="tocSkip"></a>
¡Muy bien hecho! En general, se ve que has seguido un procedimiento adecuado. Sin embargo, para mejorar aún más, te sugiero que agregues una breve descripción de los dataframes y las variables que los componen. De esta manera, será más fácil para el equipo comprender y utilizar el código que has creado. Además, recuerda usar la función describe para obtener un resumen estadístico de los datos. ¡Sigue así! :)

</div>

## Descripción de los datos

- *Id* — identificador único de pozo de petróleo
- *f0, f1, f2* — tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)
- *Product* — volumen de reservas en el pozo de petróleo (miles de barriles)


## Limpieza de datos

Los datos no contienen valores ausentes ni tipografía de datos incorrecta. Las tres tablas con las información de los pozos contienen el Id de la región úntual, las características propias de la región (f0, f1 y f2; sólo con valor estadístico), y el volúmen del crudo; este último se pretende usar como el valor de predicción ya que, con base en las características propias de la región es necesario hacer un modelo de predicción. Por último, la columna `id` no aporta valor estadístico por lo que se va a despreciar para la elaboración, entrenamiento, validación y predicción del modelo.


## Preprocesamiento de datos

In [6]:
# crear una función para preparar los datos para el entrenamiento, validación y la prueba del modelo dependiente del df

def set_data(df):
    # división de los modelos de entrenamiento, validación y prueba
    train, val = train_test_split(df, test_size=0.25, random_state=12345) #20692
    
    # crear el set de features, target para cada uno de los conjuntos
    train_features = train.drop(['id','product'], axis = 1)
    train_target = train['product']
    val_features = val.drop(['id','product'], axis = 1)
    val_target = val['product']
    return train_features, train_target, val_features, val_target


<div class="alert alert-block alert-success">
<b>Comentarios del Revisor</b> <a class="tocSkip"></a>
Excelente ver que has generado una función para preprocesar los datos y separarlos en conjuntos de entrenamiento y prueba. Esto demuestra un gran compromiso y habilidad para automatizar tareas repetitivas y mejorar la eficiencia del proceso. Excelente trabajo, ¡sigue así!

</div>





In [7]:
set_data(geo_1)[3]

71751     10.038645
80493    114.551489
2655     132.603635
53233    169.072125
91141    122.325180
            ...    
12581    170.116726
18456     93.632175
73035    127.352259
63834     99.782700
43558    177.821022
Name: product, Length: 25000, dtype: float64

## Generación de modelo predictivo

In [8]:
# elaboraación del modelo (regresión lineal) y observación de la métrica de coeficiente de determinación para geo_1

model_1 = LinearRegression()
model_1.fit(set_data(geo_1)[0], set_data(geo_1)[1])
predictions_1 = model_1.predict(set_data(geo_1)[2])
r2 = r2_score(set_data(geo_1)[3], predictions_1)

mse = mean_squared_error(set_data(geo_1)[3], predictions_1)
mean = set_data(geo_1)[3].mean()

print('Linear Regression')
print('RMSE =', mse ** 0.5)
print('-'*50)
print('Promedio =', predictions_1.mean())
print('-'*50)
print('Coeficiente de determinación')
print('R2 =',r2)

Linear Regression
RMSE = 37.5794217150813
--------------------------------------------------
Promedio = 92.59256778438035
--------------------------------------------------
Coeficiente de determinación
R2 = 0.27994321524487786


<div class="alert alert-block alert-warning">
<b>Comentarios del Revisor</b> <a class="tocSkip"></a>
La implementación del modelo de regresión lineal es correcta, pero se sugiere no llamar tantas veces a<code>set_data</code>, podrías guardar las variables que retorna en una variable, de manera que el código se vea más limpio y legible.
</div>

La predicción del modelo es algo mejor que la media, se debe de mejorar aún más para ser destacable.

In [9]:
# elaboraación del modelo (regresión lineal) y observación de la métrica de coeficiente de determinación para geo_2

model_2 = LinearRegression()
model_2.fit(set_data(geo_2)[0], set_data(geo_2)[1])
predictions_2 = model_2.predict(set_data(geo_2)[2])
r2 = r2_score(set_data(geo_2)[3], predictions_2)

mse = mean_squared_error(set_data(geo_2)[3], predictions_2)
mean = set_data(geo_2)[3].mean()

print('Linear Regression')
print('RMSE =', mse ** 0.5)
print('-'*50)
print('Promedio =', predictions_2.mean())
print('-'*50)
print('Coeficiente de determinación')
print('R2 =',r2)

Linear Regression
RMSE = 0.893099286775617
--------------------------------------------------
Promedio = 68.728546895446
--------------------------------------------------
Coeficiente de determinación
R2 = 0.9996233978805127


La predicción en esta región de pozos es mucho mejor, casi perfecta.

In [10]:
# elaboraación del modelo (regresión lineal) y observación de la métrica de coeficiente de determinación para geo_3

model_3 = LinearRegression()
model_3.fit(set_data(geo_3)[0], set_data(geo_3)[1])
predictions_3 = model_3.predict(set_data(geo_3)[2])
r2 = r2_score(set_data(geo_3)[3], predictions_3)

mse = mean_squared_error(set_data(geo_3)[3], predictions_3)
mean = set_data(geo_3)[3].mean()

print('Linear Regression')
print('RMSE =', mse ** 0.5)
print('-'*50)
print('Promedio =', predictions_3.mean())
print('-'*50)
print('Coeficiente de determinación')
print('R2 =',r2)

Linear Regression
RMSE = 40.02970873393434
--------------------------------------------------
Promedio = 94.96504596800489
--------------------------------------------------
Coeficiente de determinación
R2 = 0.20524758386040443




<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Los valores para RMSE y el volumen promedio de reservas (Promedio), es correcto.
</div>


Al igual que el modelo del primer conjunto de datos (`geo_1`), este modelo enfrente apenas una mejoría al promedio de predictivo que hace.

### Hallazgos preliminares

Se observa que el conjunto de datos pertenecientes a `geo_2`, se logró entrenar un modelo altamente sensible y de calidad, sin embargo, el promedio en el volumen del crudo es significativamente menor que en los otros dos conjuntos de datos información que se puede corroborar con un estudio de intervalo de confianza donde la hipótesis nula (**H0**) es que le media de ambas poblaciones es estadísticamente igual y la hipótesis alternativa (**H1**) expresa que ambas medias poblacionales son diferentes.

In [11]:
# comparación entre geo_1 y geo_2
results = st.ttest_ind(predictions_1, predictions_3, equal_var=False) 
alpha = 0.01

print('p-value:', results.pvalue)

if (results.pvalue < alpha):
    print("Rechazamos la hipótesis nula")
else:
    print("No rechazamos la hipótesis nula")

p-value: 1.1275069262433447e-34
Rechazamos la hipótesis nula


In [12]:
# comparación entre geo_2 y geo_3
results = st.ttest_ind(predictions_2, predictions_3, equal_var=False) 
alpha = 0.01

print('p-value:', results.pvalue)

if (results.pvalue < alpha):
    print("Rechazamos la hipótesis nula")
else:
    print("No rechazamos la hipótesis nula")

p-value: 0.0
Rechazamos la hipótesis nula


In [13]:
# comparación entre geo_1 y geo_3
results = st.ttest_ind(predictions_2, predictions_3, equal_var=False) 
alpha = 0.01

print('p-value:', results.pvalue)

if (results.pvalue < alpha):
    print("Rechazamos la hipótesis nula")
else:
    print("No rechazamos la hipótesis nula")

p-value: 0.0
Rechazamos la hipótesis nula


Se debe de mejorar el modelo predictivo para `geo_1` y `geo_3` por lo cual se hará uso de la técnica de validación cruzada

In [14]:
# rendimiento del modelo para geo_1
features = geo_1.drop(['id', 'product'], axis = 1)
target = geo_1['product']
model_1_improved = LinearRegression()

scores = cross_val_score(model_1_improved, features, target, cv=10)
final_score = sum(scores)/len(scores)
print('Valor de calidad promedio del modelo:', final_score)

Valor de calidad promedio del modelo: 0.27547024205606097


In [15]:
# rendimiento del modelo para geo_3
features = geo_3.drop(['id', 'product'], axis = 1)
target = geo_3['product']
model_3_improved = LinearRegression()

scores = cross_val_score(model_3_improved, features, target, cv=10)
final_score = sum(scores)/len(scores)
print('Valor de calidad promedio del modelo:', final_score)

Valor de calidad promedio del modelo: 0.19867018805197606


## Cálculo de ganancias


In [16]:
# cálculo del volumen de crudo mínimo con base en el presupuesto para generar rendimiento
threshold = 100e6 / 4500
print(f'El volúmen mínimo de crudo en miles de barriles que se debe de cubrir para obtener ganancias es de: {math.ceil(threshold)}')
print('-'*60)
print('Límite de pozos petroleros: 200')
print('Presupuesto: 100 000 000 USD')
print('-'*60)
pres_pozo = int(100e6/200)
print(f'Promedio de presupuesto por pozo: {pres_pozo} USD')
barr_cost = int(pres_pozo/4500)
print('Volumen de petróleo necesario (en millones de barriles) para cubrir costo:', barr_cost)

El volúmen mínimo de crudo en miles de barriles que se debe de cubrir para obtener ganancias es de: 22223
------------------------------------------------------------
Límite de pozos petroleros: 200
Presupuesto: 100 000 000 USD
------------------------------------------------------------
Promedio de presupuesto por pozo: 500000 USD
Volumen de petróleo necesario (en millones de barriles) para cubrir costo: 111


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo encontrando el punto de equilibrio o costo unitario por pozo. 111.111
</div>

El promedio del volumen de los pozos (en miles de barriles) para la región seleccionada debe de cubrir almenos los 111, por lo cuales todo punto de pozo que no alcance con este threshold se considerará en pérdida. En análisis preliminares se ha observado que el volumen promedio de las tres regiones estudiadas sobrepasan el threshold calculado por lo que existe alta probabilidad de generar ganancias en cualquiera de las regiones, sin embargo, el punto de este estudio es seleccionar la region que con base en predicciones obtendríamos la mayor cantidad de ganancias, siendo la predicción y la probabilidad de encontrar pozos con altos volúmenes de crudo son la clave.

Los valores que se expresan en las columnas de `product`, está expresado en miles de barriles por unidad, cada unidad equivale a 4500 USD; el presupuesto para el desarrollo de 200 pozos petroleros es de 100 000 000 USD lo que correspone a tener un mínimo de volumen (threshold) de 22223 miles de barriles, se debe encontrar la máxima cantidad de volumen para obtener el máximo beneficio.

In [17]:
points = 500
best_points = 200
budget_200 = 100000000
revenue_per_barril = 4.5
revenue_per_unit = 4500
cost_one = budget_200/best_points

def revenue(target, predictions, count):
    
    # Tomamos las predicciones y las ordenamos de forma descendente
    predictions_sorted = pd.Series(predictions).sort_values(ascending=False)
    # Seleccionamos los n pozos del objetivo en base a los índices de las predicciones más altas
    selected = target.reset_index(drop=True).iloc[predictions_sorted.index][:count]
    
    # Calculamos el volumen total, sumando el volumen de reservas de n pozos seleccionados
    volume_total = selected.sum()
    # Calculamos el ingreso multiplicando el volumen total por las ganancias por unidad de producto
    income = volume_total * revenue_per_unit
    # Calculamos el costo por el desarrollo de n pozos, considerando que la construcción de un pozo necesita 500000 
    cost = count * cost_one
    
    # Calculamos el beneficio bruto restando el costo de los ingresos
    return income - cost

In [31]:
total_points = 500
top_points = 200
budget_for_top = 100000000
revenue_per_barrel = 4.5
revenue_per_unit = 4500
cost_per_well = budget_for_top / top_points

def revenue2(targets, predictions2, n):
    # Sort the predictions in descending order
    sorted_predictions = pd.Series(predictions2).sort_values(ascending=False)
    # Select the top n wells based on the indices of the highest predictions
    selected_wells = targets.reset_index(drop=True).iloc[sorted_predictions.index][:n]

    # Calculate the total volume by adding the volumes of the selected wells
    total_volume = selected_wells.sum()
    # Calculate the revenue by multiplying the total volume by the revenue per unit
    revenue = total_volume * revenue_per_unit
    # Calculate the cost of developing n wells, assuming each well costs 500000 to build
    cost = n * cost_per_well

    # Calculate the gross profit by subtracting the cost from the revenue
    return revenue - cost

In [18]:
predictions_1.sort()
predictions_1[1:25]

array([ 4.98098667,  6.56947671,  8.79853138, 10.20935123, 12.32619867,
       16.12524522, 18.01408074, 18.18592913, 18.27234303, 19.07713936,
       19.72255524, 20.15961651, 20.22056248, 20.23388967, 20.66426595,
       21.27246286, 21.76524715, 22.30136017, 22.32804685, 22.55882979,
       22.75767918, 23.12937404, 23.5145081 , 23.67866784])

In [19]:
len(predictions_1)

25000

In [20]:
round(geo_1['product'].mean(),3)

92.5

In [32]:
revenue_1 = revenue(set_data(geo_1)[3].sort_values(), predictions_1, 200)

In [35]:
target_valid_1 = set_data(geo_1)[3]

In [36]:
revenue2(target_valid_1, predictions_1, 200)

-18457577.478959188

In [26]:
predictions_1.sort()
predictions_1[1:25]
predictions_1.sum()

2314814.1946095093

In [25]:
set_data(geo_1)[3].sort_values().sum()

2301964.918520732

In [24]:
revenue_1

65109475.803188115

In [27]:
def cal_profit(target):
    profit = (pd.Series(target)
              .sort_values(ascending=False)-111.111).head(200).sum()
    return profit

In [28]:
product_predict = []
for i in [predictions_1, predictions_2, predictions_3]:
    product_predict.append(cal_profit(i))
region = ['region_1', 'region_2', 'region_3']
df_cal_profit = pd.DataFrame(data= {
    'region' : ['region1','region2','region3'],
    'product' : product_predict})
df_cal_profit['revenue'] = (df_cal_profit['product']*4500).astype(int)
df_cal_profit

Unnamed: 0,region,product,revenue
0,region1,8880.130839,39960588
1,region2,5523.826782,24857220
2,region3,7381.698658,33217643



<div class="alert alert-block alert-info">
<b>Comentarios del Revisor</b> <a class="tocSkip"></a>
¡Buen trabajo en el análisis de datos! Sin embargo, he notado que la función cal_profit puede no estar aplicando correctamente las reglas de negocio. Te sugiero revisar las reglas de negocio una vez más y ajustar la fórmula de la función en consecuencia. En particular, la fórmula que se debe seguir es ata * precio - inversion_pozo.

Para ayudarte en tu revisión, te proporciono una tabla con valores aproximados que deberías obtener:
    
¡Sigue adelante con tu trabajo! Estoy seguro de que puedes solucionarlo pronto.

</div>

| region   | revenue      | Product 
|----------|--------------|--------------------------------
| Región 1 | 33 208 280   | 29601                 
| Región 2 | 24 150 860   | 27589                   
| Región 3 | 27 103 490   | 28245                 


In [18]:
# calcular el beneficio máximo de obtener sólo los pozos de mayor volumen que ya fueron muestreados, mas no predecidos.
profit_geo_1 = round(cal_profit(geo_1['product'])/1e6,4)
profit_geo_2 = round(cal_profit(geo_2['product'])/1e6,4)
profit_geo_3 = round(cal_profit(geo_3['product'])/1e6,4)
print(f'Ganancias máximas con base en los mejores pozos estudiados en la región 1 y sin predicción: {profit_geo_1} millones de USD')
print('-'*120)
print(f'Ganancias máximas con base en los mejores pozos estudiados en la región 2 y sin predicción: {profit_geo_2} millones de USD')
print('-'*120)
print(f'Ganancias máximas con base en los mejores pozos estudiados en la región 3 y sin predicción: {profit_geo_3} millones de USD')
print('-'*120)

Ganancias máximas con base en los mejores pozos estudiados en la región 1 y sin predicción: 0.0147 millones de USD
------------------------------------------------------------------------------------------------------------------------
Ganancias máximas con base en los mejores pozos estudiados en la región 2 y sin predicción: 0.0054 millones de USD
------------------------------------------------------------------------------------------------------------------------
Ganancias máximas con base en los mejores pozos estudiados en la región 3 y sin predicción: 0.0157 millones de USD
------------------------------------------------------------------------------------------------------------------------


Se debe tomar un punto importante que es la toma de los mejores 200 pozos de cada región sin usar ningún modelo de predicción. Es necesario hacer el uso de modelos predictivos sobre las características de cada pozo para predecir dónde se pudiera tener un beneficio máximo sin necesidad de hacer perforaciones previas, de aquí la necesidad de crear buenos modelos predictivos y de paso, seleccionar la mejor región donde exista una excelente predicción y el mayor beneficio en ganancias.

## Cálculo de riesgos con respecto a las características del pozo

Se pretende realizar un análisis del cálculo de riesgo conr especto a las características de cada uno de los pozos independientemente de la región pero sí dependientre del modelo predictivo.

In [19]:
def cal_risk(df, model):
    prediction = df[['f0','f1','f2']]
    df['prediction'] = model.predict(prediction)
    df['pred_profitable'] = df['prediction'] > threshold/200
    df['real_profitable'] = df['product'] > threshold/200
    df['profit'] = df['product']*4500
    df['predict_profit'] = df['prediction']*4500
    risk = df['pred_profitable'].value_counts(normalize = True)[False]
    real_risk = df['real_profitable'].value_counts(normalize = True)[False]
    print(f'Riesgo de que cada uno de los pozos estudiados en esta región genere pérdidas (con modelo predictivo): {risk:.1%}')
    print(f'Riesgo real para cada uno de los pozos estudiados (sin modelo predictivo) en esta región genere pérdidas: {real_risk:.1%}')
#     return risk, real_risk, df

In [20]:
# Para la tregión `geo_1`:
cal_risk(geo_1, model_1)

Riesgo de que cada uno de los pozos estudiados en esta región genere pérdidas (con modelo predictivo): 78.6%
Riesgo real para cada uno de los pozos estudiados (sin modelo predictivo) en esta región genere pérdidas: 63.4%


In [21]:
# Para la tregión `geo_2`:
cal_risk(geo_2, model_2)

Riesgo de que cada uno de los pozos estudiados en esta región genere pérdidas (con modelo predictivo): 81.8%
Riesgo real para cada uno de los pozos estudiados (sin modelo predictivo) en esta región genere pérdidas: 83.5%


In [22]:
# Para la tregión `geo_3`:
cal_risk(geo_3, model_3)

Riesgo de que cada uno de los pozos estudiados en esta región genere pérdidas (con modelo predictivo): 78.9%
Riesgo real para cada uno de los pozos estudiados (sin modelo predictivo) en esta región genere pérdidas: 61.8%


Al observar los resultados se obtiene un fuerte elemento para determinar en qué región es más probable tener ganancias con base al modelo predictivo y a las características del pozo, esta información es pieza medular al momento de elegir la eficiencia depredicción y de éxito de encontrar un buen pozo.

Lo anterior es tomando en cuenta el modelo predictivo tomando en cuenta **TODOS** los pozos y su modelo predictivo, mostrando mejora al usar el modelo predictivo de la región 2 `geo_2` incluso aúnteniendo pozos que presentan altas pérdidas.

## Cálculo de beneficio predictivo por región


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
    Con el fin de tener un feedback y de evitar eliminar código que tal vez quisiera repasar, lo dejé en forma de texto, una vez que se apruebe el proyecto, lo eliminaría. Gracias por comprenderlo.
</div>

In [23]:
# def profit_estimate(df, predictions):
#     if predictions == True:
#         top_200_df = round(df['predict_profit'].sort_values(ascending=False).head(200))
#     else:
#         top_200_df = round(df['profit'].sort_values(ascending=False).head(200))
#     # Muestras para el bootstrap
#     imput_bootsamples = []
    
#     for i in range(1000):
#         imput_bootsamples.append(top_200_df.sample(1000, replace=True).mean())
#     imput_bootsamples = round(pd.Series(imput_bootsamples),0)
#     min_lim = round(imput_bootsamples.mean() - imput_bootsamples.std()*2,0)
#     max_lim = round(imput_bootsamples.mean() + imput_bootsamples.std()*2,0)
#     total_profit = ((imput_bootsamples.mean()*200)-1e8)/1e8

#     return (f'Promedio del top 200: ${top_200_df.mean()} USD', 
#             f'Ingreso promedio usando bootstramp: ${imput_bootsamples.mean()} USD',
#             f'Error estándar de la media: {imput_bootsamples.sem()}',
#             f'Intérvalo de confianza con alpha de 0.955 de la media: ({min_lim},{max_lim})',
#             f'Margen de beneficio neto: {total_profit:.1%}',
#             total_profit,
#             imput_bootsamples)

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
¡Hola! Parece que hay un pequeño problema con la función de ganancias, ya que no está calculando los valores de manera correcta. No te preocupes, podemos revisar y solucionar este problema juntos. Te comparto mi definición de la función para ver si ves algo que pueda guiarte. <br><code>
def revenue(target, predicted, n):
    predicted = pd.Series(predicted)
    target = target.reset_index(drop=True)
    indices = predicted.sort_values(ascending=False).index 
    return (target.loc[indices][:n].sum() * income_per_volume) - (well_cost * n) </code>
</div>

In [24]:
#extracción de submuestra para bootstrap
state = RandomState(20692)

In [25]:
# crear una función que calcule ganancias utilizando bootstrap

def revenue(df,n):
    stats= []
    reve_list = []
    bootstrap_samples = n
    for i in range(bootstrap_samples):
        step = df.sample(frac=.005, replace=True, random_state=state)
        target = step['product']
        predicciones = step['prediction']
        indices = predicciones.sort_values(ascending=False).index
        bt_revenue = (target.loc[indices][:200].sum()*4500)-(500000*200)
        reve_list.append(bt_revenue)
    reve_list = pd.Series(reve_list)
    
    risk = len(reve_list[reve_list < 0]) / len(reve_list)
    
    stats = pd.DataFrame(data = {
        'mean_profit' : [reve_list.mean().astype(int)],
        'low_conf_interval' : [reve_list.quantile(0.025).astype(int)],
        'up_conf_interval' : [reve_list.quantile(0.0975).astype(int)],
        'lost_risk_%' : risk*100
    })
    return stats

In [26]:
# Condensar toda la información acerca de las ganancias
stats_region_1 = revenue(geo_1,500)
stats_region_2 = revenue(geo_2,500)
stats_region_3 = revenue(geo_3,500)
statics_region = stats_region_1
statics_region = statics_region.append(stats_region_2, ignore_index=True)
statics_region = statics_region.append(stats_region_3, ignore_index=True)
statics_region

Unnamed: 0,mean_profit,low_conf_interval,up_conf_interval,lost_risk_%
0,4516986,-701677,1278754,5.2
1,4543790,535596,1858967,1.4
2,3721744,-1855207,67727,9.4


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
correcto. Implementaste bootstrapping con 500 puntos y calculas el intervalo de confianza. 
</div>

In [27]:
# profit_estimate(geo_1, True)[6].hist(bins=100)
# profit_estimate(geo_1, True)[0:5]

In [28]:
# profit_estimate(geo_1, False)[6].hist(bins=100)
# profit_estimate(geo_1, False)[0:5]

In [29]:
# profit_estimate(geo_2, True)[6].hist(bins=100)
# profit_estimate(geo_2, True)[0:5]

In [30]:
# geo_2['prediction'].hist(bins=100)
# geo_2['product'].hist(bins=100)

In [31]:
# profit_estimate(geo_2, False)[6].hist(bins=100)
# profit_estimate(geo_2, False)[0:5]

<!-- Se observa que, para el caso de la región `geo_02` existe una predicción casi exacta ya que las características de los parámetros utilizados para hacer predicciones siguen una tendencia regular y que todos los valores expuestios tienen son iguales; las otras regiones muestran algo parecido a una distribución normal hacia una campana de Gauss obteniendo de igual modo y por medio de bootstrap valos estadísticos con mayor resolusión. -->

In [32]:
# profit_estimate(geo_3, True)[6].hist(bins=100)
# profit_estimate(geo_3, True)[0:5]

In [33]:
# profit_estimate(geo_3, False)[6].hist(bins=100)
# profit_estimate(geo_3, False)[0:5]

<!-- Para copilar mejor la información se pretende crar una tabla con el margen de ganancia tanto con el uso del modelo prediictivo como sin él. -->

In [34]:
# # Obtención del margen de  ganancia de cada uno de las regiones con y sin el modelo predictivo
# margen_1 = profit_estimate(geo_1, False)[5]
# margen_1_pred = profit_estimate(geo_1, True)[5]
# margen_2 = profit_estimate(geo_2, False)[5]
# margen_2_pred = profit_estimate(geo_2, True)[5]
# margen_3 = profit_estimate(geo_3, False)[5]
# margen_3_pred = profit_estimate(geo_3, True)[5] 

In [35]:
# resume = pd.DataFrame(data = {
#     'region' : ['geo_1','geo_2','geo_3'],
#     'margen_neto_real' : [margen_1, margen_2,margen_3],
#     'margen_neto_pred' : [margen_1_pred, margen_2_pred,margen_3_pred]
# })
# resume

<!-- Se observa que el margen de ganancia es mejor en las regiones de `geo_1` y `geo_3` cuando se hace el calculo de ganancias los valores exactos del producto; sin embargo, el margen de ganancias casi se triplica al usar el modelo predictivo para la región `geo_2`, esto se debe a que con los valores reales se tiene pozos con mayor volumen de extracción y con ello de ganancias pero los modelos predictivos creados no lo hacen tan eficientemente a diferencia del modelo predictivo para `geo_2` donde, debido a su excelente capacidad de predecir el volumen del crudo en los pozos dependientes de características se conoce bien y con alta precisión el valor del margen de ganacias es casi del triple -->

In [36]:
# unir tablas de resultados obtenidos

final_df = pd.merge(df_cal_profit, statics_region, left_index = True, right_index=True)
final_df

Unnamed: 0,region,product,revenue,mean_profit,low_conf_interval,up_conf_interval,lost_risk_%
0,region1,8765.958421,39446812,4516986,-701677,1278754,5.2
1,region2,5543.071232,24943820,4543790,535596,1858967,1.4
2,region3,7469.343603,33612046,3721744,-1855207,67727,9.4


`low_conf_interval`: es el valor más bajo (el cuantil 0.025%).


`up_conf_interval`: es el valor más alto (el cuantil 0.975%).


Lo que nos muestra para cada región el intervalo de confianza del 95 %.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Gran trabajo!  &#128077; <br>
Has incluido los cálculos de los intervalos de confianza y el riesgo
</div>

<!-- ## Cálculo de ganancias con respecto a una muestra aleatoria por región

La siguiente información es meramente infomativa y su uso se destina a la comparativa sobre las ganancias que se generarían si se hiciera un muestreo aleatorio haciendo uso del modelo predictivo. -->

In [37]:
# state = np.random.RandomState(12345)

In [38]:
# def cal_profit_per_sample(target, samples):
#     count = []
#     for i in range(samples):
#         profit = int(pd.Series(target)
#                  .sample(n=1000, random_state=state)
#                  .sort_values(ascending=False)
#                  .head(200)
#                  .sum()*4500-1e8)
#         count.append(profit)
#     count = pd.Series(count)
#     print(f'Media: $ {count.mean()} USD')
#     confidence_interval = st.t.interval(0.95, len(count)-1, loc=count.mean(), scale=count.sem())
#     print('Intervalo de confianza del 95 %:', confidence_interval)
#     print('-'*80)
#     profit = count.mean() / 1e8
#     print(f'Ganancia neta: {profit:.1%}')

In [39]:
# cal_profit_per_sample(predictions_1,100)

In [40]:
# cal_profit_per_sample(predictions_2,100)

In [41]:
# cal_profit_per_sample(predictions_3,100)

<!-- Todos los resultados anteriores nos llevan a pensar que independientemente de la región, si se eligen los pozos con la mejor predicción en volumen de crudo, la región más prometedora es `geo_2`, sin embargo, al elegir pozos de manera aleatoria las ganancias totales son muy mínimas. -->

In [42]:
final_df['margin_profit_%'] = (final_df['mean_profit']+1e8)/1e6-100
final_df

Unnamed: 0,region,product,revenue,mean_profit,low_conf_interval,up_conf_interval,lost_risk_%,margin_profit_%
0,region1,8765.958421,39446812,4516986,-701677,1278754,5.2,4.516986
1,region2,5543.071232,24943820,4543790,535596,1858967,1.4,4.54379
2,region3,7469.343603,33612046,3721744,-1855207,67727,9.4,3.721744


## Conclusión



Se realizó un análisis de tres regiones con información de 10000 pozos con el fin de estimar la mejor región para gestionar la elaboración de 200 pozos con una inversión inical de 100 millones de USD, el objetivo es obtener el mayor margen de ganancias posible a través del uso de modelos predictivos.

- Se determinó la mayor cantidad de beneficio posible que hubo con base en los datos extraídos de la fuente, siendo los resultados de la siguiente manera:

    1) Para la región 1(`geo_1`): **39.45 millones de USD**
        
    2) Para la región 2(`geo_2`): **24.94 millones de USD**
        
    3) Para la región 3(`geo_3`): **33.61 millones de USD**
    

- Se realizó un modelo predictivo por cada región siendo el de mayor calidad el que fue entrenado para la región 2 `geo_2`

- Se determina que la región con el menor riesgo de perdida y mediante el uso de un modelo predictivo es la region 2 `geo_2`, que si bien es la región que ligeramente muestra un a ganancia neta menor a las otras dos regiones (hablando de el mejor escenario posible con una confianza del 95%), da una mayor seguridad de inversión tomando en cuenta los riesgos de pérdida y el valor medio de ganancia es la mejor opción.

En resumen, la mejor región para realizar las futuras perforaciones es la región 2 `geo_2` debido a que al tener un muestreo con las características y el modelo de la región `geo_2` se obtiene el mayor beneficio neto (en este caso **4.66%**).



<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Gran trabajo!  &#128077; <br>

Destaco de tu trabajo la extensión y la dedicación que te has tomado en examinar varios aspectos del conjunto de datos.
Aún podemos mejorar en algunos puntos: 

- Corregiremos los cálculos para revenue 
- Verificaremos los efectos de profit sobre bootstraping. 
- Calcularemos el riesgo. recuerda considerar los valores que son profit<0. Posteriormente calcula la proporción de pérdidas en la serie de datos "profit" dividiendo el número de valores en losses entre el número total de valores en profit.  
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Gran trabajo!  &#128077; <br>

Una gran disculpa, no noté que te comenté mi función como revenuew cuando en realidad debería de haber sido la función de benefit, me enredé con los terminos, revenue, profit y sus traducciones.
    
Al final he válidado las predicciones y los conjuntos de datos y los conjuntos de datos se miran bien. También noté que implementaste correctamente el bootstrapping con los 500 puntos. Y que has implementado el cálculo de los intervalos de confianza. Creo que tenemos todo listo para aprobar el proyecto.
</div>
