# Proyecto sobre nuevo pozo de la compañía OilyGiant por *Carlos Horta* (carlosgim@gmail.com)

---

---

## Tabla de contenidos

- Descripción del proyecto
- Exploración del proyecto
- Análisis exploratorio de los datos
- Generación de modelo de Regresión logística
- Cálculo de ganancias por región
- Riesgos y ganancias por cada región
- Conclusiones

---

---

## Descripción del proyecto

El objetivo general de este proyecto es identificar el mejor lugar para un nuevo pozo de petróleo de la compañía OilyGiant. 

Para lograr este objetivo general, se seguirán los siguientes pasos:

1. Revisar los parámetros del pozo de petróleo en la región seleccionada, incluyendo la calidad del petróleo y el volumen de reservas. Esta información es crucial para evaluar el potencial de cada región en términos de producción de petróleo.

2. Construir un modelo para predecir el volumen de las reservas en los nuevos pozos. Utilizando datos históricos de pozos existentes y técnicas de aprendizaje automático, se desarrollará un modelo que pueda estimar de manera precisa y confiable el volumen de petróleo que se puede extraer de un pozo.

3. Seleccionar los pozos de petróleo con los valores estimados más altos. Con base en las predicciones del modelo, se identificarán los pozos con el mayor potencial de producción y los mejores rendimientos económicos.

4. Elegir la región con el mayor beneficio total para los pozos de petróleo seleccionados. Considerando el volumen estimado de las reservas y los costos asociados con la extracción, se calculará el beneficio potencial para cada región y se seleccionará aquella que ofrezca el mayor retorno de inversión.

Al seguir estos pasos, se espera poder tomar decisiones informadas y estratégicas en cuanto a la ubicación del nuevo pozo de petróleo, maximizando el potencial de producción y los beneficios económicos para la compañía OilyGiant.


---

---

## Exploración de los datos

In [None]:
# Estas son las librerías a utilizar en este proyecto

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.dummy import DummyClassifier
from sklearn.preprocessing import StandardScaler
import plotly.express as px
from sklearn.utils import shuffle
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from scipy import stats as st 


In [None]:
# La información de cada uno de las tres regiones se encuentra en un archivo csv, por lo que se debe cargar cada uno de estos archivos en un dataframe de pandas para poder trabajar con ellos.

try:
    region_cero = pd.read_csv('geo_data_0.csv')
except:
    region_cero = pd.read_csv('/datasets/geo_data_0.csv')

try:
    region_uno = pd.read_csv('geo_data_1.csv')
except:
    region_uno = pd.read_csv('/datasets/geo_data_1.csv')

try:
    region_dos = pd.read_csv('geo_data_2.csv')
except:
    region_dos = pd.read_csv('/datasets/geo_data_2.csv')


In [None]:
# Es necesario revisar de manera soomera la información que se tiene en cada uno de los dataframes, para ello se utiliza el método info().

print(region_cero.info())
print('------------------')
print(region_uno.info())
print('------------------')
print(region_dos.info())

In [None]:
# Es necesario revisar si no existen valores duplicados en los datasets, para ello se utiliza el método duplicated().

region_cero.duplicated().sum()
region_uno.duplicated().sum()
region_dos.duplicated().sum()

Como se observa, cada dataset contiene 10,000 filas y 4 columnas que corresponden a lo siguiente:

- **id**: Es el identificador único de cada pozo de petróleo.
- **f0**, **f1** y **f2**: Son tres características de los pozos de petróleo. Aunque no se especifica su significado específico, estas características son relevantes para el análisis.
- **product**: Representa el volumen de reservas en cada pozo, medido en miles de barriles.

Es importante destacar que ninguno de los tres datasets contiene valores duplicados, lo que significa que cada fila representa un pozo único de petróleo.

Con esta información, se cuenta con un conjunto de datos completo y listo para su análisis y procesamiento posterior.


A continuación es necesario remover la columna 'id' porque no es relevante para la consecución del proyecto.

In [None]:
region_cero.drop(['id'], axis=1, inplace=True)
region_uno.drop(['id'], axis=1, inplace=True)
region_dos.drop(['id'], axis=1, inplace=True)

Como los datos se encuentran limpios, completos y listos para su uso, será necesario en el siguiente apartado revisar cada uno de los datasets, y de sus columnas, para explorar los datos antes del modelado de datos.


----

----

## Análisis exploratorio de los datos

### Análisis exploratorio de los datos

Antes del procesamiento de los datos y de las características, es necesario revisar de manera somera las diferentes columnas de cada dataset para encontrar algunas singularidades que puedan saltar a la vista.

#### Región cero

In [None]:
fig = px.histogram(region_cero, x="product")
fig.show()

Como se puede apreciar, la característica de interés "product" (que equivale al volumen de reservas de cada pozo de petróleo en miles de barriles) extiende su rango desde 0 y hasta 185.5 mil barriles.

In [None]:
fig = px.scatter_matrix(region_cero, color='product', title="Matriz de gráficos de dispersión de las variables del dataset de acuerdo a la cantidad de petroleo en reserva en la región cero")
fig.update_traces(diagonal_visible=False)
fig.update_xaxes(showticklabels=True)
fig.show()

A partir de la matriz de gráficos de dispersión, y de acuerdo con la cantidad de miles de barriles en reserva de cada pozo, no se puede realizar algún comentario o correlación porque las tres características (f0, f1 y f2) no tienen significado específico, pero se saben que son significativas.

Se intuye una situación similar en cada uno de los tres datasets.

#### Región uno

In [None]:
fig = px.histogram(region_uno, x="product")
fig.show()

A diferencia de la región cero, donde la distribución de los pozos es polimodal, en esta región los pozos se encuentran divididos en 6 grandes bloques de reservas, e inicia con 8,233 pozos sin reservas, y finaliza 8,233 pozos con 138 mil barriles en cada uno de ellos.

In [None]:
fig = px.scatter_matrix(region_uno, color='product', title="Matriz de gráficos de dispersión de las variables del dataset de acuerdo a la cantidad de petroleo en reserva en la región uno")
fig.update_traces(diagonal_visible=False)
fig.update_xaxes(showticklabels=True)
fig.show()

Con la matriz de gráficos de dispersión ocurre algo similar que con la región cero: no se puede obtener conclusiones al no conocerse el significado de las tres columnas de características.

#### Región dos

In [None]:
fig = px.histogram(region_dos, x="product")
fig.show()

La región dos tiene un comportamiento similar a la región cero con una distribución multimodal de los datos. En este dataset son pocos los datos en los extremos y se concentran en la región central con varios picos de frecuencia.

In [None]:
fig = px.scatter_matrix(region_dos, color='product', title="Matriz de gráficos de dispersión de las variables del dataset de acuerdo a la cantidad de petroleo en reserva en la región dos")
fig.update_traces(diagonal_visible=False)
fig.update_xaxes(showticklabels=True)
fig.show()

Y al igual que con las otras dos regiones, la matriz de gráficos de dispersión no permite intuir algún hallazgo o correlación a simple vista porque se desconoce el significado de las características.

#### Conclusiones

A partir del análisis de los histogramas y gráficos de dispersión, se puede concluir lo siguiente:

- No es posible identificar ninguna correlación significativa entre la variable objetivo y el resto de las características debido a que no se conoce el significado específico de cada una de ellas.

- Sin embargo, se pudo observar un hallazgo interesante en cuanto a la distribución de las reservas de petróleo en las diferentes regiones. La región cero y la región dos presentan una distribución multimodal, lo que sugiere la existencia de diferentes grupos o clusters en cuanto a las reservas de petróleo. Por otro lado, la región uno muestra una distribución dividida en seis grandes bloques, lo cual podría indicar una segmentación clara de las reservas en esta región.

Estos hallazgos pueden servir como punto de partida para futuros análisis y exploraciones más detalladas sobre las características y distribución de las reservas de petróleo en cada región.


----

---

## Generación de modelo de Regresión logística

### Creación de los datasets para entrenamiento y validación

Antes de iniciar com el modelado de los datos, es necesario crear los datasets de entrenamiento (con el 75% del total de los datos) y de validación (con el restante 25%).

La característica objetivo es "product" y el modelo a desarrollar será uno que prediga, a partir de las características, la región con el mayor margen de beneficio.

In [None]:
# Esta es la división de los datos en entrenamiento y validación para la región cero.

target_cero = region_cero['product']
features_cero = region_cero.drop(['product'], axis=1)
features_train_cero, features_valid_cero, target_train_cero, target_valid_cero = train_test_split(
    features_cero, target_cero, test_size=0.25, random_state=12345
)

In [None]:
# Esta es la división de los datos en entrenamiento y validación para la región uno.

target_uno = region_uno['product']
features_uno = region_uno.drop(['product'], axis=1)
features_train_uno, features_valid_uno, target_train_uno, target_valid_uno = train_test_split(
    features_uno, target_uno, test_size=0.25, random_state=12345
)

In [None]:
# Esta es la división de los datos en entrenamiento y validación para la región dos.

target_dos = region_dos['product']
features_dos = region_dos.drop(['product'], axis=1)
features_train_dos, features_valid_dos, target_train_dos, target_valid_dos = train_test_split(
    features_dos, target_dos, test_size=0.25, random_state=12345
)

In [None]:
# Este es el número de elementos de los datasets creados para cada región.

print(target_cero.shape), print(features_cero.shape)
print(target_uno.shape), print(features_uno.shape)
print(target_dos.shape), print(features_dos.shape)

### **Generación de los modelos de Regresión lineal por región**

En esta etapa del proyecto, se realizará un modelo de Regresión Lineal para cada una de las tres regiones y se calculará el RECM (Root Mean Square Error) como medida de la diferencia entre los valores predichos y los valores reales.

Además, se calculará el promedio de las reservas de petróleo para cada región.

Los resultados obtenidos en esta etapa proporcionarán información importante sobre el desempeño de los modelos de Regresión Lineal y el promedio de reservas en cada región.



### Región cero

In [None]:
model = LinearRegression()
model.fit(features_train_cero, target_train_cero)
predictions_valid_cero = model.predict(features_valid_cero)
mse = mean_squared_error(target_valid_cero, predictions_valid_cero)
average_predicted_volumen_cero = predictions_valid_cero.mean()

print('Linear Regression')
print('MSE =', mse)
print('RMSE =', mse ** 0.5)
print('Volumen medio previsto =', average_predicted_volumen_cero)
print('------------------')

reservas_cero = region_cero['product'].mean()
print('La media de reservas de petroleo en la región cero es de', reservas_cero, 'miles de barriles.')

### Región uno

In [None]:
model = LinearRegression()
model.fit(features_train_uno, target_train_uno)
predictions_valid_uno = model.predict(features_valid_uno)
mse = mean_squared_error(target_valid_uno, predictions_valid_uno)
average_predicted_volumen_uno = predictions_valid_uno.mean()

print('Linear Regression')
print('MSE =', mse)
print('RMSE =', mse ** 0.5)
print('Volumen medio previsto =', average_predicted_volumen_uno)
print('------------------')

reservas_uno = region_uno['product'].mean()
print('La media de reservas de petroleo en la región uno es de', reservas_uno, 'miles de barriles.')

### Región dos

In [None]:
model = LinearRegression()
model.fit(features_train_dos, target_train_dos)
predictions_valid_dos = model.predict(features_valid_dos)
mse = mean_squared_error(target_valid_dos, predictions_valid_dos)
average_predicted_volumen_dos = predictions_valid_dos.mean()

print('Linear Regression')
print('MSE =', mse)
print('RMSE =', mse ** 0.5)
print('Volumen medio previsto =', average_predicted_volumen_dos)
print('------------------')

reservas_dos = region_dos['product'].mean()
print('La media de reservas de petroleo en la región dos es de', reservas_dos, 'miles de barriles.')

### Conclusiones de la **Generación de los diferentes modelos de Regresión lineal**


|             | RMSE  | Reservas en miles |  
|-------------|-------|-------------------|
| Región cero | 37.75 | 92.50             | 
| Región uno  | 0.89  | 68.82             | 
| Región dos  | 40.02 | 95.00             |  

Como se puede observar, el mejor resultado del RMSE se obtiene con la región uno, con un valor de 0.89. Por otro lado, en términos de las reservas de petróleo, la región uno tiene la menor cantidad con un promedio de 68.82 miles de barriles, mientras que la región cero y la región dos tienen promedios de 92.50 miles y 95.00 miles de barriles, respectivamente.

Estos resultados permiten evaluar el desempeño de los modelos de Regresión Lineal y proporcionan información sobre las reservas de petróleo promedio en cada región.


-----

-----

## Cálculo de ganancias por región

En este apartado del proyecto, se realizará el cálculo del volumen de reservas necesario para desarrollar un nuevo pozo sin pérdidas y se comparará con el volumen medio de reservas por región. Para llevar a cabo este cálculo, se establecen las siguientes condiciones:

- Se llevará a cabo un estudio de exploración en cada región, evaluando un total de 500 puntos.
- Se seleccionarán los 200 mejores pozos de cada región para el cálculo del beneficio.
- El presupuesto asignado para la perforación de los 200 pozos es de 100 millones de dólares.
- Se establece que el precio de venta de un barril de petróleo es de 4.5 dólares, generando un ingreso de 4,500 dólares por unidad de producto.

Con base en estas condiciones, se determinará el volumen de reservas necesario para que el proyecto no tenga pérdidas, y se comparará con el volumen medio de reservas por región.

In [None]:
# Prespuesto de la compañía para el desarrollo de 200 nuevos pozos.
presupuesto = 100000000 

# Número de pozos que se pueden explorar con el presupuesto.
pozos_explorar = 500

# Número de pozos que se pueden desarrollar con el presupuesto.
pozos_desarrollar = 200

# Ingreso por una unidad de producto (1000 barriles).
ingreso_unidad = 4500

# Costo por barril de petroleo.
barril_costo = 4.5

In [None]:
presupuesto_pozo = presupuesto/pozos_desarrollar
print(presupuesto_pozo)

pozo_roi = presupuesto_pozo/ingreso_unidad
print(pozo_roi)


En esta etapa del proyecto, se procederá a desarrollar una función que permita seleccionar los 200 pozos a perforar en cada región, y posteriormente calcular la ganancia obtenida en cada región. 

La función tomará en cuenta los siguientes criterios:

1. Se seleccionarán los 200 pozos con los valores estimados más altos de cada región.
2. Se calculará la ganancia para cada región utilizando la siguiente fórmula: 
   - Ganancia = (Volumen de reservas * Precio del barril * 1000) - Presupuesto por región.

Recuerda ajustar los valores específicos de tu proyecto, como el número de pozos a seleccionar y el presupuesto asignado, según corresponda.

Una vez desarrollada la función, se podrá evaluar la ganancia obtenida en cada región y determinar cuál ofrece el mayor beneficio económico.



In [None]:
def calculate_profit(target, predictions):
    predicted = pd.Series(predictions)
    predicted.index = target.index
    predicted = predicted.sort_values(ascending=False)
    selected = target[predicted.index][:pozos_desarrollar]
    profit = (selected.sum() * ingreso_unidad) - (presupuesto_pozo * pozos_desarrollar)
    return profit

print('La ganancia de la región cero es de', calculate_profit(target_valid_cero, predictions_valid_cero), 'dolares.')
print('La ganancia de la región uno es de', calculate_profit(target_valid_uno, predictions_valid_uno), 'dolares.')
print('La ganancia de la región dos es de', calculate_profit(target_valid_dos, predictions_valid_dos), 'dolares.')

Con respecto a la posible ganancia por regiones, se ha determinado que la región cero ofrece el mejor beneficio económico. Se estima una ganancia de 33,208,260.43 dólares para esta región, mientras que la región uno y la región dos ofrecen ganancias de aproximadamente 24 millones y 27 millones de dólares, respectivamente.

Estos resultados indican que la región cero es la más rentable para desarrollar los 200 pozos seleccionados, brindando una mayor ganancia en comparación con las otras dos regiones.



## Riesgos y ganancias por cada región

Por último, en este apartado del proyecto es necesario realizar los siguientes puntos:

* Utilizar 1,000 muestras con la técnica del bootstrapping para encontrar la distribución del beneficio.
* Encontrar el beneficio promedio, el intervalo de confianza del 95% y el riesgo de pérdidas.
* Encontrar una región para el desarrollo de pozos petroleros y justificar la elección.

In [None]:
state = np.random.RandomState(123456)

def calculate_riesgo_ganancia(target, prediction):
    target = target.reset_index(drop=True)
    values = []
    negatives = 0
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        prediction_subsample = prediction[target_subsample.index]
        ganancia = calculate_profit(target_subsample, prediction_subsample)
        values.append(ganancia)
        if ganancia < 0:
            negatives += 1
    
    values = pd.Series(values)
    mean = values.mean()
    
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    
    riesgo = negatives / 1000
    
    print('La ganancia esperada es de', mean, 'dolares.')
    print('El riesgo de pérdida es del {0:.0%}.'.format(riesgo))
    print('El intervalo de confianza es de', lower, 'y', upper, 'dolares.')
    
print('La región cero:')
calculate_riesgo_ganancia(target_valid_cero, predictions_valid_cero)

print('La región uno:')
calculate_riesgo_ganancia(target_valid_uno, predictions_valid_uno)

print('La región dos:')
calculate_riesgo_ganancia(target_valid_dos, predictions_valid_dos)


La región cero:
- Ganancia esperada: 4,420,136.08 dólares.
- Riesgo de pérdida: 6%.
- Intervalo de confianza: -999,601.69 y 9,691,842.29 dólares.

La región uno:
- Ganancia esperada: 5,234,361.99 dólares.
- Riesgo de pérdida: 1%.
- Intervalo de confianza: 1,344,567.29 y 9,457,136.03 dólares.

La región dos:
- Ganancia esperada: 4,211,496.90 dólares.
- Riesgo de pérdida: 6%.
- Intervalo de confianza: -1,213,691.35 y 9,489,261.66 dólares.

Como se observa, la región uno es la más recomendada para el desarrollo de nuevos pozos petroleros. Esta región tiene una ganancia esperada de 5,234,361.99 dólares, un riesgo de pérdida del 1% y un intervalo de confianza que va desde 1,344,567.29 hasta 9,457,136.03 dólares. Las otras dos regiones también tienen ganancias estimadas, pero presentan un mayor riesgo de pérdida. Por lo tanto, la región uno ofrece una mejor combinación de ganancia y riesgo, convirtiéndola en la elección más favorable para el desarrollo de pozos petroleros.



## Conclusiones

En este proyecto, se llevó a cabo un análisis exhaustivo para identificar el mejor lugar para la exploración de nuevos pozos petroleros. A continuación, se presentan las principales conclusiones obtenidas:

- Se utilizó el modelo de Regresión lineal para cada una de las tres regiones con el fin de predecir el volumen de reservas en los nuevos pozos. Se evaluó el desempeño de cada modelo utilizando la métrica del RMSE (Root Mean Square Error), que nos indica la diferencia entre los valores predichos y los valores reales. Se determinó que la región uno presenta el menor valor de RMSE, lo que indica una mejor capacidad predictiva en comparación con las otras dos regiones.

- Se estableció un ROI (Return on Investment) de 111.11 miles de barriles como el mínimo requerido para desarrollar un nuevo pozo sin pérdidas. Sin embargo, ninguna de las tres regiones alcanzó este nivel de reservas, lo que indica que se requerirán estrategias adicionales para maximizar la rentabilidad de los pozos.

- Se realizó un análisis de ganancias por región, considerando el presupuesto de 100 millones de dólares destinado al desarrollo de 200 pozos petroleros. Se encontró que la región cero obtuvo el mayor beneficio con 33,208,260.43 dólares, seguida de la región dos con 27 millones de dólares y la región uno con 24 millones de dólares. Estos resultados refuerzan la importancia de considerar no solo el volumen de reservas, sino también el costo de desarrollo y la rentabilidad asociada.

- Considerando el análisis de ganancias, riesgos y el intervalo de confianza, se concluyó que la región uno es la más recomendada para el desarrollo de nuevos pozos petroleros. Esta región presenta una ganancia esperada de 5,234,361.99 dólares, con un riesgo de pérdida del 1%. Además, se calculó un intervalo de confianza del 95% para estimar la variabilidad de las ganancias potenciales.

En resumen, el proyecto ha permitido identificar la región más prometedora para la exploración de nuevos pozos petroleros, brindando información valiosa para la toma de decisiones en la industria petrolera. Se resalta la importancia de considerar múltiples factores, como el desempeño del modelo, el ROI, las ganancias y los riesgos asociados, para tomar decisiones informadas y maximizar la rentabilidad de los recursos invertidos.
