# Un nuevo pozo petrolero

## Índice <a id='back'></a>
* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [1. 1. Región 0](#data_review_data0)
    * [1. 2. Región 1](#data_review_data1)
    * [1. 3. Región 2](#data_review_data2)
    * [1. 4. Conclusiones](#data_review_conclusions)
* [Etapa 2. Selección del mejor modelo](#data_model)
    * [2. 1. RECM del modelo para cada región](#data_model_recm)
    * [2. 2. Conclusiones](#data_model_conclusions)
* [Etapa 3. Cálculo de ganancias](#data_profit)
    * [3.1. Función de ganancia](#data_profit_revenue)
    * [3.4. Conclusiones](#data_profit_conclusions)
* [Etapa 4. Riesgos y ganancias para cada región](#data_risk)
* [Etapa 5. Conclusiones](#data_conclusion)

## Introducción <a id='intro'></a>

La compañía minera OilyGiant quiere encontrar el mejor lugar para un nuevo pozo petrolero. Para ello se cuentan con datos sobre muestras de crudo de tres regiones y se conocen los parámetros de cada pozo petrolero en la región correspondiente.

**Objetivo**

El objetivo de este proyecto es crear un modelo para elegir la región con el mayor margen de beneficio.

**Etapas**
Los datos se almacenan en tres archivos `/datasets/geo_data_0.csv`, `/datasets/geo_data_1.csv` y `/datasets/geo_data_2.csv`. Como se desconoce la calidad de los datos, el proyecto consistirá en cinco etapas:

1. Descripción y preprocesamiento de los datos.
2. Segmentación de los datos.
3. Elección del mejor modelo.
4. Prueba final.
5. Conclusión general.

[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Se importan las librerías necesarias.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

Se leerán los archivos y se guardaran en las variables `data[0]`, `data[1]` y `data[2]`. 

In [2]:
data = {}
data_csv = ['geo_data_0.csv', 'geo_data_1.csv', 'geo_data_2.csv']
data_path = ['/datasets/geo_data_0.csv', '/datasets/geo_data_1.csv', '/datasets/geo_data_2.csv']

for i in range(0,3):
    try:
        data[i] = pd.read_csv(data_csv[i])
    except:
        data[i] = pd.read_csv(data_path[i])

### 1. 1. Región 0 <a id='data_review_data0'></a>

Se imprimirá la información general del dataset de la región 0 y las primeras 10 filas de éste para mayor investigación.

In [3]:
data[0].info()
print(data[0].head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647
5  wX4Hy  0.969570  0.489775 -0.735383   64.741541
6  tL6pL  0.645075  0.530656  1.780266   49.055285
7  BYPU6 -0.400648  0.808337 -5.624670   72.943292
8  j9Oui  0.643105 -0.551583  2.372141  113.356160
9  OLuZU  2.173381  0.563698  9.441852  127.910945


Se observa que tiene 100,000 filas y 5 columnas, las cuales son:

1. `'id'` - identificador único del pozo petrólero.
2. `'f0'`, `'f1'` y `'f2'` - tres características de los puntos.
3. `'product'` - volumen de reservas en el pozo petrólero (miles de barriles).

Ninguna de las columnas contiene valores ausentes y gracias al identificador único es sencillo determinar si el dataset contiene filas duplicadas. Se imprimrá a continuación la cantidad de fila duplicadas.

In [4]:
print(data[0].duplicated().sum())

0


No existen filas duplicadas.

[Volver a Contenidos](#back)

### 1. 2. Región 1 <a id='data_review_data1'></a>

Se imprimirá la información general del dataset de la región 1 y las primeras 10 filas de éste para mayor investigación.

In [5]:
data[1].info()
print(data[1].head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
      id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.506057  4.999415  137.945408
4  AHL4O  12.702195  -8.147433  5.004363  134.766305
5  HHckp  -3.327590  -2.205276  3.003647   84.038886
6  h5Ujo -11.142655 -10.133399  4.002382  110.992147
7  muH9x   4.234715  -0.001354  2.004588   53.906522
8  YiRkx  13.355129  -0.332068  4.998647  134.766305
9  jG6Gi   1.069227 -11.025667  4.99

Se observa que el dataset contiene la misma cantidad de filas que el anterior, las columnas arrojan datos sobre la misma información. Ninguna de sus columnas contiene valores ausentes.

Se imprimirá la cantidad de filas duplicadas.

In [6]:
print(data[1].duplicated().sum())

0


Tampoco contiene filas duplicadas.

[Volver a Contenidos](#back)

### 1. 3. Región 2 <a id='data_review_data2'></a>

Se imprimirá la información general del dataset de la región 2 y las primeras 10 filas de éste para mayor investigación.

In [7]:
data[2].info()
print(data[2].head(10))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
      id        f0        f1        f2     product
0  fwXo0 -1.146987  0.963328 -0.828965   27.758673
1  WJtFt  0.262778  0.269839 -2.530187   56.069697
2  ovLUW  0.194587  0.289035 -5.586433   62.871910
3  q6cA6  2.236060 -0.553760  0.930038  114.572842
4  WPMUX -0.515993  1.716266  5.899011  149.600746
5  LzZXx -0.758092  0.710691  2.585887   90.222465
6  WBHRv -0.574891  0.317727  1.773745   45.641478
7  XO8fn -1.906649 -2.458350 -0.177097   72.480640
8  ybmQ5  1.776292 -0.279356  3.004156  106.616832
9  OilcN -1.214452 -0.439314  5.922514   52.954532


Análogo a los datasets anteriores, este dataset contiene la misma cantidad de filas y las columnas con la misma información. Ninguna de sus columnas contiene valores ausentes.

Se imprimirá la cantidad de filas duplicadas.

In [8]:
print(data[1].duplicated().sum())

0


No tiene filas duplicadas.

[Volver a Contenidos](#back)

### 1. 4. Conclusiones <a id='data_review_conclusions'></a>

Se abrieron y guardaron los datos en los datasets correspondientes. Se mostró la información general y las primeras 10 filas de cada uno de ellos. Con esto, se observó que los tres cuentas con 100,000 filas y los datos de las columnas arrojan información sobre las mismas características.

Ninguno de los datasets contienen valores ausentes ni dilas duplicadas. Se procederá al entrenamiento del modelo en cada una de las regiones para determinar el mejor lugar para un nuevo pozo petrólero.

[Volver a Contenidos](#back)

## Etapa 2. Entrenamiento del modelo <a id='data_model'></a>

La columna `'id'` en cada uno de los datasets identifica de manera única a cada pozo petrolero pero para el entrenamiento de un modelo no aporta información relevante. Se eliminará esta columna de cada uno de los datasets.

In [9]:
for i in range(0, 3):
    data[i] = data[i].drop(['id'], axis=1)
    print(data[i].head())

         f0        f1        f2     product
0  0.705745 -0.497823  1.221170  105.280062
1  1.334711 -0.340164  4.365080   73.037750
2  1.022732  0.151990  1.419926   85.265647
3 -0.032172  0.139033  2.978566  168.620776
4  1.988431  0.155413  4.751769  154.036647
          f0         f1        f2     product
0 -15.001348  -8.276000 -0.005876    3.179103
1  14.272088  -3.475083  0.999183   26.953261
2   6.263187  -5.948386  5.001160  134.766305
3 -13.081196 -11.506057  4.999415  137.945408
4  12.702195  -8.147433  5.004363  134.766305
         f0        f1        f2     product
0 -1.146987  0.963328 -0.828965   27.758673
1  0.262778  0.269839 -2.530187   56.069697
2  0.194587  0.289035 -5.586433   62.871910
3  2.236060 -0.553760  0.930038  114.572842
4 -0.515993  1.716266  5.899011  149.600746


A continuación se establecerán las características y el objetivo para el modelo. También se segmentarán cada uno de los datasets en conjunto de entrenamiento y conjunto de validación. Esta proporción será 3:1, es decir:

* Conjunto de entrenamiento: 75%.
* Conjunto de validación: 25%.

In [10]:
features = {} #Diccionario que contendrá las característica de cada dataset
target = {} #Diccionario que contendrá el objetivo de cada dataset

for i in range(0, 3): #Bucle para agregar los datos correspondientes a los diccionarios
    features[i] = data[i].drop(['product'], axis=1)
    target[i] = data[i]['product']

In [11]:
#Diccionario que contendra las características de entrenamiento de cada dataset
features_train = {}
#Diccionario que contendra las características de validación de cada dataset
features_valid = {}
#Diccionario que contendrá el objetivo de entrenamiento de cada dataset
target_train = {}
#Diccionario que contendrá el objetivo de validación de cada dataset
target_valid = {}

for i in range(0, 3):
    features_train[i], features_valid[i], target_train[i], target_valid[i] = train_test_split(
        features[i], target[i], test_size=0.25, random_state=12345
        )

Con esta segmentación de datos, se entrenará el modelo y se obtendrán las predicciones para cada una de las regiones. Por esta razón, se creará una función.

In [12]:
def get_predictions(feat_train, targ_train, feat_valid):
    model = LinearRegression()
    model.fit(feat_train, targ_train)
    pred_valid = model.predict(feat_valid)
    return pred_valid

Se creará un diccionario que contendrá los datasets con las predicciones de cada región.

In [13]:
pred_valid = {}

for i in range(0, 3):
    pred_valid[i] = get_predictions(features_train[i], target_train[i], features_valid[i])

[Volver a Contenidos](#back)

### 2. 1. RECM del modelo para cada región <a id='data_model_recm'></a>

Se calculará el volumen promedio y la métrica RECM con los datos de cada región.

In [14]:
means = {}
recm = {}

for i in range(0, 3):
    means[i] = pred_valid[i].mean()
    recm[i] = mean_squared_error(target_valid[i], pred_valid[i]) ** 0.5
    print(f'El volumen promedio de las reservas previstas en la Región {i} es: {means[i]}')
    print(f'La métrica RECM del modelo para la Región {i} es: {recm[i]}')

El volumen promedio de las reservas previstas en la Región 0 es: 92.59256778438035
La métrica RECM del modelo para la Región 0 es: 37.5794217150813
El volumen promedio de las reservas previstas en la Región 1 es: 68.728546895446
La métrica RECM del modelo para la Región 1 es: 0.8930992867756165
El volumen promedio de las reservas previstas en la Región 2 es: 94.96504596800492
La métrica RECM del modelo para la Región 2 es: 40.02970873393434


[Volver a Contenidos](#back)

### 2. 2. Conclusiones <a id='data_model_conclusions'></a>

Se observó que las reservas previstas de las regiones 0 y 2 tienen un volumen promedio más alto que en la región 1, ambas sobrepasan los 90 mil barrilles. Sin embargo, es en la región 1, donde las predicciones tienen un margen de error mucho más bajo que en las otras dos. En la región 1, la RECM es de aproximadamente 893 barriles, mientras que en las otras dos regiones sobrepasan los 37 mil barriles (una diferencia bastante grande).

Pareciera que la región 1 es la que tiene el mayor potencial de una ganancia mayor, sin embargo se deben estudiar más los datos para llegar a una conclusión más precisa.

[Volver a Contenidos](#back)

## Etapa 3. Cálculo de ganancias <a id='data_profit'></a>

Se llevó a cabo un estudio de 500 pozos petróleros con la selección de los mejores 200 para el cálculo del beneficio. El presupuesto para el desarrollo de 200 pozos petroleros es de 100 millones de dólares. Un barril de materias primas genera 4.5 USD de ingresos. El ingreso de una unidad de producto es de 4500 dólares ya que el volumen de reservas está expresado en miles de barriles.

Primero se obtendrá el presupuesto promedio para cada pozo petrolero.

In [15]:
wells = 200
budget = 100000000
budget_per_well = budget / wells
print(budget_per_well)

500000.0


El presupuesto promedio para el desarrollo de un pozo es de 500 mil USD. Al dividir este presupuesto entre el ingreso de una unidad (4500 USD), se obtendrá la cantidad mínima de unidades necesarias por pozo para que no existan pérdidas.

In [16]:
income = 4500
units_no_loss = budget_per_well / income
print(units_no_loss)

111.11111111111111


Para que no existan pérdidas, cada pozo debe tener un volumen mínimo de reservas igual a aproximadamente 111 mil barriles de petróleo.

En la predicción del modelo, ninguna de las regiones supera esta cantidad mínima, es decir, en cualquiera de las tres regiones existe riesgo de pérdida, sobre todo en la región 1 la cual registró el promedio más bajo: 69 mil barriles.

Se comparará este volumen con el promedio de cada región.

In [17]:
for i in range(0, 3):
    mean = target[i].mean()
    print(f'Promedio región {i} = {mean}')

Promedio región 0 = 92.50000000000001
Promedio región 1 = 68.82500000000002
Promedio región 2 = 95.00000000000004


La diferencia de estos valores y los obtenidos a partir de las predicciones del modelo es mínima. Podrían existir pérdidas en las tres regiones, sobre todo en la región 1. Por ello, es necesario considerar los pozos con el volumen promedio de reservas mayores.

[Volver a Contenidos](#back)

### 3. 1. Función de ganancia <a id='data_profit_revenue'></a>

Se creará una función para calcular los ingresos por región. Dicha función tendrá tres parámetros:

1. `'target'` - dataset con objetivo de validación.
2. `'predictions'` - dataset con las predicciones del conjunto de validación.
3. `n` - cantidad de pozos considerados.

In [18]:
def revenue(target, predictions, n):
    #convertir predictions a pd.Series
    predicted = pd.Series(predictions)
    #convertir target a pd.Series 
    target = target.reset_index(drop=True)
    #ordenar índices de predicted de mayor a menor
    indexes = predicted.sort_values(ascending=False).index
    #seleccionar los n más altos de target_s
    selected = target[indexes][:n]
    rev = (selected.sum() * income) - (budget_per_well * n)
    return rev

Se calcularán las ganancias de cada región para los 200 pozos con mayor volumen.

In [19]:
for i in range(0, 3):
    rev = revenue(target_valid[i], pred_valid[i], 200)
    print(f'Ganancias de los 200 pozos previstos con mayor volumen de la Región {i}: ${rev}')

Ganancias de los 200 pozos previstos con mayor volumen de la Región 0: $33208260.43139851
Ganancias de los 200 pozos previstos con mayor volumen de la Región 1: $24150866.966815114
Ganancias de los 200 pozos previstos con mayor volumen de la Región 2: $27103499.635998324


[Volver a Contenidos](#back)

### 3. 2. Conclusiones <a id='data_profit_conclusions'></a>

Se observó que la Región 0 es la que tiene mayor ganancia, tomando en cuenta los 200 pozos previstos con mayor volumen. Si se contemplará únicamente esto, esta región sería la mejor, sin embargo, no todos los pozos están dentro de estos 200.

En la siguiente etapa se calcularán los riesgos y ganancias para una mejor decisión.

[Volver a Contenidos](#back)

## Etapa 4. Riesgos y ganancias para cada región <a id='data_risk'></a>

Se utilizará la técnica de bootstrapping para crear submuestras (1000) del objetivo y asociarlas con sus respectivas predicciones. Se creará una función con dos parámetros: `target` y `predictions`. Dicha función calculará la ganancia promedio de cada submuestra y entregará como resultado una lista con es estos promedios.

In [20]:
def get_revenue(target, predictions):
    state = np.random.RandomState(12345)
    values = []
    target = target.reset_index(drop=True)
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        indexes = target_subsample.index
        pred_subsample = predictions[indexes]
        profit = revenue(target_subsample, pred_subsample, 200)
        values.append(profit)
    return pd.Series(values)
    

Se aplicará la función para cada región.

In [21]:
revenues = {}

for i in range(3):
    revenues[i] = get_revenue(target_valid[i], pred_valid[i])

Ahora se calculará el ingreso promedio, el intervalo de confianza del 95% y el porcentaje de riesgo de pérdidas para cada región.

In [23]:
for i in range(3):
    interval = [revenues[i].quantile(0.025), revenues[i].quantile(0.975)]
    risk = len(revenues[i][revenues[i] < 0]) / len(revenues[i])
    mean_rev = revenues[i].mean()
    print(f'Región {i}')
    print(f'Ingreso promedio {mean_rev}')
    print(f'Intervalo de confianza del 95%: {interval}')
    print(f'Riesgo de pérdidas {risk: .0%}')
    print()

Región 0
Ingreso promedio 3961649.8480237117
Intervalo de confianza del 95%: [-1112155.4589049604, 9097669.41553423]
Riesgo de pérdidas  7%

Región 1
Ingreso promedio 4560451.057866608
Intervalo de confianza del 95%: [338205.0939898458, 8522894.538660347]
Riesgo de pérdidas  2%

Región 2
Ingreso promedio 4044038.665683568
Intervalo de confianza del 95%: [-1633504.1339559986, 9503595.749237997]
Riesgo de pérdidas  8%



[Volver a Contenidos](#back)

## Etapa 5. Conclusión general <a id='data_conclusion'></a>

Se creó el modelo basado en el algoritmo de regresión lineal y se utilizo la técnica de bootstrapping para obtener 1000 submuestras de cada región. Con esto se obtuvieron, para 200 pozos, datos como el ingreso promedio, el intervalo de confianza del 95% y el porcentaje de riesgo de pérdidas para cada región.

De las tres regiones, la región 1 es la que cuenta con el mayor ingreso promedio: 4,560,451 USD, su intervalo de confianza del 95% tiene como mínimo 338,205 USD y un máximo de 8,522,894 USD y el riesgo de pérdidas es del 2%. Este porcentaje es aceptable para la compañía.

Se concluye que la región 1 es el mejor lugar para un nuevo pozo petrolero.

[Volver a Contenidos](#back)