# Descripcipción del proyecto

La finalidad del proyecto es encontrar el mejor lugar para un nuevo pozo para la compañía minera OilGiant.

Se recolectaron los parámetros del pozo de petróleo en la región seleccionada (calidad del petróleo y volumen de reservas) y se construyó un modelo para predecir el volumen de reservas en los nuevos pozos seleccionando los pozos de petróleo con los valores estimados más altos.

## Información general

### Inicialización

In [102]:
import pandas as pd 
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Leemos los tres conjuntos de datos. Los datasets contienen información acerca del volumen de reservas por cada pozo de petróleo. Contiene las siguientes columnas:

- id — identificador único de pozo de petróleo
- f0, f1, f2 — tres características de los puntos (su significado específico no es importante, pero las características en sí son significativas)
- product — volumen de reservas en el pozo de petróleo (miles de barriles).

La columna 'product' será la variable objetivo en los modelos.

In [42]:
try:
    data_0=pd.read_csv('geo_data_0.csv')
except:
    data_0=pd.read_csv('/datasets/geo_data_0.csv')
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [43]:
data_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [44]:
try:
    data_1=pd.read_csv('geo_data_1.csv')
except:
    data_1=pd.read_csv('/datasets/geo_data_1.csv')
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [45]:
data_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [46]:
try:
    data_2=pd.read_csv('geo_data_2.csv')
except:
    data_2=pd.read_csv('/datasets/geo_data_2.csv')
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [47]:
data_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


### Preprocesamiento de datos

Concatenamos los datasets en uno solo, añadimos la columna de ubicación 'reg' extraída del dataset de cada región y eliminamos la columna de identificación único de petróleo 'id'.

Usamos el método de escalamiento para las columnas de características f0, f1 y f2.

In [49]:
numeric = ['f0', 'f1', 'f2']

scaler=StandardScaler()
scaler.fit(data_0[numeric])
data_0[numeric]=scaler.transform(data_0[numeric])
data_0

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.235512,-1.482793,-0.394515,105.280062
1,2acmU,0.956946,-1.170246,0.573368,73.037750
2,409Wp,0.599101,-0.194581,-0.333326,85.265647
3,iJLyR,-0.610890,-0.220269,0.146516,168.620776
4,Xdl7t,1.706773,-0.187797,0.692414,154.036647
...,...,...,...,...,...
99995,DLsed,0.540861,0.239498,1.099890,110.744026
99996,QKivN,1.023149,-1.254384,-0.378278,122.346843
99997,3rnvd,0.606961,-0.458648,-1.185554,64.375443
99998,7kl59,0.570920,-1.543771,-0.282855,74.040764


In [50]:
scaler=StandardScaler()
scaler.fit(data_1[numeric])
data_1[numeric]=scaler.transform(data_1[numeric])
data_1

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-1.800451,-0.679595,-1.467757,3.179103
1,62mP7,1.464528,0.258112,-0.877783,26.953261
2,vyE1P,0.571264,-0.224969,1.471398,134.766305
3,KcrkZ,-1.586290,-1.310484,1.470373,137.945408
4,AHL4O,1.289432,-0.654483,1.473278,134.766305
...,...,...,...,...,...
99995,QywKC,0.936253,-0.406567,-0.291298,53.906522
99996,ptvty,-1.260548,-1.515967,1.473993,137.945408
99997,09gWa,-0.950289,0.334478,1.469925,137.945408
99998,rqwUm,-0.053044,-0.264854,-0.877217,30.132364


In [51]:
scaler=StandardScaler()
scaler.fit(data_2[numeric])
data_2[numeric]=scaler.transform(data_2[numeric])
data_2

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-0.663387,0.557908,-0.957007,27.758673
1,WJtFt,0.150548,0.157142,-1.446788,56.069697
2,ovLUW,0.111178,0.168235,-2.326682,62.871910
3,q6cA6,1.289833,-0.318815,-0.450590,114.572842
4,WPMUX,-0.299079,0.993029,0.979978,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.027149,0.651465,1.084879,172.327046
99996,YKFjq,-0.729514,-0.515917,0.008469,138.748846
99997,tKPY3,-0.693956,-1.708011,0.784321,157.080080
99998,nmxp2,-1.398307,1.398110,-2.315745,51.795253


## Entrenamiento y evaluación en conjuntos de validación

Debido a que queremos predecir una variable numérica (volumen del barril de petróleo), usaremos el modelo de regresión lineal.

### Segmentación de datos

Los datasets son divididos en 'features' y 'target' donde features serán los datasets que contienen las variables que guiarán al modelo para predecir el objetivo target.

In [52]:
features_A=data_0.drop(['id','product'],axis=1)
target_A=data_0['product']
features_B=data_1.drop(['id','product'],axis=1)
target_B=data_1['product']
features_C=data_2.drop(['id','product'],axis=1)
target_C=data_2['product']

Separamos los datasets en conjuntos de entrenamiento (train) y validación (valid).

In [53]:
features_train_A, features_valid_A, target_train_A, target_valid_A = train_test_split(features_A,target_A,test_size=0.25,random_state=54321)
features_train_B, features_valid_B, target_train_B, target_valid_B = train_test_split(features_B,target_B,test_size=0.25,random_state=54321)
features_train_C, features_valid_C, target_train_C, target_valid_C = train_test_split(features_C,target_C,test_size=0.25,random_state=54321)

### Regresión lineal en región A

In [54]:
model_A = LinearRegression() 
model_A.fit(features_train_A,target_train_A) 
predictions_valid_A = model_A.predict(features_valid_A)

In [139]:
print('Volumen promedio de las reservas previstas en región A:',predictions_valid_A.mean())
print('Volumen promedio de las reservas reales en región A:',target_valid_A.mean())

Volumen promedio de las reservas previstas en región A: 92.15921155743655
Volumen promedio de las reservas reales en región A: 92.58379661728391


Calculamos la RECM en el conjunto de validación.

In [140]:
result = mean_squared_error(target_valid_A,predictions_valid_A)**0.5
print( "RECM del modelo de regresión lineal en el conjunto de validación en región A:", result)

RECM del modelo de regresión lineal en el conjunto de validación en región A: 37.68341093860808


### Regresión lineal en región B

In [59]:
model_B = LinearRegression() 
model_B.fit(features_train_B,target_train_B) 
predictions_valid_B = model_B.predict(features_valid_B)

In [141]:
print('Volumen promedio de las reservas previstas en región B:',predictions_valid_B.mean())
print('Volumen promedio de las reservas reales en región B:',target_valid_B.mean())

Volumen promedio de las reservas previstas en región B: 68.44594093153303
Volumen promedio de las reservas reales en región B: 68.44435360774597


Calculamos la RECM en el conjunto de validación.

In [142]:
result = mean_squared_error(target_valid_B,predictions_valid_B)**0.5
print( "RECM del modelo de regresión lineal en el conjunto de validación en región B:", result)

RECM del modelo de regresión lineal en el conjunto de validación en región B: 0.892281970848147


### Regresión lineal en región C

In [64]:
model_C = LinearRegression() 
model_C.fit(features_train_C,target_train_C) 
predictions_valid_C = model_C.predict(features_valid_C)

In [143]:
print('Volumen promedio de las reservas previstas en región C:',predictions_valid_C.mean())
print('Volumen promedio de las reservas reales en región C:',target_valid_C.mean())

Volumen promedio de las reservas previstas en región C: 94.92229500787454
Volumen promedio de las reservas reales en región C: 95.07834473652275


Calculamos la RECM en el conjunto de validación.

In [144]:
result = mean_squared_error(target_valid_C,predictions_valid_C)**0.5
print( "RECM del modelo de regresión lineal en el conjunto de validación en región C:", result)

RECM del modelo de regresión lineal en el conjunto de validación en región C: 40.15250541784856


### Conclusiones

- Los volúmenes promedios de las reservas previstas son similares a los volúmenes promedios reales en cada región.
- La región A presenta el mayor promedio de volumen previsto, seguido de la región C y muy por debajo se encuentra la región B.
- La región B es la única región que presenta un RECM bajo.

## Cálculo de ganancias

Los valores clave para los cálculos son los volúmenes predichos y los volúmenes reales los cuales fueron guardados en las variables 'predictions_valid' y target_valid' respectivamente.

In [73]:
predictions_valid_A=pd.Series(predictions_valid_A)
predictions_valid_A.index=target_valid_A.index

predictions_valid_B=pd.Series(predictions_valid_B)
predictions_valid_B.index=target_valid_B.index

predictions_valid_C=pd.Series(predictions_valid_C)
predictions_valid_C.index=target_valid_C.index

Calculamos el volumen de reservas suficiente para desarrollar un nuevo pozo sin pérdidas. Cada pozo de los 200 escogidos generará 4500 dólares por unidad de producto. Además, el presupuesto para cada pozo es igual al presupuesto total dividido entre el número de escogidos (200).

In [81]:
presupuesto=100000000
N=200
ingreso_pozo=4500

vol_suficiente=presupuesto/(N*ingreso_pozo)

print('Volumen suficiente por pozo:',vol_suficiente)

Volumen suficiente por pozo: 111.11111111111111


In [84]:
print('Volumen medio de region A:', data_0['product'].mean())
print('Volumen medio de region B:', data_1['product'].mean())
print('Volumen medio de region C:', data_2['product'].mean())

Volumen medio de region A: 92.50000000000001
Volumen medio de region B: 68.82500000000002
Volumen medio de region C: 95.00000000000004


Para que haya ganancia, cada pozo debería sacar en promedio un volumen de reservas de barriles superior a 111.1 (miles de barriles); sin embargo, el promedio por cada región es inferior a tal número. La región que más se acerca es la región C, seguido de la región A y muy por debajo la región B. 

A pesar de esto, es probable que hayan regiones que contengan pozos con reservas de barriles muy superior a la media.

### Predicciones

Se realizó una función que determine el volumen total sacado de los pozos en los que se predijo que habría mayor cantidad de volumen de barril y sus ingresos.

In [98]:
def ingresos(target, predictions, count):
    selected = target[predictions.sort_values(ascending=False).index][:count]
    return 4500*selected.sum(), selected.sum()

In [154]:
ingreso_total_A, volumen_total_A= ingresos(target_valid_A,predictions_valid_A, 200)
print('Ingresos totales de región A:', ingreso_total_A)
print('Volumen total extraído de región A:', volumen_total_A)

Ingresos totales de región A: 131786315.95503962
Volumen total extraído de región A: 29285.847990008806


In [155]:
ingreso_total_B, volumen_total_B= ingresos(target_valid_B,predictions_valid_B, 200)
print('Ingresos totales de región B:', ingreso_total_B)
print('Volumen total extraído de región B:', volumen_total_B)

Ingresos totales de región B: 124150866.96681511
Volumen total extraído de región B: 27589.081548181137


In [156]:
ingreso_total_C, volumen_total_C= ingresos(target_valid_C,predictions_valid_C, 200)
print('Ingresos totales de región C:', ingreso_total_C)
print('Volumen total extraído de región C:', volumen_total_C)

Ingresos totales de región C: 124137856.36202805
Volumen total extraído de región C: 27586.190302672898


De acuerdo con estos datos, todas las regiones generarían ingresos sin pérdidas. La región que generaría mayor ingresos sería la región A.

Se realizó una función que sea la técnica bootstrapping con 1000 muestras para encontrar la distribución del beneficio. Cada muestra contendrá los datos de 500 pozos de los cuales se escogerán los mejores 200. Se estableció el intervalo de confianza de 95 % y se calculó el riesgo de pérdida.

In [148]:
def bootstrap(target, predictions):
    state = np.random.RandomState(12345)
    values = []
    for i in range(1000):
        target_subsample=target.sample(n=500,replace=True,random_state=state)
        pred_subsample = predictions[target_subsample.index]
        values.append(ingresos(target_subsample,pred_subsample,200)[0])
    values=pd.Series(values)
    return values

### Riesgos y ganancias de región  A

In [149]:
values_A = bootstrap(target_valid_A,predictions_valid_A)
lower_A = values_A.quantile(0.025)
upper_A = values_A.quantile(0.975)

mean_A = values_A.mean()
print("Ingresos promedio:", mean_A)
print("Cuantil del 2.5% :", lower_A)
print("Cuantil del 97.5% :", upper_A)

Ingresos promedio: 103993378.99530147
Cuantil del 2.5% : 98501841.2518996
Cuantil del 97.5% : 109491219.83927038


El riesgo es calculado por la cantidad de valores negativos de la resta entre el valor obtenido - el presupuesto dividido entre el número de iteraciones realizadas (1000). Para el cálculo de porcentaje, este valor es multiplicado por 10.


In [153]:
riesgo_A=((values_A-100000000)<0).sum()/10
print('Riesgo de pérdidas para la región A:', riesgo_A, '%')

Riesgo de pérdidas para la región A: 7.1 %


### Riesgos y ganancias de región B

In [150]:
values_B = bootstrap(target_valid_B,predictions_valid_B)
lower_B = values_B.quantile(0.025)
upper_B = values_B.quantile(0.975)

mean_B = values_B.mean()
print("Ingresos promedio:", mean_B)
print("Cuantil del 2.5% :", lower_B)
print("Cuantil del 97.5% :", upper_B)

Ingresos promedio: 104755697.57812019
Cuantil del 2.5% : 100830641.17303607
Cuantil del 97.5% : 109115923.29786794


Calculamos el riesgo para esta región.

In [151]:
riesgo_B=((values_B-100000000)<0).sum()/10
print('Riesgo de pérdidas para la región B:', riesgo_B, '%')

Riesgo de pérdidas para la región B: 1.2 %


### Riesgos y ganancias de región C

In [152]:
values_C = bootstrap(target_valid_C,predictions_valid_C)
lower_C = values_C.quantile(0.025)
upper_C = values_C.quantile(0.975)

mean_C = values_C.mean()
print("Ingresos promedio:", mean_C)
print("Cuantil del 2.5% :", lower_C)
print("Cuantil del 97.5% :", upper_C)

Ingresos promedio: 104313020.83419436
Cuantil del 2.5% : 98396067.59731491
Cuantil del 97.5% : 109583459.10098052


Calculamos el riesgo para esta región.

In [137]:
riesgo_C=((values_C-100000000)<0).sum()/10
print('Riesgo de pérdidas para la región C:', riesgo_C, '%')

Riesgo de pérdidas para la región C: 6.7 %


De acuerdo con la técnica de bootstrapping, el cuantil superior de 97.5% nos brinda en las tres regiones un monto de ganancia muy similar. Solo la región B mantuvo su intervalo de confianza superior al presupuesto de 100000000 USD. El menor riesgo de pérdida lo tiene la región B, seguido de la región C.

## Conclusiones

- El valor de RECM nos indicó que el volumen promedio por región no era una buena guía en la que basar la recomendación.
- A pesar que el promedio de volumen de barriles sea superior en la región A y C, el intervalo de confianza del 95% nos indica que es más seguro ubicar en la región B.
- Debido a que solo la región B presenta un riesgo de pérdida ingerior a 2.5 %, es la más adecuada para ubicar nuevos pozos.