# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as st

from sklearn.linear_model import LinearRegression as LR
from sklearn.metrics import mean_squared_error as mse, mean_absolute_error as mae, r2_score
from sklearn.model_selection import train_test_split as t_t_s
from sklearn.preprocessing import MinMaxScaler as mmscaler

import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

s =  np.random.RandomState(100800)

In [2]:
try:
    geo1 = pd.read_csv('/datasets/geo_data_0.csv')
    geo2 = pd.read_csv('/datasets/geo_data_1.csv')
    geo3 = pd.read_csv('/datasets/geo_data_2.csv')
    
except:
    geo1 = pd.read_csv('geo_data_0.csv')
    geo2 = pd.read_csv('geo_data_1.csv')
    geo3 = pd.read_csv('geo_data_2.csv')

In [3]:
geos=[geo1,geo2,geo3] #список всех датасетов, чтобы можно было быстро по нему переберать.

In [4]:
for geo in geos:
    geo.info()
    display(geo.describe())
    display(geo.sample(2))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Unnamed: 0,id,f0,f1,f2,product
62462,DiDbx,2.120964,0.290699,2.34387,74.463369
2158,Mksyt,1.947419,0.341336,-2.49173,142.269518


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


Unnamed: 0,id,f0,f1,f2,product
77152,YTNA4,-2.26285,-5.709918,5.00014,137.945408
42428,KZN9o,-5.658401,-4.357201,1.007771,30.132364


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


Unnamed: 0,id,f0,f1,f2,product
36602,eytwa,-0.340962,0.525188,2.559149,26.791476
26864,XvcED,0.118191,-1.627444,-0.998301,78.211739


По describe не вижу каких-либо аномалий, тем более, что мы не знаем что означают параметры f0-f2.
- Нулевых значений нет, посмотрим на дубликаты.

In [5]:
for geo in geos:
    print(geo.duplicated().sum())

0
0
0


Во всех трёт таблицах нет чистых явный дубликатов, на всякий случай сверю по графе ID.

In [6]:
for geo in geos:
    '''Функция подсчитывает количество дубликатов и выводит их на экран.'''
    print('Количество дубликатов:', geo['id'].duplicated().sum())
    display(geo[geo['id'].duplicated(keep=False)].sort_values('id'))

Количество дубликатов: 10


Unnamed: 0,id,f0,f1,f2,product
66136,74z30,1.084962,-0.312358,6.990771,127.643327
64022,74z30,0.741456,0.459229,5.153109,140.771492
51970,A5aEY,-0.180335,0.935548,-2.094773,33.020205
3389,A5aEY,-0.039949,0.156872,0.209861,89.249364
69163,AGS9W,-0.933795,0.116194,-3.655896,19.230453
42529,AGS9W,1.454747,-0.479651,0.68338,126.370504
931,HZww2,0.755284,0.368511,1.863211,30.681774
7530,HZww2,1.061194,-0.373969,10.43021,158.828695
63593,QcMuo,0.635635,-0.473422,0.86267,64.578675
1949,QcMuo,0.506563,-0.323775,-2.215583,75.496502


Количество дубликатов: 4


Unnamed: 0,id,f0,f1,f2,product
5849,5ltQ6,-3.435401,-12.296043,1.999796,57.085625
84461,5ltQ6,18.213839,2.191999,3.993869,107.813044
1305,LHZR0,11.170835,-1.945066,3.002872,80.859783
41906,LHZR0,-8.989672,-4.286607,2.009139,57.085625
2721,bfPNe,-9.494442,-5.463692,4.006042,110.992147
82178,bfPNe,-6.202799,-4.820045,2.995107,84.038886
47591,wt4Uk,-9.091098,-8.109279,-0.002314,3.179103
82873,wt4Uk,10.259972,-9.376355,4.994297,134.766305


Количество дубликатов: 4


Unnamed: 0,id,f0,f1,f2,product
45404,KUPhW,0.231846,-1.698941,4.990775,11.716299
55967,KUPhW,1.21115,3.176408,5.54354,132.831802
11449,VF7Jo,2.122656,-0.858275,5.746001,181.716817
49564,VF7Jo,-0.883115,0.560537,0.723601,136.23342
44378,Vcm5J,-1.229484,-2.439204,1.222909,137.96829
95090,Vcm5J,2.587702,1.986875,2.482245,92.327572
28039,xCHr8,1.633027,0.368135,-2.378367,6.120525
43233,xCHr8,-0.847066,2.101796,5.59713,184.388641


Присутсвует небольшое количество неявных дубликатов, причем все параметры, кроме id у них отличаются, поэтому не буду их трогать, чтобы модель могла на них учиться.

## Обучение и проверка модели

Для обучения модели признак ID ничего не даёт, поэтому так же исключим его из признаков('features') для обучения, как и целевой признак

In [7]:
def split(geo):
    
    '''Функция разбивает датасет на обучающую и валидационные выборки в пропорции 75/25
    производит масштабирование
    и выводит размер выборок для проверки'''
    
    f = geo.drop(["product","id"], axis=1) #features
    t = geo['product'] #target
    
    f_train, f_valid, t_train, t_valid = t_t_s(f, t, test_size=0.25, random_state=s)
    
    mms=mmscaler()
    f_train = mms.fit_transform(f_train)
    f_valid = mms.transform(f_valid)
    
    print(f_train.shape, f_valid.shape, t_train.shape, t_valid.shape)
    
    return f_train, f_valid, t_train, t_valid

In [8]:
f_t1, f_v1, t_t1, t_v1 = split(geo1)
f_t2, f_v2, t_t2, t_v2 = split(geo2)
f_t3, f_v3, t_t3, t_v3 = split(geo3)

(75000, 3) (25000, 3) (75000,) (25000,)
(75000, 3) (25000, 3) (75000,) (25000,)
(75000, 3) (25000, 3) (75000,) (25000,)


In [9]:
#соединяю всё в списки, чтобы потом можно было пустить всё по одному циклу

f_t_all = [f_t1,f_t2,f_t3]
f_v_all = [f_v1,f_v2,f_v3]
t_t_all = [t_t1,t_t2,t_t3]
t_v_all = [t_v1,t_v2,t_v3]

In [10]:
def train_and_calculate (f_train, f_valid, t_train,t_target):
    '''Функция обучает модель LR,
делает предсказания
рассчитывает метрики R2, MSE, RMSE, MAE
и вычисляет средний запас сырья в регионе.'''
    
    lr = LR()
    lr.fit(f_train, t_train)
    pred = pd.Series(lr.predict(f_valid))
    pred_list.append(pred)
    print('R2 score: {0:.2f}'.format(r2_score(t_v_all[n],pred)))
    print('MSE: {0:.2f}'.format(mse(t_v_all[n],pred)))
    print('RMSE: {0:.2f}'.format(mse(t_v_all[n],pred)**0.5))
    print('MAE: {0:.2f}'.format(mae(t_v_all[n],pred)))
    print('Средний запас сырья в данном регионе по прогнозу модели составляет: {0:.2f}'.format(sum(pred)/len(pred)),
          ('тыс.бараллей на скважину'))
    
    return pred

In [11]:
pred_list = []

for n in range(len(f_t_all)):
    print(f'Регион {n+1}:')
    pred = train_and_calculate(f_t_all[n], f_v_all[n], t_t_all[n], t_t_all[n])
    print()

Регион 1:
R2 score: 0.28
MSE: 1417.75
RMSE: 37.65
MAE: 31.03
Средний запас сырья в данном регионе по прогнозу модели составляет: 92.35 тыс.бараллей на скважину

Регион 2:
R2 score: 1.00
MSE: 0.80
RMSE: 0.89
MAE: 0.72
Средний запас сырья в данном регионе по прогнозу модели составляет: 68.98 тыс.бараллей на скважину

Регион 3:
R2 score: 0.20
MSE: 1609.93
RMSE: 40.12
MAE: 32.84
Средний запас сырья в данном регионе по прогнозу модели составляет: 94.73 тыс.бараллей на скважину



Судя по метрикам значения во втором регионе наша модель предсказывает идеально (R2 равен 1, а остальные наоборот стремятся к 0), Поэтому этот регеон выгоден с точки зрения точности работы модели, но запас сырья наоборот меньше всего.

В первом регионе метрики более реалистичные и на порядок больше запас сырья.

В третьем метрики хуже чем в прочих, но предполагаемый запас сырья самый большой.

## Подготовка к расчёту прибыли

In [12]:
budget = 10_000_000_000 # бюджет
reserch = 500 # количество скважин, которое будут исследовать
points = 200 # количество лучших скважин, которая модель выберет для обработки
product_price = 450_000 # стоимость 1 ед. продукта (1 тыс. бараллей)
cost_per_point = budget/points # стоимость обработки одной скважины

#profit = product * product_price - cost_per_point

Подсчитаем какой обьём сырья нужен для безубыточной разработки скважины

In [13]:
break_even = budget/product_price
print('Для безубыточнисти всех вложений нужно добыть: {0:.2f}'.format(break_even),('тыс.бараллей'))

print('Средний обьём нефти в одной скважине для безубыточности составляет: {0:.2f}'.format(break_even/points),
      ('тыс.бараллей'))

Для безубыточнисти всех вложений нужно добыть: 22222.22 тыс.бараллей
Средний обьём нефти в одной скважине для безубыточности составляет: 111.11 тыс.бараллей


**Вывод**

Средний обьём сырья для безубыточнисти больше,чем средний обьём сырья в каждом регионе. Это означет, что нам нужно выбирать самые лучшие скважины для обработки, ведь в среднем, если выбирать скважины случайно, то велик шанс остаться с убытками.

## Расчёт прибыли и рисков 

In [14]:
#profit = product * product_price - cost_per_poin

def profit(pred, points):
    '''Функция подсчитывает валовую прибыль в млрд. рублей.'''
    best_preds = pred.sort_values(ascending=False)
    top_points = points[best_preds.index][:200]
    revenue = top_points.sum() * product_price # Выручка
    return (revenue - budget) / 10**9 # Прибыль

In [15]:
for n in range(3):
    print('Валовая прибыль Региона №' +  str(n + 1),':{0:.2f}'.format(profit(pred_list[n], t_v_all[n].reset_index(drop=True))),'млрд.')

Валовая прибыль Региона №1 :3.34 млрд.
Валовая прибыль Региона №2 :2.42 млрд.
Валовая прибыль Региона №3 :2.73 млрд.


Если выбрать самые-самые лучшие скважины из всей выборки, то самым прибыльным будет регион 1.

## Bootstrap

Проведём Bootstrap, чтобы сэмитировать "полевые условия" и рассчитать где в среднем более высокая прибыль и меньший шанс убытков.

In [16]:
values = [[],[],[]]

for n in range(3):
    for b in range(1000):
        t_sample = t_v_all[n].reset_index(drop=True).sample(n = 500, replace = True, random_state=s)
        probs_sample = pred_list[n][t_sample.index]
        values[n].append(profit(probs_sample,t_sample))
        
    values[n] = pd.Series(values[n])
    print('Показатели региона №' +  str(n + 1))
    print('2,5% квантиль:{0:.2f}'.format(values[n].quantile(0.025)))
    print('97,5% квантиль:{0:.2f}'.format(values[n].quantile(0.975)))
    print('95%-й доверительный интервал:({0:.2f}'.format(values[n].quantile(0.025)) ,
          ' : {0:.2f}'.format(values[n].quantile(0.975)),')')
    print('Средняя прибыль:{0:.2f}'.format(values[n].mean()),'млрд.')
    print('Риск убытка:{0:.2f}%'.format(st.percentileofscore(values[n], 0)))
    print()

Показатели региона №1
2,5% квантиль:-0.09
97,5% квантиль:0.99
95%-й доверительный интервал:(-0.09  : 0.99 )
Средняя прибыль:0.45 млрд.
Риск убытка:5.60%

Показатели региона №2
2,5% квантиль:0.13
97,5% квантиль:0.95
95%-й доверительный интервал:(0.13  : 0.95 )
Средняя прибыль:0.53 млрд.
Риск убытка:0.40%

Показатели региона №3
2,5% квантиль:-0.15
97,5% квантиль:0.88
95%-й доверительный интервал:(-0.15  : 0.88 )
Средняя прибыль:0.38 млрд.
Риск убытка:8.40%



## Вывод

* Самый привликательный для разработки **Регион №2**:
   * Обладает самым сбалансированным доверительным интервалом
   * Самой высокой средней прибылью .
   * И что очень важно - наименьшим риском убытка.