# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [3]:
import pandas as pd
from sklearn.utils import shuffle
from sklearn.metrics import f1_score
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score

In [4]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

импортируем все необходимые библиотеки

In [5]:
df0 = pd.read_csv('/datasets/geo_data_0.csv')
df1 = pd.read_csv('/datasets/geo_data_1.csv')
df2 = pd.read_csv('/datasets/geo_data_2.csv')

Загружаем датасеты

In [6]:
data = [df0, df1, df2]

Сделаем лист чтобы было удобнее работать сразу со всеми датасетами, так как они все имеют одинаковую структуру.

In [7]:
for i in data:
    print('')
    print(' Head ')
    print(i.head(5))
    print('')
    print(' Describe ')
    print(i.describe())
    print('')
    print(' Info ')
    print(i.info())


 Head 
      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647

 Describe 
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         2.362331       1.343769      16.003790     185.364347

 Info 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 9

Структура данных вполне ясна и понятна, нету каких то критических отклонений, также очевидно что столбец айди не несет в себе никакого смысла для нашей модели - просто удалим его

In [8]:
df0 = df0.drop(['id'], axis = 1)
df1 = df1.drop(['id'], axis = 1)
df2 = df2.drop(['id'], axis = 1)

Теперь можно разбить данные на выборки и перейти к обучению модели


In [12]:
target0 = df0['product']
features0 = df0.drop(['product'] , axis=1)
target1 = df1['product']
features1 = df1.drop(['product'] , axis=1)
target2 = df2['product']
features2 = df2.drop(['product'] , axis=1)

In [13]:
features_train0, features_valid0, target_train0, target_valid0 = train_test_split(features0, target0, 
                                                                               test_size=0.25)
features_train1, features_valid1, target_train1, target_valid1 = train_test_split(features1, target1, 
                                                                               test_size=0.25)
features_train2, features_valid2, target_train2, target_valid2 = train_test_split(features2, target2, 
                                                                               test_size=0.25)

Каждый пакет данных успешно разделился на две выборки, теперь попробуем обучить их

## Обучение и проверка модели

In [14]:
model = LinearRegression()
model.fit(features_train0, target_train0)
predict_valid0 = model.predict(features_valid0)
model.fit(features_train1, target_train1)
predict_valid1 = model.predict(features_valid1)
model.fit(features_train2, target_train2)
predict_valid2 = model.predict(features_valid2)

Проверим качество каждой модели

In [15]:
mse0 = mean_squared_error(target_valid0, predict_valid0)
mse1 = mean_squared_error(target_valid1, predict_valid1)
mse2 = mean_squared_error(target_valid2, predict_valid2)
R2_0 = r2_score(target_valid0, predict_valid0)
R2_1 = r2_score(target_valid1, predict_valid1)
R2_2 = r2_score(target_valid2, predict_valid2)
for i in [mse0, mse1, mse2]:
    print('RMSE = ', i**0.5)
for i in [R2_0, R2_1, R2_2]:
    print('R2 = ', i)

RMSE =  37.931865516267315
RMSE =  0.8905874094568921
RMSE =  40.09246227186037
R2 =  0.27191476678937987
R2 =  0.9996248091570211
R2 =  0.20052613135163633


Вообще учитывая среднее значения каждой выборки (92, 68, 95), мы получили достаточно странные результаты. В первом и третьем регионе средняя квадратичная ошибка достаточно большая и равна примерно 38, в то время как в случае второго региона модель обучилась почти идеально, ошибка близка к единице.

R2 вообще ужасно низкий, в первом и третьем регионе объяснено 27 и 20% соответственно, нужно как то улучшать модель, а как ее улучшить - непонятно. В то же время точность обучения модели во втором регионе поражает, объяснено целых 99,9% регрессии! Феноменальный результат! Я бы использовал другие алгоритмы, либо добавил сюда еще какие то объясняющие переменные

## Подготовка к расчёту прибыли

In [16]:
price = 450000
lim_proba = 0.025
budget = 10000000000
holes = 200
budget_per_hole = budget/holes
print('budget_per_hole =', budget_per_hole)
break_even_point = budget_per_hole/price
print('break_even_point =', break_even_point)


budget_per_hole = 50000000.0
break_even_point = 111.11111111111111


Мы получили 2 необходимых нам числа - бюджет на одну скважину, а также то, сколько нам необходимо продукта, чтобы эта скважина окупилась, теперь сравним этот брейк-ивен поинт со средними запасами в регионе

In [17]:
for i in data:
    print('Среднее количество баррелей нефти (в тысячах) в регионе:', sum(i['product'])/100000, 'Необходимо иметь для безубыточности:', round(break_even_point)) 

Среднее количество баррелей нефти (в тысячах) в регионе: 92.49999999999974 Необходимо иметь для безубыточности: 111
Среднее количество баррелей нефти (в тысячах) в регионе: 68.82500000002561 Необходимо иметь для безубыточности: 111
Среднее количество баррелей нефти (в тысячах) в регионе: 95.00000000000041 Необходимо иметь для безубыточности: 111


Вполне ожидаемо: в среднем в регионе в одной точке меньше продукта, чем нам необходимо для того, чтобы скважина приносила прибыль. Модель должна нам в этом помочь. Теперь я возьму 500 наших предсказанных значений и срвню их с реальными

## Расчёт прибыли и рисков 

In [20]:
state = np.random.RandomState(12345)

In [22]:
def revenue(predicted, real_values, count):
    predicted_sorted = predicted.sort_values(ascending = False).index
    best = real_values[predicted_sorted][:count]
    return sum(best) * price - budget

In [23]:
values = []
for i in range(1000):
    predict_valid0 = pd.Series(predict_valid0, index=target_valid0.index)
    subsample = predict_valid0.sample(random_state = state, replace = True, n = 500)
    values.append(revenue(subsample, target_valid0, 200))

In [24]:
def lower_mean_perc(values):
    values = pd.Series(values)
    return print('сonfidence interval', round(values.quantile(q = 0.025)),round(values.quantile(q = 0.975)),'mean =', round(values.mean()),'percentage =', sum(values < 0)/values.shape[0])

In [25]:
lower_mean_perc(values)

сonfidence interval -136479276 887532243 mean = 390899297 percentage = 0.08


В первом регионе получилось очень маленький процент отрицательный значений, но нижнее значение доверительного интервала все же отрицательное, среднее значение приыли тоже очень высокоеи равно 390000000

In [26]:
values = []
for i in range(1000):
    predict_valid1 = pd.Series(predict_valid1, index=target_valid1.index)
    subsample = predict_valid1.sample(random_state = state, replace = True, n = 500)
    values.append(revenue(subsample, target_valid1, 200))

In [27]:
lower_mean_perc(values)

сonfidence interval 51021873 855889269 mean = 452744658 percentage = 0.009


Во втором случае получился похожий процент отрицательных значений, а средняя прибыль выше, как и лучше значения всего доверительного интервала, отрицательных вообще нету

In [28]:
values = []
for i in range(1000):
    predict_valid2 = pd.Series(predict_valid2, index=target_valid2.index)
    subsample = predict_valid2.sample(random_state = state, replace = True, n = 500)
    values.append(revenue(subsample, target_valid2, 200))

In [29]:
lower_mean_perc(values)

сonfidence interval -157233519 877104382 mean = 379861102 percentage = 0.084


Третий регион с отрицательным нижним квантилем и и положительным верхним, среднее значение примерно такое же как и у первого региона

Второй регион показал себя с наилучшей стороны при имении очень маленького процента отрицательных значений а также без отрицательных значений в доверительном интервале, среднее значение прибыли также самое высокое, поэтому следует выбрать именно 2 регион