# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [3]:
import pandas as pd
import numpy as np

from ydata_profiling import ProfileReport
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

Загружаем данные

In [4]:
df_0 = pd.read_csv('/datasets/geo_data_0.csv')
df_1 = pd.read_csv('/datasets/geo_data_1.csv')
df_2 = pd.read_csv('/datasets/geo_data_2.csv')

Поле ```id``` никак не влияет на результат предсказания модели, поэтому данный столбец можно ликвидировать

In [5]:
df_0_wo_id = df_0.drop(['id'], axis=1)
df_1_wo_id = df_1.drop(['id'], axis=1)
df_2_wo_id = df_2.drop(['id'], axis=1)

### Изучаем данные

- Пропусков нет ни в одном датасете
- Во всех датасетах тип данных полей одинаковый
- Выбросов, которые можно было бы отсечь тоже не наблюдаем (распределение данных нормальное или близко к нормальному)
- Размер таблиц одинаковый - 100000 строк
- Есть корреляция признака f2 и product во всех датасетах, особенно в df_1 - корреляция составляет 0.975

#### Регион 0

In [6]:
profile = ProfileReport(df_0)
profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

#### Регион 1

In [7]:
profile = ProfileReport(df_1)
profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

#### Регион 2

In [8]:
profile = ProfileReport(df_2)
profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

## Обучение и проверка модели

### Разобъем данные на обучающую и валидационную

In [9]:
target_0 = df_0_wo_id['product']
target_1 = df_1_wo_id['product']
target_2 = df_2_wo_id['product']

features_0 = df_0_wo_id.drop(['product'], axis=1)
features_1 = df_1_wo_id.drop(['product'], axis=1)
features_2 = df_2_wo_id.drop(['product'], axis=1)

features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)

features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)

features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)

### Масштабирование признаков

- Распределение всех признаков нормальное или близко к нормальному, без выбросов, поэтому можем провести стандартизацию при помощи ```StandardScaler()```

In [10]:
def scaling(features_train,features_valid):

    scaler = StandardScaler()
    scaler.fit(features_train)
    features_train_scaled = scaler.transform(features_train)
    features_valid_scaled = scaler.transform(features_valid)
    
    return features_train_scaled,features_valid_scaled

In [11]:
features_train_0,features_valid_0 = scaling(features_train_0,features_valid_0)
features_train_1,features_valid_1 = scaling(features_train_1,features_valid_1)
features_train_2,features_valid_2 = scaling(features_train_2,features_valid_2)

### Обучим модель и сделаем предсказания на валидационной выборке. Сохраним предсказания и правильные ответы на валидационной выборке

In [12]:
def model(features_train,features_valid,target_train,target_valid):
    
    model = LinearRegression()
    model.fit(features_train,target_train)
    prediction = pd.Series(model.predict(features_valid),name='prediction')
    
    #возвращаем DataFrame с предсказаниями модели и целевым валидационным признаком
    return prediction.to_frame().join(target_valid.reset_index(drop=True))

In [13]:
region_0 = model(features_train_0, features_valid_0, target_train_0, target_valid_0)

In [14]:
region_1 = model(features_train_1, features_valid_1, target_train_1, target_valid_1)

In [15]:
region_2 = model(features_train_2, features_valid_2, target_train_2, target_valid_2)

### Рассчитаем средний запас предсказанного сырья и RMSE модели

In [16]:
def propeties(region):
    region_0_avg_prediction = region['prediction'].mean()
    r2 = r2_score(region['product'],region['prediction'])
    mse = mean_squared_error(region['product'],region['prediction'])
    rmse = mse ** 0.5
    
    print('Средний запас предсказанного сырья: ',region_0_avg_prediction)
    print('R2 модели: ',r2)
    print('RMSE модели: ',rmse)

In [17]:
propeties(region_0)

Средний запас предсказанного сырья:  92.59256778438035
R2 модели:  0.27994321524487786
RMSE модели:  37.5794217150813


In [18]:
propeties(region_1)

Средний запас предсказанного сырья:  68.728546895446
R2 модели:  0.9996233978805127
RMSE модели:  0.893099286775617


In [19]:
propeties(region_2)

Средний запас предсказанного сырья:  94.96504596800489
R2 модели:  0.20524758386040443
RMSE модели:  40.02970873393434


### Анализ результата

- Наибольший ср запас сырья в регионе 2 (но и качество модели здесь самое низкой)
- Чуть меньше ср запас сырья в регионе 0, и качество модели чуть лучше
- ср запас 1 региона на 30% ниже запаса остальных регионов, но качество модели здесь колоссальное
- RMSE модели 1 региона очень низкий (на фоне остальных регионов), что говорит о высокой точности предсказаний (это так же подтверждает и показатель R2 равный 0.999)

## Подготовка к расчёту прибыли

Условия:
- При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
- Бюджет на разработку скважин в регионе — 10 млрд рублей.
- При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

### Все ключевые значения для расчётов

In [20]:
COST_PRICE= 10000000000 # общий бюджет на разработку скважин в регионе

In [21]:
THOUSAND_BAR_COST= 450000 # доход 1000 баррелей

In [22]:
BOREHOLE_COUNT= 200 # кол-во лучших отобранных скважен для разработки

In [23]:
ONE_BOREHOLE_BUDGET = COST_PRICE / BOREHOLE_COUNT # бюджет разработки одной скважины

### Расчет

In [24]:
MIN_VOLUME = ONE_BOREHOLE_BUDGET / THOUSAND_BAR_COST
print('Достаточный объём сырья для безубыточной разработки новой скважины: ', round(MIN_VOLUME,1), 'тыс. баррелей')

Достаточный объём сырья для безубыточной разработки новой скважины:  111.1 тыс. баррелей


- Ни один из регионов не дотягивает до безубыточного рубежа, но ближе всех регион 1 с показателем 94,96 тыс. баррелей.
- Но, так как мы будем брать 200 лучших по предсказаниям скважин в регионе, то их средняя вероятнее всего будет выше безубыточной

## Расчёт прибыли лучших скважин

In [25]:
def calculation(region,borehole_count=200):
    
    region_top_predicted_volume = sum(region.sort_values(by='prediction' ,ascending=False)['product'][:borehole_count])
    sum_income = region_top_predicted_volume * THOUSAND_BAR_COST
    profit = sum_income - COST_PRICE

    print('Прибыль от', borehole_count,'лучших скважин:', round(profit,2), 'руб','(',round(profit*10/COST_PRICE,3),'млрд. руб)')

Регион 0

In [26]:
calculation(region_0,borehole_count=BOREHOLE_COUNT)

Прибыль от 200 лучших скважин: 3320826043.14 руб ( 3.321 млрд. руб)


Регион 1

In [27]:
calculation(region_1,borehole_count=BOREHOLE_COUNT)

Прибыль от 200 лучших скважин: 2415086696.68 руб ( 2.415 млрд. руб)


Регион 2

In [28]:
calculation(region_2,borehole_count=BOREHOLE_COUNT)

Прибыль от 200 лучших скважин: 2710349963.6 руб ( 2.71 млрд. руб)


## Расчет рисков

- [x] При помощи техники Bootstrap посчитаем среднюю прибыль на 1000 выборок по 500 скважин, из которых мы каждый раз будем выбирать 200 лучших скважин.
- [x] Выделим 95%-й доверительный интервал.
- [x] И посчитаем вероятность убытка, как отношение кол-ва случаев с отрицательной прибылью ко всем случаям

In [33]:
def stat(region):

    state = np.random.RandomState(12345)

    values = []

    for i in range(1000):
        subsample = region.sample(500, replace=True, random_state=state)
        subsample_best_200 = subsample.sort_values(by='prediction', ascending=False)[:200]
        profit = (subsample_best_200['product'] - MIN_VOLUME) * THOUSAND_BAR_COST
        values.append(profit.sum())

    values = pd.Series(values)

    lower = values.quantile(0.025)
    upper = values.quantile(0.975)

    negative_probability = (values < 0).mean() * 100

    print('Средняя прибыль: ',round(values.mean(),2),'руб')
    print('95%-й доверительный интервал от:',round(lower,2),'руб до',round(upper,2),'руб')
    print('Вероятность убытка:',negative_probability,'%')

Регион 0

In [34]:
stat(region_0)

Средняя прибыль:  396164984.8 руб
95%-й доверительный интервал от: -111215545.89 руб до 909766941.55 руб
Вероятность убытка: 6.9 %


Регион 1

In [35]:
stat(region_1)

Средняя прибыль:  456045105.79 руб
95%-й доверительный интервал от: 33820509.4 руб до 852289453.87 руб
Вероятность убытка: 1.5 %


Регион 2

In [36]:
stat(region_2)

Средняя прибыль:  404403866.57 руб
95%-й доверительный интервал от: -163350413.4 руб до 950359574.92 руб
Вероятность убытка: 7.6 %


> Так как целевая вероятность риска в данном проекте 2,5%, то единственный регион, который укладывается в норму - **регион 1**

>Предлагаю для разработки новых скважин выбрать **регион 1**, как наилучший по соотношению прибыль/риск.