# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Описание данных
### Описание:
Данные геологоразведки трёх регионов находятся в файлах со следующими полями:

- `id` — уникальный идентификатор скважины;
- `f0`, `f1`, `f2` — три признака точек (неважно, что они означают, но сами признаки значимы);
- `product` — объём запасов в скважине (тыс. баррелей).

### Условия задачи:

- Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
- При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
- Бюджет на разработку скважин в регионе — 10 млрд рублей.
- При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.


Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.

## Загрузка и подготовка данных

### 1. Загрузите и подготовьте данные. Поясните порядок действий.

Подключаем необходимые модули:

In [94]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

np.set_printoptions(suppress=True)

Загружаем наши наборы данных:

In [95]:
REGIONS_COUNT = 3

dfs = list()
for i in range(REGIONS_COUNT):
    dfs.append(pd.read_csv('...'))

#### 1.1 Базовое исследование наборов данных

Посмотрим на _шапку_ каждого из наборов данных:

In [96]:
for i in range(REGIONS_COUNT):
    display(dfs[i].head())

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


Типы данных кажутся очевидными - строковый для `id`, вещественный для признаков точек `f0`, `f1` и `f2`, и вещественный (неотрицательный?) для `product`. Убедимся в этом:

In [97]:
for i in range(REGIONS_COUNT):
    display(dfs[i].info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Также выведем базовые статистические характеристики для каждого из столбцов каждого из регионов:

In [98]:
for i in range(REGIONS_COUNT):
    display(dfs[i].describe())

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


Видим, что, судя по всему, минимальным значением для объёмов запасов (`product`) является `0` для всех трёх регионов. Максимальное значение объёмов запасов также не выглядит подозрительным (выбивающимся).

Также обратим внимание, что в наборах данных отсутствуют пропуски - для всех признаков в выдаче выше мы видим пометку `100000 non-null`.

#### 1.2 Поиск дубликатов

Теперь попробуем определить, есть ли среди данных дубли:

In [99]:
for i in range(REGIONS_COUNT):
    print(f'Число полных дублей для региона №{i}: {dfs[i].duplicated().sum()}')

Число полных дублей для региона №0: 0
Число полных дублей для региона №1: 0
Число полных дублей для региона №2: 0


Видим, что полных дублей в данных нет ни для одного региона из трёх. Однако прежде чем успокоиться на этом, попробуем также узнать, если в наборе данных дубли только по полю с уникальным идентификатором скважины (`id`):

In [100]:
for i in range(REGIONS_COUNT):
    print(f'Число дублей по полю "id" для региона №{i}: {dfs[i].duplicated(subset=["id"]).sum()}')

Число дублей по полю "id" для региона №0: 10
Число дублей по полю "id" для региона №1: 4
Число дублей по полю "id" для региона №2: 4


И мы видим, что дубли присутствуют. Их очень мало в сравнении с объёмом всего набора данных, тем не менее попробуем от них избавиться.

Самым простым решением могло бы быть удаление повторов с сохранением только какой-то одной записи из дублирующихся. Однако, если принять во внимание возможную причину появления таких дублей - повторная геологоразведка одной и той же скважины дважды (или более раз), которая (_возможно_) могла бы привести к получение немного разных показателей для каждой из проб. Если это так, то выглядит разумным использование единственной записи для повтроно пробированной скважины с усреднёнными значениями каждого из показателей скважины (`f0`, `f1`, `f2`, `product`) по всем её пробам.

Напишем вспомогательную фунцию, которая поможет реализовать то, что было описано выше:

In [101]:
def replace_duplicated_probes_with_mean(df, silent):
    duplicated_ids = df[df.duplicated(subset=['id'])]['id']
    if not silent:
        print('Дублирующиеся "id":')
        display(duplicated_ids.to_frame())
        print('Берём некоторый "id" среди дублировавшихся:')
    duplicated_id = duplicated_ids.iloc[0]
    if not silent:
        display(duplicated_id)
        print('Смотрим дублирующиеся записи для него:')
        display(df[df['id'] == duplicated_id])
        print('Создаём группировку по всем полям таблицы кроме "id", смотрим получившуюся запись для нашего id:')
    gb = df.groupby('id')[['f0', 'f1', 'f2', 'product']].mean().reset_index()
    if not silent:
        display(gb[gb['id'] == duplicated_id])
    appendix = gb.query('id in(@duplicated_ids)')
    if not silent:
        print('Оставляем в нашей группировке только строки с теми "id", которые дублировались:')
        display(appendix)
        print('Добавляем то, что осталось в группировке (аппендикс) в исходный набор, смотрим на него:')
    df_updated = df.append(appendix)
    if not silent:
        display(df_updated)
        print('Выводим записи для нашего выбранного дублированного "id" (их должно быть больше двух):')
        display(df_updated[df_updated['id'] == duplicated_id])
        print('''Удаляем дубли в получившемся наборе, сохраняя при этом последнюю запись для дублей -
            она хранит те самые средние значения по полям, которые мы хотели бы оставить:''')
    df_updated = df_updated.drop_duplicates(subset=['id'], keep='last')
    if not silent:
        print('Выводим получившуюся в итоге таблицу, её размер:')
        display(df_updated)
        print(df_updated.shape)
        print('Смотрим на записи, которые остались для нашего выбранного "id" (она должна быть одна):')
        display(df_updated[df_updated['id'] == duplicated_id])
    return df_updated

dfs[0] = replace_duplicated_probes_with_mean(dfs[0], silent=False)

Дублирующиеся "id":


Unnamed: 0,id
7530,HZww2
41724,bxg6G
51970,A5aEY
63593,QcMuo
66136,74z30
69163,AGS9W
75715,Tdehs
90815,fiKDv
92341,TtcGQ
97785,bsk9y


Берём некоторый "id" среди дублировавшихся:


'HZww2'

Смотрим дублирующиеся записи для него:


Unnamed: 0,id,f0,f1,f2,product
931,HZww2,0.755284,0.368511,1.863211,30.681774
7530,HZww2,1.061194,-0.373969,10.43021,158.828695


Создаём группировку по всем полям таблицы кроме "id", смотрим получившуюся запись для нашего id:


Unnamed: 0,id,f0,f1,f2,product
28446,HZww2,0.908239,-0.002729,6.146711,94.755235


Оставляем в нашей группировке только строки с теми "id", которые дублировались:


Unnamed: 0,id,f0,f1,f2,product
11459,74z30,0.913209,0.073436,6.07194,134.20741
16375,A5aEY,-0.110142,0.54621,-0.942456,61.134785
16646,AGS9W,0.260476,-0.181729,-1.486258,72.800479
28446,HZww2,0.908239,-0.002729,6.146711,94.755235
43066,QcMuo,0.571099,-0.398598,-0.676457,70.037589
47844,Tdehs,0.470743,0.364552,1.584715,78.499663
48255,TtcGQ,0.339993,0.458906,3.675798,93.334097
61070,bsk9y,0.388668,-0.197208,5.141602,162.03519
61187,bxg6G,-0.206053,0.701574,-0.01148,83.306029
67248,fiKDv,0.103612,0.934836,5.990099,116.582238


Добавляем то, что осталось в группировке (аппендикс) в исходный набор, смотрим на него:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
47844,Tdehs,0.470743,0.364552,1.584715,78.499663
48255,TtcGQ,0.339993,0.458906,3.675798,93.334097
61070,bsk9y,0.388668,-0.197208,5.141602,162.035190
61187,bxg6G,-0.206053,0.701574,-0.011480,83.306029


Выводим записи для нашего выбранного дублированного "id" (их должно быть больше двух):


Unnamed: 0,id,f0,f1,f2,product
931,HZww2,0.755284,0.368511,1.863211,30.681774
7530,HZww2,1.061194,-0.373969,10.43021,158.828695
28446,HZww2,0.908239,-0.002729,6.146711,94.755235


Удаляем дубли в получившемся наборе, сохраняя при этом последнюю запись для дублей -
            она хранит те самые средние значения по полям, которые мы хотели бы оставить:
Выводим получившуюся в итоге таблицу, её размер:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
47844,Tdehs,0.470743,0.364552,1.584715,78.499663
48255,TtcGQ,0.339993,0.458906,3.675798,93.334097
61070,bsk9y,0.388668,-0.197208,5.141602,162.035190
61187,bxg6G,-0.206053,0.701574,-0.011480,83.306029


(99990, 5)
Смотрим на записи, которые остались для нашего выбранного "id" (она должна быть одна):


Unnamed: 0,id,f0,f1,f2,product
28446,HZww2,0.908239,-0.002729,6.146711,94.755235


Повторим эту же процедуру для двух остальных таблиц, разве что отключим вывод, чтобы не перегружать тетрадку:

In [102]:
for i in range(1, REGIONS_COUNT):
    dfs[i] = replace_duplicated_probes_with_mean(dfs[i], silent=True)

Теперь выведем вместе размеры таблиц, а также убедимся, что дублей по полю уникального идентификатора скважины (`id`) не осталось:

In [103]:
for i in range(REGIONS_COUNT):
    print(dfs[i].shape)
    print(f'Число дублей по полю "id" для региона №{i}: {dfs[i].duplicated(subset=["id"]).sum()}')

(99990, 5)
Число дублей по полю "id" для региона №0: 0
(99996, 5)
Число дублей по полю "id" для региона №1: 0
(99996, 5)
Число дублей по полю "id" для региона №2: 0


В целом, безусловно, количество дублей по полю `id` было крайне невелико, поэтому реализованная выше процедура их устранения может выглядеть как не стоящая вложенных в неё усилий. Можно рассмотреть её разве что как дополнительную практику по Python/pandas для закрепления навыков.

## Обучение и проверка модели

### 2. Обучите и проверьте модель для каждого региона:
#### 2.1. Разбейте данные на обучающую и валидационную выборки в соотношении 75:25.
#### 2.2. Обучите модель и сделайте предсказания на валидационной выборке.
#### 2.3. Сохраните предсказания и правильные ответы на валидационной выборке.

In [104]:
def train_predict_for_region(df):
    features = df.drop(['id', 'product'], axis=1)
    target = df['product']
    
    features_train, features_valid, target_train, target_valid = train_test_split(features,
                                                                                  target,
                                                                                  random_state=12345)
    model = LinearRegression()
    model.fit(features_train, target_train)
    
    predictions_valid = model.predict(features_valid)
    return target_valid, predictions_valid

def measure_quality_on_valid_for_region(target_valid, predictions_valid):
    rmse = np.sqrt(mean_squared_error(target_valid, predictions_valid))
    mean_predicted_product = sum(predictions_valid) / len(predictions_valid)
    return rmse, mean_predicted_product

KEY_TARGETS = 'target_valid'
KEY_PREDICTIONS = 'predictions_valid'
KEY_RMSE = 'rmse'
KEY_MEAN_PREDICTED_PRODUCT = 'mean_predicted_product'
KEY_MEAN_BOOTSTRAPPED_INCOME = 'mean_bootstrapped_income'
KEY_CONFIDENCE_INTERVAL = 'confidence_interval'
KEY_LOSS_RISK = 'loss_risk'

region_results = []

for i in range(REGIONS_COUNT):
    region_result = {}
    
    target_valid, predictions_valid = train_predict_for_region(dfs[i])
    rmse, mean_predicted_product = measure_quality_on_valid_for_region(target_valid, predictions_valid)
    
    target_valid = target_valid.reset_index(drop=True)
    predictions_valid = pd.Series(predictions_valid)

    region_result[KEY_TARGETS] = target_valid
    region_result[KEY_PREDICTIONS] = pd.Series(predictions_valid)
    region_result[KEY_RMSE] = rmse
    region_result[KEY_MEAN_PREDICTED_PRODUCT] = mean_predicted_product
    
    region_results.append(region_result)

#### 2.4. Напечатайте на экране средний запас предсказанного сырья и RMSE модели

In [105]:
model_results_dict = {}
model_results_dict['Номер региона'] = []
model_results_dict['Средний запас предсказанного сырья'] = []
model_results_dict['RMSE модели'] = []

for i in range(REGIONS_COUNT):
    model_results_dict['Номер региона'].append(i)
    model_results_dict['Средний запас предсказанного сырья'].append(
        region_results[i][KEY_MEAN_PREDICTED_PRODUCT])
    model_results_dict['RMSE модели'].append(region_results[i][KEY_RMSE])
    
    print('------------------------------------------------------')
    print(f'Результаты для региона №{i} на валидационной выборке:')
    print('------------------------------------------------------')
    print(f'RMSE модели                        : {region_results[i][KEY_RMSE]}')
    print(f'Средний запас предсказанного сырья : {region_results[i][KEY_MEAN_PREDICTED_PRODUCT]}')
    print()

------------------------------------------------------
Результаты для региона №0 на валидационной выборке:
------------------------------------------------------
RMSE модели                        : 37.596292172424036
Средний запас предсказанного сырья : 92.26909373260747

------------------------------------------------------
Результаты для региона №1 на валидационной выборке:
------------------------------------------------------
RMSE модели                        : 0.8901712829734965
Средний запас предсказанного сырья : 68.72565656924304

------------------------------------------------------
Результаты для региона №2 на валидационной выборке:
------------------------------------------------------
RMSE модели                        : 40.15018763637819
Средний запас предсказанного сырья : 95.04994858742441



Также выведем результаты в виде таблицы:

In [106]:
model_results_df = pd.DataFrame(model_results_dict).set_index('Номер региона')
display(model_results_df)

Unnamed: 0_level_0,Средний запас предсказанного сырья,RMSE модели
Номер региона,Unnamed: 1_level_1,Unnamed: 2_level_1
0,92.269094,37.596292
1,68.725657,0.890171
2,95.049949,40.150188


#### 2.5. Проанализируйте результаты.

Можно видеть, что наиболее перспективным с точки зрения предсказанного сырья выглядит регион №2 (значение `95.04`), но в то же время именно у этого региона наблюдается и наиболее большая ошибка по RMSE-метрике.

Одновременно с этим наименее перспективный по предсказанному сырью регион №1 имеет самую маленькую RMSE-ошибку, причём её значение `0.89` существенно меньше значений ошибки для двух остальных регионов (`37.59` для региона №0 и `40.15` для региона №2).

## Подготовка к расчёту прибыли
### 3. Подготовьтесь к расчёту прибыли:
#### 3.1. Все ключевые значения для расчётов сохраните в отдельных переменных.

In [107]:
# Бюджет на разработку скважин в регионе — 10 млрд рублей
BUDGET = 10_000_000_000

# Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей
INCOME_PER_PRODUCT_UNIT = 450_000

# При разведке региона исследуют 500 точек ...
SCOUTING_LOCATIONS_COUNT = 500

# ... из которых с помощью машинного обучения выбирают 200 лучших для разработки
BEST_LOCATIONS_COUNT = 200

# Примените технику Bootstrap с 1000 выборок
BOOTSTRAPPED_SAMPLES_COUNT = 1_000

#### 3.2. Рассчитайте достаточный объём сырья для безубыточной разработки новой скважины. Сравните полученный объём сырья со средним запасом в каждом регионе.

Поделив бюджет региона (`BUDGET`) на доход с одной единицы продукта (тысячах баррелей, `INCOME_PER_PRODUCT_UNIT`), получим тот объём единиц продукта, который необходимо получить в регионе, чтобы обеспечить безубыточную разработку и покрыть бюджет:

In [108]:
PRODUCT_UNITS_AMOUNT_FOR_BREAKTHROUGH = round((BUDGET / INCOME_PER_PRODUCT_UNIT), 1)
print(PRODUCT_UNITS_AMOUNT_FOR_BREAKTHROUGH)

22222.2


Итак, нам необходимо обеспечить добычу как минимум `22222.2` тысяч баррелей, чтобы обеспечить безубыточность добычи в регионе. Тамже нам известно, что для разработки будет выбрано `200` наиболее перспективных точек (`BEST_LOCATIONS_COUNT`), и поделив необходимое для безубыточной добычи количество сырья на число точек для разработки, получим то **среднее** количество сырья, которое должна обеспечить одна скважина:

In [109]:
PRODUCT_UNITS_AMOUNT_PER_WELL = round((PRODUCT_UNITS_AMOUNT_FOR_BREAKTHROUGH / BEST_LOCATIONS_COUNT), 1)
print(PRODUCT_UNITS_AMOUNT_PER_WELL)

111.1


Таким образом, среднее количество сырья для безубыточного функционирования скважины - `111.1` единиц (тысяч баррелей).

#### 3.3. Напишите выводы по этапу подготовки расчёта прибыли.

Сравнивая данное значение со средним запасом предсказанного сырья по каждому из наших 3 регионов ...

- `92.2` единиц, регион №0;
- `68.7` единиц, регион №1;
- `95.0` единиц, регион №2

... можно сделать вывод о том, что **ни в одном из регионов средний объём предсказанного сырья не достигает среднего значения для безубыточного функционирования**.

### 4. Напишите функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:
#### 4.1. Выберите скважины с максимальными значениями предсказаний.
#### 4.2. Просуммируйте целевое значение объёма сырья, соответствующее этим предсказаниям.
#### 4.3. Рассчитайте прибыль для полученного объёма сырья.

In [110]:
def calculate_income(target, predicted):
    sorted_predicted = predicted.sort_values(ascending=False)
    target_sorted = target[sorted_predicted.index][:BEST_LOCATIONS_COUNT]
    revenue = INCOME_PER_PRODUCT_UNIT * sum(target_sorted)
    return revenue - BUDGET

## Расчёт прибыли и рисков 

### 5. Посчитайте риски и прибыль для каждого региона:

#### 5.1. Примените технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.
#### 5.2. Найдите среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

Напишем вспомогательную функцию `bootstrap_income_distribution_for_region()`, которая по переданному индексу региона будет строить распределение прибыли с применением Bootstrap'а, а затем подсчитывать нужные показатели:

In [111]:
state = np.random.RandomState(12345)

def bootstrap_income_distribution_for_region(region_index):
    region_result = region_results[region_index]
    region_target = region_result[KEY_TARGETS]
    region_predictions = region_result[KEY_PREDICTIONS]
    
    bootstrap_samples_incomes_list = []
    for i in range(BOOTSTRAPPED_SAMPLES_COUNT):
        bootstrap_sample_target = region_target.sample(n=SCOUTING_LOCATIONS_COUNT,
                                                       replace=True,
                                                       random_state=state)
        bootstrap_sample_predictions = region_predictions[bootstrap_sample_target.index]
        bootstrap_sample_income = calculate_income(bootstrap_sample_target, bootstrap_sample_predictions)
        bootstrap_samples_incomes_list.append(bootstrap_sample_income)

    bootstrap_samples_incomes = pd.Series(bootstrap_samples_incomes_list)
    region_incomes_mean = bootstrap_samples_incomes.mean()
    lower_bound = bootstrap_samples_incomes.quantile(q=0.025)
    upper_bound = bootstrap_samples_incomes.quantile(q=0.975)
    loss_risk = sum(1 if x < 0 else 0 for x in bootstrap_samples_incomes) / BOOTSTRAPPED_SAMPLES_COUNT
    
    mean_str = f'{region_incomes_mean:.2f}'
    interval_str = f'[{lower_bound:.2f}, {upper_bound:.2f}]'
    loss_risk_percent_str = f'{loss_risk:.2%}'
    
    region_result[KEY_MEAN_BOOTSTRAPPED_INCOME] = mean_str
    region_result[KEY_CONFIDENCE_INTERVAL] = interval_str
    region_result[KEY_LOSS_RISK] = loss_risk_percent_str

Теперь в цикле вызовем нашу функцию для каждого из регионов, напечатаем результаты и сохраним их во вспомогательный словарь для последующего построения таблицы:

In [112]:
income_results_df = {}
income_results_df['Номер региона'] = []
income_results_df['Средняя прибыль'] = []
income_results_df['95% доверительный интервал'] = []
income_results_df['Риск убытков (%)'] = []

for i in range(REGIONS_COUNT):
    bootstrap_income_distribution_for_region(i)
    
    income_results_df['Номер региона'].append(i)
    income_results_df['Средняя прибыль'].append(region_results[i][KEY_MEAN_BOOTSTRAPPED_INCOME])
    income_results_df['95% доверительный интервал'].append(region_results[i][KEY_CONFIDENCE_INTERVAL])
    income_results_df['Риск убытков (%)'].append(region_results[i][KEY_LOSS_RISK])

    print(f'Результаты для региона №{i}:')
    print(region_results[i][KEY_MEAN_BOOTSTRAPPED_INCOME])
    print(region_results[i][KEY_CONFIDENCE_INTERVAL])
    print(region_results[i][KEY_LOSS_RISK])
    print()

Результаты для региона №0:
445340183.59
[-83990482.69, 987188278.10]
5.80%

Результаты для региона №1:
517287870.10
[125244934.15, 942151107.81]
0.60%

Результаты для региона №2:
357122018.70
[-231410319.39, 917869507.90]
11.30%



Наконец, выводим итоговую таблицу, с помощью которой будем окончательно определяться с регионом для разработки:

In [113]:
income_results = pd.DataFrame(income_results_df).set_index('Номер региона')
display(income_results)

Unnamed: 0_level_0,Средняя прибыль,95% доверительный интервал,Риск убытков (%)
Номер региона,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,445340183.59,"[-83990482.69, 987188278.10]",5.80%
1,517287870.1,"[125244934.15, 942151107.81]",0.60%
2,357122018.7,"[-231410319.39, 917869507.90]",11.30%


#### 5.3. Напишите выводы: предложите регион для разработки скважин и обоснуйте выбор.

Прежде всего нужно отметить, что по условию поставленной в проекте задачи требовалось после оценки рисков оставить для рассмотрения лишь те регионы, в которых вероятность убытков меньше `2.5%`.

Как видно из таблицы выше, такой регион только один - это регион **№1** (риск убытков - `0.60%`), причём это тот самый регион, который выглядел наименее перспективным с точки зрения среднего запаса предсказанного сырья (`68.7` единиц, тысяч баррелей).

Одновременно с этим можно заметить, что среднее значение прибыли для данного региона, полученное с помощью технологии Bootstrap (`517287870.10`), является максимальным среди всех регионов.

Исходя из всего этого, для разработки новой скважины можно рекомендовать регион **№1**.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: модели обучены и проверены
    - [ ]  Данные корректно разбиты на обучающую и валидационную выборки
    - [ ]  Модели обучены, предсказания сделаны
    - [ ]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [ ]  На экране напечатаны результаты
    - [ ]  Сделаны выводы
- [ ]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [ ]  Для всех ключевых значений созданы константы Python
    - [ ]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [ ]  По предыдущему пункту сделаны выводы
    - [ ]  Написана функция расчёта прибыли
- [ ]  Выполнен шаг 4: посчитаны риски и прибыль
    - [ ]  Проведена процедура *Bootstrap*
    - [ ]  Все параметры бутстрепа соответствуют условию
    - [ ]  Найдены все нужные величины
    - [ ]  Предложен регион для разработки месторождения
    - [ ]  Выбор региона обоснован