<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Изучение-и-подготовка-данных" data-toc-modified-id="Изучение-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Изучение и подготовка данных</a></span></li><li><span><a href="#Обучение-и-проверка-модели-для-каждого-региона" data-toc-modified-id="Обучение-и-проверка-модели-для-каждого-региона-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение и проверка модели для каждого региона</a></span></li><li><span><a href="#Подготовка-к-расчету-прибыли" data-toc-modified-id="Подготовка-к-расчету-прибыли-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Подготовка к расчету прибыли</a></span></li><li><span><a href="#Расчёт-прибыли-по-выбранным-скважинам-и-предсказаниям-модели:" data-toc-modified-id="Расчёт-прибыли-по-выбранным-скважинам-и-предсказаниям-модели:-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Расчёт прибыли по выбранным скважинам и предсказаниям модели:</a></span></li><li><span><a href="#Расчет-рисков-и-прибыли-для-каждого-региона" data-toc-modified-id="Расчет-рисков-и-прибыли-для-каждого-региона-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Расчет рисков и прибыли для каждого региона</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

# Описание проекта
Допустим, вы работаете в нефтедобывающей компании. Нужно решить, где бурить новую скважину.

Шаги для выбора локации обычно такие:
- В избранном регионе собирают характеристики для скважин: качество нефти и объём её запасов;
- Строят модель для предсказания объёма запасов в новых скважинах;
- Выбирают скважины с самыми высокими оценками значений;
- Определяют регион с максимальной суммарной прибылью отобранных скважин.

Вам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Постройте модель для определения региона, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.

# Инструкция по выполнению проекта:
- Загрузите и подготовьте данные. Поясните порядок действий.
- Обучите и проверьте модель для каждого региона:
    - Разбейте данные на обучающую и валидационную выборки в соотношении 75:25.
    - Обучите модель и сделайте предсказания на валидационной выборке.
    - Сохраните предсказания и правильные ответы на валидационной выборке.
    - Напечатайте на экране средний запас предсказанного сырья и RMSE модели.
    - Проанализируйте результаты.
- Подготовьтесь к расчёту прибыли:
    - Все ключевые значения для расчётов сохраните в отдельных переменных.
    - Рассчитайте достаточный объём сырья для безубыточной разработки новой скважины. Сравните полученный объём сырья со средним запасом в каждом регионе.
    - Напишите выводы по этапу подготовки расчёта прибыли.
- Напишите функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:
    - Выберите скважины с максимальными значениями предсказаний.
    - Просуммируйте целевое значение объёма сырья, соответствующее этим предсказаниям.
    - Рассчитайте прибыль для полученного объёма сырья.
- Посчитайте риски и прибыль для каждого региона:
    - Примените технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.
    - Найдите среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.
    - Напишите выводы: предложите регион для разработки скважин и обоснуйте выбор.

# Условия задачи
- Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
- При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
- Бюджет на разработку скважин в регионе — 10 млрд рублей.
- При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.

## Изучение и подготовка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import OrdinalEncoder

In [4]:
# Код для считывания данных
geo_data_0 = pd.read_csv('geo_data_0.csv')
geo_data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [5]:
# Код для считывания данных
geo_data_1 = pd.read_csv('geo_data_1.csv')
geo_data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [6]:
# Код для считывания данных
geo_data_2 = pd.read_csv('geo_data_2.csv')
geo_data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


Найдем пропуски в данных.

In [7]:
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Пропусков в таблице нет=)

## Обучение и проверка модели для каждого региона

При создании модели у меня выскакивала ошибка из-за того, что в 'id' были текстовые идентификаторы. Я не смог выполнить порядковое кодирование только в первом столбце(( Но так как нам не нужно будет в дальнейшем обращаться к уникальным идентификаторам, то просто удалим этот столбец.

In [10]:
def predict_product(data, name):
    # Удалим столбец с уникальным идентификатором скважиныы
    data.drop('id', axis=1, inplace=True)
    # Выделим переменные признаки и признак, который нужно предсказать для каждой таблицы
    features = data.drop('product', axis=1)
    target = data['product']
    # Отделим валидационную выборку (25%) от первоначальных данных
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345)
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid)
    mean = predictions_valid.mean()
    rmse = (mean_squared_error(target_valid, predictions_valid))**0.5
    print('Средний запас сырья в', name, '=', round(mean, 2))
    print('RMSE модели в', name, '=', round(rmse, 2))
    return predictions_valid, target_valid

In [11]:
# Сохраним ответы и предсказания модели в переменные predictions_valid_0 и target_valid_0
predictions_valid_0, target_valid_0 = predict_product(geo_data_0, 'geo_0')

Средний запас сырья в geo_0 = 92.59
RMSE модели в geo_0 = 37.58


In [12]:
# Сохраним ответы и предсказания модели в переменные predictions_valid_1 и target_valid_1
predictions_valid_1, target_valid_1 = predict_product(geo_data_1, 'geo_1')

Средний запас сырья в geo_1 = 68.73
RMSE модели в geo_1 = 0.89


In [13]:
# Сохраним ответы и предсказания модели в переменные predictions_valid_2 и target_valid_2
predictions_valid_2, target_valid_2 = predict_product(geo_data_2, 'geo_2')

Средний запас сырья в geo_2 = 94.97
RMSE модели в geo_2 = 40.03


Видим, что средний запас сырья в geo_1 заметно ниже двух остальных, однако его RMSE намного ниже, а значит разброс запасов скважин в этом регионе меньше и выбрать 200 лучших месторождений будет сложнее.

## Подготовка к расчету прибыли

Найдем достаточный объём сырья для безубыточной разработки новой скважины. Для этого разделим бюджен для одного региона на 200 скважин и на стоимость одной единицы продукта.
$$ Дост. объем. сырья = \frac{10 млрд}{(200 * 450 т.р.)} $$

In [14]:
# Найдем достаточный объем сырья
budget = 10000000000
count_wells = 200
profit_1ed = 450000
print('Достаточный объем сырья =', round(budget/(count_wells*profit_1ed), 2))

Достаточный объем сырья = 111.11


Для безубыточной разработки новой скважины, средний объем сырья по 200 скважинам должен быть не меньше 111.11.

## Расчёт прибыли по выбранным скважинам и предсказаниям модели:

In [15]:
def profit(target_valid, predictions_valid, count):
    # Присвоим предсказаниям индексы целевого признака
    predictions = pd.Series(predictions_valid, index=target_valid.index)
    # Отростируем в порядке убывания предсказания
    probs_sorted = predictions.sort_values(ascending=False)
    # Выберем определенное количество значений целевого признака, отсортированных по убыванию предсказаний
    selected = target_valid[probs_sorted.index].head(count)
    return profit_1ed * selected.sum() - budget

In [16]:
# Подсчет прибыли в регионе geo_0
print('Прибыль в регионе geo_0 =',round(profit(target_valid_0, predictions_valid_0, 200)/1000000000, 2), 'млрд')

Прибыль в регионе geo_0 = 3.32 млрд


In [17]:
# Подсчет прибыли в регионе geo_1
print('Прибыль в регионе geo_1 =',round(profit(target_valid_1, predictions_valid_1, 200)/1000000000, 2), 'млрд')

Прибыль в регионе geo_1 = 2.42 млрд


In [18]:
# Подсчет прибыли в регионе geo_2
print('Прибыль в регионе geo_2 =',round(profit(target_valid_2, predictions_valid_2, 200)/1000000000, 2), 'млрд')

Прибыль в регионе geo_2 = 2.71 млрд


## Расчет рисков и прибыли для каждого региона

In [19]:
million = 1000000
def predict_product(target_valid, predictions_valid, name):
    state = np.random.RandomState(12345)
    values = []
    for i in range(1000):
        target_subsample = target_valid.sample(500, replace=True, random_state=state)
        probabilities = pd.Series(predictions_valid, index=target_valid.index)
        probs_subsample = probabilities[target_subsample.index]
        values.append(profit(target_subsample, probs_subsample, 200))
    values = pd.Series(values)
    mean = values.mean()/million
    lower = values.quantile(0.025)/million
    upper = values.quantile(0.975)/million
    print('Средняя прибыль для региона', name, '=', mean, 'млн')
    print('95%-й доверительный интервал для региона', name, '=', 'от', round(lower, 2), 'млн',
          'до', round(upper, 2), 'млн')
    print('Риск убытков =', values[values < 0].count()/values.count())

In [26]:
geo = ['geo_0', 'geo_1', 'geo_2']
target = [target_valid_0,  target_valid_1, target_valid_2]
predictions = [predictions_valid_0, predictions_valid_1, predictions_valid_2]
for geo, target, predictions in zip(geo, target, predictions):
    predict_product(target, predictions, geo)
    print()

Средняя прибыль для региона geo_0 = 425.93852691059243 млн
95%-й доверительный интервал для региона geo_0 = от -102.09 млн до 947.98 млн
Риск убытков = 0.06

Средняя прибыль для региона geo_1 = 515.22277344329 млн
95%-й доверительный интервал для региона geo_1 = от 68.87 млн до 931.55 млн
Риск убытков = 0.01

Средняя прибыль для региона geo_2 = 435.0083627827556 млн
95%-й доверительный интервал для региона geo_2 = от -128.88 млн до 969.71 млн
Риск убытков = 0.064



Видим, что регион 'geo_1' имеет наибольшую среднюю прибыль, а так же риск убытков меньше, чем в двух других регионах. Рукомендую разрабатывать скважины в регионе 'geo_1'!

## Выводы
- В ходе работы мы изучили данные геологоразведки трёх регионов
- Нашли средний запас предсказанного сырья и RMSE модели для каждого региона
- Нашли достаточный объём сырья для безубыточной разработки новой скважины и он равен 111.11 тыс. баррелей на скважину
- Посчитали прибыль по выбранным скважинам и предсказаниям модели в каждом регионе
- Провели расчет рисков и прибыли для каждого региона. По результатам расчета рекомендованный регион для разработки скважин является регион 'geo_1'.