## Загрузка и подготовка данных

In [29]:
import pandas as pd
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from scipy import stats as st
import warnings
warnings.filterwarnings('ignore')

In [30]:
df_0 = pd.read_csv('/datasets/geo_data_0.csv')
df_1 = pd.read_csv('/datasets/geo_data_1.csv')
df_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [31]:
df_0.isna().median().apply('{:.2%}'.format)

id         0.00%
f0         0.00%
f1         0.00%
f2         0.00%
product    0.00%
dtype: object

In [32]:
df_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [33]:
df_0.sample(3)

Unnamed: 0,id,f0,f1,f2,product
13750,4TVfS,0.590369,-0.28059,3.289127,138.841534
47808,AjcLI,0.130646,-0.078804,-0.028835,105.105607
40796,uiI82,1.455173,-0.198769,8.063465,146.289967


In [34]:
df_1.isna().median().apply('{:.2%}'.format)

id         0.00%
f0         0.00%
f1         0.00%
f2         0.00%
product    0.00%
dtype: object

In [35]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [36]:
df_0.sample(3)

Unnamed: 0,id,f0,f1,f2,product
77760,WVFjh,0.811513,0.401656,3.268257,26.782742
71411,DbLxS,0.062152,0.116467,-0.296881,63.694359
12430,LO15j,-0.672164,0.842722,3.171861,83.742034


In [37]:
df_2.isna().median().apply('{:.2%}'.format)

id         0.00%
f0         0.00%
f1         0.00%
f2         0.00%
product    0.00%
dtype: object

In [38]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [39]:
df_2.sample(3)

Unnamed: 0,id,f0,f1,f2,product
78011,wS8rB,1.310878,1.90141,1.343698,83.121606
4567,98Jcu,-1.72454,-0.742659,7.059097,64.382877
214,9TCCk,-1.464932,-0.68457,-1.635788,28.688793


Все три датасета имеют одинаковые размеры и типы колонок  
Пропущенных значений нет  
Размеры каждого датасета - 100000 записей

Для процесса обучения модели избавимся от колонки id, не несущей в себе полезной информации

In [40]:
df_0 = df_0.drop('id', axis=1)
df_1 = df_1.drop('id', axis=1)
df_2 = df_2.drop('id', axis=1)

Разделим данные на признаки и целевую переменную, а затем на обучающую и валидационную выборки

In [41]:
X_0 = df_0.drop(['product'], axis=1)
y_0 = df_0['product']
X_1 = df_1.drop(['product'], axis=1)
y_1 = df_1['product']
X_2 = df_2.drop(['product'], axis=1)
y_2 = df_2['product']

In [42]:
X_0_train, X_0_valid, y_0_train, y_0_valid = train_test_split(X_0, y_0, test_size=0.25, random_state=42)
X_1_train, X_1_valid, y_1_train, y_1_valid = train_test_split(X_1, y_1, test_size=0.25, random_state=42)
X_2_train, X_2_valid, y_2_train, y_2_valid = train_test_split(X_2, y_2, test_size=0.25, random_state=42)

Мы подготовили данные, теперь можем приступить к обучению наших моделей

## Обучение и проверка модели

Обучим модель на каждой из выборок и сохраним предсказания

In [43]:
def fit_predict(X_train, y_train, X_valid, y_valid, reg):
    model = LinearRegression()
    model.fit(X_train, y_train)
    pred = model.predict(X_valid)
    print(f'Средний предсказанный запас сырья для {reg} региона: {pred.mean()}')
    print(f'RMSE:{np.sqrt(mean_squared_error(y_valid, pred))}')
    return pred

In [44]:
prediction_0 = fit_predict(X_0_train, y_0_train, X_0_valid, y_0_valid, 'первого')

Средний предсказанный запас сырья для первого региона: 92.39879990657768
RMSE:37.75660035026169


In [45]:
prediction_1 = fit_predict(X_1_train, y_1_train, X_1_valid, y_1_valid, 'второго')

Средний предсказанный запас сырья для второго региона: 68.71287803913764
RMSE:0.8902801001028828


In [46]:
prediction_2 = fit_predict(X_2_train, y_2_train, X_2_valid, y_2_valid, 'третьего')

Средний предсказанный запас сырья для третьего региона: 94.77102387765939
RMSE:40.145872311342174


**Выводы:**
* Модель предсказала высокие и близкие друг к другу средние значения запасов нефти в скважинах первого и третьего регионов
* В первом и третьем регионах высокое значение метрики RMSE
* Напротив, во втором регионе среднее значение запасов ниже, но при этом очень низкое значение метрики RMSE

## Подготовка к расчёту прибыли

Сохраним в переменные все необходимые для расчета данные

In [47]:
BUDGET = 1e10
PROFIT_PER_THOUSAND_BAR = 450000
NUM_OF_SOURCES = 200
MIN_PRODUCT = BUDGET / PROFIT_PER_THOUSAND_BAR / NUM_OF_SOURCES

Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины

In [48]:
print(f'Необходимый запас сырья: {MIN_PRODUCT}')

Необходимый запас сырья: 111.11111111111111


Видим, что необходимый для безубыточной разработки запас сырья превышает средние значения запасов сырья в скважинах каждого из регионов

## Расчёт прибыли и рисков 

Напишем функцию для расчета прибыли

In [49]:
def get_predicted_profit(predictions, valid):
    valid = valid.reset_index(drop=True)
    predictions = pd.Series(predictions).sort_values(ascending=False)[:200]
    real_values = valid[predictions.index]
    profit = (real_values * PROFIT_PER_THOUSAND_BAR).sum()
    return profit - BUDGET

И посчитаем прибыль для каждого региона для 200 скважин с наибольшим предсказанным объемом сырья с учетом вычета бюджета на разработку

In [50]:
print(f'Прибыль для первого региона: {get_predicted_profit(prediction_0, y_0_valid)}')

Прибыль для первого региона: 3359141114.462179


In [51]:
print(f'Прибыль для третьего региона: {get_predicted_profit(prediction_1, y_1_valid)}')

Прибыль для третьего региона: 2415086696.681505


In [52]:
print(f'Прибыль для третьего региона: {get_predicted_profit(prediction_2, y_2_valid)}')

Прибыль для третьего региона: 2598571759.374111


**Наибольшая прибыль получилась в первом регионе. На втором месте  третий регион.**

Применим технику Bootstrap и посмотрим на распределение прибыли в каждом регионе

In [58]:
state = np.random.RandomState(42)


def do_bootstrap(target, valid, title):
    values = []
    target = pd.Series(target)
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=False, random_state=state)
        new_profit = get_predicted_profit(target_subsample, valid)
        values.append(new_profit)
    values = pd.Series(values)
    mean_profit = values.mean()
    print(title)
    print(f'Средняя прибыль с выбранных скважин региона: {mean_profit}')
    print(f'95% доверительный интервал для средней прибыли с выбранных скважин региона: ({values.quantile(0.025)}, {values.quantile(0.975)})')
    print(f'Риск убытков при выборе скважин в данном регионе: {(values < 0).mean()}')

In [55]:
do_bootstrap(prediction_0, y_0_valid, 'Первый регион:')

Первый регион:
Средняя прибыль с выбранных скважин региона: 408515053.88389707
95% доверительный интервал для средней прибыли с выбранных скважин региона: (-138678493.88196227, 952414908.4140624)
Риск убытков при выборе скважин в данном регионе: 0.074


In [56]:
do_bootstrap(prediction_1, y_1_valid, 'Второй регион:')

Второй регион:
Средняя прибыль с выбранных скважин региона: 436119513.6368198
95% доверительный интервал для средней прибыли с выбранных скважин региона: (28878732.655242156, 865831912.5385566)
Риск убытков при выборе скважин в данном регионе: 0.017


In [57]:
do_bootstrap(prediction_2, y_2_valid, 'Третий регион:')

Третий регион:
Средняя прибыль с выбранных скважин региона: 385037868.03615564
95% доверительный интервал для средней прибыли с выбранных скважин региона: (-185862734.6571867, 885439396.2295961)
Риск убытков при выборе скважин в данном регионе: 0.086


**Среди трех регионов два региона с риском убытков выше 2.5%**

**Выводы:**
* После применения техники Bootstrap можем сделать вывод, что наибольшая средняя прибыль во втором регионе
* Лучшие показатели метрики RMSE у модели для второго региона
* Риск убытка во второгом регионе не превышает пороговое значение
* В первом и второго регионе риск первышает пороговое значение
* 95% доверительный интервал для второго региона имеет наибольшее минимальное значение
* **Учитывыя выводы выше рекомендуется выбрать второй регион для добычи нефти**