# Выбор локации для скважины

## Загрузка и подготовка данных

<div>
    <font color='green'>Импорт библиотек</font>
</div>

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from scipy import stats as st
from sklearn.metrics import mean_squared_error

In [2]:
BUDGET = 10e9
NUMBER_POINTS = 200
MAX_POINTS = 500
INCOME_UNIT = 45e4

<div>
    <font color='green'>Загрузка датасетов. Вывод первых пяти строк. Информация.</font>
</div>

In [3]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [4]:
display(geo_data_0.head())
display(geo_data_1.head())
geo_data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [5]:
geo_data_0.info()
print()
geo_data_1.info()
print()
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Nul

<div>
    <font color='green'>Удаление столбца id</font>
</div>

In [6]:
geo_data_0.drop('id', axis=1, inplace=True)
geo_data_1.drop('id', axis=1, inplace=True)
geo_data_2.drop('id', axis=1, inplace=True)

## Обучение и проверка модели

<div>
    <font color='green'>Данные разбиты на обучающие и валлидационные выборки</font>
</div>

In [7]:
features_0, features_1, features_2 = geo_data_0.drop('product', axis=1), geo_data_1.drop('product', axis=1), \
geo_data_2.drop('product', axis=1)
target_0, target_1, target_2 = geo_data_0['product'], geo_data_1['product'], geo_data_2['product']

features_0_train, features_0_valid, target_0_train, target_0_valid = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)
features_1_train, features_1_valid, target_1_train, target_1_valid = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)
features_2_train, features_2_valid, target_2_train, target_2_valid = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)

In [8]:
target_0_train.reset_index(drop=True, inplace=True)
features_0_train.reset_index(drop=True, inplace=True)
target_1_train.reset_index(drop=True, inplace=True)
features_1_train.reset_index(drop=True, inplace=True)
target_2_train.reset_index(drop=True, inplace=True)
features_2_train.reset_index(drop=True, inplace=True)

target_0_valid.reset_index(drop=True, inplace=True)
features_0_valid.reset_index(drop=True, inplace=True)
target_1_valid.reset_index(drop=True, inplace=True)
features_1_valid.reset_index(drop=True, inplace=True)
target_2_valid.reset_index(drop=True, inplace=True)
features_2_valid.reset_index(drop=True, inplace=True)


<div>
    <font color='green'>Обучение моделей, предсказание, средний запас предсказанного сырья для трёх регионов, оценка RMSE</font>
</div>

In [9]:
model_0 = LinearRegression()
model_1 = LinearRegression()
model_2 = LinearRegression()

model_0.fit(features_0_train, target_0_train)
model_1.fit(features_1_train, target_1_train)
model_2.fit(features_2_train, target_2_train)

predictions_0_valid = model_0.predict(features_0_valid)
predictions_1_valid = model_1.predict(features_1_valid)
predictions_2_valid = model_2.predict(features_2_valid)

result_0 = mean_squared_error(target_0_valid, predictions_0_valid)**0.5
result_1 = mean_squared_error(target_1_valid, predictions_1_valid)**0.5
result_2 = mean_squared_error(target_2_valid, predictions_2_valid)**0.5

print('Средние значения предсказанного объёма сырья:', '\n', '1 регион', predictions_0_valid.mean(), '\n',\
      '2 регион', predictions_1_valid.mean(), '\n', '3 регион', predictions_2_valid.mean())

print('\n', 'RMSE:', '\n', '1 регион', result_0, '\n', '2 регион', result_1, '\n', '3 регион', result_2)



Средние значения предсказанного объёма сырья: 
 1 регион 92.59256778438035 
 2 регион 68.728546895446 
 3 регион 94.96504596800489

 RMSE: 
 1 регион 37.5794217150813 
 2 регион 0.893099286775617 
 3 регион 40.02970873393434


In [10]:
predictions_0_valid = pd.Series(predictions_0_valid)
predictions_1_valid = pd.Series(predictions_1_valid)
predictions_2_valid = pd.Series(predictions_2_valid)

Для второго региона минимальный размер ошибки. Скорее всего это говорит о большой точности предсказания модели для второго региона. Среднее значение предсказанного объёма сырья наименьшее у второго региона и, как было уже сказано, наиболее точное.

## Подготовка к расчёту прибыли

<div>
    <font color='green'>Сохранение в переменные бюджета на регион, колличества точек для разведки и для разработки, дохода с каждой еденицы</font>
</div>

<div>
    <font color='green'>Достаточный объём сырья для безубыточной разработки новой скважины</font>
</div>

In [11]:
sufficient_volume = BUDGET/NUMBER_POINTS/INCOME_UNIT
print('Достаточный объём сырья:', sufficient_volume)

Достаточный объём сырья: 111.11111111111111


Средние значения объёма сырья по регионам меньше достаточного. Но так как в разработку будут браться гораздо меньшее число точек, то необходимо выяснить какие именно точки принесут доход.

## Расчёт прибыли и рисков 

<div>
    <font color='green'>Функция по рассчёту прибыли</font>
</div>

In [12]:
def income(target, predict):
    predict_sorted = predict.sort_values(ascending=False)
    target_sorted = target[predict_sorted.index][:200]
    product = target_sorted.sum()
    return product * INCOME_UNIT - BUDGET 

<div>
    <font color='green'>Распределения предсказанных прибылей для каждого региона по технике Bootstrap. Среднее предсказанных прибылей. Диапазон с 95% вероятностью.</font>
</div>

In [14]:
state = np.random.RandomState(12345)
values_0, values_1, values_2 = [], [], []
for i in range(1000):
    ''' нам надо выбрать 500 случайных значений из таргета'''
    target_500_0 = target_0_valid.sample(MAX_POINTS, replace=True, random_state=state)
    ''' берем соответствующие им по индексам предсказания'''
    predict_500_0 = predictions_0_valid[target_500_0.index]
    values_0.append(income(target_500_0, predict_500_0)) 
    ''' получили 1000 вариантов (значений) прибыли'''
    target_500_1 = target_1_valid.sample(MAX_POINTS, replace=True, random_state=state)
    predict_500_1 = predictions_1_valid[target_500_1.index]
    values_1.append(income(target_500_1, predict_500_1))
    target_500_2 = target_2_valid.sample(MAX_POINTS, replace=True, random_state=state)
    predict_500_2 = predictions_2_valid[target_500_2.index]
    values_2.append(income(target_500_2, predict_500_2))
values_0 = pd.Series(values_0)
values_1 = pd.Series(values_1)
values_2 = pd.Series(values_2)
print('Средние значения прибылей:', '\n', '1 регион', values_0.mean(),\
      '\n', '2 регион', values_1.mean(), '\n',\
      '3 регион', values_2.mean())
print('\n', '95%-ый доверительный интервал:')
print('1 регион', values_0.quantile(0.025), values_0.quantile(0.975))
print('2 регион', values_1.quantile(0.025), values_1.quantile(0.975))
print('3 регион', values_2.quantile(0.025), values_2.quantile(0.975))

Средние значения прибылей: 
 1 регион 414736268.6144614 
 2 регион 513172169.34401035 
 3 регион 410198401.27401793

 95%-ый доверительный интервал:
1 регион -123528116.44936879 968562865.4960701
2 регион 85329746.22608566 940106288.2984511
3 регион -140423727.25207347 967716156.982044


In [15]:
print('Риск убытков для первого региона = {:.2%} '.format((values_0<0).mean()))
print('Риск убытков для второго региона = {:.2%} '.format((values_1<0).mean()))
print('Риск убытков для третьего региона = {:.2%} '.format((values_2<0).mean()))

Риск убытков для первого региона = 7.00% 
Риск убытков для второго региона = 0.90% 
Риск убытков для третьего региона = 8.50% 


Вывод:\
\
Для предсказания рассматривалиь три региона. Средние значения объёма сырья по всем скважинам для каждого региона ниже допустимого значения для безубыточной разработки, равного 111.11111111111111 тыс. баррелям.\
\
Модели предсказали 200 наиболее оптимальных точек для каждого региона. Риск убытков оказался меньше 2.5% только для второго региона. Среднее значение прибыли для этого региона вышло равным 513 172 169. При этом самые точные результаты модель линейной регрессии также показала для второго региона с rmse=0.893099286775617.

