# Выбор локации для скважины

Заказчик - добывающая компания «ГлавРосГосНефть». 

Нужно решить, где бурить новую скважину.

Исходные данные - пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов.

Задача - построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализировать возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Данные геологоразведки трёх регионов

id — уникальный идентификатор скважины;

f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);

product — объём запасов в скважине (тыс. баррелей).

## Загрузка и подготовка данных

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np
from numpy.random import RandomState

In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
display(data_0.head(15))
data_0.info()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
5,wX4Hy,0.96957,0.489775,-0.735383,64.741541
6,tL6pL,0.645075,0.530656,1.780266,49.055285
7,BYPU6,-0.400648,0.808337,-5.62467,72.943292
8,j9Oui,0.643105,-0.551583,2.372141,113.35616
9,OLuZU,2.173381,0.563698,9.441852,127.910945


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [3]:
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
display(data_1.head(15))
data_1.info()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
5,HHckp,-3.32759,-2.205276,3.003647,84.038886
6,h5Ujo,-11.142655,-10.133399,4.002382,110.992147
7,muH9x,4.234715,-0.001354,2.004588,53.906522
8,YiRkx,13.355129,-0.332068,4.998647,134.766305
9,jG6Gi,1.069227,-11.025667,4.997844,137.945408


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
data_2 = pd.read_csv('/datasets/geo_data_2.csv')
display(data_2.head(15))
data_2.info()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
5,LzZXx,-0.758092,0.710691,2.585887,90.222465
6,WBHRv,-0.574891,0.317727,1.773745,45.641478
7,XO8fn,-1.906649,-2.45835,-0.177097,72.48064
8,ybmQ5,1.776292,-0.279356,3.004156,106.616832
9,OilcN,-1.214452,-0.439314,5.922514,52.954532


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


**Вывод**

Данные не имеют пропусков, имеют корректный тип. Признаки точек примерно в одном масштабе, будем считать, что данные в масштабировании не нуждаются и подготовлены хорошо.

## Обучение и проверка модели

### Регион 0

#### Разобьем данные на обучающую и валидационную выборки в соотношении 75:25

In [5]:
features = data_0[['f0', 'f1', 'f2']]
target = data_0['product']
print(features.shape)
print(target.shape)

features_train, features_valid, target_train, target_valid = train_test_split(features, target, train_size=0.75, random_state=12345)

(100000, 3)
(100000,)


In [6]:
# Проверим размеры воборки

print(features_train.shape)
print(features_valid.shape)

(75000, 3)
(25000, 3)


#### Обучим модель и сделаем предсказания на валидационной выборке

In [7]:
model = LinearRegression()
model.fit(features_train, target_train) # обучим модель

LinearRegression()

In [8]:
predictions_valid = model.predict(features_valid) # предсказания модели на валидационной выборке

#### Сохраним предсказания и правильные ответы на валидационной выборке.

In [9]:
target_valid_0 = target_valid
target_mean_0 = target.mean()
predictions_valid_0 = predictions_valid

#### Напечатаем на экране средний запас предсказанного сырья и RMSE модели.

In [10]:
print('Средний запас предсказанного сырья:', predictions_valid_0.mean(), 'тыс. баррелей')
print('Средний запас сырья:', target_mean_0, 'тыс. баррелей')

Средний запас предсказанного сырья: 92.59256778438035 тыс. баррелей
Средний запас сырья: 92.50000000000001 тыс. баррелей


In [11]:
result_0 = mean_squared_error(target_valid, predictions_valid)**0.5
print("RMSE модели линейной регрессии на валидационной выборке:", result_0, 'тыс. баррелей')

RMSE модели линейной регрессии на валидационной выборке: 37.5794217150813 тыс. баррелей


#### Проанализируем результаты.

Для Региона 0 RMSE модели очень высокий и составлет 40% от среднего запаса предсказанного сырья по валидационной выборке. 

### Регион 1

#### Разобьем данные на обучающую и валидационную выборки в соотношении 75:25

In [12]:
features = data_1[['f0', 'f1', 'f2']]
target = data_1['product']
print(features.shape)
print(target.shape)

features_train, features_valid, target_train, target_valid = train_test_split(features, target, train_size=0.75, random_state=12345)

(100000, 3)
(100000,)


In [13]:
# Проверим размеры воборки

print(features_train.shape)
print(features_valid.shape)

(75000, 3)
(25000, 3)


#### Обучим модель и сделаем предсказания на валидационной выборке

In [14]:
model = LinearRegression()
model.fit(features_train, target_train) # обучим модель

LinearRegression()

In [15]:
predictions_valid = model.predict(features_valid) # предсказания модели на валидационной выборке

#### Сохраним предсказания и правильные ответы на валидационной выборке.

In [16]:
target_valid_1 = target_valid
target_mean_1 = target.mean()
predictions_valid_1 = predictions_valid

#### Напечатаем на экране средний запас предсказанного сырья и RMSE модели.

In [17]:
print('Средний запас предсказанного сырья:', predictions_valid_1.mean(), 'тыс. баррелей')
print('Средний запас сырья:', target_mean_1, 'тыс. баррелей')

Средний запас предсказанного сырья: 68.728546895446 тыс. баррелей
Средний запас сырья: 68.82500000000002 тыс. баррелей


In [18]:
result_1 = mean_squared_error(target_valid, predictions_valid)**0.5
print("RMSE модели линейной регрессии на валидационной выборке:", result_1, 'тыс. баррелей')

RMSE модели линейной регрессии на валидационной выборке: 0.893099286775617 тыс. баррелей


#### Проанализируем результаты.

Для Региона 1 RMSE модели небольшое относительно среднего запаса предсказанного сырья по валидационной выборке и составляет 1,3%.

### Регион 2

#### Разобьем данные на обучающую и валидационную выборки в соотношении 75:25

In [19]:
features = data_2[['f0', 'f1', 'f2']]
target = data_2['product']
print(features.shape)
print(target.shape)

features_train, features_valid, target_train, target_valid = train_test_split(features, target, train_size=0.75, random_state=12345)

(100000, 3)
(100000,)


In [20]:
# Проверим размеры воборки

print(features_train.shape)
print(features_valid.shape)

(75000, 3)
(25000, 3)


#### Обучим модель и сделаем предсказания на валидационной выборке

In [21]:
model = LinearRegression()
model.fit(features_train, target_train) # обучим модель

LinearRegression()

In [22]:
predictions_valid = model.predict(features_valid) # предсказания модели на валидационной выборке

#### Сохраним предсказания и правильные ответы на валидационной выборке.

In [23]:
target_valid_2 = target_valid
target_mean_2 = target.mean()
predictions_valid_2 = predictions_valid

#### Напечатаем на экране средний запас предсказанного сырья и RMSE модели.

In [24]:
print('Средний запас предсказанного сырья:', predictions_valid_2.mean(), 'тыс. баррелей')
print('Средний запас сырья:', target_mean_2, 'тыс. баррелей')

Средний запас предсказанного сырья: 94.96504596800489 тыс. баррелей
Средний запас сырья: 95.00000000000004 тыс. баррелей


In [25]:
result_2 = mean_squared_error(target_valid, predictions_valid)**0.5
print("RMSE модели линейной регрессии на валидационной выборке:", result_2, 'тыс. баррелей')

RMSE модели линейной регрессии на валидационной выборке: 40.02970873393434 тыс. баррелей


#### Проанализируем результаты.

Для Региона 2 RMSE модели высокое относительно среднего запаса предсказанного сырья по валидационной выборке и составляет 42%.
Средний запас предсказанного сырья совпадает с реальным средним значением только для региона 2, не смотря на высокий RMSE.

## Подготовка к расчёту прибыли

### Все ключевые значения для расчётов сохраним в отдельных переменных.

In [26]:
budget = 10000000 # бюджет на разработку скважин в регионе (тыс.рублей)
unit = 450 # доход с единицы продукта (тыс.руб)
n = 200 # Кол-во разрабатываемых скважин

### Рассчёт достаточного объёма сырья для безубыточной разработки новой скважины. Сравнение полученного объёма сырья со средним запасом в каждом регионе.

In [27]:
# минимальный объем запасов в скважине для безубыточной разработки (тыс. баррелей)
product_min = budget / (unit * n)
print('Объём сырья для безубыточной разработки новой скважины составляет', product_min, 'тыс.баррелей')

Объём сырья для безубыточной разработки новой скважины составляет 111.11111111111111 тыс.баррелей


In [28]:
if product_min > data_0['product'].mean():
    print('Средний запас скважины в регионе 0 меньше рассчётного объёма сырья для безубыточной разработки')
elif product_min < data_0['product'].mean():
    print('Средний запас скважины в регионе 0 больше рассчётного объёма сырья для безубыточной разработки')
else:
    print('Средний запас скважины в регионе 0 равен рассчётному объёму сырья для безубыточной разработки')

Средний запас скважины в регионе 0 меньше рассчётного объёма сырья для безубыточной разработки


In [29]:
if product_min > data_1['product'].mean():
    print('Средний запас скважины в регионе 1 меньше рассчётного объёма сырья для безубыточной разработки')
elif product_min < data_1['product'].mean():
    print('Средний запас скважины в регионе 1 больше рассчётного объёма сырья для безубыточной разработки')
else:
    print('Средний запас скважины в регионе 1 равен рассчётному объёму сырья для безубыточной разработки')

Средний запас скважины в регионе 1 меньше рассчётного объёма сырья для безубыточной разработки


In [30]:
if product_min > data_2['product'].mean():
    print('Средний запас скважины в регионе 2 меньше рассчётного объёма сырья для безубыточной разработки')
elif product_min < data_2['product'].mean():
    print('Средний запас скважины в регионе 2 больше рассчётного объёма сырья для безубыточной разработки')
else:
    print('Средний запас скважины в регионе 2 равен рассчётному объёму сырья для безубыточной разработки')

Средний запас скважины в регионе 2 меньше рассчётного объёма сырья для безубыточной разработки


### Выводы по этапу подготовки расчёта прибыли.

Объём сырья для безубыточной разработки новой скважины составляет 111,1 тыс.баррелей.

Во всех трех регионах средний запас действующих скважин меньше безубыточного объема скважины. Наибольший разрыв наблюдается в регионе 1.

Из чего можно сделать вывод, что действующие регионы для разработки не достаточно прибыльные и следует найти более эффективные месторождения для разработки.

## Расчёт прибыли и рисков 

Напишем функцию для расчета прибыли 200 лучших скважин

In [31]:
def best(predictions, target):
    best_predictions = predictions.sort_values(ascending=False) # определение 200 лучших предсказанных скважин
    target_best_sum = target[best_predictions.index].head(200).sum() # сумма объемов тех же скважин, но в реальных значениях
    budget_best = target_best_sum * unit - budget # расчет прибыли
    return budget_best

## Подсчёт рисков и прибыли для каждого региона

### Регион 0

#### Применение техники Bootstrap с 1000 выборок, чтобы найти распределение прибыли.

In [32]:
target_valid_0 = target_valid_0.reset_index(drop=True) # сбросим индексы выборки
predictions_valid_0 = pd.Series(predictions_valid_0).reset_index(drop=True) # сбросим индексы выборки

In [33]:
state = np.random.RandomState(12345)
values = []
for i in range(1000):
    target_subsample = target_valid_0.sample(n=500, replace=True, random_state=state) # выберем 500 случайных скважин
    predicted_subsample = predictions_valid_0[target_subsample.index] # выберем 500 тех же скважин на валидацонной выборке
    values.append(best(predicted_subsample, target_subsample)) # определим прибыль 200 лучших скважин из выбранных 500

#### Средняя прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [34]:
values = pd.Series(values)
 
lower = values.quantile(0.025)
upper = values.quantile(0.975)
mean = values.mean()

print('Средняя прибыль', mean, 'тыс.рублей')
print('Доверительный интервал', lower, '-', upper, 'тыс.рублей')

Средняя прибыль 425938.5269105924 тыс.рублей
Доверительный интервал -102090.09483793723 - 947976.353358369 тыс.рублей


In [35]:
count = 0
for i in range(len(values)):
    if values[i] <= 0:
        count += 1
        
print('Для региона 0 риск убытков составляет', count/len(values)*100, '%')

Для региона 0 риск убытков составляет 6.0 %


### Регион 1

#### Применение техники Bootstrap с 1000 выборок, чтобы найти распределение прибыли.

In [36]:
target_valid_1 = target_valid_1.reset_index(drop=True) # сбросим индексы выборки
predictions_valid_1 = pd.Series(predictions_valid_1).reset_index(drop=True) # сбросим индексы выборки

In [37]:
state = np.random.RandomState(12345)
values = []
for i in range(1000):
    target_subsample = target_valid_1.sample(n=500, replace=True, random_state=state) # выберем 500 случайных скважин
    predicted_subsample = predictions_valid_1[target_subsample.index] # выберем 500 тех же скважин на валидацонной выборке
    values.append(best(predicted_subsample, target_subsample)) # определим прибыль 200 лучших скважин из выбранных 500

#### Средняя прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [38]:
values = pd.Series(values)
 
lower = values.quantile(0.025)
upper = values.quantile(0.975)
mean = values.mean()

print('Средняя прибыль', mean, 'тыс.рублей')
print('Доверительный интервал', lower, '-', upper, 'тыс.рублей')

Средняя прибыль 515222.77344328986 тыс.рублей
Доверительный интервал 68873.22537050233 - 931547.5912570491 тыс.рублей


In [39]:
count = 0
for i in range(len(values)):
    if values[i] <= 0:
        count += 1
        
print('Для региона 1 риск убытков составляет', count/len(values)*100, '%')

Для региона 1 риск убытков составляет 1.0 %


### Регион 2

#### Применение техники Bootstrap с 1000 выборок, чтобы найти распределение прибыли.

In [301]:
target_valid_2 = target_valid_2.reset_index(drop=True) # сбросим индексы выборки
predictions_valid_2 = pd.Series(predictions_valid_2).reset_index(drop=True) # сбросим индексы выборки

In [302]:
state = np.random.RandomState(12345)
values = []
for i in range(1000):
    target_subsample = target_valid_2.sample(n=500, replace=True, random_state=state) # выберем 500 случайных скважин
    predicted_subsample = predictions_valid_2[target_subsample.index] # выберем 500 тех же скважин на валидацонной выборке
    values.append(best(predicted_subsample, target_subsample)) # определим прибыль 200 лучших скважин из выбранных 500

#### Средняя прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [303]:
values = pd.Series(values)
 
lower = values.quantile(0.025)
upper = values.quantile(0.975)
mean = values.mean()

print('Средняя прибыль', mean, 'тыс.рублей')
print('Доверительный интервал', lower, '-', upper, 'тыс.рублей')

Средняя прибыль 435008.3627827556 тыс.рублей
Доверительный интервал -128880.54732978888 - 969706.9541802666 тыс.рублей


In [304]:
count = 0
for i in range(len(values)):
    if values[i] <= 0:
        count += 1
        
print('Для региона 2 риск убытков составляет', count/len(values)*100, '%')

Для региона 2 риск убытков составляет 6.4 %


### Выводы:

В работе были расммотрены три региона разрабатываемых скважин. На основе данных по реальному объему добычи были обучены модели по прогнозу добычи нефти. Согласно предсказаниям были отобраны 200 наиболее продуктивных скважин из 500 случайно выбранных в каждом регионе, и оценены реальные доходы с указанных 200 скважин. На основе чего был сделан вывод о прибыльности того или иного региона выработок.

Регион 2 показал себя как убыточный, т.к. средний доход и доверительный интервал по доходу у региона 2 находятся в отрицательных значениях. В связи с чем, регион 2 рассматривать для дальнейших разработок не стоит.

Максимальная средняя прибыль с 200 лучших скважин наблюдается в регионе 1. Одновременно с этим, доверительный интервал в регионе 1 уже, чем доверительный интервал в регионе 0, и максимальных значений по прибыли возможно достичь в регионе 0, если выработки будут ближе к максимально возможным. Однако, если придерживаться средних значений, для дальнейшей разработки надежнее выбрать регион 1. Ко всему прочему, именно в регионе 1 наблюдается самый низкий % риска убытков (1%).