# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import os
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

Загрузка данных по регионам

In [2]:
pth1 = '/datasets/geo_data_0.csv'
pth2 = '/Users/Alex/Desktop/practicum_ds/projects/ml/geo_data_0.csv'

if os.path.exists(pth1):
    geo_data_0 = pd.read_csv(pth1)
elif os.path.exists(pth2):
    geo_data_0 = pd.read_csv(pth2)
else:
    print('Something is wrong')

In [3]:
pth1 = '/datasets/geo_data_1.csv'
pth2 = '/Users/Alex/Desktop/practicum_ds/projects/ml/geo_data_1.csv'

if os.path.exists(pth1):
    geo_data_1 = pd.read_csv(pth1)
elif os.path.exists(pth2):
    geo_data_1 = pd.read_csv(pth2)
else:
    print('Something is wrong')

In [4]:
pth1 = '/datasets/geo_data_2.csv'
pth2 = '/Users/Alex/Desktop/practicum_ds/projects/ml/geo_data_2.csv'

if os.path.exists(pth1):
    geo_data_2 = pd.read_csv(pth1)
elif os.path.exists(pth2):
    geo_data_2 = pd.read_csv(pth2)
else:
    print('Something is wrong')

**Информация по регионам**

In [5]:
def about_df(df):
    display(df.head())
    display(df.info())
    display(df.describe())
    display(df.duplicated().sum())

In [6]:
about_df(geo_data_0)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


0

In [7]:
about_df(geo_data_1)

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


0

In [8]:
about_df(geo_data_2)

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


0

Значения в таблице describe для региона geo_data_1 по столбцу product (в частности mean & median (25%)) значительно ниже аналогичных показателей в двух других регионах.

**Исследуем данный вопрос:**

In [9]:
def value_count(df, column):
    print(df.value_counts(column).unique())
    print(df.value_counts(column))

In [10]:
value_count(geo_data_0, 'product')

[1]
product
0.000000      1
116.365724    1
116.417160    1
116.415651    1
116.415275    1
             ..
68.214952     1
68.210272     1
68.205998     1
68.205255     1
185.364347    1
Length: 100000, dtype: int64


In [11]:
value_count(geo_data_1, 'product')

[8472 8468 8431 8390 8337 8320 8306 8304 8303 8235 8233 8201]
product
53.906522     8472
26.953261     8468
84.038886     8431
57.085625     8390
3.179103      8337
80.859783     8320
30.132364     8306
134.766305    8304
110.992147    8303
0.000000      8235
137.945408    8233
107.813044    8201
dtype: int64


In [12]:
value_count(geo_data_2, 'product')

[1]
product
0.000000      1
118.463041    1
118.492799    1
118.489956    1
118.489552    1
             ..
71.325275     1
71.325233     1
71.323043     1
71.321554     1
190.029838    1
Length: 100000, dtype: int64


**Вывод:**

Итак, в каждой таблице по 5 столбцов.

Описание данных:

Признаки:

- id — уникальный идентификатор скважины, данный признак не требуется для обучения модели т.к. не несет смысловой нагрузки.
- f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);

Целевой признак:

- product — объём запасов в скважине (тыс. баррелей).


Предварительно можно утверждать, что, данных достаточно для решения задачи.

В данных пропусков не встречается.

Данные в таблице geo_data_1 столбец 'product' принципиально отличаются от данных в двух других таблицах.

Данные в таблице geo_data_1 столбец 'product' имеют 12 уникальных значений, которые практически равномерно распределены между собой, что на мой взгляд свидетельствует о том, что эти значения не отражают действительности и появились по какой-то ошибке.

In [13]:
# удаление первого признака
geo_data_0 = geo_data_0.drop(["id"], axis = 1)
geo_data_1 = geo_data_1.drop(["id"], axis = 1)
geo_data_2 = geo_data_2.drop(["id"], axis = 1)

## Обучение и проверка модели

**Формирование выборок и масштабирование признаков по регионам:**

- обучающая 75%

- валидационная 25%

In [14]:
# численные признаки
numeric = ['f0', 'f1', 'f2']

In [15]:
def split(df, target, test_size, numeric):
    features = df.drop([target] , axis=1)
    target = df[target]

    features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
    
    scaler = StandardScaler()
    scaler.fit(features_train[numeric])
    features_train[numeric] = scaler.transform(features_train[numeric])
    features_valid[numeric] = scaler.transform(features_valid[numeric])
    
    
    return features_train, features_valid, target_train, target_valid

In [16]:
pd.options.mode.chained_assignment = None
features_train_0, features_valid_0, target_train_0, target_valid_0 = split(geo_data_0, 'product', 0.25, numeric)
print(features_train_0.shape)

(75000, 3)


In [17]:
pd.options.mode.chained_assignment = None
features_train_1, features_valid_1, target_train_1, target_valid_1 = split(geo_data_1, 'product', 0.25, numeric)
print(features_train_1.shape)

(75000, 3)


In [18]:
pd.options.mode.chained_assignment = None
features_train_2, features_valid_2, target_train_2, target_valid_2 = split(geo_data_2, 'product', 0.25, numeric)
print(features_train_2.shape)

(75000, 3)


- Обучите модель и сделайте предсказания на валидационной выборке.
- Сохраните предсказания и правильные ответы на валидационной выборке.
- Напечатайте на экране средний запас предсказанного сырья и RMSE модели.

In [19]:
def params(features_train, target_train, features_valid, target_valid):
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    
    df_product = pd.DataFrame({'product': target_valid, 'predictions': predictions})
    rmse = (mean_squared_error(target_valid, predictions)**0.5).round()
    predicted_mean = predictions.mean().round()
    return df_product, rmse, predicted_mean

In [20]:
df_product_0, rmse_0, predicted_mean_0 = params(features_train_0, target_train_0, features_valid_0, target_valid_0)
print('RMSE_0 =', rmse_0, '\nCредний запас предсказанного сырья', predicted_mean_0)
print(df_product_0.head())

RMSE_0 = 38.0 
Cредний запас предсказанного сырья 93.0
          product  predictions
71751   10.038645    95.894952
80493  114.551489    77.572583
2655   132.603635    77.892640
53233  169.072125    90.175134
91141  122.325180    70.510088


In [21]:
df_product_1, rmse_1, predicted_mean_1 = params(features_train_1, target_train_1, features_valid_1, target_valid_1)
print('RMSE_1 =', rmse_1, '\nCредний запас предсказанного сырья', predicted_mean_1)
print(df_product_1.head())

RMSE_1 = 1.0 
Cредний запас предсказанного сырья 69.0
         product  predictions
71751  80.859783    82.663314
80493  53.906522    54.431786
2655   30.132364    29.748760
53233  53.906522    53.552133
91141   0.000000     1.243856


In [22]:
df_product_2, rmse_2, predicted_mean_2 = params(features_train_2, target_train_2, features_valid_2, target_valid_2)
print('RMSE_2 =', rmse_2, '\nCредний запас предсказанного сырья', predicted_mean_2)
print(df_product_2.head())

RMSE_2 = 40.0 
Cредний запас предсказанного сырья 95.0
          product  predictions
71751   61.212375    93.599633
80493   41.850118    75.105159
2655    57.776581    90.066809
53233  100.053761   105.162375
91141  109.897122   115.303310


**Вывод**

Значения RMSE и среднего запаса предсказанного сырья в geo_data_0 и geo_data_2 регионах сопоставимы.

Касательно региона geo_data_1, то RMSE и средний запас предсказанного сырья значительно ниже двух других регионов, что связано со структурой данных, о которой упомяналось выше. 

## Подготовка к расчёту прибыли

Все ключевые значения для расчётов сохраните в отдельных переменных.

In [23]:
wells = 500
best_wells = 200
budget = 10000000000
income_per_barrel = 450000

Рассчитайте достаточный объём сырья для безубыточной разработки новой скважины.

In [24]:
income_per_well = (budget / income_per_barrel) / best_wells
print('Достаточный объём сырья для безубыточной разработки новой скважины', np.ceil(income_per_well))

Достаточный объём сырья для безубыточной разработки новой скважины 112.0


Сравните полученный объём сырья со средним запасом в каждом регионе.

In [25]:
print('Средний фактический запас в geo_data_0: ', geo_data_0['product'].mean().round())
print('Средний фактический запас в geo_data_1: ', geo_data_1['product'].mean().round())
print('Средний фактический запас в geo_data_2: ', geo_data_2['product'].mean().round())

Средний фактический запас в geo_data_0:  93.0
Средний фактический запас в geo_data_1:  69.0
Средний фактический запас в geo_data_2:  95.0


**Вывод**

Из полученный данных видно, что регионы geo_data_0 и geo_data_2 потенциально могут обладать достаточным количеством скважин с необходимым порогом > 112 тыс барелей

**Напишите функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:**

- Выберите скважины с максимальными значениями предсказаний.
- Просуммируйте целевое значение объёма сырья, соответствующее этим предсказаниям.
- Рассчитайте прибыль для полученного объёма сырья.

In [26]:
def gross_profit(target, predictions, count):
    predictions_sorted = predictions.sort_values(ascending=False)
    selected = target[predictions_sorted.index][:count]
    return income_per_barrel * selected.sum() - budget

## Расчёт прибыли и рисков 

- Примените технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.
- Найдите среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [27]:
state = np.random.RandomState(12345)
bootstrap_samples = 1000

def bootstrap(target, predictions):
    values=[]
    loss_count = 0
    for i in range(bootstrap_samples):
        target_sample = target.sample(frac = wells / len(target), replace=True, random_state=state)
        predictions_sample = predictions[target_sample.index]
        gr_profit = gross_profit(target, predictions_sample, best_wells)
        if gr_profit < 0:
            loss_count += 1
        values.append(gr_profit)
    
    values = pd.Series(values)
    
    avg_gross_profit = values.mean()
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    loss_risk = loss_count / 1000
    return avg_gross_profit, lower, upper, loss_risk

In [28]:
avg_gross_profit_0, lower_0, upper_0, loss_risk_0 = bootstrap(df_product_0['product'], df_product_0['predictions'])

print('Средняя прибыль =', avg_gross_profit_0.round(), 'руб.')
print('lower =', lower_0.round(), 'руб.')
print('upper =', upper_0.round(), 'руб.')
print('Риск убытков = {:.2%}'.format(loss_risk_0))

Средняя прибыль = 396164985.0 руб.
lower = -111215546.0 руб.
upper = 909766942.0 руб.
Риск убытков = 6.90%


In [29]:
avg_gross_profit_1, lower_1, upper_1, loss_risk_1 = bootstrap(df_product_1['product'], df_product_1['predictions'])

print('Средняя прибыль =', avg_gross_profit_1.round(), 'руб.')
print('lower =', lower_1.round(), 'руб.')
print('upper =', upper_1.round(), 'руб.')
print('Риск убытков = {:.2%}'.format(loss_risk_1))

Средняя прибыль = 461155817.0 руб.
lower = 78050811.0 руб.
upper = 862952060.0 руб.
Риск убытков = 0.70%


In [30]:
avg_gross_profit_2, lower_2, upper_2, loss_risk_2 = bootstrap(df_product_2['product'], df_product_2['predictions'])

print('Средняя прибыль =', avg_gross_profit_2.round(), 'руб.')
print('lower =', lower_2.round(), 'руб.')
print('upper =', upper_2.round(), 'руб.')
print('Риск убытков = {:.2%}'.format(loss_risk_2))

Средняя прибыль = 392950475.0 руб.
lower = -112227625.0 руб.
upper = 934562915.0 руб.
Риск убытков = 6.50%


**Вывод**

Согласно полученных данных риск убытков в регионах geo_data_0 и geo_data_2 выше порогового уровня в 5%.

Риск убытков по региону geo_data_1 ниже порогового уровня, при этом нижний порог (lower) доверительного интервала > 0, т.е. даже при неудачном выборе скважин разработка будет прибыльной.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: модели обучены и проверены
    - [x]  Данные корректно разбиты на обучающую и валидационную выборки
    - [x]  Модели обучены, предсказания сделаны
    - [x]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [x]  На экране напечатаны результаты
    - [x]  Сделаны выводы
- [x]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [x]  Для всех ключевых значений созданы константы Python
    - [x]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [x]  По предыдущему пункту сделаны выводы
    - [x]  Написана функция расчёта прибыли
- [x]  Выполнен шаг 4: посчитаны риски и прибыль
    - [x]  Проведена процедура *Bootstrap*
    - [x]  Все параметры бутстрепа соответствуют условию
    - [x]  Найдены все нужные величины
    - [x]  Предложен регион для разработки месторождения
    - [x]  Выбор региона обоснован