# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error

In [3]:
data_0 = pd.read_csv(r"C:\Users\George\Мой диск\Практикум\2 Проекты\08 Машинное обучение в бизнесе\geo_data_0.csv")
data_1 = pd.read_csv(r"C:\Users\George\Мой диск\Практикум\2 Проекты\08 Машинное обучение в бизнесе\geo_data_1.csv")
data_2 = pd.read_csv(r"C:\Users\George\Мой диск\Практикум\2 Проекты\08 Машинное обучение в бизнесе\geo_data_2.csv")

In [4]:
display(data_0)
display(data_1)
display(data_2)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [22]:
print(data_0.duplicated().sum())
print(data_1.duplicated().sum())
print(data_2.duplicated().sum())

0
0
0


In [7]:
data_0[data_0['id'] == 'TtcGQ']

Unnamed: 0,id,f0,f1,f2,product
60140,TtcGQ,0.569276,-0.104876,6.440215,85.350186
92341,TtcGQ,0.110711,1.022689,0.911381,101.318008


**Вывод** <br>
Данные загруженны корректно, первичный осмотр проведен.
Я проверил таблицы на наличие дубликатов. Их не обнаружилось. <br>
А вот одинаковые значения "id" есть, видимо пробы брались несколько раз. Я так понял складывать строки не нужно.

## Обучение и проверка модели

Сначала удалим столбец 'id' так как он не нужен при обучении модели

In [30]:
# Регион 1, 2, 3

dates = [data_0, data_1, data_2]

for i, j in zip(dates, range(3)):
    features = i.drop(['product', 'id'], axis=1)
    target = i['product']

    features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    pre = model.predict(features_valid)
    print(f'Средний запас предсказанного сырья data_{j} равняется {round(pre_0.mean(), 2)}')
    rsme = mean_squared_error(target_valid, pre)**0.5
    print(f'RSME модели для data_{j} равняется {round(rsme, 2)}')
    print()

Средний запас предсказанного сырья data_0 равняется 92.59
RSME модели для data_0 равняется 37.58

Средний запас предсказанного сырья data_1 равняется 92.59
RSME модели для data_1 равняется 0.89

Средний запас предсказанного сырья data_2 равняется 92.59
RSME модели для data_2 равняется 40.03



In [8]:
# регион 1
features = data_0.drop(['product', 'id'], axis=1)
target = data_0['product']

features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(features, target, test_size=0.25, random_state=12345)

# регион 1
features = data_1.drop(['product', 'id'], axis=1)
target = data_1['product']

features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(features, target, test_size=0.25, random_state=12345)

# регион 1
features = data_2.drop(['product', 'id'], axis=1)
target = data_2['product']

features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(features, target, test_size=0.25, random_state=12345)

In [9]:
display(features_train_1.shape)
display(features_valid_1.shape)
display(target_train_1.shape)
display(target_valid_1.shape)

(75000, 3)

(25000, 3)

(75000,)

(25000,)

Для моделей используем линейную регрессию

In [10]:
%%time

model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
pre_0 = model_0.predict(features_valid_0)
print(pre_0)

model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
pre_1 = model_1.predict(features_valid_1)
print(pre_1)

model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
pre_2 = model_2.predict(features_valid_2)
print(pre_2)

[ 95.89495185  77.57258261  77.89263965 ...  61.50983303 118.18039721
 118.16939229]
[ 82.66331365  54.43178616  29.74875995 ... 137.87934053  83.76196568
  53.95846638]
[ 93.59963303  75.10515854  90.06680936 ...  99.40728116  77.77991248
 129.03241718]
Wall time: 24 ms


Сохраню предсказания и правильные ответы на валидационной выборки

In [11]:
# Предсказания
print(pre_0)
print(pre_1)
print(pre_2)

# Правильные ответы на валидиационной выборке
display(target_valid_0)
display(target_valid_1)
display(target_valid_2)

[ 95.89495185  77.57258261  77.89263965 ...  61.50983303 118.18039721
 118.16939229]
[ 82.66331365  54.43178616  29.74875995 ... 137.87934053  83.76196568
  53.95846638]
[ 93.59963303  75.10515854  90.06680936 ...  99.40728116  77.77991248
 129.03241718]


71751     10.038645
80493    114.551489
2655     132.603635
53233    169.072125
91141    122.325180
            ...    
12581    170.116726
18456     93.632175
73035    127.352259
63834     99.782700
43558    177.821022
Name: product, Length: 25000, dtype: float64

71751     80.859783
80493     53.906522
2655      30.132364
53233     53.906522
91141      0.000000
            ...    
12581    137.945408
18456    110.992147
73035    137.945408
63834     84.038886
43558     53.906522
Name: product, Length: 25000, dtype: float64

71751     61.212375
80493     41.850118
2655      57.776581
53233    100.053761
91141    109.897122
            ...    
12581     28.492402
18456     21.431303
73035    125.487229
63834     99.422903
43558    127.445075
Name: product, Length: 25000, dtype: float64

Средний запас предсказанного сырья и RMSE модели.

In [12]:
print(f'Средний запас предсказанного сырья data_0 равняется {round(pre_0.mean(), 2)}')
print(f'Средний запас предсказанного сырья data_1 равняется {round(pre_1.mean(), 2)}')
print(f'Средний запас предсказанного сырья data_2 равняется {round(pre_2.mean(), 2)}')

Средний запас предсказанного сырья data_0 равняется 92.59
Средний запас предсказанного сырья data_1 равняется 68.73
Средний запас предсказанного сырья data_2 равняется 94.97


In [13]:
rsme_0 = mean_squared_error(target_valid_0, pre_0)**0.5
print(f'RSME первой модели равняется {round(rsme_0, 2)}')
rsme_1 = mean_squared_error(target_valid_1, pre_1)**0.5
print(f'RSME второй модели равняется {round(rsme_1, 2)}')
rsme_2 = mean_squared_error(target_valid_2, pre_2)**0.5
print(f'RSME третьей модели равняется {round(rsme_2, 2)}')

RSME первой модели равняется 37.58
RSME второй модели равняется 0.89
RSME третьей модели равняется 40.03


**Вывод**<br> 
Можно увидеть, что самый лучший показатель у второй модели. <br> RSME равняется 0.89, в то время как у первой и третей моделей RSME равняется 37 и 40, что очень много.

<div class="alert alert-block alert-success">
<b>Успех:</b> Модели обучены корректно.
</div>

<div class="alert alert-block alert-info">
<b>Совет: </b> На протяжении всего проекта происходит работа с 3мя одинаковыми таблицами. В связи с этим можно было использовать функции и/или циклы, чтобы избежать копирования кода.
<br> Зачем его нужно избегать? Потому что очень часто оно приводит к ошибкам (например, забыл поменять одну из переменных). Впоследствии такие ошибки очень трудно найти.
</div>

## Подготовка к расчёту прибыли

Все ключевые значения

Модели: <br>

    model_0
    model_1
    model_2

Предсказания моделей:

    pre_0
    pre_1
    pre_2
    
RSME моделей:

    rsme_0
    rsme_1
    rsme_2

Рассчитаю достаточный объём сырья для безубыточной разработки новой скважины:

In [14]:
# поделить общий бюджет на количество скважин и потом на доход с одной единицы продукта
BUDGET = 10000000000
enough = round((BUDGET / 200) / 450000, 2)
print(f'Достаточный объём сырья для безубыточной разработки равняется {enough} тыс. баррелей')

Достаточный объём сырья для безубыточной разработки равняется 111.11 тыс. баррелей


<div class="alert alert-block alert-info">

<b>Совет: </b> В названиях константных переменных лучше использовать только БОЛЬШИЕ буквы. Это соглашение между программистами: https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html#id29 .
</div>

Стравню полученный объём сырья со средним запасом в каждом регионе.

In [15]:
print(data_0['product'].median())
print(data_1['product'].median())
print(data_2['product'].median())

91.84997204396296
57.08562464628662
94.92561258990246


<div class="alert alert-block alert-success">
<b>Успех:</b> Точка безубыточности найдена верно, сравнение проведено!
</div>

Функция для расчета прибыли

In [16]:
def profit(target, prediction, count):
    prediction_sorted = prediction.sort_values(ascending=False)
    volume = target[prediction_sorted.index][:count]
    profit = 450000*volume.sum() - BUDGET
    return profit

**Вывод** <br>
Можно наблюдать что средний объем во всех регионах меньше чем достаточный, рассчитанный мною. 

<div class="alert alert-block alert-success">
<b>Успех:</b> Верно.
</div>

## Расчёт прибыли и рисков 

In [17]:
state = np.random.RandomState(12345)

def finish(target, predictions):
    values = []
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        pred_subsample = predictions[target_subsample.index]
        result = profit(target_subsample, pred_subsample, 200)
        values.append(result)
    values = pd.Series(values)
    negative = (values < 0).mean()*100
    mean = values.mean()
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    print(f'Средняя прибыль прогнозируемая моделью равна {round(mean/1000000, 2)} млн')
    print(f'С вероятностью 95% прибыль будте от {round(lower/1000000, 2)} млн до {round(upper/1000000, 2)} млн')
    print(f'Риск убытков равен {negative}%')

<div class="alert alert-block alert-success">
<b>Успех:</b> Отлично, что для подсчета доверительного интервала использовался именно метод квантилей!
</div>


<div class="alert alert-block alert-info">

<b>Совет: </b> Риск можно было найти чуть проще: `(values < 0).mean()`, если объект типа pandas Series или numpy array.
</div>

In [18]:
%%time

target_valid_0 = target_valid_0.reset_index(drop=True)
pre_0 = pd.Series(pre_0)
finish(target_valid_0, pre_0)
print()

Средняя прибыль прогнозируемая моделью равна 425.94 млн
С вероятностью 95% прибыль будте от -102.09 млн до 947.98 млн
Риск убытков равен 6.0%

Wall time: 3.4 s


In [19]:
%%time

target_valid_1 = target_valid_1.reset_index(drop=True)
pre_1 = pd.Series(pre_1)
finish(target_valid_1, pre_1)
print()

Средняя прибыль прогнозируемая моделью равна 518.26 млн
С вероятностью 95% прибыль будте от 128.12 млн до 953.61 млн
Риск убытков равен 0.3%

Wall time: 3.38 s


In [20]:
%%time

target_valid_2 = target_valid_2.reset_index(drop=True)
pre_2 = pd.Series(pre_2)
finish(target_valid_2, pre_2)
print()

Средняя прибыль прогнозируемая моделью равна 420.19 млн
С вероятностью 95% прибыль будте от -115.85 млн до 989.63 млн
Риск убытков равен 6.2%

Wall time: 3.39 s


**Вывод**<br>
Основываясь на данных полученные мною в результате проведения расчетов прибыли и рисков можно сделать такой вывод. В первом и третьем регионах риск убытков превышает 2.5%, а это означает, что они нам не подходят. А вот во втором регионе риск меньше 2.5%, следовательно второй регион продходит для разработки скважин

<div class="alert alert-block alert-success">
<b>Успех:</b> Все статистики посчитаны корректно. С выбором региона согласен.
</div>

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: модели обучены и проверены
    - [ ]  Данные корректно разбиты на обучающую и валидационную выборки
    - [ ]  Модели обучены, предсказания сделаны
    - [ ]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [ ]  На экране напечатаны результаты
    - [ ]  Сделаны выводы
- [ ]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [ ]  Для всех ключевых значений созданы константы Python
    - [ ]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [ ]  По предыдущему пункту сделаны выводы
    - [ ]  Написана функция расчёта прибыли
- [ ]  Выполнен шаг 4: посчитаны риски и прибыль
    - [ ]  Проведена процедура *Bootstrap*
    - [ ]  Все параметры бутстрепа соответствуют условию
    - [ ]  Найдены все нужные величины
    - [ ]  Предложен регион для разработки месторождения
    - [ ]  Выбор региона обоснован