Привет, меня зовут Артем Хуршудов. Сегодня я проверю твой проект.
<br> Дальнейшее общение будет происходить на "ты" если это не вызывает никаких проблем.
<br> Желательно реагировать на каждый мой комментарий ('исправил', 'не понятно как исправить ошибку', ...)
<br> Пожалуйста, не удаляй комментарии ревьюера, так как они повышают качество повторного ревью.

Комментарии будут в <font color='green'>зеленой</font>, <font color='blue'>синей</font> или <font color='red'>красной</font> рамках:

<div class="alert alert-block alert-success">
<b>Успех:</b> Если все сделано отлично
</div>

<div class="alert alert-block alert-info">
<b>Совет: </b> Если можно немного улучшить
</div>

<div class="alert alert-block alert-danger">
<b>Ошибка:</b> Если требуются исправления. Работа не может быть принята с красными комментариями.
</div>

-------------------

Будет очень хорошо, если ты будешь помечать свои действия следующим образом:
<div class="alert alert-block alert-warning">
<b>Комментарий студента:</b> ...
</div>

<div class="alert alert-block alert-warning">
<b>Изменения:</b> Были внесены следующие изменения ...
</div>

### <font color='orange'>Общее впечатление</font>
* Большое спасибо за проделанную работу. Видно, что приложено много усилий.
* Выводы и рассуждения получились содержательными, их было интересно читать.
* Радует, что тебе удалось разобраться с техникой бутстрапа.
* Отлично, что доверительный интервал и риск убытков посчитаны верно.
* Я оставил несколько советов, надеюсь, что они будут учтены в будущих проектах.
* Редко, кто сдает эту работу с первого раза, молодец!
* Проект может быть зачтен, но я его отправлю назад, чтобы у тебя была возможность задать вопросы и внести правки, при желании. Однако, ты можешь просто вернуть проект в таком же виде и я его зачту.

### <font color='orange'>Общее впечатление (ревью 2)</font>
* Проект зачтен!
* Удачи в дальнейшем обучении и следующих работах!

# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt 
from random import randrange
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

<div class="alert alert-block alert-success">
<b>Успех:</b> Отлично, что все импорты собраны в первой ячейке ноутбука! Если у того, кто будет запускать твой ноутбук будут отсутствовать некоторые библиотеки, то он это увидит сразу, а не в процессе!
</div>

In [2]:
data0 = pd.read_csv('/datasets/geo_data_0.csv')
data1 = pd.read_csv('/datasets/geo_data_1.csv')
data2 = pd.read_csv('/datasets/geo_data_2.csv')

Для начала применим базовые техники предобработки данных: проверим на Nan значения и дублирование. 

In [3]:
display(data0.head())
display(data1.head())
display(data2.head())

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [4]:
print(data0.isna().sum())
print('------------')
print(data1.isna().sum())
print('------------')
print(data2.isna().sum())

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
------------
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64
------------
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [5]:
print(data0.duplicated().sum())
print('------------')
print(data1.duplicated().sum())
print('------------')
print(data2.duplicated().sum())

0
------------
0
------------
0


In [6]:
print(data0.describe())
print('------------')
print(data1.describe())
print('------------')
print(data2.describe())

                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         2.362331       1.343769      16.003790     185.364347
------------
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        1.141296      -4.796579       2.494541      68.825000
std         8.965932       5.119872       1.703572      45.944423
min       -31.609576     -26.358598      -0.018144       0.000000
25%        -6.298551      -8.267985       1.000021      26.9532

In [7]:
print(len(data0))
print(len(data1))
print(len(data2))

100000
100000
100000


<div class="alert alert-block alert-success">
<b>Успех:</b> Данные загружены корректно, первичный осмотр проведен.
</div>

## Обучение и проверка модели

In [8]:
data0 = data0.drop('id', axis=1)
data1 = data1.drop('id', axis=1)
data2 = data2.drop('id', axis=1)

<div class="alert alert-block alert-success">
<b>Успех:</b> Согласен, что колокна id нам не нужна.
</div>

После того, как были убраны неинформативные признаки, приступим к подготовке модели. Как было заявлено в условии проекта должна быть модель линейной регрессии

In [9]:
def model_making(data):
    model = LinearRegression()
    features = data.drop('product', axis =1)
    target = data['product']
    features_train, features_valid, target_train, target_valid = train_test_split(features, target, test_size=0.25, random_state=12345)
    print('Train shape:', features_train.shape)
    print('Valid shape:', features_valid.shape)
    print('Beginning model training...')
    model.fit(features_train, target_train)
    print('Model trained succesfully')
    predictions = model.predict(features_valid)
    print('Mean predicted product volume: ', predictions.mean().round(4))
    rmse = mean_squared_error(target_valid, predictions) ** 0.5
    print('RMSE :', rmse.round(4))
    return predictions, target_valid
    
    
    
    
    
    

#### Для первого региона:

In [10]:
data0_predicted, data0_target_valid = model_making(data0)

Train shape: (75000, 3)
Valid shape: (25000, 3)
Beginning model training...
Model trained succesfully
Mean predicted product volume:  92.5926
RMSE : 37.5794


#### Для второго региона:

In [11]:
data1_predicted, data1_target_valid = model_making(data1)

Train shape: (75000, 3)
Valid shape: (25000, 3)
Beginning model training...
Model trained succesfully
Mean predicted product volume:  68.7285
RMSE : 0.8931


#### Для третьего региона:

In [12]:
data2_predicted, data2_target_valid = model_making(data2)

Train shape: (75000, 3)
Valid shape: (25000, 3)
Beginning model training...
Model trained succesfully
Mean predicted product volume:  94.965
RMSE : 40.0297


Для данного этапа исследования можно сделать следующие выводы:
1. В первом и третьем регионе более высокие показатели среднего предсказанного объема запасов нефти
2. В этих же регионах гораздо более высокий показатель средне-квадратичной ошибки 
Можно сказать о неоднозначности предсказанных показателей в данных регионах. Второй регион был предсказан наиболее точно

<div class="alert alert-block alert-success">
<b>Успех:</b> Модели обучены корректно. Радует, что ты активно используешь функции. Это помогает избежать дублирования кода, а значит уменьшает вероятность совершить ошибку/опечатку!
</div>

## Подготовка к расчёту прибыли

Говорить о прибыли на данном этапе пока рано, однако можно найти точку безубыточности скважин. 
Рассчитаем безубыточность для региона. 
Итак, формула следующая: Бюджет/(количество скважин * доход с одной скважины)
Подставим данные и получим следующее:

In [13]:
BUDGET = 10 ** 10 
TOP_WELLS = 200
PROFIT = 450 * 10 **3
TOTAL_WELLS = 500 

In [14]:
mean_volume = BUDGET / (TOP_WELLS * PROFIT)

<div class="alert alert-block alert-success">
<b>Успех:</b> Хорошо, что в названиях константных переменных использовались только большие буквы!
</div>

In [15]:
print('Объем скважины для безубыточной добычи: ', mean_volume)

Объем скважины для безубыточной добычи:  111.11111111111111


Итак, по рассчетам можно сказать, что необходимый порог для безубыточной добычи гораздо выше, чем предсказанные средние объемы во всех регионах. Полученные данные вызывают сомнения о целесобразности операции

<div class="alert alert-block alert-success">
<b>Успех:</b> Точка безубыточности найдена верно, сравнение проведено!
</div>

## Расчёт прибыли и рисков 

In [17]:
display(data0_target_valid)

71751     10.038645
80493    114.551489
2655     132.603635
53233    169.072125
91141    122.325180
            ...    
12581    170.116726
18456     93.632175
73035    127.352259
63834     99.782700
43558    177.821022
Name: product, Length: 25000, dtype: float64

In [18]:
data0_target_valid = pd.Series(data0_target_valid).reset_index(drop=True)
data1_target_valid = pd.Series(data1_target_valid).reset_index(drop=True)
data2_target_valid = pd.Series(data2_target_valid).reset_index(drop=True)

data0_predicted = pd.Series(*data0_predicted.reshape(1,-1))
data1_predicted = pd.Series(*data1_predicted.reshape(1,-1))
data2_predicted = pd.Series(*data2_predicted.reshape(1,-1))

In [23]:
def show_predicted_income(region, top_wells_mean, volume, income):
    print('===', region, '===')
    print('Средний запас сырья среди скважин с максимальным показателем: {:.2f}'.format(top_wells_mean))
    print('Суммарный целевой объём сырья: {:.2f}'.format(volume))
    print('Прибыль для полученного объёма сырья: {:.2f}'.format(income))
    
    
state = 12345
def predicted_income(target, predicts, region, state, replace=False, show_res=True, return_res=False):
    """
    input: predicts - предсказания линейной модели для объёма сырья
    output: None
    description: - Функция берёт выборку размера SAMP_WELLS, выбирает TOP_WELLS наивысших значений,
                   Функция считает:    среднее значение объёма сырья для выбранных скважин.
                                       суммарный целевой объём сырья
                                       прибыль для полученного объёма сырья
    """
    sample_preds = predicts.sample(n=TOTAL_WELLS, 
                                   replace=replace, 
                                   random_state=state)
    top_preds = sample_preds.sort_values(ascending=False)[:TOP_WELLS]
    top_targets = target[top_preds.index]
    top_wells_mean = top_targets.mean()
    volume = sum(top_targets)
    income = volume * PROFIT - BUDGET
    if show_res:
        show_predicted_income(region, top_wells_mean, volume, income)
    if return_res:
        return income
    

In [24]:
predicted_income(data0_target_valid, data0_predicted, 'Регион 0', state)

=== Регион 0 ===
Средний запас сырья среди скважин с максимальным показателем: 118.66
Суммарный целевой объём сырья: 23731.26
Прибыль для полученного объёма сырья: 679068857.89


In [25]:
predicted_income(data1_target_valid, data1_predicted, 'Регион 1', state)

=== Регион 1 ===
Средний запас сырья среди скважин с максимальным показателем: 119.77
Суммарный целевой объём сырья: 23954.40
Прибыль для полученного объёма сырья: 779479884.18


In [27]:
predicted_income(data2_target_valid, data2_predicted, 'Регион 2', state)

=== Регион 2 ===
Средний запас сырья среди скважин с максимальным показателем: 116.00
Суммарный целевой объём сырья: 23199.98
Прибыль для полученного объёма сырья: 439990143.02


Теперь перейдем к подсчету рисков 

In [28]:
def show_risks(region, income_mean, conf_int_left, conf_int_right, loss_rate):
    print('===', region, '===')
    print('Средняя прибыль {:.2f} (млн. Р)'.format(income_mean / 10**6))
    print('95% доверительный интервал: {:.2f} : {:.2f} (млн. Р)'.format(conf_int_left / 10**6, conf_int_right / 10**6))
    print('Риск убытков: {:.2f} %'.format(loss_rate * 100))

In [31]:

def risk_calc(target, predicts, region):
    alpha = 0.05
    incomes = []
    state = np.random.RandomState(12345)
    for _ in range(1000):
        income = predicted_income(target, predicts, region, state, replace=True, show_res=False, return_res=True)
        incomes.append(income)

    incomes = pd.Series(incomes)
    income_mean = incomes.mean()
    conf_int_left = incomes.quantile(alpha/2)
    conf_int_right = incomes.quantile(1 - alpha/2)
    
    loss_count = 0
    for inc in incomes :
        if inc < 0 :
            loss_count += 1
    loss_rate = loss_count / 1000
    
    show_risks(region, income_mean, conf_int_left, conf_int_right, loss_rate)

<div class="alert alert-block alert-info">

<b>Совет: </b> Риск можно было найти чуть проще: `(values < 0).mean()`, если объект типа pandas Series или numpy array.
</div>

<div class="alert alert-block alert-success">
<b>Успех:</b> Отлично, что для подсчета доверительного интервала использовался именно метод квантилей!
</div>

In [32]:
risk_calc(data0_target_valid, data0_predicted, 'Регион 0')

=== Регион 0 ===
Средняя прибыль 396.16 (млн. Р)
95% доверительный интервал: -111.22 : 909.77 (млн. Р)
Риск убытков: 6.90 %


In [33]:
risk_calc(data1_target_valid, data1_predicted, 'Регион 1')

=== Регион 1 ===
Средняя прибыль 456.05 (млн. Р)
95% доверительный интервал: 33.82 : 852.29 (млн. Р)
Риск убытков: 1.50 %


In [34]:
risk_calc(data2_target_valid, data2_predicted, 'Регион 2')

=== Регион 2 ===
Средняя прибыль 404.40 (млн. Р)
95% доверительный интервал: -163.35 : 950.36 (млн. Р)
Риск убытков: 7.60 %


Итак, я бы рекомендовал для разработки месторождений регион 1, потому что там наиболее низкий риск убытков, плюс как следует из второй части проекта, там наиболее точно были предсказаны объемы залежей нефти. 

<div class="alert alert-block alert-success">
<b>Успех:</b> Все статистики посчитаны правильно, с выбором региона согласен.
</div>

<div class="alert alert-block alert-info">
<b>Совет: </b> Желательно было добавить вывод по всему проекту.
</div>

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: модели обучены и проверены
    - [ ]  Данные корректно разбиты на обучающую и валидационную выборки
    - [ ]  Модели обучены, предсказания сделаны
    - [ ]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [ ]  На экране напечатаны результаты
    - [ ]  Сделаны выводы
- [ ]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [ ]  Для всех ключевых значений созданы константы Python
    - [ ]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [ ]  По предыдущему пункту сделаны выводы
    - [ ]  Написана функция расчёта прибыли
- [ ]  Выполнен шаг 4: посчитаны риски и прибыль
    - [ ]  Проведена процедура *Bootstrap*
    - [ ]  Все параметры бутстрепа соответствуют условию
    - [ ]  Найдены все нужные величины
    - [ ]  Предложен регион для разработки месторождения
    - [ ]  Выбор региона обоснован