<div style="border: 1px solid #CCCCFF; border-radius: 1px;">
<div style="margin: 5px">
<b class="alert-heading">Комментарий ревьюера</b>
<p>Привет!</p>
<p>Меня зовут Ильющенко Иван, и я буду проверять твой проект. Предлагаю общаться на «ты», но если комфортнее на «вы» — дай знать :) Моя задача — не указывать на ошибки, а поделиться своим опытом и помочь тебе на пути к новым знаниям.</p>  
  
<p>Мои комментарии в твоем проекте будут выглядеть вот так:</p>

<div class="alert alert-success" role="alert">
Зеленым цветом с пометкой «ОК» отмечены удачные и элегантные решения, на которые можно опираться в будущих проектах.
</div>
<div class="alert alert-warning" role="alert">
Жёлтым цветом с пометкой «Можно лучше» выделено то, что в следующий раз можно сделать по-другому. Ты можешь учесть эти комментарии при выполнении будущих заданий или доработать проект сейчас (однако это не обязательно).
</div>
<div class="alert alert-danger" role="alert">
Красным цветом с пометкой «Стоит доработать» помечены аспекты, требующие твоего внимания. После их доработки проект будет принят.
</div>
<div class="alert alert-info">
Голубым цветом без пометок выделены информационные и резюмирующие комментарии.
</div>

<hr>
<p>Предлагаю работать в диалоге: если ты что-то меняешь в проекте — пиши об этом. Выбери для своих комментариев какой-нибудь заметный цвет. Пожалуйста, не перемещай, не изменяй и не удаляй мои комментарии. Всё это поможет выполнить повторную проверку твоего проекта оперативнее.</p>

# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

импортируем необходимые библиотеки и сохраним данные геологоразведки трёх регионов:

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
try:
    data0=pd.read_csv('geo_data_0.csv')
    data1=pd.read_csv('geo_data_1.csv')
    data2=pd.read_csv('geo_data_2.csv')
except FileNotFoundError:
    data0=pd.read_csv('/datasets/geo_data_0.csv')
    data1=pd.read_csv('/datasets/geo_data_1.csv')
    data2=pd.read_csv('/datasets/geo_data_2.csv')

выведем первые 5 строк таблицы:

In [3]:
data0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
data1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [5]:
data2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


и выведем информацию о данных:

In [6]:
display(data0.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

In [7]:
display(data1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

In [8]:
display(data2.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

проверим данные на явные дубликаты:

In [9]:
data0.duplicated().sum()

0

In [10]:
data1.duplicated().sum()

0

In [11]:
data2.duplicated().sum()

0

Проверим насколько перекошены данные в таблицах:

In [12]:
data0['product'].value_counts()

0.000000      1
30.141653     1
56.573577     1
50.182301     1
88.989990     1
             ..
146.560758    1
155.729658    1
27.829511     1
85.382946     1
154.424007    1
Name: product, Length: 100000, dtype: int64

In [13]:
data1['product'].value_counts()

53.906522     8472
26.953261     8468
84.038886     8431
57.085625     8390
3.179103      8337
80.859783     8320
30.132364     8306
134.766305    8304
110.992147    8303
0.000000      8235
137.945408    8233
107.813044    8201
Name: product, dtype: int64

In [14]:
data2['product'].value_counts()

0.000000      1
53.211205     1
37.811021     1
84.266951     1
38.939298     1
             ..
122.326832    1
34.629840     1
3.577922      1
0.937771      1
49.640390     1
Name: product, Length: 100000, dtype: int64

в регионе №1 (data1) видно меньше всего различных значений, всего 12. 

пропусков не обнаружено, данные выгружаются без ошибок, разобьем данные на выборки для машинного обучения:

<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера: ОК</b>

Есть описание и оглавление проекта, данные загружены и просмотрены, отлично! Можно чуть сократить объем повторяемого кода, если работать с одинаковыми датасетами в цикле/функциями. 

</div>

## Обучение и проверка модели

уберем из признаков столбец id. Он не нужен для обучения модели

In [15]:
data0= data0.drop(['id'], axis=1)
data1= data1.drop(['id'], axis=1)
data2= data2.drop(['id'], axis=1)

разобьем исходные данные  на обучающую и валидационную выборки в соотношении 75:25. 

In [16]:
dates=[data0,data1,data2]
predictions=[]
target=[]
num=0
for data in dates:
    #разобьем исходные данные  на обучающую и валидационную выборки в соотношении 75:25. 
    data_train,data_valid = train_test_split(data, test_size=0.25, random_state=42)
    #выделим признаки:
    features_train = data_train.drop(['product'], axis=1)
    #выделим целевой признак:
    target_train = data_train['product']
    #и аналогично для валидационной выборки:
    features_valid = data_valid.drop(['product'], axis=1)
    target_valid = data_valid['product']
    
    model=LinearRegression() 
    # обучим модель на тренировочной выборке
    model.fit(features_train,target_train)
    # получим предсказания модели на валидационной выборке
    predictions_valid = model.predict(features_valid)
    
    #запишем предсказания в отдельный массив, они пригодятся в будущем
    predictions.append(predictions_valid)
    target.append(target_valid)
    
    mse = mean_squared_error(target_valid, predictions_valid)
    rmse = mse ** 0.5
    
    
    
    print('Регион №'+str(num)+':')
    print("средний запас предсказанного сырья "+str(predictions_valid.mean()))
    print("RMSE "+str(rmse))
    print("--------------------")
    num=num+1

Регион №0:
средний запас предсказанного сырья 92.39879990657768
RMSE 37.75660035026169
--------------------
Регион №1:
средний запас предсказанного сырья 68.71287803913762
RMSE 0.890280100102884
--------------------
Регион №2:
средний запас предсказанного сырья 94.77102387765939
RMSE 40.145872311342174
--------------------


судя по показателю RMST лучше всего модель предсказывает во втором регионе.

In [17]:
predictions_data0=predictions[0]
predictions_data1=predictions[1]
predictions_data2=predictions[2]

target_data0=target[0]
target_data1=target[1]
target_data2=target[2]

In [18]:
predictions_data0 = pd.Series(predictions_data0) 
predictions_data1 = pd.Series(predictions_data1) 
predictions_data2 = pd.Series(predictions_data2) 

target_data0 = pd.Series(target_data0) 
target_data1 = pd.Series(target_data1) 
target_data2 = pd.Series(target_data2) 



In [19]:
print(predictions_data0.head())


0    101.901017
1     78.217774
2    115.266901
3    105.618618
4     97.980185
dtype: float64


In [20]:
print(predictions_data1.head())

0      0.844738
1     52.921612
2    135.110385
3    109.494863
4     -0.047292
dtype: float64


In [21]:
print(predictions_data2.head())

0     98.301916
1    101.592461
2     52.449099
3    109.922127
4     72.411847
dtype: float64


<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера: ОК</b>

Модели обучены корректно. Можно попробовать выяснить с помощью анализа датасетов, почему в регионе №1 получилась такая маленькая ошибка.

</div>

## Подготовка к расчёту прибыли

Все ключевые значения для расчётов прибыли сохраним в отдельных переменных

In [22]:
#Бюджет на разработку скважин в регионе — 10 млрд рублей.
BUDGET_DEVELOPMENT_IN_REGION=10000000000
#При разведке региона исследуют 500 точек
NUMBER_POINTS=500
#из них 200 лучших для разработки.
NUMBERS_BEST=200
#один баррель сырья приносит 450000 рублей дохода
PROFIT_PER_BARREL=450000
# максимальная вероятность убытков 
loss_probability=0.025  

<div class="alert alert-info">
<b class="alert-heading"> Комментарий ревьюера</b>

Согласно [PEP8](https://all-python.ru/osnovy/pep-8.html#konstanty) константы рекомендуется писать в верхнем регистре. Это упрощает работу тебе и твоим коллегам :)
    
</div>

<div class="alert alert-info"> <b>Комментарий студента:</b> Исправил на верхний регистр</div>

<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера V2: ОК</b>

👍

</div>

рассчитаем достаточный объём сырья для безубыточной разработки новой скважины. Чтобы получить прибыль нужно количество скажен умножить на доход с одной вышки и умножить на количество баррелей в одной скажине. Расходы составляют 10 млрд. Значит формула для рассчета сырья такая:

In [23]:
min_barrel = BUDGET_DEVELOPMENT_IN_REGION / (PROFIT_PER_BARREL * NUMBERS_BEST)
print(min_barrel)

111.11111111111111


Иными словами чтобы разработать скважену без убытков нужно добыть как минимум 112 баррелей.Среднее предсказания объема нефти меньше этого 112. 

<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера: ОК</b>

Абсолютно верно. Можно вывести гистаграмму объемов по регионам, обозначив на них минимальный безубыточный объем вертикальной чертой.

</div>

## Расчёт прибыли

Напишем функцию для расчёта прибыли по лучшим 200 скважинам в регионе по предсказаниям модели:

In [24]:
def profit(data):      
    return data.sort_values(ascending=False).head(200).sum()*PROFIT_PER_BARREL-BUDGET_DEVELOPMENT_IN_REGION

<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера: ОК</b>

Коротко и ясно :)

</div>

## Расчёт рисков 

перед применением техники Bootstrap напишем функцию `revenue` которая принимает 3 аргумента: target(истинные значения 'product'), probabilities (предсказания). Функция возвращает прибыль 

In [25]:
def revenue(target, probabilities):
    well_best = probabilities.sort_values(ascending = False).head(NUMBERS_BEST).index
    income = target[well_best].sum() * PROFIT_PER_BARREL
    revenue_total = income - BUDGET_DEVELOPMENT_IN_REGION
    return revenue_total

<div class="alert alert-info"> <b>Комментарий студента:</b> я думаю подразумевалось что эту функцию нужно было написать в пункте 4. Но функцию profit написал так, как понял задание. </div>

<div class="alert alert-success">
<b class="alert-heading"> Комментарий ревьюера: ОК</b>

Главное, чтобы работало и было читаемо :) Можно весь пайплайн организовать чуть проще: предсказанные на этапе 2 значения записать в новый столбец валидационных датафреймов. Тогда можно сортировать сразу весь датафрейм, и не нужно дополнительно работать с индексами.

</div>

In [26]:
def Bootstrap(target, probabilities):
    state = np.random.RandomState(12345)   
    values = []
    for i in range(1000):
        target_subsample = target.reset_index(drop=True).sample(n=NUMBER_POINTS,replace=True,random_state=state)
        probs_subsample = probabilities[target_subsample.index] 
        values.append(revenue(target_subsample, probs_subsample))

    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    
    mean = values.mean()
    risk = (values < 0).sum() / values.count() *100
    print("Средняя прибыль:", mean)
    print("Доверительный интервал:", lower,":",upper)
    print("риск убытков:", risk) 

In [27]:
Bootstrap(target_data0, predictions_data0)

Средняя прибыль: 615047004.3942593
Доверительный интервал: -20884982.29624209 : 1239730575.9180634
риск убытков: 3.0


In [28]:
Bootstrap(target_data1, predictions_data1)

Средняя прибыль: 639637181.1031598
Доверительный интервал: 142332783.31613287 : 1195489473.2361748
риск убытков: 0.4


In [29]:
Bootstrap(target_data2, predictions_data2)

Средняя прибыль: 587106344.7958661
Доверительный интервал: -8459142.891548958 : 1283241366.0123456
риск убытков: 2.6


Риск ниже 2.5% только в Регионе№1

<div class="alert alert-info"> <b>Комментарий студента:</b> что то не явно не так с функцией revenue. Не могу найти ошибку :(</div>

<div class="alert alert-danger">
<b class="alert-heading"> Комментарий ревьюера: стоит доработать </b>

С функцией ``revenue`` как раз все верно. А вот в ``Bootstrap`` ты сэмплишь 25 точек, тогда как нужно ``numbers_points``. Естественно, 25 точек не могут окупить бюджет в 10 млрд, поэтому риск убытков всегда 100%.
    
А все остальное выполнено правильно.
    
</div>

<div class="alert alert-info">
<b class="alert-heading"> Комментарий ревьюера: заключение</b>


Отличная работа! Прошу тебя:
1. Поправить ``Bootstrap``.
2. Дописать финальный вывод.
    
И проект будет принят :)


</div>

<div class="alert alert-info"> <b>Комментарий студента:</b> Готово! Спасибо! Подскажи пожалуйства почему мы пользуемся все равно точными данными из target при рассчете? в чем тогда смысл модели машинного обучения состояит?</div>

<div class="alert alert-info">
<b class="alert-heading"> Комментарий ревьюера V2: заключение</b>


Скажем так, это упрощенная симуляция действительности. Этапы следующие:
1. Обучили модель, которая определяет запасы месторождения по неким признакам.
2. Геологи принесли данные по новому региону. Там только f0, f1, f2, признака product там нет. Причем из всего региона геологи смогли разведать только 500 точек (предполагаем, что случайно выбранных из всего множества доступных точек).
3. Мы применили нашу модель, получили предсказания. На основе этих предсказаний, из 500 точек выбрали 200 потенциально самых прибыльных.
4. Нефтяники радостно кидаются разрабатывать эти месторождения. В процессе разработки становится ясным реальный product.
5. Считаем реальную прибыль с наших 200 месторождений.
6. Радуемся или расстраиваемся, зависит от обстоятельств.
7. Залазим в машину времени, летим в пункт 2, причем в этой версии альтернативной реальности геологи разведали другие 500 точек.
8. Повторяем 3-7 еще 1000 раз.
    
Поскольку машины времени у нас нет, алгоритм бесполезен. Но мы внесем один корректив. Поскольку регион мы уже разрабатываем, и в регионе уже найдено 10000 месторождений, то мы можем предположить, что случайно выбрав 500 случайных точек из уже разработанных, мы получим примерно такие же точки, как если бы мы реально разведали 500 новых точек. А значит, всю историю мы можем просимулировать на компьютере без машины времени и можем примерно оценить риски при разработке новых точек. В этом и смысл бутстрэпа.

Спасибо за работу по моим комментариям. Теперь проект выглядит здорово и я могу его принять :) Желаю успехов в учебе!


</div>

## Вывод

В ходе работы мы изучили данные данные геологоразведки трёх регионов. Для каждого региона была обучена модель с помощью линейной регрессии. Был рассчитан минимальный запас нефти в скажине для безубыточнсти разработки скважин. Из случайных 500 скважин были выбраны лучшие 200 и с помощью техники Bootstrap были подсчитаны средняя прибыль, доверительный интервал и риск убытков. Вероятность убытков меньше допустимого значения только в регионе номер 1. Компании «ГлавРосГосНефть» рекомендуется этот регион для дальнейшей разработки.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: модели обучены и проверены
    - [ ]  Данные корректно разбиты на обучающую и валидационную выборки
    - [ ]  Модели обучены, предсказания сделаны
    - [ ]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [ ]  На экране напечатаны результаты
    - [ ]  Сделаны выводы
- [ ]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [ ]  Для всех ключевых значений созданы константы Python
    - [ ]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [ ]  По предыдущему пункту сделаны выводы
    - [ ]  Написана функция расчёта прибыли
- [ ]  Выполнен шаг 4: посчитаны риски и прибыль
    - [ ]  Проведена процедура *Bootstrap*
    - [ ]  Все параметры бутстрепа соответствуют условию
    - [ ]  Найдены все нужные величины
    - [ ]  Предложен регион для разработки месторождения
    - [ ]  Выбор региона обоснован