## Комментарий наставника
Привет, Алена! Меня зовут Александр и я буду проверять твой проект. Спасибо за твою работу:) Далее по ходу работы я оставлю свои комментарии и предложения. Постарайся их учесть в этом и дальнейших проектах. Комментарии ты можешь найти в текстовой ячейке с заголовком «Комментарий наставника» (как здесь) либо в ячейках с кодом в следующем виде: «#Комментарий наставника: <сам комментарий>». \
Часть комментариев может быть выделена цветом: \
<span style="color:green">Зелёный цвет символизирует, что всё отлично</span> \
<span style="color:orange">Оранжевый цвет символизирует рекомендации</span> \
<span style="color:red">Красный цвет символизирует недочёты</span>

# Описание проекта

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

# 0. Импорт библиотек и функций

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from math import sqrt
from numpy.random import RandomState

state = RandomState(12345)
n = 3

# 1. Загрузка и подготовка данных

Загрузим данные геологоразведки трёх регионов и  сохраним их в переменных data0, data1,data1 (объединенных в массив data). Выведем обущую информацию по каждой таблице и посмотрим, как они выглят на примере первых 5 строк первой таблицы.

In [2]:
data = []

for i in range(n):
    data.append(pd.read_csv('/datasets/geo_data_%d.csv'%i))
    print('Регион %d'%i)
    print(data[i].info())
    print()

print("Общий вид таблиц")
data[0].head()

Регион 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

Регион 1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

Регион 2
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: 

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


В каждой таблице есть данные о 100000 скважинах в соответсвующем регионе, для каждой скважины указаны:

* id уникальный идентификатор скважины;
* f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);
* product — объём запасов в скважине (тыс. баррелей).

Типы данных подобраны корректно, пропусков нет. Осталось отделить признаки  от целевого - объёма запасов в скважине (для каждой таблицы отдельно)

In [3]:
data_features = []
data_target = []

for i in range(n):
    data_features.append(data[i][['f0', 'f1', 'f2']])
    data_target.append(data[i]['product'])

## Комментарий наставника
<span style="color:orange">Применяй масштабирование уже после того, как разбила датасет на выборки. Это нужно для того, чтобы обучать (с помощью метода «fit») Scaler на тренировочной выборке, а после этого уже трансформировать (с помощью «transform») все выборки (включая и тренировочную). Применяя такой подход, мы сможем получить более справедливую оценку модели на валидационной/тестовой выборках. Подробнее см. по ссылке в блоке «Data transformation with held out data»: https://scikit-learn.org/stable/modules/cross_validation.html#computing-cross-validated-metrics</span>

Данные готовы к дальнейшим действиям.

## Комментарий наставника
<span style="color:green">Хорошо.</span>

# 2. Обучение и проверка модели

### 1) Разбьем данные по каждому региону на обучающую и валидационную выборки в соотношении 75:25. 

In [4]:
data_features_train = []
data_features_valid = []
data_target_train = []
data_target_valid = []

for i in range(n):
    features_train, features_valid, target_train, target_valid = train_test_split(
    data_features[i], data_target[i], test_size=0.25, random_state=12345)
    data_features_train.append(features_train)
    data_features_valid.append(features_valid)
    data_target_train.append(target_train)
    data_target_valid.append(target_valid)

Признаки скважин численные, но их не следует масштабировать, так как они и так обработаны

## Комментарий наставника
<span style="color:orange">UPD 29.05.2020 Да, верно. Мы масштабируем те численные признаки, где разброс значений большой. В исходных датасетах это совсем не так, поэтому масштабирование никаким образом не повлияет на работу модели: не улучшит и не ухудшит.</span>

### 2) Обучим модели и сохраним предсказания и правильные ответы на валидационной выборке.


In [5]:
models = [0] * n
data_predicted_valid = []
for i in range(n):
    models[i] = LinearRegression(n_jobs = -1)
    models[i].fit(data_features_train[i], data_target_train[i])
    data_predicted_valid.append(models[i].predict(data_features_valid[i]))

### 3) Напечатаем на экране средний запас предсказанного сырья и RMSE модели.

In [6]:
data_mean_predicted_valid = []
data_mse_valid = []

for i in range(n):
    print("ПО РЕГИОНУ %d:"%i)
    data_mean_predicted_valid.append(data_predicted_valid[i].mean())
    print("Средний запас предсказанного сырья:", data_mean_predicted_valid[i])
    print("Средний запас реального сырья:", data_target_valid[i].mean())
    data_mse_valid.append(mean_squared_error(data_target_valid[i], data_predicted_valid[i]))
    print("RMSE модели:", sqrt(data_mse_valid[i]))
    print()

ПО РЕГИОНУ 0:
Средний запас предсказанного сырья: 92.59256778438038
Средний запас реального сырья: 92.07859674082927
RMSE модели: 37.5794217150813

ПО РЕГИОНУ 1:
Средний запас предсказанного сырья: 68.728546895446
Средний запас реального сырья: 68.72313602435997
RMSE модели: 0.893099286775616

ПО РЕГИОНУ 2:
Средний запас предсказанного сырья: 94.96504596800489
Средний запас реального сырья: 94.88423280885438
RMSE модели: 40.02970873393434



### Вывод

По полученным данным видно, что, хотя средняя квадратичная ошибка у нулевой и третей модели достаточно большие (а у 1 - наоборот), но в среднем модели одинаково близко вычисляют средний запас сырья в данном количестве скважин

## Комментарий наставника
<span style="color:green">Замечательно, второй блок проекта абсолютно верный.</span> \
<span style="color:orange">Для компактности и сокращения дублирования кода советую создать функцию или цикл и таким образом проитерироваться (выполнить один и тот же набор операций) по всем трём регионам.</span> \
<span style="color:green">UPD 29.05.2020 Теперь всё отлично.</span>

# 3. Подготовка к расчёту прибыли

### 1) Все ключевые значения для расчётов сохраним в отдельных переменных.
* При разведке региона исследуют 500 точек (total_amount), из которых выбирают 200 лучших для расчёта прибыли (chosen).
* Бюджет на разработку скважин в регионе — 10 млрд рублей. (cost)
* Один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей. (income)

In [7]:
total_amount = 500
chosen = 200
expenses = 10**10
income_per_1 = 450000

## Комментарий наставника
<span style="color:green">Хорошо.</span>

### 2)  Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины. Сравним полученный объём сырья со средним запасом в каждом регионе.


In [8]:
suf_volume = expenses / (chosen * income_per_1)
print('Достаточный объём сырья для безубыточной разработки новой скважины:', round(suf_volume))
print('Средние запас скважины в одном регионе')
for i in range(n):
    print('%d регион:'%i, round(data_target[i].mean()))

Достаточный объём сырья для безубыточной разработки новой скважины: 111
Средние запас скважины в одном регионе
0 регион: 93.0
1 регион: 69.0
2 регион: 95.0


### Вывод

Очевидно, скважины нельзя выбирать наугад - в среднем в скважинах в любом из регионов в среднем объем сырья значительно меньше, чем достаточный объём сырья для безубыточной разработки новой скважины (в 1 региное - особенно). Поэтому нужно разработать метод выбора наиболее перспективных скважин и регионов

## Комментарий наставника
<span style="color:green">Совершенно верно.</span>

# 4. Расчёт прибыли и рисков 

1) Напишем функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели calc_profit: на вход принимает бюджет компании и стоимость разработки одной скважины, предсказанные запасы объема в скважинах и их реальный объем. Возвращает - валовую прибыль

In [9]:
def calc_profit(budget, expenses_per_1, predictions, real):
    chosen_amount = int(budget / expenses_per_1)
    chosen_predictions_index = predictions.sort_values(ascending = False).head(chosen_amount).index
    income = real.iloc[chosen_predictions_index].sum() * income_per_1
    val_income = income - budget
    return val_income

## Комментарий наставника
<span style="color:orange">Мы отбираем лучшие скважины на основании предсказаний моделей (как ты и сделала), а прибыль (или убыток, тут уж как повезёт) с этих 200 месторождений считаем уже по реальным (целевым) значениям по объемам нефти из нашего датасета для отобранных месторождений.</span> \
<span style="color:green">UPD 29.05.2020 Замечательно!</span>

2) Посчитаем риски и прибыль для каждого региона:
* Применим технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.
* Найдем среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [10]:
values = [[], [], []]
lower = []
upper = []
mean = []
loss = [0, 0, 0]
data = []
columns = ['region', 'mean_profit', '95%_from', '95%_to', 'risk_of_loss_in_%']
r = 1000000

for i in range(n):
    data_predicted_valid[i] = pd.Series(data_predicted_valid[i])
    
    for j in range(1000):
        subsample = data_predicted_valid[i].sample(n = 500, replace=True, random_state=state)
        values[i].append(calc_profit(expenses, expenses/200, subsample, data_target_valid[i]))
        if values[i][j] < 0:
            loss[i] += 1
        
    values[i] = pd.Series(values[i])
    lower.append(values[i].quantile(0.025))
    upper.append(values[i].quantile(0.975))
    mean.append(values[i].mean())
    data.append([i, round(mean[i]/r), round(lower[i]/r), round(upper[i]/r), loss[i]/10])
    
results = pd.DataFrame(columns = columns, data = data)
print('В млн')
print(results)

В млн
   region  mean_profit  95%_from  95%_to  risk_of_loss_in_%
0       0        396.0    -111.0   910.0                6.9
1       1        461.0      78.0   863.0                0.7
2       2        393.0    -112.0   935.0                6.5


## Комментарий наставника
<span style="color:red">Добавь ещё расчёт риска убытков на основе числа случаев с отрицательной прибылью (т.е. убытком) в Bootstrap.</span> \
<span style="color:orange">Один и тот же набор операций опять повторяется трижды: здесь отлично подошла бы функция.</span> \
<span style="color:green">UPD 29.05.2020 Всё правильно.</span>

### Вывод
Вероятность убытков меньше 2.5% только в 1 регионе. Наибольший предсказанный средний доход - также 1 регионе, и с вероятностью в 95% процентов он принесет минимум 61 млн дохода. Поэтому выбираем 1 регион.

## Итоговый комментарий наставника
<span style="color:blue">Хорошая работа! Тебе осталось только добавить расчёт риска убытков. Если обновишь расчёт прибыли в Bootstrap и примешь во внимание мои рекомендации, то будет вообще здорово. Будем ждать твой проект:) \
UPD 29.05.2020 Вывод верный, работа зачтена. Поздравляю и желаю успехов!</span>

# Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: модели обучены и проверены
    - [x]  Данные корректно разбиты на обучающую и валидационную выборки
    - [x]  Модели обучены, предсказания сделаны
    - [x]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [x]  На экране напечатаны результаты
    - [x]  Сделаны выводы
- [x]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [x]  Для всех ключевых значений созданы константы Python
    - [x]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [x]  По предыдущему пункту сделаны выводы
    - [x]  Написана функция расчёта прибыли
- [x]  Выполнен шаг 4: посчитаны риски и прибыль
    - [x]  Проведена процедура *Bootstrap*
    - [x]  Все параметры бутстрепа соответствуют условию
    - [x]  Найдены все нужные величины
    - [x]  Предложен регион для разработки месторождения
    - [x]  Выбор региона обоснован