<h1>Содержание:<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-подготовка-данных" data-toc-modified-id="Загрузка-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Обучение-и-проверка-модели" data-toc-modified-id="Обучение-и-проверка-модели-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение и проверка модели</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Расчёт-прибыли-и-рисков" data-toc-modified-id="Расчёт-прибыли-и-рисков-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Расчёт прибыли и рисков</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings("ignore")
import numpy as np

In [2]:
# загрузим и посмотрим данные
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')


In [3]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [6]:
# удалим столбец id
data_0.drop(columns=['id'], inplace=True)
data_1.drop(columns=['id'], inplace=True)
data_2.drop(columns=['id'], inplace=True)

### Вывод
Пропусков в данных ни в одном наборе нет. По условиям задачи: "f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы)". Стобец id удален, как не используемый в работе, но увеличивающий время обучения модели.

## Обучение и проверка модели

In [7]:
# создадим объект RandomState() из модуля numpy.random
state = np.random.RandomState(12345)

In [8]:
# создадим выборки для набора 0
train_0, valid_0 = train_test_split(data_0, test_size = 0.25, random_state = state)
feature_train_0 = train_0.drop(['product'], axis=1)
target_train_0 = train_0['product']
feature_valid_0 = valid_0.drop(['product'], axis=1)
target_valid_0 = valid_0['product']
print('feature_train_0', feature_train_0.shape)
print('target_train_0', target_train_0.shape)
print('feature_valid_0', feature_valid_0.shape)
print('target_valid_0', target_valid_0.shape)


feature_train_0 (75000, 3)
target_train_0 (75000,)
feature_valid_0 (25000, 3)
target_valid_0 (25000,)


In [9]:
# создадим выборки для набора 1
train_1, valid_1 = train_test_split(data_1, test_size = 0.25, random_state = state)
feature_train_1 = train_1.drop(['product'], axis=1)
target_train_1 = train_1['product']
feature_valid_1 = valid_1.drop(['product'], axis=1)
target_valid_1 = valid_1['product']
print('feature_train_1', feature_train_1.shape)
print('target_train_1', target_train_1.shape)
print('feature_valid_1', feature_valid_1.shape)
print('target_valid_1', target_valid_1.shape)

feature_train_1 (75000, 3)
target_train_1 (75000,)
feature_valid_1 (25000, 3)
target_valid_1 (25000,)


In [10]:
# создадим выборки для набора 2
train_2, valid_2 = train_test_split(data_2, test_size = 0.25, random_state = state)
feature_train_2 = train_2.drop(['product'], axis=1)
target_train_2 = train_2['product']
feature_valid_2 = valid_2.drop(['product'], axis=1)
target_valid_2 = valid_2['product']
print('feature_train_2', feature_train_2.shape)
print('target_train_2', target_train_2.shape)
print('feature_valid_2', feature_valid_2.shape)
print('target_valid_2', target_valid_2.shape)

feature_train_2 (75000, 3)
target_train_2 (75000,)
feature_valid_2 (25000, 3)
target_valid_2 (25000,)


In [11]:
# модель 0
model = LinearRegression()
model.fit(feature_train_0, target_train_0)
predicted_valid_0 = pd.Series(model.predict(feature_valid_0), index = target_valid_0.index)
result_0 = mean_squared_error(target_valid_0, predicted_valid_0)**0.5 

print('средний запас предсказанного сырья в регионе 0:', predicted_valid_0.mean().round(2))
print("RMSE модели линейной регрессии 0 на валидационной выборке:", result_0.round(2))


средний запас предсказанного сырья в регионе 0: 92.59
RMSE модели линейной регрессии 0 на валидационной выборке: 37.58


In [12]:
# модель 1
model = LinearRegression()
model.fit(feature_train_1, target_train_1)
predicted_valid_1 = pd.Series(model.predict(feature_valid_1), index = target_valid_1.index)
result_1 = mean_squared_error(target_valid_1, predicted_valid_1)**0.5 

print('средний запас предсказанного сырья в регионе 1:', predicted_valid_1.mean().round(2))
print("RMSE модели линейной регрессии 1 на валидационной выборке:", result_1.round(2))


средний запас предсказанного сырья в регионе 1: 68.77
RMSE модели линейной регрессии 1 на валидационной выборке: 0.89


In [13]:
# модель 2
model = LinearRegression()
model.fit(feature_train_2, target_train_2)
predicted_valid_2 = pd.Series(model.predict(feature_valid_2), index = target_valid_2.index)
result_2 = mean_squared_error(target_valid_2, predicted_valid_2)**0.5 

print('средний запас предсказанного сырья в регионе 2:', predicted_valid_2.mean().round(2))
print("RMSE модели линейной регрессии 2 на валидационной выборке:", result_2.round(2))


средний запас предсказанного сырья в регионе 2: 95.09
RMSE модели линейной регрессии 2 на валидационной выборке: 39.96


### Вывод
По трем регионам (0, 1, 2) созданы обучающая и валидационная выборки в соотношении 75:25. Для каждого региона обучена модель линейной регрессии, получены предсказания.
По региону 0: средний запас предсказанного сырья: 92.59, RMSE модели линейной регрессии на валидационной выборке: 37.58.
По региону 1: средний запас предсказанного сырья: 68.77, RMSE модели линейной регрессии на валидационной выборке: 0.89.
По региону 2: средний запас предсказанного сырья: 95.09, RMSE модели линейной регрессии 2 на валидационной выборке: 39.96.
Итого, дучше обучилась модель региона 1 - RMSE = 0.89 - самая маленькая величина ошибки.

## Расчёт прибыли и рисков 

In [14]:
# ключевые значения для расчётов сохраним в отдельных переменных
budget = 10000000000
product_revenue = 450000
wells = 500
wells_count = 200

In [15]:
# достаточный объём сырья для безубыточной разработки новой скважины и средний запас в каждом регионе
print('достаточный объём сырья для безубыточной разработки новой скважины:', round(budget/product_revenue/wells_count, 2))
print('cредний запас в регионе 0:', round(data_0['product'].mean(), 2))
print('cредний запас в регионе 1:', round(data_1['product'].mean(), 2))
print('cредний запас в регионе 2:', round(data_2['product'].mean(), 2))

достаточный объём сырья для безубыточной разработки новой скважины: 111.11
cредний запас в регионе 0: 92.5
cредний запас в регионе 1: 68.83
cредний запас в регионе 2: 95.0


In [16]:
# создадим функцию, чтоб подсчитать возможную выручку
def revenue(target, predicted):
    pred_sorted = predicted.sort_values(ascending=False)
    selected = target[pred_sorted.index][:wells_count] 
    rev = selected.sum()*product_revenue-budget
    return rev


In [17]:
# создадим функцию, найти доверительный интервал и определить риск
def fin (target, predicted):
    values = []
    for i in range(1000):
        target_subsample = target.sample(n=wells, replace=True, random_state=state)
        pred_subsample = predicted[target_subsample.index]
        values.append(revenue(target_subsample, pred_subsample))

    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.075)
    mean = values.mean()
    risk = len(values[values<0]) / len(values) * 100
    print('Нижняя граница доверительного интервала:', round(lower, 2))
    print('Верхняя граница доверительного интервала:', round(upper,2))
    print('Средняя прибыль:', round(mean, 2))
    print('Риск:', round(risk, 2), '%')

In [18]:
# рассмотрм модель 0 (регион 0)
print('Регион 0')
fin(target_valid_0, predicted_valid_0)


Регион 0
Нижняя граница доверительного интервала: -76187813.89
Верхняя граница доверительного интервала: 39384582.8
Средняя прибыль: 423897237.92
Риск: 4.8 %


In [19]:
# рассмотрм модель 1 (регион 1)
print('Регион 1')
fin(target_valid_1, predicted_valid_1)

Регион 1
Нижняя граница доверительного интервала: 108066895.23
Верхняя граница доверительного интервала: 193692740.54
Средняя прибыль: 513256698.92
Риск: 0.6 %


In [20]:
# рассмотрм модель 2 (регион 2)
print('Регион 2')
fin(target_valid_2, predicted_valid_2)

Регион 2
Нижняя граница доверительного интервала: -142800630.09
Верхняя граница доверительного интервала: 5750893.57
Средняя прибыль: 381120359.58
Риск: 7.4 %


### Вывод
По трем регионам (0, 1, 2) проведены расчеты рисков, которые показывают, что требуемым условиям (вероятность убытков меньше 2.5%) соответствует только регион 1, где риск = 0.6%. Регион 0 (риск = 4.8%) и регион 2 (риск = 7.4%) не подходят для целей добывающей компании «ГлавРосГосНефть». Необходимо отметить, что достаточного среднего запаса сырья нет ни в одном из рассмотренных регионов. Так, достаточный объём сырья для безубыточной разработки новой скважины составляет 111.11 тыс. барр., а средний запас в рассмотренных регионах составляет от 68.83 до 95.0 тыс. барр.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: модели обучены и проверены
    - [x]  Данные корректно разбиты на обучающую и валидационную выборки
    - [x]  Модели обучены, предсказания сделаны
    - [x]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [x]  На экране напечатаны результаты
    - [x]  Сделаны выводы
- [x]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [x]  Для всех ключевых значений созданы константы Python
    - [x]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [x]  По предыдущему пункту сделаны выводы
    - [x]  Написана функция расчёта прибыли
- [x]  Выполнен шаг 4: посчитаны риски и прибыль
    - [x]  Проведена процедура *Bootstrap*
    - [x]  Все параметры бутстрепа соответствуют условию
    - [x]  Найдены все нужные величины
    - [x]  Предложен регион для разработки месторождения
    - [x]  Выбор региона обоснован