<a id='_0'></a>

# Описание проекта

Работа ведется в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски. Данные синтетические.

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

# Условия задачи:
- Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).
- При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
- Бюджет на разработку скважин в регионе — 10 млрд рублей.
- При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

# Описание данных
- Данные геологоразведки трёх регионов находятся в трех различных файлах
- id — уникальный идентификатор скважины;
- f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);
- product — объём запасов в скважине (тыс. баррелей).

### Содержание:
  - [1. Загрузка и подготовка данных](#_1) <br>
  - [2. Обучение и проверка модели](#_2) <br>
  - [3. Подготовка к расчёту прибыли](#_3) <br>
  - [4. Расчёт прибыли и рисков](#_4) <br>
  - [5. Общий вывод](#_5) <br>

<a id='_1'></a>

# 1. Загрузка и подготовка данных

In [1]:
import pandas as pd
from scipy import stats as st
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
from sklearn.utils import shuffle
import numpy as np

In [2]:
geo_0 = pd.read_csv('/geo_data_0.csv')
geo_1 = pd.read_csv('/geo_data_1.csv')
geo_2 = pd.read_csv('/geo_data_2.csv')

In [3]:
def inf(data):
    print('Размер датасета:',data.shape)
    print('Общая информация:')
    print(data.info())
    print('Первые 5 строк:')
    display(data.head())

In [4]:
print('geo_0 : ')
inf(geo_0)
print('\ngeo_1 : ')
inf(geo_1)
print('\ngeo_2 : ')
inf(geo_2)

geo_0 : 
Размер датасета: (100000, 5)
Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Первые 5 строк:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



geo_1 : 
Размер датасета: (100000, 5)
Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Первые 5 строк:


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



geo_2 : 
Размер датасета: (100000, 5)
Общая информация:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None
Первые 5 строк:


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


**Создадим функцию, разделяющую данные на признаки и целевой признак. Применим ее к трем датафреймам.**

In [5]:
def dev(data):
    features = data.drop(['id', 'product'], axis = 1)
    target = data['product']
    return features, target

In [6]:
features_0, target_0 = dev(geo_0)
features_1, target_1 = dev(geo_1)
features_2, target_2 = dev(geo_2)

**Разделим данные на обучающие и валидационные выборки в пропроции 3:1.**

In [7]:
rnd_seed = 12345678

In [8]:
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size = 0.25, random_state = rnd_seed)

features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size = 0.25, random_state = rnd_seed)

features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size = 0.25, random_state = rnd_seed)

print('Размеры обучающей и валидационной выборок:', features_train_0.shape, features_valid_0.shape)

Размеры обучающей и валидационной выборок: (75000, 3) (25000, 3)


**В итоге мы получили 12 переменных, по 4 на каждый из трех реионов.** 

**Проведем масштабирование признаков для трех регионов.** 

In [9]:
scaler = StandardScaler()

scaler.fit(features_train_0)
features_train_0 = scaler.transform(features_train_0)
features_valid_0 = scaler.transform(features_valid_0)

scaler.fit(features_train_1)
features_train_1 = scaler.transform(features_train_1)
features_valid_1 = scaler.transform(features_valid_1)

scaler.fit(features_train_2)
features_train_2 = scaler.transform(features_train_2)
features_valid_2 = scaler.transform(features_valid_2)

### Вывод:
- Данные поделены на признаки и целевой признак.
- Данные корректно поделены на выборки в пропорции 3:1. 
- Проведено масштабирование.

Данные подготовлены.

<a id='_2'></a>

# 2. Обучение и проверка модели

**Обучим по одной модели линейной регрессии для каждого региона, выполним предсказания на валидационных данных. Сохраним предсказания.**

In [10]:
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predictions_0 = pd.Series(model_0.predict(features_valid_0))

model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predictions_1 =  pd.Series(model_1.predict(features_valid_1))

model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predictions_2 =  pd.Series(model_2.predict(features_valid_2))

**Посчитаем для каждого реггиона:**
- Среднее количество предсказанного продукта
- RMSE
- R2

In [11]:
print('geo_0:\nMean predicted product: {:.4f}\nRMSE: {:.4f}\nR2: {:.4f}\n'
      .format(
          predictions_0.mean(), 
          mean_squared_error(target_valid_0, predictions_0)**0.5, 
          model_0.score(features_valid_0, target_valid_0)
      )
     )

print('geo_1:\nMean predicted product: {:.4f}\nRMSE: {:.4f}\nR2: {:.4f}\n'
      .format(
          predictions_1.mean(), 
          mean_squared_error(target_valid_1, predictions_1)**0.5, 
          model_1.score(features_valid_1, target_valid_1)
      )
     )

print('geo_2:\nMean predicted product: {:.4f}\nRMSE: {:.4f}\nR2: {:.4f}\n'
      .format(
          predictions_2.mean(), 
          mean_squared_error(target_valid_2, predictions_2)**0.5, 
          model_2.score(features_valid_2, target_valid_2)
      )
     )

geo_0
Mean predicted product: 92.5393
RMSE: 37.5923
R2: 0.2786

geo_1
Mean predicted product: 68.8664
RMSE: 0.8928
R2: 0.9996

geo_2
Mean predicted product: 95.1594
RMSE: 40.0113
R2: 0.1992



### Вывод:
Лучше всего модель обучилась на данных для региона "geo_1". Об этом говорит самый низкий из трех показатель RMSE и самый высокий показатель R2.

<a id='_3'></a>

# 3. Подготовка к расчёту прибыли

**Найдем среднее количество запасов в каждом регионе:**

In [12]:
mean_geo_0 = geo_0['product'].mean()
mean_geo_1 = geo_1['product'].mean()
mean_geo_2 = geo_2['product'].mean()

print('Средний запас сырья в каждом регионе:')
print('geo_0 mean: {:.1f}\ngeo_1 mean: {:.1f}\ngeo_2 mean: {:.1f}'
      .format(mean_geo_0, mean_geo_1, mean_geo_2))

Средний запас сырья в каждом регионе:
geo_0 mean: 92.5
geo_1 mean: 68.8
geo_2 mean: 95.0


**Видно, что модели предсказали на валидационных выборках средний результат, очень близкий к фактическому.**

**По известным нам данным бюджета на разработку, количеста разработанных скважин и стоимости единицы продукта найдем такое среднее число продукта, при котором добыча будет безубыточной.** 

**Безубыточная добыча, в нашем случае, это ситуация, при которой будет соблюдено условие: прибыль >= бюджет.**
**Из условия равенства прибыли и бюджета найдем точку безубыточности.** 

**Данные для расчета:**
- бюджет на разработку в регионе - 10000000000
- цена одной еденицы продукта - 450000
- количество скважин, которые будут разработаны - 200

In [13]:
budget = 10000000000
cost = 450000
count = 200

mean_break_even = budget / (cost * count)
print('Точка безубыточности: {:.1f}'.format(mean_break_even))

Точка безубыточности: 111.1


**Видно, что минимальное среднее количество запасов, необходимых для безубыточной разработки во всех трех случаях больше, чем среднее по региону.** 

**Создадим функцию расчета прибыли, которая на вход будет принимать: целевой признак, предсказанный результат, бюджет, цену за единицу продукта и кол-во разрабатываемых скважин.** 

**Результат работы функции - прибыль, полученная с заданного кол-ва скважин с учетом расходов на разработку.** 

In [14]:
def revenue(target, predictions, budget, count, cost):
    probs_sorted = predictions.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    return cost * selected.sum() - budget

<a id='_4'></a>

# 4. Расчёт прибыли и рисков 

**Сбросим индексы у переменных, содержащих целевой признак.**

In [15]:
target_valid_0 = target_valid_0.reset_index(drop = True)
target_valid_1 = target_valid_1.reset_index(drop = True)
target_valid_2 = target_valid_2.reset_index(drop = True)

**Создадим функцию, в которой будет выполняться процедура bootstrap. Результатом работы функции будет массив, содержащий значения прибыли для 200 скважин из выборки, размером в 500, с наибольшим количеством содержащихся запасов.** 

In [16]:
def bootstrap(target, predictions, budget, count, cost):
    state = np.random.RandomState(12345)
    values = []
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        pred_subsample = predictions[target_subsample.index]
        values.append(revenue(target_subsample, pred_subsample, budget, count, cost))
    return values  

**Вызовем функцию для трех регионов, сохранив результат ее работы в отдельные переменные для каждого региона. Также найдем для каждого региона 95% доверительный интервал для всех значений прибыли.** 

In [17]:
%%time

values_0 = pd.Series(bootstrap(target_valid_0, predictions_0, budget, count,cost))   
confidence_interval_0 = st.t.interval(
    0.95, len(values_0)-1, values_0.mean(), values_0.sem())

values_1 = pd.Series(bootstrap(target_valid_1, predictions_1, budget, count,cost))   
confidence_interval_1 = st.t.interval(
    0.95, len(values_1)-1, values_1.mean(), values_1.sem())

values_2 = pd.Series(bootstrap(target_valid_2, predictions_2, budget, count,cost)) 
confidence_interval_2 = st.t.interval(
    0.95, len(values_2)-1, values_2.mean(), values_2.sem())

CPU times: user 16 s, sys: 0 ns, total: 16 s
Wall time: 16 s


**Найдем доверительный интервал для прогноза для каждого региона**

In [20]:
confidence_interval_00 = (values_0.quantile(0.025), values_0.quantile(0.975))
confidence_interval_01 = (values_1.quantile(0.025), values_1.quantile(0.975))
confidence_interval_02 = (values_2.quantile(0.025), values_2.quantile(0.975))

**Найдем среднее значение прибыли для каждого региона. Таже найдем вероятность убытка, как отношение количества значений отрицательной прибыли ко всем значениям.** 

In [21]:
print('geo_0:')
print("Среднее значение прибыли: {:.2f}".format(values_0.mean()))
print("95%-ый доверительный интервал для истинного среднего:", confidence_interval_0)
print("95%-ый доверительный интервал для прогноза:",confidence_interval_00)
print("Вероятность убытка: {:.1%}".format(len(values_0[values_0 < 0])/len(values_0)))
print()

print('geo_1:')
print("Среднее значение прибыли: {:.2f}".format(values_1.mean()))
print("95%-ый доверительный интервал для истинного среднего:", confidence_interval_1)
print("95%-ый доверительный интервал для прогноза:",confidence_interval_01)
print("Вероятность убытка: {:.1%}".format(len(values_1[values_1 < 0])/len(values_1)))
print()

print('geo_2:')
print("Среднее значение прибыли: {:.2f}".format(values_2.mean()))
print("95%-ый доверительный интервал для истинного среднего:", confidence_interval_2)
print("95%-ый доверительный интервал для прогноза:",confidence_interval_02)
print("Вероятность убытка: {:.1%}".format(len(values_2[values_2 < 0])/len(values_2)))

geo_0:
Среднее значение прибыли: 454346440.87
95%-ый доверительный интервал для истинного среднего: (438270546.43430966, 470422335.3144259)
95%-ый доверительный интервал для прогноза: (-68238152.14542226, 949030673.1162069)
Вероятность убытка: 4.1%

geo_1:
Среднее значение прибыли: 507467698.25
95%-ый доверительный интервал для истинного среднего: (494285427.3708198, 520649969.1215489)
95%-ый доверительный интервал для прогноза: (103863741.50886908, 942382802.1917276)
Вероятность убытка: 0.8%

geo_2:
Среднее значение прибыли: 401350704.46
95%-ый доверительный интервал для истинного среднего: (384135973.83444786, 418565435.09549105)
95%-ый доверительный интервал для прогноза: (-142075725.16134351, 932082378.7618071)
Вероятность убытка: 7.9%


<a id='_5'></a>

# 5. Общий вывод

Опираясь на изложенные выше данные, можно предложить к разработке регион "geo_1" по ряду причин:
- регион имеет самую низкую вероятность убытка из всех рассмотренных регионов
- регион имеет самую высокую среднюю предсказанную прибыль
- нижняя граница доверительного интервала истинного среднего выше, чем верхние границы в двух других регионах, что гарантирует получение более высокой прибыли
- интервал прогноза для данного региона имеет положительные границы, в отличие от двух других (отрицательная нижняя граница), что говорит о малой вероятности убытков при добыче

Таже следует заметить, что первый и последний регионы не могут быть предложены к разработке, исходя изусловия задачи (вероятность убытков должна быть меньше 2.5%)

#### [К началy](#_0)