# Выбор локации для скважины

Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. По
Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируем возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-подготовка-данных" data-toc-modified-id="Загрузка-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Обучение-и-проверка-модели" data-toc-modified-id="Обучение-и-проверка-модели-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение и проверка модели</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Подготовка-к-расчёту-прибыли" data-toc-modified-id="Подготовка-к-расчёту-прибыли-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Подготовка к расчёту прибыли</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Расчёт-прибыли-и-рисков" data-toc-modified-id="Расчёт-прибыли-и-рисков-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Расчёт прибыли и рисков</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from numpy.random import RandomState
from scipy import stats as st
import warnings
warnings.filterwarnings('ignore')

RS = 12345

In [2]:
df_0 = pd.read_csv('/datasets/geo_data_0.csv')
df_1 = pd.read_csv('/datasets/geo_data_1.csv')
df_2 = pd.read_csv('/datasets/geo_data_2.csv')

Для удобства в дальнейшей работе создадим список, включающий в себя исходные данные:

In [3]:
dfs = [df_0, df_1, df_2]

Создадим функцию `data_info`, выводящую на экран информацию о таблице:

In [4]:
def data_info(data):
    print(f'Выведем первые 5 строк таблицы:')
    display(data.head())
    print(f'Выведем последние 5 строк таблицы:')
    display(data.tail())
    print(f'Выведем случайные 5 строк таблицы:')
    display(data.sample(5, random_state=RS))
    print(f'Выведем основную информацию о таблице:')
    data.info()
    print()
    print(f'Выведем описательные статистики таблицы:')
    display(data.describe().T)
    print(f'Проверим таблицу на пропуски: ')
    display(data.isna().sum())
    print(f'Проверим таблицу на дубликаты: ')
    display(data.duplicated().sum())

Рассмотрим основную информацию о таблицах:

In [5]:
for i in range(len(dfs)):
    print(f'Информация о таблице с данными для {i + 1}-го региона: \n ')
    data_info(dfs[i])

Информация о таблице с данными для 1-го региона: 
 
Выведем первые 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Выведем последние 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764
99999,1CWhH,1.764754,-0.266417,5.722849,149.633246


Выведем случайные 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
71751,7Z2gx,0.94897,-0.057547,2.095727,10.038645
80493,b2HU8,0.992974,0.206671,-0.142278,114.551489
2655,Y0dXD,1.199854,-0.563356,-1.852991,132.603635
53233,Mje59,0.691422,-0.433347,0.564974,169.072125
91141,yqXxU,0.420772,0.972638,0.73619,122.32518


Выведем основную информацию о таблице:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

Выведем описательные статистики таблицы:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
f0,100000.0,0.500419,0.871832,-1.408605,-0.07258,0.50236,1.073581,2.362331
f1,100000.0,0.250143,0.504433,-0.848218,-0.200881,0.250252,0.700646,1.343769
f2,100000.0,2.502647,3.248248,-12.088328,0.287748,2.515969,4.715088,16.00379
product,100000.0,92.5,44.288691,0.0,56.497507,91.849972,128.564089,185.364347


Проверим таблицу на пропуски: 


id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Проверим таблицу на дубликаты: 


0

Информация о таблице с данными для 2-го региона: 
 
Выведем первые 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Выведем последние 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364
99999,relB0,-3.426139,-7.794274,-0.003299,3.179103


Выведем случайные 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
71751,aTbUt,-0.371866,-1.862494,3.00221,80.859783
80493,CK34V,9.015122,-13.881455,1.995363,53.906522
2655,ioXCO,-6.507568,-4.817448,1.003449,30.132364
53233,xk6tF,14.560845,-10.667755,1.995175,53.906522
91141,F9AmG,6.090476,-4.494723,0.013815,0.0


Выведем основную информацию о таблице:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

Выведем описательные статистики таблицы:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
f0,100000.0,1.141296,8.965932,-31.609576,-6.298551,1.153055,8.621015,29.421755
f1,100000.0,-4.796579,5.119872,-26.358598,-8.267985,-4.813172,-1.332816,18.734063
f2,100000.0,2.494541,1.703572,-0.018144,1.000021,2.011479,3.999904,5.019721
product,100000.0,68.825,45.944423,0.0,26.953261,57.085625,107.813044,137.945408


Проверим таблицу на пропуски: 


id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Проверим таблицу на дубликаты: 


0

Информация о таблице с данными для 3-го региона: 
 
Выведем первые 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


Выведем последние 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
99995,4GxBu,-1.777037,1.12522,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.08008
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253
99999,V9kWn,-2.551421,-2.025625,6.090891,102.775767


Выведем случайные 5 строк таблицы:


Unnamed: 0,id,f0,f1,f2,product
71751,DMlgl,-1.444717,-3.861599,2.225805,61.212375
80493,tbrRC,-1.418617,1.276544,-0.976433,41.850118
2655,JRs1w,-4.587649,-0.413199,1.649268,57.776581
53233,bidOx,1.871584,1.619101,4.273555,100.053761
91141,AcBBB,-2.028785,4.128167,6.089547,109.897122


Выведем основную информацию о таблице:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

Выведем описательные статистики таблицы:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
f0,100000.0,0.002023,1.732045,-8.760004,-1.162288,0.009424,1.158535,7.238262
f1,100000.0,-0.002081,1.730417,-7.08402,-1.17482,-0.009482,1.163678,7.844801
f2,100000.0,2.495128,3.473445,-11.970335,0.130359,2.484236,4.858794,16.739402
product,100000.0,95.0,44.749921,0.0,59.450441,94.925613,130.595027,190.029838


Проверим таблицу на пропуски: 


id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Проверим таблицу на дубликаты: 


0

Согласно документации к данным:
* **id** — уникальный идентификатор скважины;
* **f0, f1, f2** — три признака точек (неважно, что они означают, но сами признаки значимы);
* **product** — объём запасов в скважине (тыс. баррелей).

Столбец `id` не несет какой-либо полезной информации - удалим его:

In [6]:
for df in dfs:
    df.drop(['id'], axis=1, inplace=True)

### Вывод

Предварительно можно утверждать, что имеющихся данных **достаточно** для построения модели машинного обучения и дальнейшего исследования.

Данные для каждого региона полные, дубликаты отсутствуют.

## Обучение и проверка модели

Создадим функцию `data_split`, возвращающую словарь с *train* и *valid* данными для их дальнейшего применения:

In [7]:
def data_split(data):
    data_train, data_valid = train_test_split(data, test_size = 0.25, random_state=RS)
    
    features_train = data_train.drop(['product'], axis=1)
    target_train = data_train['product']
    
    features_valid = data_valid.drop(['product'], axis=1)
    target_valid = data_valid['product']
    
    
    return {'features_train': features_train,
            'target_train': target_train,
            'features_valid': features_valid,
            'target_valid': target_valid,
            'data_train': data_train,
            'data_valid': data_valid
           }

Создадим функцию `model_predict`, которая обучает модель и возвращает массив с предсказаниями:

In [8]:
def model_predict(features_train, target_train, features_valid):
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    return predictions

Создадим функцию `model_analysis`, выводящую на экран значение метрики **RMSE** для обученной модели и средний запас предсказанного сырья:

In [9]:
def model_analysis(data):
    features_valid = data_split(data).get('features_valid')
    target_valid = data_split(data).get('target_valid')
    
    features_train = data_split(data).get('features_train')
    target_train = data_split(data).get('target_train')
    
    predictions = model_predict(features_train, target_train, features_valid)
    
    print(f'Средний запас предсказанного сырья = {predictions.mean()}')
    print(f'RMSE = {mean_squared_error(target_valid, predictions) ** 0.5}')
    print()

Исследуем каждый регион:

In [10]:
for i in range(len(dfs)):
    print(f'Информация для {i + 1}-го региона: ')
    model_analysis(dfs[i])

Информация для 1-го региона: 
Средний запас предсказанного сырья = 92.59256778438038
RMSE = 37.5794217150813

Информация для 2-го региона: 
Средний запас предсказанного сырья = 68.728546895446
RMSE = 0.893099286775616

Информация для 3-го региона: 
Средний запас предсказанного сырья = 94.96504596800489
RMSE = 40.02970873393434



Заполним список `predictions` массивами, содержащими предсказания модели каждого региона:

In [11]:
predictions = [model_predict(data_split(df).get('features_train'),
                  data_split(df).get('target_train'),
                  data_split(df).get('features_valid')
                  ) for df in dfs]

### Вывод

Исследование показывает, что наибольшее среднее значение запаса предсказанного сырья у **3-го** региона - **95 тыс. бар.**. Однако данный регион имеет и наибольший разброс (метрика **RMSE**) равный **40 тыс. бар.**.

В свою же очередь **2-й** регион показывает наименьшее значение среднего запаса - всего лишь **69 тыс. бар.**. Но разброс значительно меньше относительно других регионов, что позволяет более объективно судить о регионе. Он составляет приблизительно **1 тыс. бар.**

## Подготовка к расчёту прибыли

Согласно условиям задачи:
* При разведке региона исследуют **500** точек, из которых с помощью машинного обучения выбирают **200 лучших** для разработки.
* Бюджет на разработку скважин в регионе — **10 млрд рублей**.
* При нынешних ценах один баррель сырья приносит **450 рублей** дохода. Доход с каждой единицы продукта составляет **450 тыс. рублей**, поскольку объём указан в тысячах баррелей.
* После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше **2.5%**. Среди них выбирают регион с наибольшей средней прибылью.

Запишем основные константы для расчёта прибыли:

In [12]:
BUDGET = 10 ** 10
RUB_PER_BAR = 450
RUB_PER_IU = RUB_PER_BAR * 1000
POINTS_FOR_BUDGET = 200
PROB_RISK = 0.025

Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины:

In [13]:
print(f'{round(BUDGET / (RUB_PER_IU * POINTS_FOR_BUDGET))} тыс. бар.')

111 тыс. бар.


### Вывод

Расчёт показал, что достаточный объем сырья для безубыточной разработки новой скважины составляет порядка **111 тыс. бар.**. Однако ни один из регионов в среднем не показывает такого объема.

## Расчёт прибыли и рисков 

Создадим функцию `revenue`, возвращающую значение прибыли:

In [14]:
def revenue(target, probabilities, count):
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    return (RUB_PER_IU * selected.sum() - BUDGET) / 10 ** 9

Заполним список `df_valid` *valid* данными для дальнейшего использования:

In [15]:
df_valid = [data_split(df).get('data_valid') for df in dfs]

Рассчитаем прибыль для каждого региона:

In [16]:
for i in range(len(dfs)):
    df_valid[i]['predictions'] = predictions[i]
    print(f'Прибыль для {i + 1}-го региона:')
    print((revenue(data_split(dfs[i]).get('target_valid'), df_valid[i]['predictions'], 200)), 'млрд. руб.', '\n')

Прибыль для 1-го региона:
3.3208260431398524 млрд. руб. 

Прибыль для 2-го региона:
2.4150866966815108 млрд. руб. 

Прибыль для 3-го региона:
2.7103499635998327 млрд. руб. 



In [17]:
state = np.random.RandomState(12345)

Создадим функцию `bootstrap`, применяющую данную технику к данным:

In [18]:
def bootstrap(target, predictions):
    values = []
    
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        probs_subsample = predictions[target_subsample.index]
        values.append(revenue(target_subsample, probs_subsample, POINTS_FOR_BUDGET))
    
    values = pd.Series(values)
    mean = values.mean()
    confidence_interval = [values.quantile(PROB_RISK).round(2), values.quantile(1 - PROB_RISK).round(2)]
    print(f'Среднее значение прибыли: {mean}, млрд. руб.')
    print(f'Доверительный интервал: {confidence_interval}')
    print(f'Риски убытков: {(values < 0).mean():.0%}')
    print()

Получим информацию для каждого региона:

In [19]:
for i in range(len(dfs)):
    print(f'Информация для 200 случайных скважин из {i + 1}-го региона: ')
    bootstrap(data_split(dfs[i]).get('target_valid'), df_valid[i]['predictions'])

Информация для 200 случайных скважин из 1-го региона: 
Среднее значение прибыли: 0.42593852691059236, млрд. руб.
Доверительный интервал: [-0.1, 0.95]
Риски убытков: 6%

Информация для 200 случайных скважин из 2-го региона: 
Среднее значение прибыли: 0.5182594936973248, млрд. руб.
Доверительный интервал: [0.13, 0.95]
Риски убытков: 0%

Информация для 200 случайных скважин из 3-го региона: 
Среднее значение прибыли: 0.4201940053440501, млрд. руб.
Доверительный интервал: [-0.12, 0.99]
Риски убытков: 6%



### Вывод

Проведя анализ полученных данных, можно сделать вывод о том, что наиболее переспективным будет использование **2-го** региона.

На примере 200 точек с лучшими показателями прибыли, выбранных из 500 случайных точек были получены наибольшие значения прибыли - **520 млн. руб** и наименьший риск убытков, стремящийся к **нулю**.

## Общий вывод

Для данного исследования была использована модель **Логистической регрессии**.

Значение достаточного объёма сырья для безубыточной разработки новой скважины: **111 тыс. бар.**

Значения прибыли для каждого региона:
* 1-й регион: **3.3 млрд. руб.**
* 2-й регион: **2.4 млрд. руб.**
* 3-й регион: **2.7 млрд. руб.**

Для расчета прибыли и рисков в 200 лучших из 500 случайных точек была использована техника **Bootstrap**.

Наилучший результат показал **второй** регион, имеющий наибольшее значение средней прибыли, порядка **500 млн. руб** и наименьшее значение риска убытков, стремящегося к **нулю**. Остальные показатели регионов:
* 1-й регион: Среднее значение прибыли - **418 млн. руб.**, Риски убытков - **7%**
* 3-й регион: Среднее значение прибыли - **428 млн. руб.**, Риски убытков - **6%**