# Выбор локации для скважины

Для нефтедобывающей компании-заказчика на представленнх данных о месторождениях нефти в трех регионах с измеренными качеством и объемом запасов необходимо построить модель, помогающую определить регион, в котором бурение новой скважины принесет наибольшую прибыль.

**Ход выбора локации:**

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
# загружаю необходимые библиотеки 
import pandas as pd
import numpy as np
from scipy import stats as st
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
display(data_0)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [3]:
print('data_0 кол-во дубликатов', data_0.duplicated().sum())
print('data_0 кол-во пропусков')
print(data_0.isna().sum())

data_0 кол-во дубликатов 0
data_0 кол-во пропусков
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [4]:
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
display(data_1)

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [5]:
print('data_1 кол-во дубликатов', data_1.duplicated().sum())
print('data_1 кол-во пропусков')
print(data_1.isna().sum())

data_1 кол-во дубликатов 0
data_1 кол-во пропусков
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


In [6]:
data_2 = pd.read_csv('/datasets/geo_data_2.csv')
display(data_2)

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [7]:
print('data_2 кол-во дубликатов', data_2.duplicated().sum())
print('data_2 кол-во пропусков')
print(data_2.isna().sum())

data_2 кол-во дубликатов 0
data_2 кол-во пропусков
id         0
f0         0
f1         0
f2         0
product    0
dtype: int64


**Вывод**

Загрузила три датасета трех регионов data_0, data_1 и data_2, проверила на пропуски и дубликаты, их нигде не оказалось. Данные подготовлены к работе.

## Обучение и проверка модели

In [8]:
# разбиваю датасеты на тестовые и валидационные выборки
data_0_train, data_0_valid = train_test_split(data_0, test_size=0.25, random_state=12345)
print('data_0')
print(data_0_train.shape)
print(data_0_valid.shape)
print()

data_1_train, data_1_valid = train_test_split(data_1, test_size=0.25, random_state=12345)
print('data_1')
print(data_1_train.shape)
print(data_1_valid.shape)
print()

data_2_train, data_2_valid = train_test_split(data_2, test_size=0.25, random_state=12345)
print('data_2')
print(data_2_train.shape)
print(data_2_valid.shape)
print()

data_0
(75000, 5)
(25000, 5)

data_1
(75000, 5)
(25000, 5)

data_2
(75000, 5)
(25000, 5)



In [9]:
# делю признаки на тестовую и валидационную выборку
features_0_train = data_0_train.loc[:,'f0':'f2']
target_0_train = data_0_train['product']
features_0_valid = data_0_valid.loc[:,'f0':'f2']
target_0_valid = data_0_valid['product']

features_1_train = data_1_train.loc[:,'f0':'f2']
target_1_train = data_1_train['product']
features_1_valid = data_1_valid.loc[:,'f0':'f2']
target_1_valid = data_1_valid['product']

features_2_train = data_2_train.loc[:,'f0':'f2']
target_2_train = data_2_train['product']
features_2_valid = data_2_valid.loc[:,'f0':'f2']
target_2_valid = data_2_valid['product']

In [10]:
# обучаю модель, получаю предсказания на валидационных выборках, получаю значения rmse и средние значения по регионам

def learning(features_train, target_train, features_valid, target_valid, data):
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    mse = mean_squared_error(target_valid, predictions)
    rmse = mse ** 0.5
    avg = data['product'].mean()
    print('RMSE', rmse)
    print('среднее значение', avg)
    return predictions
    
print('РЕГИОН 0')
predictions_0 = learning(features_0_train, target_0_train, features_0_valid, target_0_valid, data_0)
display(predictions_0)
print()

print('РЕГИОН 1')
predictions_1 = learning(features_1_train, target_1_train, features_1_valid, target_1_valid, data_1)
display(predictions_1)
print()

print('РЕГИОН 1')
predictions_2 = learning(features_2_train, target_2_train, features_2_valid, target_2_valid, data_2)
display(predictions_2)
print()

РЕГИОН 0
RMSE 37.5794217150813
среднее значение 92.50000000000001


array([ 95.89495185,  77.57258261,  77.89263965, ...,  61.50983303,
       118.18039721, 118.16939229])


РЕГИОН 1
RMSE 0.893099286775616
среднее значение 68.82500000000002


array([ 82.66331365,  54.43178616,  29.74875995, ..., 137.87934053,
        83.76196568,  53.95846638])


РЕГИОН 1
RMSE 40.02970873393434
среднее значение 95.00000000000004


array([ 93.59963303,  75.10515854,  90.06680936, ...,  99.40728116,
        77.77991248, 129.03241718])




In [11]:
rmse_0 = 37.5794217150813
avg_0 = 92.50000000000001

rmse_1 = 0.893099286775616
avg_1 = 68.82500000000002

rmse_2 = 40.02970873393434
avg_2 = 95.00000000000004

**Вывод**

Средние значения по регионам 0 и 2 отличаются незначительно, в регионе 1 среднее значение самое низкое, но в нем самый низкий результат rmse, следовательно, результаты модели выше, чем в друх других регионах. В регионах 0 и 2 высокий уровень rmse.

## Подготовка к расчёту прибыли

In [12]:
# сохраняю ключевые значения для расчетов в переменных
BUDGET = 10000 # бюджет на резработку скважин в герионе в миллионах рублей 
INCOME_PER_UNIT = 0.45 # дохов в миллионах рублей за единицу продукта
INVESTIGATED_WELLS = 500 # изучаемые скважины
BEST_WELLS = 200 # наилучшие для разработки скважины

Чтобы посчитать достаточный объем сырья для безубыточной разработки скважины, нужно, чтобы произведение количества сырья на стоимость одной его единицы, превышало выделенный на нее бюджет.

In [15]:
# Так как выделенный бюджет предполагается потратить на разработку 200 скважин, следовательно, 
# на одну скважину можно выделить в среднем сумму, равную бюджету, деленному на количество разрабатываемых скважин

ONE_WELL_BUDGET = BUDGET / BEST_WELLS
print('бюджет на разработку одной скважины', ONE_WELL_BUDGET, 'миллионов рублей')

# так как за 1 единицу сырья доход соствляет 0.45 млн рублей, следовательно,
# достаточный объем сырья должен превышать число, равно бюджеты одной скважины, деленный на доход от продажи 1 единицы сырья

ONE_WELL_VOLUME = ONE_WELL_BUDGET / INCOME_PER_UNIT
print('достаточный объем должен привышать', ONE_WELL_VOLUME, 'тонн сырья')

бюджет на разработку одной скважины 50.0 миллионов рублей
достаточный объем должен привышать 111.11111111111111 тонн сырья


In [16]:
# считаю средний запас сырья в одной скважине по региону
print('Регион 0', avg_0)
print('Регион 1', avg_1)
print('Регион 2', avg_2)

Регион 0 92.50000000000001
Регион 1 68.82500000000002
Регион 2 95.00000000000004


**Вывод**

Если считать среднестатическую скважину по каждому региону, то у каждой из них не хватает достаточного объема, чтобы быть безубыточной. Поэтому нужно выбирать с помощью машинного обучения те самые 200 скважин с наилучшим результатом, чтобы достичь максимальной прибыли.

Создаю функцию расчета прибыли.

In [17]:
# функция расчета прибыли по выбранным скважинам с региона
def profit(data, predictions, count):
    # формирую из полученных предсказаний датасет скважин с максимальными значениями и создаю столбец с индексами 
    pred = pd.Series(predictions).sort_values(ascending=False).reset_index()[:count] 
    pred.rename(columns = {'index' : 'index', 0 : 'pred'}, inplace = True)
    # преобразую датасет с реальными значениями, добавляю столбец индексов и удаляю столбцы с признаками
    data = data.reset_index().loc[:,['index', 'product']]
    
    # формирую таблицу с наибольшими значениями предсказаний и соотвествующими им реальными значениями методом merge
    table = pred.merge(data, on='index', how='left')
    
    # суммирую реальные значения и получаю общий объем
    total_volume = table['product'].sum()
    # из произведения общего объема и стоимости одной единицы объема сырья отнимаю бюджет - получаю прибыль
    income_region = total_volume * INCOME_PER_UNIT - BUDGET
    return income_region

## Расчёт прибыли и рисков 

In [23]:
# регион 0
STATE = np.random.RandomState(12345)
values_0 = []

# predictions_0 - это список предсказаний

for i in range(1000):
    predictions_0_samples = pd.Series(predictions_0).reset_index(drop=True).sample(n=500, replace=True, random_state=STATE)
    profit_0 = profit(data_0_valid.reset_index(drop=True), predictions_0_samples, 200)
    values_0.append(profit_0)

values_0 = pd.Series(values_0)
mean_values_0 = values_0.mean()
interval_0 = st.t.interval(alpha=0.95, df=(len(values_0)-1), loc=values_0.mean(), scale=values_0.sem())
lower_0 = values_0.quantile(0.025)
upper_0 = values_0.quantile(0.975)

print('РЕГИОН 0')
print('Средняя прибыль', mean_values_0, 'миллионов рублей')
print('95%-ный доверительный интервал', interval_0, 'миллионов рублей')
print('2,5%-ный квантиль', lower_0, 'миллионов рублей')
print('97,5%-ный квантиль', upper_0, 'миллионов рублей')
print('Доля отрицательной прибыли', abs(lower_0) / BUDGET * 100, '%')

РЕГИОН 0
Средняя прибыль 396.1649848023714 миллионов рублей
95%-ный доверительный интервал (379.6203151479728, 412.70965445677) миллионов рублей
2,5%-ный квантиль -111.21554589049532 миллионов рублей
97,5%-ный квантиль 909.766941553422 миллионов рублей
Доля отрицательной прибыли 1.1121554589049532 %


In [25]:
# регион 1
STATE = np.random.RandomState(12345)
values_1 = []

for i in range(1000):
    predictions_1_samples = pd.Series(predictions_1).reset_index(drop=True).sample(n=500, replace=True, random_state=STATE)
    profit_1 = profit(data_1_valid.reset_index(drop=True), predictions_1_samples, 200)
    values_1.append(profit_1)

values_1 = pd.Series(values_1)
mean_values_1 = values_1.mean()
interval_1 = st.t.interval(alpha=0.95, df=(len(values_1)-1), loc=values_1.mean(), scale=values_1.sem())
lower_1 = values_1.quantile(0.025)
upper_1 = values_1.quantile(0.975)

print('РЕГИОН 1')
print('Средняя прибыль', mean_values_1, 'миллионов рублей')
print('95%-ный доверительный интервал', interval_1, 'миллионов рублей')
print('2,5%-ный квантиль', lower_1, 'миллионов рублей')
print('97,5%-ный квантиль', upper_1, 'миллионов рублей')
print('Прибыль положительна, следовательно, доля отрицательной прибыли уже меньше 2.5%')

РЕГИОН 1
Средняя прибыль 456.04510578666117 миллионов рублей
95%-ный доверительный интервал (443.14724866390094, 468.9429629094214) миллионов рублей
2,5%-ный квантиль 33.82050939898718 миллионов рублей
97,5%-ный квантиль 852.2894538660361 миллионов рублей
Прибыль положительна, следовательно, доля отрицательной прибыли уже меньше 2.5%


In [26]:
# регион 2
STATE = np.random.RandomState(12345)
values_2 = []

for i in range(1000):
    predictions_2_samples = pd.Series(predictions_2).reset_index(drop=True).sample(n=500, replace=True, random_state=STATE)
    profit_2 = profit(data_2_valid.reset_index(drop=True), predictions_2_samples, 200)
    values_2.append(profit_2)

values_2 = pd.Series(values_2)
mean_values_2 = values_2.mean()
interval_2 = st.t.interval(alpha=0.95, df=(len(values_2)-1), loc=values_2.mean(), scale=values_2.sem())
lower_2 = values_2.quantile(0.025)
upper_2 = values_2.quantile(0.975)

print('РЕГИОН 2')
print('Средняя прибыль', mean_values_2, 'миллионов рублей')
print('95%-ный доверительный интервал', interval_2, 'миллионов рублей')
print('2,5%-ный квантиль', lower_2, 'миллионов рублей')
print('97,5%-ный квантиль', upper_2, 'миллионов рублей')
print('Доля отрицательной прибыли', abs(lower_2) / BUDGET * 100, '%')

РЕГИОН 2
Средняя прибыль 404.4038665683571 миллионов рублей
95%-ный доверительный интервал (387.4457974712807, 421.3619356654335) миллионов рублей
2,5%-ный квантиль -163.350413395599 миллионов рублей
97,5%-ный квантиль 950.3595749238 миллионов рублей
Доля отрицательной прибыли 1.63350413395599 %


**Вывод**

Таким образом, так как самые высокие показатели у региона 2 (и средняя прибыль, и доверительный интервал, и самое низкое значение рисков), следовательно, рекомендуется для разработки скважин использовать регион 2.

## Общий вывод

**Цель проекта**

Предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Необходимо постройть модель для определения региона, где добыча принесёт наибольшую прибыль и проанализировать возможную прибыль и риски техникой Bootstrap.

**Полученные данные и подготовка**
  
Три датасета трех регионов по 100 000 строк, для каждого из которых даны id скважины, обучающие признаки f0, f1, f2 и целевой признак product, означающий количество сырья на конктретной скважине.

Пропусков и дубликатов в данных не обнаружено.

**Обучение и проверка модели для каждого региона**

Разбила каждый датасет на две выборки - обучающую и валидационную, обозначила обучающие и целевой признаки. Валидационная выборка составила 25%.
Обучила модель, использовав LiniarRegression, и получила предсказания по всем трем регионам.
- Предсказания хранятся в переменных:
     - predictions_0
     - predictions_1
     - predictions_2
- Правильные ответы хранятся в переменных:
     - target_0_valid
     - target_1_valid
     - target_2_valid
Рассчитала RMSE модели и средний запас предсказанного сырья для каждого региона:

    регион 0
    RMSE_0 37.5794217150813
    среднее значение  92.50000000000001

    регион 1
    RMSE_1 0.893099286775616
    среднее значение  68.82500000000002

    регион 2
    RMSE_2 40.02970873393434
    среднее значение  95.00000000000004

**Подготовка к расчету прибыли**

Сохранила ключевые значения в переменных:
    
    budget = 10000 - бюджет на резработку скважин в герионе в миллионах рублей 
    income_per_unit = 0.45 - дохов в миллионах рублей за единицу продукта
    investigated_wells = 500 - изучаемые скважины
    best_wells = 200 - наилучшие для разработки скважины
    
Рассчитала достаточный объем сырья безубыточной разработки новой скважины:

    Так как на разработку 200 скважин выделено 10 млрд рублей, следовательно на одну скважину в среднем выделяется 50 млн рублей (10 млрд / 200 скважин). Так как стоимость одной единицы сырья составляет 0.45 млн рублей (450 тысяч рублей), то для безубыточной разработки требуется не менее 111.1 тонн сырья (50 млн руб / 0.45 млн руб)

Сравнила полученный объём сырья со средним запасом в каждом регионе:
    
    Средний запас в среднестатистической скважине ниже необходимого объема. 
    
Далее создала функцию подсчета прибыли. Наилучшим предсказаниям нашла соответсвующие правильные значения объема, создала таблицу, объединяющию предсказания и реальные значения. Суммировала реальные значения (total_volume), умножила результат на доход с одной единицы продукта и от произведения отняла бюджет. Результат - прибыль с одного региона.

**Расчет прибыли и рисков для каждого региона**

Техникой Bootstrap с 1000 выборками по 500 скважин выделила 200 с наивысшей прибылью. Применила функцию подсчета прибыли и собрала все значения прибыли в список values. Нашла его среднее - это средняя прибыль по региону (наиболее прибыльных скважин), определила 95%-ный доверительный и интервал и расчитала 2,5%-ный риск убытков по трем регионам:

    РЕГИОН 0
    Средняя прибыль 396.1649848023714 миллионов рублей
    95%-ный доверительный интервал (379.6203151479728, 412.70965445677) миллионов рублей
    2,5%-ный квантиль -111.21554589049532 миллионов рублей
    97,5%-ный квантиль 909.766941553422 миллионов рублей
    Доля отрицательной прибыли 1.1121554589049532 %

    РЕГИОН 1
    Средняя прибыль 456.04510578666117 миллионов рублей
    95%-ный доверительный интервал (443.14724866390094, 468.9429629094214) миллионов рублей
    2,5%-ный квантиль 33.82050939898718 миллионов рублей
    97,5%-ный квантиль 852.2894538660361 миллионов рублей
    Прибыль положительна, следовательно, доля отрицательной прибыли уже меньше 2.5%

    РЕГИОН 2
    Средняя прибыль 404.4038665683571 миллионов рублей
    95%-ный доверительный интервал (387.4457974712807, 421.3619356654335) миллионов рублей
    2,5%-ный квантиль -163.350413395599 миллионов рублей
    97,5%-ный квантиль 950.3595749238 миллионов рублей
    Доля отрицательной прибыли 1.63350413395599 %

**Общий вывод**

Так как у каждого региона доля отрицательной прибыли везде меньше 2.5%, следовательно, расматривает все три региона и выбираем для разработки регион с наибольшей средней прибылью. Это регион 1 с результатом средней прибыли более 456 млн.