# Определение наиболее выгодного региона нефтедобычи

**Описание проекта:**

Вы работаете в добывающей компании «ГлавРосГосНефть». Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Нужно решить, где бурить новую скважину.

**Задача:**

1. Построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.
2. Проанализировать возможную прибыль и риски техникой *Bootstrap.*

Таким образом, исследование пройдёт в четыре этапа:

1. Загрузка и подготовка данных.
2. Обучение и проверка модели.
3. Подготовка к расчету прибыли.
4. Расчет прибыли и рисков.


## Загрузка и подготовка данных

### Изучение данных из файла

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from scipy import stats as st


In [2]:
region_0 = pd.read_csv('/datasets/geo_data_0.csv')
region_1 = pd.read_csv('/datasets/geo_data_1.csv')
region_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
regions = [region_0, region_1, region_2]
region_num = 0
for region in regions:
    print()
    print('Регион', region_num, "\n")
    print('Сводная информация о таблице:', "\n")
    print(region.info())
    print("\n", 'Первые пять строк таблицы:', "\n")
    display(region.head())
    print("\n", 'Статистические данные:', "\n")
    display(region.describe()) 
    print("\n", 'Дубликаты:', region.duplicated().sum(), "\n")
    region_num += 1


Регион 0 

Сводная информация о таблице: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

 Первые пять строк таблицы: 



Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



 Статистические данные: 



Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347



 Дубликаты: 0 


Регион 1 

Сводная информация о таблице: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

 Первые пять строк таблицы: 



Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



 Статистические данные: 



Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408



 Дубликаты: 0 


Регион 2 

Сводная информация о таблице: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

 Первые пять строк таблицы: 



Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



 Статистические данные: 



Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838



 Дубликаты: 0 



**Вывод** 

Представлено три файла с информацией по трем регионам. Каждый файл содержит таблицы с данными о 10 000 месторождений, в которых измерили качество нефти и объем ее запасов.

Каждая таблица содержит 5 столбцов (1 столбец имеет тип данных object, 4 столбца float).

Пропущенные значения и дубликаты не обнаружены.

Средние и медианные значения в таблицах близки, следовательно выбросы маловероятны.

Признаки:
*	`id` — уникальный идентификатор скважины;     
*   `f0`       
*   `f1` 
*   `f2` 

Целевой признак:
*	`product` — объём запасов в скважине (тыс. баррелей).

### Подготовка данных

Признак  **id** (уникальный идентификатор скважины) является лишним, так как он уникален. Создадим переменные без него по каждому региону.

In [4]:
region_0_drop = region_0.drop('id', axis=1)
region_1_drop = region_1.drop('id', axis=1)
region_2_drop = region_2.drop('id', axis=1)
print(region_0_drop.shape)
region_0_drop.head()

(100000, 4)


Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647
3,-0.032172,0.139033,2.978566,168.620776
4,1.988431,0.155413,4.751769,154.036647


## Обучение и проверка модели

### Разделение данных на выборки

Создадим переменные для признаков и целевого признака для  обучающей и валидационной выборки по каждому региону. Для этого создадим функцию.

In [5]:
def split (region):
    features = region.drop('product', axis=1)
    target = region['product']
    
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345)
      
    return features_train, features_valid, target_train, target_valid   

In [6]:
features_train_0, features_valid_0, target_train_0, target_valid_0 = split(region_0_drop)
features_train_1, features_valid_1, target_train_1, target_valid_1 = split(region_1_drop)
features_train_2, features_valid_2, target_train_2, target_valid_2 = split(region_2_drop)

print(features_train_0.shape)
print(features_valid_0.shape)
print(target_train_0.shape)
print(target_valid_0.shape)

(75000, 3)
(25000, 3)
(75000,)
(25000,)


### Обучение и проверка модели

In [7]:
def model_fit(features_train, features_valid, target_train, target_valid):
    
    model = LinearRegression() 
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)

    rmse = mean_squared_error(target_valid, predicted_valid)**0.5 
    mean_pred_product = predicted_valid.mean()
    
    return predicted_valid, rmse, mean_pred_product

In [8]:
predicted_valid_0, rmse_0, mean_pred_pr_0 = model_fit(features_train_0, features_valid_0, target_train_0, target_valid_0)
predicted_valid_1, rmse_1, mean_pred_pr_1 = model_fit(features_train_1, features_valid_1, target_train_1, target_valid_1)
predicted_valid_2, rmse_2, mean_pred_pr_2 = model_fit(features_train_2, features_valid_2, target_train_2, target_valid_2)
print('Регион 0:' , "\n", '* средний запас предсказанного сырья -', round(mean_pred_pr_0, 2),
      "\n", '* RMSE модели -', round(rmse_0, 2), "\n") 
print('Регион 1:' , "\n", '* средний запас предсказанного сырья -', round(mean_pred_pr_1, 2),
      "\n", '* RMSE модели -', round(rmse_1, 2), "\n")       
print('Регион 2:' , "\n", '* средний запас предсказанного сырья -', round(mean_pred_pr_2, 2),
      "\n", '* RMSE модели -', round(rmse_2, 2), "\n")       

Регион 0: 
 * средний запас предсказанного сырья - 92.59 
 * RMSE модели - 37.58 

Регион 1: 
 * средний запас предсказанного сырья - 68.73 
 * RMSE модели - 0.89 

Регион 2: 
 * средний запас предсказанного сырья - 94.97 
 * RMSE модели - 40.03 



Таким образом, наилучший прогноз модель дала в **регионе 1** (RMSE модели - 0.89). 

## Подготовка к расчёту прибыли

Введем переменные для расчетов.

In [9]:
BUDGET = 10000000000 #бюджет на разработку
BOREHOLE_RESEARCH = 500 #исследуемые скважины
BOREHOLE_BEST = 200 #лучшие скважины для разработки
COST_UNIT_PROD = 450000 #стоимость единицы сырья (1 тыс. баррелей)

Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины. 

In [10]:
min_volume_prod = BUDGET / BOREHOLE_BEST / COST_UNIT_PROD
round(min_volume_prod, 3)

111.111

Минимальный объем сырья в скважине для безубыточной разработки составляет 111 тыс. баррелей, средний запас предсказанного сырья по всем трем регионам меньше минимального объема, следовательно необходимо определить скважины с высокими запасами нефти.

Напишим функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели.

In [11]:
def profit(target, predicted, count):
    target = pd.Series(target).reset_index(drop=True)
    predicted = pd.Series(predicted).reset_index(drop=True)
    predicted_sorted = predicted.sort_values(ascending=False)
    selected = target[predicted_sorted.index][:count].sum()
    profit =  selected * COST_UNIT_PROD - BUDGET
    return profit

## Расчёт прибыли и рисков 

Применим технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли. Найдем среднюю прибыль, 95%-й доверительный интервал и риск убытков.

In [12]:
target_valid_0 = pd.Series(target_valid_0)
predicted_valid_0 = pd.Series(predicted_valid_0)

target_valid_1 = pd.Series(target_valid_1)
predicted_valid_1 = pd.Series(predicted_valid_1)

target_valid_2 = pd.Series(target_valid_2)
predicted_valid_2 = pd.Series(predicted_valid_2)

def bootstrap(target, predicted):
 
    state = np.random.RandomState(12345)
    values =[]
 
    for i in range(1000):
        target_subsample = target.sample(BOREHOLE_RESEARCH, random_state=state, replace=True)
        probs_subsample = predicted[target_subsample.index]
        values.append(profit(target_subsample, probs_subsample, BOREHOLE_BEST))
    
    values = pd.Series(values)
    mean = values.mean()
    risk = (values < 0).mean()
    
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
 
    return mean, risk, lower, upper
    


In [13]:
mean_0, risk_0, lower_0, upper_0 = bootstrap(target_valid_0.reset_index(drop=True), predicted_valid_0)
mean_1, risk_1, lower_1, upper_1 = bootstrap(target_valid_1.reset_index(drop=True), predicted_valid_1)
mean_2, risk_2, lower_2, upper_2 = bootstrap(target_valid_2.reset_index(drop=True), predicted_valid_2)

In [14]:
print('Регион 0:' , "\n", '* Средняя прибыль:', round(mean_0, 2), "\n", 
      '* 95%-ый доверительный интервал:', 'от ', lower_0, 'до ',  upper_0, "\n", 
      '* Вероятность убытков:', risk_0, "\n")
print('Регион 1:' , "\n", '* Средняя прибыль:', round(mean_1, 2), "\n", 
      '* 95%-ый доверительный интервал:',  'от ', lower_1, 'до ',  upper_1, "\n",
      '* Вероятность убытков:', risk_1, "\n")
print('Регион 2:' , "\n", '* Средняя прибыль:', round(mean_2, 2), "\n", 
      '* 95%-ый доверительный интервал:',  'от ', lower_2, 'до ',  upper_2, "\n",
      '* Вероятность убытков:', risk_2, "\n")

Регион 0: 
 * Средняя прибыль: 396164984.8 
 * 95%-ый доверительный интервал: от  -111215545.89049526 до  909766941.5534226 
 * Вероятность убытков: 0.069 

Регион 1: 
 * Средняя прибыль: 456045105.79 
 * 95%-ый доверительный интервал: от  33820509.39898363 до  852289453.866036 
 * Вероятность убытков: 0.015 

Регион 2: 
 * Средняя прибыль: 404403866.57 
 * 95%-ый доверительный интервал: от  -163350413.39560106 до  950359574.9237995 
 * Вероятность убытков: 0.076 



## Заключение

Проведен анализ данных о пробах нефти в трёх регионах: в каждом 10 000 месторождений, где измерено качество нефти и объём её запасов. 

Построена модель машинного обучения, которая помогла определить регион, где добыча принесёт наибольшую прибыль. 

**Результат, в разрезе регионов:**

Регион 0: 
 * средний запас предсказанного сырья - 92.59 
 * RMSE модели - 37.58 
 * Средняя прибыль: 396164984.8 
 * 95%-ый доверительный интервал: от  -111215545.89049526 до  909766941.5534226 
 * Вероятность убытков: 0.069 

Регион 1: 
 * средний запас предсказанного сырья - 68.73 
 * RMSE модели - 0.89 
 * Средняя прибыль: 456045105.79 
 * 95%-ый доверительный интервал: от  33820509.39898363 до  852289453.866036 
 * Вероятность убытков: 0.015 

Регион 2:
 * средний запас предсказанного сырья - 94.97 
 * RMSE модели - 40.03 
 * Средняя прибыль: 404403866.57 
 * 95%-ый доверительный интервал: от  -163350413.39560106 до  950359574.9237995 
 * Вероятность убытков: 0.076 

 
 **Вывод:**

На основании вышеперечисленных результатов, лучший регион для разработки скважин - это **Регион 1**:
 * наилучший прогноз модель дала в этом регионе (RMSE модели - 0.89);
 * вероятность убытков меньше 2.5% - 1.5%;
 * самая высокая средняя прибыль: 456045105.79 руб.