# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from tqdm.notebook import tqdm

In [2]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
def info_geo_data(geo_data):
    print('Первые 5 строк датасета')
    display(geo_data.head())
    print()
    print('Информация о датасете')
    display(geo_data.info())
    print()
    print('Описательная статистика датасета')
    display(geo_data.describe())
    print()
    print('Количество дубликатов:', geo_data.duplicated().sum())
    print()
    print('Коэффициент корреляции')
    display(geo_data.corr())
    print('-------------------------------------------------------')

In [4]:
info_geo_data(geo_data_0)
info_geo_data(geo_data_1)
info_geo_data(geo_data_2)

Первые 5 строк датасета


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647



Информация о датасете
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None


Описательная статистика датасета


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347



Количество дубликатов: 0

Коэффициент корреляции


Unnamed: 0,f0,f1,f2,product
f0,1.0,-0.440723,-0.003153,0.143536
f1,-0.440723,1.0,0.001724,-0.192356
f2,-0.003153,0.001724,1.0,0.483663
product,0.143536,-0.192356,0.483663,1.0


-------------------------------------------------------
Первые 5 строк датасета


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305



Информация о датасете
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None


Описательная статистика датасета


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408



Количество дубликатов: 0

Коэффициент корреляции


Unnamed: 0,f0,f1,f2,product
f0,1.0,0.182287,-0.001777,-0.030491
f1,0.182287,1.0,-0.002595,-0.010155
f2,-0.001777,-0.002595,1.0,0.999397
product,-0.030491,-0.010155,0.999397,1.0


-------------------------------------------------------
Первые 5 строк датасета


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746



Информация о датасете
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None


Описательная статистика датасета


Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838



Количество дубликатов: 0

Коэффициент корреляции


Unnamed: 0,f0,f1,f2,product
f0,1.0,0.000528,-0.000448,-0.001987
f1,0.000528,1.0,0.000779,-0.001012
f2,-0.000448,0.000779,1.0,0.445871
product,-0.001987,-0.001012,0.445871,1.0


-------------------------------------------------------


<b>Вывод</b>  

Вывел основную информацию о данных.
Пропусков - нет, дубликатов - нет. Корреляция 2 региона показывает, что количество нефти сильно зависит от признака f2. Может быть прибыльным регионом.

## Обучение и проверка модели

In [5]:
def split_train (geo_data):
    features = geo_data.drop(['product','id'], axis=1)
    target = geo_data['product']
    
    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345
    )
    
    line_reg = LinearRegression()
    line_reg.fit(features_train, target_train)
    predicted_valid = line_reg.predict(features_valid)
    mean_product_predicted_valid = sum(predicted_valid) / len(predicted_valid)
    rmse = mean_squared_error(predicted_valid, target_valid) ** 0.5
    
    print('Средний запас предсказанного сырья:', round(mean_product_predicted_valid, 3))
    print('RMSE:', round(rmse, 3))
    
    return predicted_valid, target_valid, rmse

In [6]:
print('Регион 1')
predicted_valid_0, target_valid_0, rmse_0 = split_train(geo_data_0)
print()
print('Регион 2')
predicted_valid_1, target_valid_1, rmse_1 = split_train(geo_data_1)
print()
print('Регион 3')
predicted_valid_2, target_valid_2, rmse_2 = split_train(geo_data_2)

Регион 1
Средний запас предсказанного сырья: 92.593
RMSE: 37.579

Регион 2
Средний запас предсказанного сырья: 68.729
RMSE: 0.893

Регион 3
Средний запас предсказанного сырья: 94.965
RMSE: 40.03


<b>Вывод</b>  

Данные разделены на выборки в отношении 75:25.   
Обучена модель линейной регрессии на валидационной выборке.  
Найден средний запас сырья в регионах. Самый стабильный регион - второй. Среднеквадратическая ошибка минимальна.

## Подготовка к расчёту прибыли

In [7]:
budget = 10000000000
income_per_unit = 450000
n = 200

quantity_barrels = budget / (income_per_unit * n)
print('Количество баррелей, которое нужно добыть с одной скважины, чтобы отбить затраты на разработку:', 
      round(quantity_barrels, 2)
     )

Количество баррелей, которое нужно добыть с одной скважины, чтобы отбить затраты на разработку: 111.11


In [8]:
def comparison(data):
    mean_product = data.mean()
    print('Среднее количеcтво нефти в регионе', round(mean_product, 2))
    if mean_product > quantity_barrels:
        print('Хватит нефти')
        print('------------------------------------------------------------')
    else:
        print('Нужно больше нефти!')
        print('------------------------------------------------------------')

print('Регион 1')
comparison(geo_data_0['product'])
print()
print('Регион 2')
comparison(geo_data_0['product'])
print()
print('Регион 3')
comparison(geo_data_0['product'])

Регион 1
Среднее количеcтво нефти в регионе 92.5
Нужно больше нефти!
------------------------------------------------------------

Регион 2
Среднее количеcтво нефти в регионе 92.5
Нужно больше нефти!
------------------------------------------------------------

Регион 3
Среднее количеcтво нефти в регионе 92.5
Нужно больше нефти!
------------------------------------------------------------


<b>Вывод</b>  

Найдено среднее количество запасов нефти по регионам и количество баррелей, которое нужно добыть, чтобы отбить затраты на разработку скважин.

## Расчёт прибыли и рисков 

In [16]:
target_valid_0 = pd.Series(target_valid_0).reset_index(drop=True)
predicted_valid_0 = pd.Series(predicted_valid_0).reset_index(drop=True)
target_valid_1 = pd.Series(target_valid_1).reset_index(drop=True)
predicted_valid_1 = pd.Series(predicted_valid_1).reset_index(drop=True)
target_valid_2 = pd.Series(target_valid_2).reset_index(drop=True)
predicted_valid_2 = pd.Series(predicted_valid_2).reset_index(drop=True)

def revenue (target, predictions):
    predicted_valid = predictions.sort_values(ascending=False)[:200]
    target_valid = target[predicted_valid.index]
    return income_per_unit * target_valid.sum() - budget 

In [10]:
revenue(target_valid_0, predicted_valid_0)

3320826043.1398506

In [11]:
revenue(target_valid_1, predicted_valid_1)

2415086696.681511

In [12]:
revenue(target_valid_2, predicted_valid_2)

2710349963.5998325

In [17]:
target_valid = [target_valid_0, target_valid_1, target_valid_2]
predicted_valid = [predicted_valid_0, predicted_valid_1, predicted_valid_2]
regions = ['Первый регион', 'Второй регион', 'Третий регион']

state = np.random.RandomState(12345)

for m in range(len(target_valid)):
    values = []
    for i in tqdm(range(1000), desc='Progress'):
        target_subsample = target_valid[m].sample(500, replace=True, random_state=state)
        predictions_subsample = predicted_valid[m].loc[target_subsample.index]
        values.append(revenue(target_subsample.reset_index(drop=True), predictions_subsample.reset_index(drop=True)))

    values = pd.Series(values)
    lower = values.quantile(.025)
    upper = values.quantile(.975)

    mean = values.mean()
    
    loss_probability = sum(values < 0) / values.count() * 100
    
    print(regions[m])
    print("Средняя возможная прибыль:", mean)
    print("95%-доверительный интервал:", "от", lower, "до", upper)
    print("Вероятность убытков:", loss_probability, "%")
    print()

Progress:   0%|          | 0/1000 [00:00<?, ?it/s]

Первый регион
Средняя возможная прибыль: 396164984.8023711
95%-доверительный интервал: от -111215545.89049526 до 909766941.5534226
Вероятность убытков: 6.9 %



Progress:   0%|          | 0/1000 [00:00<?, ?it/s]

Второй регион
Средняя возможная прибыль: 461155817.2772397
95%-доверительный интервал: от 78050810.7517417 до 862952060.2637234
Вероятность убытков: 0.7000000000000001 %



Progress:   0%|          | 0/1000 [00:00<?, ?it/s]

Третий регион
Средняя возможная прибыль: 392950475.17060447
95%-доверительный интервал: от -112227625.37857565 до 934562914.5511636
Вероятность убытков: 6.5 %



<b>Вывод</b>  

Написана функция для рассчета прибыли. Рассчитаны: средняя возможная прибыль, 95% доверительный интервал и вероятность убытков. 
Самый выгодный регион - второй.

## Общий вывод  

В данной работе были исследованы три региона где добывается нефть, чтобы построить модель для определения наиболее выгодного
региона для добычи нефти.  
Данные были проверены на наличие пропусков и дубликатов. Корреляция показала, что во втором регионе количество запасов напрямую зависит от признака f2.  
Данные были разделены на выборки и использованы для обучения модели линейной регрессии и получения ее предсказаний. По среднеквадратичной ошибке наиболее стабильный регион - второй.  
Посчитано минимальное количество добываемых баррелей для отбития затрат. Также вычислен средний запас продукта в каждом регионе.   
Рассчитаны прибыли и вероятности убытков для всех регионов.  Самый прибыльный и стабильный регион - второй.