# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## 1 Загрузка и подготовка данных

Начинаем проект с загрузки библиотек и данных.

In [1]:
import pandas as pd
from scipy import stats as st
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OrdinalEncoder 

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error, r2_score

from sklearn.utils import shuffle

import warnings
warnings.filterwarnings("ignore")

In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

После загрузки данных изучим каждый регион по отдельности, а также подготовим данные к обучению.

### 1.1 Изучение данных первого региона

In [3]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [5]:
data_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


С данными первого региона всё в порядке, проверим явные и неявные дубликаты.

In [6]:
data_0.duplicated().sum()

0

### 1.2 Изучение данных второго региона

In [7]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [9]:
data_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


С данными второго региона всё в порядке, проверим явные дубликаты.

In [10]:
data_1.duplicated().sum()

0

### 1.3 Изучение данных третьего региона

In [11]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [12]:
data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [13]:
data_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


С данными третьего региона всё в порядке, проверим явные дубликаты.

In [14]:
data_2.duplicated().sum()

0

**Вывод**

Были загружены и проверены данные по трём регионам. Предобработка данных не потребовалась, они готовы к обучению.

## 2 Обучение и проверка модели

Разделим данные на признаки в датасетах для всех трёх регионах. В признаках оставим столбцы `f1`, `f2` и `f3`, целевым признаком будет `product`. Столбец `id` не нужен для обучения, так как в нём хранятся идентификаторы, которые никак не повлияют на модель.

In [15]:
features_0 = data_0.drop(["product", "id"], axis = 1)
target_0 = data_0['product']
features_1 = data_1.drop(["product", "id"], axis = 1)
target_1 = data_1['product']
features_2 = data_2.drop(["product", "id"], axis = 1)
target_2 = data_2['product']

In [16]:
features_0_train, features_0_valid, target_0_train, target_0_valid = train_test_split(features_0, target_0, test_size = 0.25, 
                                                                                  random_state = 12345)

features_1_train, features_1_valid, target_1_train, target_1_valid = train_test_split(features_1, target_1, test_size = 0.25, 
                                                                                  random_state = 12345)

features_2_train, features_2_valid, target_2_train, target_2_valid = train_test_split(features_2, target_2, test_size = 0.25, 
                                                                                  random_state = 12345)

In [17]:
print(features_0_train.shape, features_0_valid.shape, target_0_train.shape, target_0_valid.shape)


print(features_0_train.shape, features_0_valid.shape, target_0_train.shape, target_0_valid.shape)


print(features_0_train.shape, features_0_valid.shape, target_0_train.shape, target_0_valid.shape)

(75000, 3) (25000, 3) (75000,) (25000,)
(75000, 3) (25000, 3) (75000,) (25000,)
(75000, 3) (25000, 3) (75000,) (25000,)


Обучающая и валидационная выборки разделились правильно для данных во всех трёх регионах, можно приступить к обучению модели.

In [18]:
model_0 = LinearRegression()
model_0.fit(features_0_train, target_0_train)
predictions_0_valid = model_0.predict(features_0_valid)
predictions_0_valid_mean = predictions_0_valid.mean()
rmse_0 = mean_squared_error(target_0_valid, predictions_0_valid) ** 0.5
print('Средний запас предсказанного сырья для первого региона:', predictions_0_valid_mean)
print('RMSE модели линейной регрессии на валидационной выборке для первого региона:', rmse_0)

Средний запас предсказанного сырья для первого региона: 92.59256778438035
RMSE модели линейной регрессии на валидационной выборке для первого региона: 37.5794217150813


In [19]:
model_1 = LinearRegression()
model_1.fit(features_1_train, target_1_train)
predictions_1_valid = model_1.predict(features_1_valid)
predictions_1_valid_mean = predictions_1_valid.mean()
rmse_1 = mean_squared_error(target_1_valid, predictions_1_valid) ** 0.5
print('Средний запас предсказанного сырья для второго региона:', predictions_1_valid_mean)
print('RMSE модели линейной регрессии на валидационной выборке для второго региона:', rmse_1)

Средний запас предсказанного сырья для второго региона: 68.728546895446
RMSE модели линейной регрессии на валидационной выборке для второго региона: 0.893099286775617


In [20]:
model_2 = LinearRegression()
model_2.fit(features_2_train, target_2_train)
predictions_2_valid = model_2.predict(features_2_valid)
predictions_2_valid_mean = predictions_2_valid.mean()
rmse_2 = mean_squared_error(target_2_valid, predictions_2_valid) ** 0.5
print('Средний запас предсказанного сырья для третьего региона:', predictions_2_valid_mean)
print('RMSE модели линейной регрессии на валидационной выборке для третьего региона:', rmse_2)

Средний запас предсказанного сырья для третьего региона: 94.96504596800489
RMSE модели линейной регрессии на валидационной выборке для третьего региона: 40.02970873393434


In [21]:
predictions_0_valid

array([ 95.89495185,  77.57258261,  77.89263965, ...,  61.50983303,
       118.18039721, 118.16939229])

In [22]:
target_0_valid

71751     10.038645
80493    114.551489
2655     132.603635
53233    169.072125
91141    122.325180
            ...    
12581    170.116726
18456     93.632175
73035    127.352259
63834     99.782700
43558    177.821022
Name: product, Length: 25000, dtype: float64

**Вывод**

Были обучены модели логистической регрессии на основе данных для всех трёх регионов.
Для регионов 1 и 3 средний запас предсказанного сырья выше, чем для региона 2. Но в то же самое время, у региона 2 очень низкий показатель среднеквадратичной ошибки, что говорит о высоких точности и качестве обученной модели.

## 3 Подготовка к расчёту прибыли

Внесём условия бизнеса для данной задачи в соответствующие константные переменные.

In [23]:
WELLS = 500 # количество точек со скважинами
TOP_WELLS = 200 # количество лучших точек со скважинами

BUDGET = 10000000000 # бюджет на разработку скважин в регионе

INCOME = 450000 # доход с единицы продукта

In [24]:
wells_income = TOP_WELLS * INCOME
product_volume = BUDGET / wells_income

In [25]:
print('Минимальный объём сырья, необходимый для получения прибыли:', product_volume)

Минимальный объём сырья, необходимый для получения прибыли: 111.11111111111111


**Вывод**

Было высчитано значение минимального объёма сырья, необходимого для получения прибыли. Оно превышает высчитанные в предыдущем разделе значения среднего объёма сырья.

## 4 Расчёт прибыли и рисков 

### 4.1 Расчёт прибыли

Напишем функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели.

In [26]:
def profit_evaluation(target, predictions):
    top_predictions = pd.Series(predictions, index = target.index).sort_values(ascending = False) # сортируем выборку по убыванию
    top_targets = target[top_predictions.index][:TOP_WELLS]
    income_sum = top_targets.sum() # берём значения целевого признака из списка с учётом индексов из top_predictions.
    return (income_sum * INCOME) - BUDGET

Теперь применим эту функцию к данным из всех трёх регионов.

In [27]:
#Проверяем прибыль для первого региона
round(profit_evaluation(target_0_valid, predictions_0_valid), 3)

3320826043.14

In [28]:
#Проверяем прибыль для второго региона
round(profit_evaluation(target_1_valid, predictions_1_valid), 3)

2415086696.682

In [29]:
#Проверяем прибыль для третьего региона
round(profit_evaluation(target_2_valid, predictions_2_valid), 3)

2710349963.6

### 4.2 Расчёт рисков

Напишем функцию для расчёта рисков, применив бутстрап.

In [30]:
def risk_evaluation(target, predictions):
    values = []
    risk = 0
    state = np.random.RandomState(12345)
    predictions_transformed = pd.Series(predictions, index = target.index)
    
    for i in range(1000):
        target_subsample = target.sample(n = 500, replace = True, random_state = state)
  
        probs_subsample = predictions_transformed[target_subsample.index]
        values.append(profit_evaluation(target_subsample, probs_subsample))  
    
    values = pd.Series(values)
    mean = round(values.mean(), 2)

    lower = round(values.quantile(0.025))
    upper = round(values.quantile(0.975))

    
    risk = st.percentileofscore(values, 0)
    
    print("Средняя прибыль:", mean, "рублей")
    print('95%-ый доверительный интервал прибыли: от', lower, 'рублей до', upper, 'рублей')
    print ('Вероятность убытка в данном регионе составит', risk, '%')

In [31]:
risk_evaluation(target_0_valid, predictions_0_valid)

Средняя прибыль: 425938526.91 рублей
95%-ый доверительный интервал прибыли: от -102090095 рублей до 947976353 рублей
Вероятность убытка в данном регионе составит 6.0 %


In [32]:
risk_evaluation(target_1_valid, predictions_1_valid)

Средняя прибыль: 515222773.44 рублей
95%-ый доверительный интервал прибыли: от 68873225 рублей до 931547591 рублей
Вероятность убытка в данном регионе составит 1.0 %


In [33]:
risk_evaluation(target_2_valid, predictions_2_valid)

Средняя прибыль: 435008362.78 рублей
95%-ый доверительный интервал прибыли: от -128880547 рублей до 969706954 рублей
Вероятность убытка в данном регионе составит 6.4 %


**Вывод**

Были рассчитаны прибыль, интервал и риски.

Только во втором регионе вероятность убытка составляет меньше 2.5%. К тому же, как показал доверительный интервал, даже при самом худшем раскладе разработка месторождений окупит себя. Исходя из этих факторов, второй регион - лучший для разработки месторождений.

## Вывод

В результате выполнения данного проекта был проведён ряд действий.

* Изучены и подготовлены данные. 
* Обучена модель линейной регрессии для датасетов для каждого из регионов. 
* Высчитаны прибыль и риск для каждого региона.
* Выбран и обоснован лучший регион для месторождения.