# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
from math import sqrt
from numpy.random import RandomState
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Импорт библиотек *pandas*, *math*, *numpy* и *sklearn*.

In [2]:
df0 = pd.read_csv('/datasets/geo_data_0.csv').drop(['id'], axis=1)
df1 = pd.read_csv('/datasets/geo_data_1.csv').drop(['id'], axis=1)
df2 = pd.read_csv('/datasets/geo_data_2.csv').drop(['id'], axis=1)

Загрузка данных.

**Первый регион.**

In [3]:
df0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.1 MB


In [4]:
df0.head()

Unnamed: 0,f0,f1,f2,product
0,0.705745,-0.497823,1.22117,105.280062
1,1.334711,-0.340164,4.36508,73.03775
2,1.022732,0.15199,1.419926,85.265647
3,-0.032172,0.139033,2.978566,168.620776
4,1.988431,0.155413,4.751769,154.036647


In [5]:
df0.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

Параметры датафрейма с информацией о первом регионе.

**Второй регион.**

In [6]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.1 MB


In [7]:
df1.head()

Unnamed: 0,f0,f1,f2,product
0,-15.001348,-8.276,-0.005876,3.179103
1,14.272088,-3.475083,0.999183,26.953261
2,6.263187,-5.948386,5.00116,134.766305
3,-13.081196,-11.506057,4.999415,137.945408
4,12.702195,-8.147433,5.004363,134.766305


In [8]:
df1.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

Параметры датафрейма с информацией о втором регионе.

**Третий регион.**

In [9]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.1 MB


In [10]:
df2.head()

Unnamed: 0,f0,f1,f2,product
0,-1.146987,0.963328,-0.828965,27.758673
1,0.262778,0.269839,-2.530187,56.069697
2,0.194587,0.289035,-5.586433,62.87191
3,2.23606,-0.55376,0.930038,114.572842
4,-0.515993,1.716266,5.899011,149.600746


In [11]:
df2.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

Параметры датафрейма с информацией о третьем регионе.

## Обучение и проверка модели

**Первый регион.**

In [12]:
target0 = df0['product']
features0 = df0.drop('product', axis=1)

features_train0, features_valid0, target_train0, target_valid0 = train_test_split(
    features0, target0, test_size=0.25, random_state=12345)

model0 = LinearRegression()
model0.fit(features_train0, target_train0)
predictions_valid0 = model0.predict(features_valid0)
rmse0 = sqrt(mean_squared_error(target_valid0, predictions_valid0))
print(f'RMSE: {rmse0}')
print(f'Средний запас предсказанного сырья: {predictions_valid0.mean()}')

RMSE: 37.5794217150813
Средний запас предсказанного сырья: 92.59256778438035


**Второй регион.**

In [13]:
target1 = df1['product']
features1 = df1.drop('product', axis=1)

features_train1, features_valid1, target_train1, target_valid1 = train_test_split(
    features1, target1, test_size=0.25, random_state=12345)

model1 = LinearRegression()
model1.fit(features_train1, target_train1)
predictions_valid1 = model1.predict(features_valid1)
rmse1 = sqrt(mean_squared_error(target_valid1, predictions_valid1))
print(f'RMSE: {rmse1}')
print(f'Средний запас предсказанного сырья: {predictions_valid1.mean()}')

RMSE: 0.893099286775617
Средний запас предсказанного сырья: 68.728546895446


**Третий регион.**

In [14]:
target2 = df2['product']
features2 = df2.drop('product', axis=1)

features_train2, features_valid2, target_train2, target_valid2 = train_test_split(
    features2, target2, test_size=0.25, random_state=12345)

model2 = LinearRegression()
model2.fit(features_train2, target_train2)
predictions_valid2 = model2.predict(features_valid2)
rmse2 = sqrt(mean_squared_error(target_valid2, predictions_valid2))
print(f'RMSE: {rmse2}')
print(f'Средний запас предсказанного сырья: {predictions_valid2.mean()}')

RMSE: 40.02970873393434
Средний запас предсказанного сырья: 94.96504596800489


Меньше всего значение среднеквадратической ошибки (**0.9**) получилось при обучении модели на данных второго региона.

## Подготовка к расчёту прибыли

In [15]:
price = 450
points = 200
budget = 10*(10**6)

**Первый регион.**

In [16]:
d0 = pd.DataFrame(
    data={
        'true_valid': target_valid0,
        'predictions_valid': predictions_valid0
        
    })
d0

Unnamed: 0,true_valid,predictions_valid
71751,10.038645,95.894952
80493,114.551489,77.572583
2655,132.603635,77.892640
53233,169.072125,90.175134
91141,122.325180,70.510088
...,...,...
12581,170.116726,103.037104
18456,93.632175,85.403255
73035,127.352259,61.509833
63834,99.782700,118.180397


Истинные значение и предсказания модели по добыче продукта в **первом регионе** были объединены в один датафрейм.

**Второй регион.**

In [17]:
d1 = pd.DataFrame(
    data={
        'true_valid': target_valid1,
        'predictions_valid': predictions_valid1
        
    })
d1

Unnamed: 0,true_valid,predictions_valid
71751,80.859783,82.663314
80493,53.906522,54.431786
2655,30.132364,29.748760
53233,53.906522,53.552133
91141,0.000000,1.243856
...,...,...
12581,137.945408,136.869211
18456,110.992147,110.693465
73035,137.945408,137.879341
63834,84.038886,83.761966


Истинные значение и предсказания модели по добыче продукта во **втором регионе** были объединены в один датафрейм.

**Третий регион.**

In [18]:
d2 = pd.DataFrame(
    data={
        'true_valid': target_valid2,
        'predictions_valid': predictions_valid2
        
    })
d2

Unnamed: 0,true_valid,predictions_valid
71751,61.212375,93.599633
80493,41.850118,75.105159
2655,57.776581,90.066809
53233,100.053761,105.162375
91141,109.897122,115.303310
...,...,...
12581,28.492402,78.765887
18456,21.431303,95.603394
73035,125.487229,99.407281
63834,99.422903,77.779912


Истинные значение и предсказания модели по добыче продукта в **третьем регионе** были объединены в один датафрейм.

In [26]:
r = budget / 200
print(f'Расход на одну скважину: {r}')
print(f'Объем сырья для безубыточной разработки одной скважины: {r / price}')

Расход на одну скважину: 50000.0
Объем сырья для безубыточной разработки одной скважины: 111.11111111111111


**Среднее по регионам не превышает достаточный объем сырья для безубыточности.**

In [20]:
def oil_profit(target, predicted, points):
    probs_sorted = predicted.sort_values(ascending=False)
    selected = target[probs_sorted.index][:points]
    return price * selected.sum() - budget

Функция для расчета прибыли.

## Расчёт прибыли и рисков 

In [21]:
state = RandomState(12345)

def bootstrap(data):
    values = []
    lost = 0
    
    for i in range(1000):
        target_sample = data["true_valid"].sample(replace=True, random_state=state, n=500)
        probs_sample = data["predictions_valid"][target_sample.index]
        profit = oil_profit(data["true_valid"], probs_sample, 200)
        
        if profit < 0:
            lost +=1
            
        values.append(profit)
 
    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    average = values.mean()
    risk = lost / 1000
    return average, lower, upper, risk

In [22]:
params0 = bootstrap(d0)
print('Параметры первого региона:')
print(f'Средняя прибыль: {params0[0]}, минимальная: {params0[1]}, максимальная: {params0[2]}, риск: {params0[3]}.')

Параметры первого региона:
Средняя прибыль: 396164.9848023711, минимальная: -111215.54589049607, максимальная: 909766.9415534219, риск: 0.069.


In [23]:
params1 = bootstrap(d1)
print('Параметры второго региона:')
print(f'Средняя прибыль: {params1[0]}, минимальная: {params1[1]}, максимальная: {params1[2]}, риск: {params1[3]}.')

Параметры второго региона:
Средняя прибыль: 461155.8172772397, минимальная: 78050.81075174105, максимальная: 862952.0602637231, риск: 0.007.


In [24]:
params2 = bootstrap(d2)
print('Параметры третьего региона:')
print(f'Средняя прибыль: {params2[0]}, минимальная: {params2[1]}, максимальная: {params2[2]}, риск: {params2[3]}.')

Параметры третьего региона:
Средняя прибыль: 392950.47517060454, минимальная: -112227.62537857569, максимальная: 934562.914551164, риск: 0.065.


Перспективнее всего из трех регионов выглядит второй, в виду наименьшего риска - **0.007** и наибольшей средней прибыли - **461155**.

## Вывод

Были проанализированы три датафрейма с информацией о характеристках скважин. Каждый датафрейм был разбит на две выборки - обучающую и валидационную. Затем была обучена модель **LinearRegression**. Предсказания и истинные значения по добыче продукта каждого из регионов были собраные в отдельные датафреймы, а затем исследованы с помощью техники **Bootstrap**. В качестве выбранного для бурения скважины был выбран второй регион, в виду наименьшего риска - **0.007** и наибольшей средней прибыли - **461155**.