# Выбор локации для скважины

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [2]:
# импорт библиотек

import pandas as pd
import numpy as np

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

from statistics import mean

In [3]:
try:
    data1 = pd.read_csv('geo_data_0.csv')
except:
    data1 = pd.read_csv('https://code.s3.yandex.net/datasets/geo_data_0.csv')
    
data1.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
data1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [5]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [6]:
data1.corr()

Unnamed: 0,f0,f1,f2,product
f0,1.0,-0.440723,-0.003153,0.143536
f1,-0.440723,1.0,0.001724,-0.192356
f2,-0.003153,0.001724,1.0,0.483663
product,0.143536,-0.192356,0.483663,1.0


In [7]:
try:
    data2 = pd.read_csv('geo_data_1.csv')
except:
    data2 = pd.read_csv('https://code.s3.yandex.net/datasets/geo_data_1.csv')
    
data2.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [8]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
data2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [10]:
data2.corr()

Unnamed: 0,f0,f1,f2,product
f0,1.0,0.182287,-0.001777,-0.030491
f1,0.182287,1.0,-0.002595,-0.010155
f2,-0.001777,-0.002595,1.0,0.999397
product,-0.030491,-0.010155,0.999397,1.0


In [11]:
try:
    data3 = pd.read_csv('geo_data_2.csv')
except:
    data3 = pd.read_csv('https://code.s3.yandex.net/datasets/geo_data_2.csv')
    
data3.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [12]:
data3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [13]:
data3.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


In [14]:
data3.corr()

Unnamed: 0,f0,f1,f2,product
f0,1.0,0.000528,-0.000448,-0.001987
f1,0.000528,1.0,0.000779,-0.001012
f2,-0.000448,0.000779,1.0,0.445871
product,-0.001987,-0.001012,0.445871,1.0


Все три иходных датасета имеют 10 тыс. записей, пропусков в данных нет, форматы данных релевантны.

Признаки имеют разный масштаб (различаются минимумы, максимумы и расстояние между ними). Наличие корреляции между признаками (проблема мультиколлинеарности) не обнаружено.

Далее разделю каждый датасет на признаки (f1, f2, f3) и таргет (product).

In [15]:
features1 = data1[['f0', 'f1', 'f2']]
target1 = data1['product']

features2 = data2[['f0', 'f1', 'f2']]
target2 = data2['product']

features3 = data3[['f0', 'f1', 'f2']]
target3 = data3['product']

print(features1.shape, target1.shape)
print(features2.shape, target2.shape)
print(features3.shape, target3.shape)

(100000, 3) (100000,)
(100000, 3) (100000,)
(100000, 3) (100000,)


## Обучение и проверка модели

In [16]:
state = np.random.RandomState(12345)

In [17]:
def region_model(features, target):
    """
    Данная функция получает на вход признаки и таргет и выполняет следующие действия:
    Шаг 1. Разделает выборку на тренировочную и валидационную
    в соотношении 75/25.
    Шаг 2. Масштабирует признаки на основе тренировочной выборки.
    Шаг 3. Строит на полученных данных линейную регрессию.
    Шаг 4. Строит предсказания на валидационной выборке.
    Шаг 5. Возвращает таргет валидационной выборки, предсказанные значения,
    средннюю предсказанных значений и RMSE модели
    """
    
    # Шаг 1
    features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=.25, random_state=state)
    
    # Шаг 2
    pd.options.mode.chained_assignment = None
    scaler = StandardScaler()
    scaler.fit(features_train)
    features_train = pd.DataFrame(
        scaler.transform(features_train), columns=features_train.columns)
    features_valid = pd.DataFrame(
        scaler.transform(features_valid), columns=features_valid.columns)
    
    # Шаг 3
    model = LinearRegression()
    model.fit(features_train, target_train)
    
    # Шаг 4
    predicted_valid = model.predict(features_valid)
    
    # Шаг 5
    mean_predict = mean(predicted_valid)
    RMSE = mean_squared_error(target_valid, predicted_valid)**.5
    
    # Доп. шаг
    # сбросим индексы у target_valid и predicted_valid для удобства
    target_valid = target_valid.reset_index(drop=True)
    predicted_valid = pd.Series(predicted_valid)
    
    return target_valid, predicted_valid, mean_predict, RMSE

### Первый регион

Построю модель для первого региона

In [18]:
target_valid1, predicted_valid1, mean_predict1, RMSE1 = region_model(features1, target1)

print('Средний запас предсказанного сырья:', round(mean_predict1, 3))
print('RMSE модели:', round(RMSE1, 3))

Средний запас предсказанного сырья: 92.593
RMSE модели: 37.579


**Вывод:** Данная модель предсказывает средний запас в 92.6 тыс. баррелей на скважину, однако модель в среднем ошибается на 37.6 тыс. баррелей, что существенно.

### Второй регион

Построю модель для второго региона

In [19]:
target_valid2, predicted_valid2, mean_predict2, RMSE2 = region_model(features2, target2)

print('Средний запас предсказанного сырья:', round(mean_predict2, 3))
print('RMSE модели:', round(RMSE2, 3))

Средний запас предсказанного сырья: 68.77
RMSE модели: 0.89


**Вывод:** Данная модель предсказывает средний запас в 68.8 тыс. баррелей на скважину, однако модель в среднем ошибается на 0.9 тыс. баррелей, следовательно, модель предсказывает с небольшой погрешностью.

### Третий регион

Построю модель для третьего региона

In [20]:
target_valid3, predicted_valid3, mean_predict3, RMSE3 = region_model(features3, target3)

print('Средний запас предсказанного сырья:', round(mean_predict3, 3))
print('RMSE модели:', round(RMSE3, 3))

Средний запас предсказанного сырья: 95.088
RMSE модели: 39.958


**Вывод:** Данная модель предсказывает средний запас в 95.1 тыс. баррелей на скважину, однако модель в среднем ошибается на 40 тыс. баррелей, что существенно.

## Подготовка к расчёту прибыли

In [21]:
# доход на одну баррель
INCOME_PER_BARREL = 450

# количество точек для разработки
POINTS = 200

# суммарные инвестиции на разработку скважин в регионе
INVESTMENT = 10e6

Расчитаю минимальный объём сырья для безубыточной разработки новой скважины:

INCOME_PER_BARREL * MIN_VOLUME * POINTS >= INVESTMENT

Следовательно,

MIN_VOLUME = INVESTMENT / (INCOME_PER_BARREL * POINTS)

In [22]:
MIN_VOLUME = INVESTMENT / (INCOME_PER_BARREL * POINTS)
MIN_VOLUME

111.11111111111111

In [23]:
# Проверю средние запасы на точку в каждом регоине

print('Средние запасы на точку в регионе 1:', round(data1['product'].mean(), 3))
print('Средние запасы на точку в регионе 2:', round(data2['product'].mean(), 3))
print('Средние запасы на точку в регионе 3:', round(data3['product'].mean(), 3))

Средние запасы на точку в регионе 1: 92.5
Средние запасы на точку в регионе 2: 68.825
Средние запасы на точку в регионе 3: 95.0


**Вывод:** для безубыточной добычи нефти в регионе в среднем должно приходиться не менее 111.1 тыс. баррелей на скважину. Предсказанные средние запасы на скважину (как и реальные данные) в каждом регионе ниже, чем требуется для безубыточной торговли. Следовательно, следует разработать способ отбора только лучших скажин в каждом регионе, чтобы получить прибыль.

## Расчёт прибыли и рисков 

Напишу функцию для расчёта прибыли

In [24]:
def profit(target, predicted):
    """
    Функция отбирает 200 наиболее прибыльных точек и считает прибыль
    """
    
    # отсортируем predicted_valid от большего к меньшему
    points_sorted = predicted.sort_values(ascending=False)
    
    # отберём 200 вышек с наибольшими потенциальными объёмами
    selected = target[points_sorted.index][:POINTS]
    
    # посчитаем прибыль
    return selected.sum() * INCOME_PER_BARREL - INVESTMENT

Напишу функцию для расчёта распределения прибыли через bootstrap

In [25]:
def profit_dist(target, predicted):
    """
    Функция строит распределение прибыли и на основе
    этого распределения считает следующие показатели:
    - средняя прибыль,
    - 95%-й доверительный интервал,
    - риск убытков.
    """
    values = []
    
    for i in range(1000):
        target_subsample = target.sample(n=500, random_state=state, replace=True)
        predicted_subsample = predicted[target_subsample.index]
        
        values.append(profit(target_subsample, predicted_subsample))
        
    values = pd.Series(values)
        
    print('Средняя прибыль для региона:', round(values.mean(), 3))
    print('95%-й доверительный интервал для значения прибыли:',
          round(values.quantile(.025),3), '-', round(values.quantile(.975), 3))
    print('Вероятность убытков:', st.percentileofscore(values, 0))

**Первый регион**

In [26]:
profit_dist(target_valid1, predicted_valid1)

Средняя прибыль для региона: 423897.238
95%-й доверительный интервал для значения прибыли: -76187.814 - 957846.532
Вероятность убытков: 4.8


**Второй регион**

In [27]:
profit_dist(target_valid2, predicted_valid2)

Средняя прибыль для региона: 513256.699
95%-й доверительный интервал для значения прибыли: 108066.895 - 928574.439
Вероятность убытков: 0.6


**Третий регион**

In [28]:
profit_dist(target_valid3, predicted_valid3)

Средняя прибыль для региона: 381120.36
95%-й доверительный интервал для значения прибыли: -142800.63 - 893380.566
Вероятность убытков: 7.4


**Вывод:** Среди всех трёх регионов только второй регион обладает приемлемым уровнем риска (0.6% < 2.5%). Также для этого региона характерна наиболее высокая средняя прибыль несмотря на то, что средние запасы на скважину оказались самыми низкими. Это связано с тем, что именно для этого региона модель работает наиболее адекватно (RMSE около погрешности). Следовательно, **для разработки скважен следует выбрать второй регион**.