Имеются данные о пробах нефти в трёх регионах, причем в каждом данные о запасах и качестве нефти в 10000 месторождений. Необходимо обучить модель, и с её помощью найти регион, где будет максимально прибыльная добыча. Проанализируем прибыль и риски.

**1. Изучение данных**

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
import numpy as np

In [3]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')
display(data_0.head())
display(data_1.head())
display(data_2.head())

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [4]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [6]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
data_0 = data_0.drop(['id'] , axis=1)
data_1 = data_1.drop(['id'] , axis=1)
data_2 = data_2.drop(['id'] , axis=1)

**2  Обучение и проверка модели**

Обучим модель на имеющихся данных. Данные разбиваем на обучающую и валидационную выборки в отношении 75:25. Будем использовать модель LinearRegression. Для каждого региона рассчитаем средние значения предсказаний и метрику RMSE.

In [8]:
def learn_targ (data):
    target = data['product']
    features = data.drop(['product'] , axis=1)
    features_tr, features_v, target_tr, target_v = train_test_split(
    features, target, test_size=0.25, random_state=12345)
    model = LinearRegression()
    model.fit(features_tr, target_tr)
    predicted_v = model.predict(features_v)
    predicted = pd.Series(predicted_v)
    target = target_v.reset_index(drop=True)
    mse = mean_squared_error(target_v, predicted_v)
    rmse = mse ** 0.5
    mean_stock = predicted.mean()
    print("RMSE =", mse ** 0.5)
    print("Cредний запас предсказанного сырья:", predicted.mean())

In [9]:
learn_targ(data_0)

RMSE = 37.5794217150813
Cредний запас предсказанного сырья: 92.59256778438035


In [10]:
learn_targ(data_1)

RMSE = 0.893099286775617
Cредний запас предсказанного сырья: 68.728546895446


In [11]:
learn_targ(data_2)

RMSE = 40.02970873393434
Cредний запас предсказанного сырья: 94.96504596800489


In [18]:
target_0 = data_0['product']
features_0 = data_0.drop(['product'] , axis=1)
features_tr_0, features_v_0, target_tr_0, target_v_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)
model = LinearRegression()
model.fit(features_tr_0, target_tr_0)
predicted_v_0 = model.predict(features_v_0)
predicted_0 = pd.Series(predicted_v_0)
target_0 = target_v_0.reset_index(drop=True)
mse = mean_squared_error(target_v_0, predicted_v_0)
print("RMSE =", mse ** 0.5)
print("Cредний запас предсказанного сырья:", predicted_0.mean())

RMSE = 37.5794217150813
Cредний запас предсказанного сырья: 92.59256778438035


In [19]:
target_1 = data_1['product']
features_1 = data_1.drop(['product'] , axis=1)
features_tr_1, features_v_1, target_tr_1, target_v_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)
model = LinearRegression()
model.fit(features_tr_1, target_tr_1)
predicted_v_1 = model.predict(features_v_1)
predicted_1 = pd.Series(predicted_v_1)
target_1 = target_v_1.reset_index(drop=True)
mse = mean_squared_error(target_v_1, predicted_v_1)
print("RMSE =", mse ** 0.5)
print("Cредний запас предсказанного сырья:", predicted_1.mean())


RMSE = 0.893099286775617
Cредний запас предсказанного сырья: 68.728546895446


In [20]:
target_2 = data_2['product']
features_2 = data_2.drop(['product'] , axis=1)
features_tr_2, features_v_2, target_tr_2, target_v_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)
model = LinearRegression()
model.fit(features_tr_2, target_tr_2)
predicted_v_2 = model.predict(features_v_2)
predicted_2 = pd.Series(predicted_v_2)
target_2 = target_v_2.reset_index(drop=True)
mse = mean_squared_error(target_v_2, predicted_v_2)
print("RMSE =", mse ** 0.5)
print("Cредний запас предсказанного сырья:", predicted_2.mean())

RMSE = 40.02970873393434
Cредний запас предсказанного сырья: 94.96504596800489


Значение RMSE показывает среднюю величину отличия предсказания модели от правильного ответа. Чем меньше это значение, тем лучше. Для региона номер 2 предсказания оказались максимально точны. Однако, именно в этом регионе и наименьший предсказанный средний обьем запасов в скважинах.

**3  Подготовка к расчёту прибыли**

При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки. Бюджет на разработку скважин в регионе — 10 млрд рублей. При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей. После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Создаем необходимые для дальнейших расчетов константы

In [12]:
BUDGET = 10000000000
BARREL = 450
INCOME = 450000
PRODUCTION = BUDGET/INCOME
print(PRODUCTION)

22222.222222222223


Бюджет на разработку скважин - себестоимость проекта. Т.к. каждая скважина приносит 450 т.р. дохода, то для получения прибыли в регионе должно быть получено более 22222 тыс.баррелей нефти.

Если в каждом регионе разрабатывается 200 точек, то рассчитаем, сколько сырья должно вырабатываться на одну точку для достижения безубыточности разработки в регионе.

In [13]:
print(PRODUCTION/200)

111.11111111111111


Соответственно, чтобы рассчитать потенциальную прибыль в каждом регионе проверяем найдем количество баррелей нефти, согласно предсказанию модели.

Рассмотрим средний истинный запас сырья в регионах.

print(target_0.mean())
print(target_1.mean())
print(target_2.mean())

Получается, что ни в одном регионе мы не сможем достигнуть безубыточности работы. Средний истинный запас сырья в одной скважине для каждого региона значительно меньше, чем требуемая величина - 111 баррелей.

**4  Расчёт прибыли и рисков**

Для расчета потенциальной прибыли создаем функцию, в котрую в дальнейшем подставим значения модели для каждого региона. Отсортировываем положительные предсказания, для 200 точек суммируем значения имеющихся запасов сырья. Имеющиеся запасы сырья необходимо умножить на стоимость барреля нефти и вычитаем себестоимость разработки.

In [15]:
def profit(target, predicted):
    preds_sorted = predicted.sort_values(ascending=False)
    selected = target[preds_sorted.index][:200]
    value = INCOME * selected.sum() - BUDGET
    return value

Применим технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли. Собираем значения прибыли по каждой выборке, чтобы вычислить среднее. Доверительный интервал для нашего задания - 95%.

In [16]:
state = np.random.RandomState(12345)
def calc(target, predictions):
    values = []
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        pr_subsample = predictions[target_subsample.index]
        values.append(profit(target_subsample, pr_subsample))
        
    values = pd.Series(values)
    lower = values.quantile(0.025)
    high = values.quantile(0.975)
    mean = values.mean()
    risk = (values<0).mean()*100

    print("Средняя прибыль региона:", mean)
    print("5%-квантиль:", lower)
    print("95%-квантиль:", high)
    print("Риск неполучения прибыли:", risk,'%')

In [21]:
calc(target_0, predicted_0)

Средняя прибыль региона: 425938526.91059244
5%-квантиль: -102090094.83793654
95%-квантиль: 947976353.3583689
Риск неполучения прибыли: 6.0 %


In [22]:
calc(target_1, predicted_1)

Средняя прибыль региона: 518259493.6973249
5%-квантиль: 128123231.43308444
95%-квантиль: 953612982.0669085
Риск неполучения прибыли: 0.3 %


In [23]:
calc(target_2, predicted_2)

Средняя прибыль региона: 420194005.3440501
5%-квантиль: -115852609.16001143
95%-квантиль: 989629939.8445739
Риск неполучения прибыли: 6.2 %


Получившиеся данные показывают, что единственный регион, в которм риск убытка менее 2,5% - это регион номер 2. Именно его и нужно использовать для разработки месторождений.

**Заключение.**

По имеющимся данным о наличии нефти в 3 регионах необходимо было обучить модель по вычислению потенциально прибыльного месторождения. Модель должна выбрать 200 скважин, самых выгодных для разработки, предсказать потенциальное количество нефти в них. Имея необходимые числовые значения для оценки финансовой успешности данных скважин, делаем выбор наиболее выгодного региона.

1.Загружаем и рассматриваем имеющиеся данные.

Предоставленные данные практически полностью готовы к работе, удаляем только столбец “Id”, поскольку для дальнейших расчетов в нем нет необходимости.

2.Обучение и проверка модели для каждого региона.

Имеющиеся данные разбиваем на обучающую и валидационную выборки в соотношении 75:25. Обучаем модель LinearRegression на полученных обучающих выборках. Результаты среднего значения предсказаний показывают, что самый большой запас сырья в третьем регионе, однако величина RMSE, показывает, что наиболее точные предсказания модель делает по 2 региону. Величина запасов во втором регионе самая низкая.

3.Подготовка к расчету прибыли.

Предоставлены данные по себестоимости проекта – 10 млрд. руб, величина дохода с каждой скважины. Получаем, что для безубыточной работы региона необходим запас 111,11 бареллей в каждой скважине, если в регионе их 200. Все необходимые для расчетов величины сохраняем в константах, которые в дальнейшем будут использованы для расчетов. Для понимания имеющейся ситуации рассмотрим средний фактический запас сырья в скважинах в каждом регионе. Получается, что нив одном регионе средняя величина не достигает заданного необходимого уровня запасов.

4.Расчет прибыли и рисков.

Для расчета потенциальной прибыли создаем функцию, в которой отсортировываем положительные предсказания, для 200 точек суммируем значения имеющихся запасов сырья. Имеющиеся запасы сырья необходимо умножить на стоимость барреля нефти и вычитаем себестоимость разработки. Используем функцию бутстреп, создающую 1000 выборок, для нахождения распределения прибыли. Находим среднюю величину прибыли, среди всего распределения прибыли. Для надежности определяем границы доверительного интервала – 95%, т.е. 2,5% и 97,5%. Рассчитываем величину рисков – отношение отрицательных значений прибыли ко всем. Получившиеся результаты позволяют выбрать регион № 2 в качестве потенциально прибыльного.