## Загрузка и подготовка данных

In [1]:
# Импортируем все необходимые библиотеки

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error as MSE
from numpy.random import RandomState

In [2]:
# Загрузка данных

df1 = pd.read_csv('/datasets/geo_data_0.csv')
df2 = pd.read_csv('/datasets/geo_data_1.csv')
df3 = pd.read_csv('/datasets/geo_data_2.csv')

Посмотрим, как выглядят таблицы.

In [3]:
display(df1.head(5))
df1.info()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
display(df2.head(5))
df2.info()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
display(df3.head(5))
df3.info()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Таблицы выглядят чисто. Единственное, можно проверить их на дубликаты.

In [6]:
display(df1.duplicated().sum())
display(df2.duplicated().sum())
display(df3.duplicated().sum())

0

0

0

Удалим столбец id во свех таблицах, так как сейчас он для нас не имеет значения. На всякий случай, оставим исходные таблицы как есть, чтобы всегда иметь доступ к первоначальным данным.

In [7]:
df1_clear = df1.drop(['id'], axis=1)
df2_clear = df2.drop(['id'], axis=1)
df3_clear = df3.drop(['id'], axis=1)

Данные готовы к обучению моделей.

## Обучение и проверка модели

### Модель 1

In [8]:
features1 = df1_clear.drop(['product'], axis = 1)
target1 = df1_clear['product']

In [9]:
features1_train, features1_valid, target1_train, target1_valid = train_test_split(features1, 
                                                                                  target1, random_state=101010, test_size=0.25)

In [10]:
model1 = LinearRegression()
model1.fit(features1_train, target1_train)

LinearRegression()

In [11]:
predictions1 = model1.predict(features1_valid)

In [12]:
display(predictions1.mean())
rmse1 = MSE(target1_valid, predictions1) ** 0.5
display(rmse1)

92.2696576940137

37.6826689860995

В первом регионе средний показатель - 92 тысячи баррелей. В среднем модель ошибается на 37 тысяч, что больше трети от среднего показателя. Многовато, как по мне. Но всё познается в сравнении. Посмотрим на работу модели в других двух регионах, пока что сделать однозначные выводы невозможно.

### Модель 2

In [13]:
features2 = df2_clear.drop(['product'], axis = 1)
target2 = df2_clear['product']

features2_train, features2_valid, target2_train, target2_valid = train_test_split(features2, 
                                                                                  target2, random_state=101010, test_size=0.25)

In [14]:
model2 = LinearRegression()
model2.fit(features2_train, target2_train)

LinearRegression()

In [15]:
predictions2 = model2.predict(features2_valid)

In [16]:
display(predictions2.mean())
rmse2 = MSE(target2_valid, predictions2) ** 0.5
display(rmse2)

68.96326217161165

0.8920738905632523

Интересные показатели. Средний показатель во втором регионе на 25% ниже, зато модель показывает себя практически идеально, ошибаясь в среднем меньше чем на 1. Как же себя покажет 3ий регион?

### Модель 3

In [17]:
features3 = df3_clear.drop(['product'], axis = 1)
target3 = df3_clear['product']

features3_train, features3_valid, target3_train, target3_valid = train_test_split(features3, 
                                                                                  target3, random_state=101010, test_size=0.25)

In [18]:
model3 = LinearRegression()
model3.fit(features3_train, target3_train)

LinearRegression()

In [19]:
predictions3 = model3.predict(features3_valid)

In [20]:
display(predictions3.mean())
rmse3 = MSE(target3_valid, predictions3) ** 0.5
display(rmse3)

94.9975661735518

40.01712569429701

В третьем регионе ситуация похожа на 1ый. Средний показатель высокий, но и ошибается модель в среднем сильнее. 

## Подготовка к расчёту прибыли

In [21]:
# Создадим переменные для всех признаков

price = 450000            # Доход на единицу продукта
budget = 10000000000      # Общий бюджет
all_points = 500          # Всего месторождений
best_points = 200         # Количество самых прибыльных месторождений для разработки
risk_threshold = 0.025    # Минимальная вероятность убыткой

In [22]:
# Посчитаем, сколько необходимо заработать с одной скважины. Скважин всего должно остаться 200.

borehole = budget / 200
print(borehole)

50000000.0


In [23]:
# Теперь найдем количество баррелей, которое должна производить скважина в среднем.

mean_barrel_need = borehole / price
print(mean_barrel_need)

111.11111111111111


В среднем с каждой скважины мы должны получать 111 тысяч баррелей по нынешнему курсу или 50 миллионов рублей, чтобы не потерпеть убытки. Во всех регионах средний показатель не дотягивает до необходимого.

## Расчёт прибыли и рисков 

In [24]:
def profit_calc(predictions, target):                                 # Функция принимает на вход предсказания, реальные
                                                                      # значения региона и количество скважин.
    predictions = pd.Series(predictions)                              # Так как предсказания у нас в виде np.darray, 
                                                                           # преобразуем их в Series для удобства.
    top_predictions = predictions.sort_values(ascending=False).head(200)   # Отбираем 200 самых прибыльных скважин из 
                                                                           # предсказаний.
    
    top_target = target.loc[top_predictions.index] # Находим эти же скважины, только с реальными значениями
    barrels_target = top_target.sum()              # Вычисляем сумму реальных баррелей с этих скважин
    
    total_profit = barrels_target * price - budget   
    return total_profit
    

## Рассчет рисков и прибыли для всех регионов

In [25]:
state = np.random.RandomState(12345)

In [26]:
target1_valid = target1_valid.reset_index(drop=True)
target2_valid = target2_valid.reset_index(drop=True)
target3_valid = target3_valid.reset_index(drop=True)

### Регион 1

In [27]:
values1 = []

target1_valid = target1_valid.reset_index(drop=True)


for i in range(1000):
    target1_subsample = target1_valid.sample(n=500, replace=True, random_state=state)
    predicted1_subsample = pd.Series(predictions1)[target1_subsample.index]
    values1.append(profit_calc(predicted1_subsample, target1_subsample))

In [28]:
values1 = pd.Series(values1)
    
lower1 = values1.quantile(0.025)
upper1 = values1.quantile(0.975)

mean1 = values1.mean()

In [29]:
print('Средняя прибыль:',  mean1)
print('Доверительный интервал:', lower1, upper1)

Средняя прибыль: 621170299.2705821
Доверительный интервал: 51228564.94381395 1259106365.5512288


In [30]:
risk1 = ((values1 < 0).mean() * 100)

display('Риск убытков',  risk1)

'Риск убытков'

1.6

Риск убытков 1.6 - это мало или много? Сравним с другими регионами.

### Регион 2

In [31]:
values2 = []

target2_valid = target2_valid.reset_index(drop=True)


for i in range(1000):
    target2_subsample = target2_valid.sample(n=500, replace=True, random_state=state)
    predicted2_subsample = pd.Series(predictions2)[target2_subsample.index]
    values2.append(profit_calc(predicted2_subsample, target2_subsample))

In [32]:
values2 = pd.Series(values2)
    
lower2 = values2.quantile(0.025)
upper2 = values2.quantile(0.975)

mean2 = values2.mean()

In [33]:
print('Средняя прибыль:',  mean2)
print('Доверительный интервал:', lower2, upper2)

Средняя прибыль: 672465879.8405764
Доверительный интервал: 198763581.94120464 1213519649.870446


In [34]:
risk2 = ((values2 < 0).mean() * 100)

display('Риск убытков',  risk2)

'Риск убытков'

0.6

Второй регион выглядит гораздо оптимистичнее! Честно говоря, я на него сначала и делала ставку :)

### Регион 3

In [35]:
values3 = []

target3_valid = target3_valid.reset_index(drop=True)


for i in range(1000):
    target3_subsample = target3_valid.sample(n=500, replace=True, random_state=state)
    predicted3_subsample = pd.Series(predictions3)[target3_subsample.index]
    values3.append(profit_calc(predicted3_subsample, target3_subsample))

In [36]:
values3 = pd.Series(values3)
    
lower3 = values3.quantile(0.025)
upper3 = values3.quantile(0.975)

mean3 = values3.mean()

In [37]:
print('Средняя прибыль:',  mean3)
print('Доверительный интервал:', lower3, upper3)

Средняя прибыль: 630457325.9521803
Доверительный интервал: -19178735.002290536 1311997709.2388525


In [38]:
risk3 = ((values3 < 0).mean() * 100)

display('Риск убытков',  risk3)

'Риск убытков'

3.0

Третий регион оказался самым непредсказуемум.

## Вывод

Наибольшая средняя выручка оказалась у второго региона, и риск убытков при этом значительно ниже остальных. Так же модель сработала для этого региона лучше всего. RMSE вышло всего 0.9 в сравнении с 38 и 40 для 1 и 3 региона.

Для разработки однозначно стоит выбирать второй регион.