### Введение
* По имеющимся данным о трёх нефтеносных регионах, определим с помощью моделирования наиболее прибыльный.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Введение" data-toc-modified-id="Введение-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Введение</a></span></li><li><span><a href="#Загрузка-и-изучение-данных" data-toc-modified-id="Загрузка-и-изучение-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Загрузка и изучение данных</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Обучим-и-проверим-модель-для-каждого-региона" data-toc-modified-id="Обучим-и-проверим-модель-для-каждого-региона-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Обучим и проверим модель для каждого региона</a></span></li><li><span><a href="#Подготовка-к-расчету-прибыли" data-toc-modified-id="Подготовка-к-расчету-прибыли-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Подготовка к расчету прибыли</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Напишем-функцию-для-расчета-прибыли-по-выбранным-скважинам-и-предсказаниям-модели." data-toc-modified-id="Напишем-функцию-для-расчета-прибыли-по-выбранным-скважинам-и-предсказаниям-модели.-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Напишем функцию для расчета прибыли по выбранным скважинам и предсказаниям модели.</a></span></li><li><span><a href="#Посчитаем-риски-и-прибыль-для-каждого-региона" data-toc-modified-id="Посчитаем-риски-и-прибыль-для-каждого-региона-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Посчитаем риски и прибыль для каждого региона</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li></ul></div>

### Загрузка и изучение данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

In [2]:
try:
    drill_0 = pd.read_csv('/Users/bogda/anaconda3/projects/praktikum/project7_drill/geo_data_0.csv')
    drill_1 = pd.read_csv('/Users/bogda/anaconda3/projects/praktikum/project7_drill/geo_data_1.csv')
    drill_2 = pd.read_csv('/Users/bogda/anaconda3/projects/praktikum/project7_drill/geo_data_2.csv')                     
except FileNotFoundError as e:
    print(e)
    drill_0 = pd.read_csv('/datasets/geo_data_0.csv')
    drill_1 = pd.read_csv('/datasets/geo_data_1.csv')
    drill_2 = pd.read_csv('/datasets/geo_data_2.csv')    

In [3]:
drill_0

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [4]:
drill_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
drill_0.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [6]:
drill_0.duplicated().sum()

0

In [7]:
drill_1

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [8]:
drill_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
drill_1.duplicated().sum()

0

In [10]:
drill_2

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [11]:
drill_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


#### Вывод
**Данные загружены корректно, первичный осмотр проведён**

### Обучим и проверим модель для каждого региона

In [12]:
features_0 = drill_0.drop(['product','id'], axis=1)
target_0 = drill_0['product']
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0) 
predictions_valid_0 = model_0.predict(features_valid_0) 

result = mean_squared_error(target_valid_0, predictions_valid_0) ** 0.5 
print("RMSE модели линейной регрессии на валидационной выборке:", result)
predictions_valid_0 = pd.Series(predictions_valid_0)
print('Предсказание модели на валидационной выборке')
predictions_valid_0.head(10)

RMSE модели линейной регрессии на валидационной выборке: 37.5794217150813
Предсказание модели на валидационной выборке


0     95.894952
1     77.572583
2     77.892640
3     90.175134
4     70.510088
5     69.127076
6    125.106759
7     87.643849
8     86.035871
9     98.655311
dtype: float64

In [13]:
print('Среднее предсказаное моделью', predictions_valid_0.mean())

Среднее предсказаное моделью 92.59256778438008


In [14]:
features_1 = drill_1.drop(['product','id'], axis=1)
target_1 = drill_1['product']
features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predictions_valid_1 = model_1.predict(features_valid_1)

result1 = mean_squared_error(target_valid_1, predictions_valid_1) ** 0.5
print("RMSE модели линейной регрессии на валидационной выборке:", result1)
predictions_valid_1 = pd.Series(predictions_valid_1)
print('Предсказание модели на валидационной выборке')
predictions_valid_1.head(10)

RMSE модели линейной регрессии на валидационной выборке: 0.8930992867756167
Предсказание модели на валидационной выборке


0     82.663314
1     54.431786
2     29.748760
3     53.552133
4      1.243856
5    111.438490
6    137.134374
7     82.888902
8    110.897311
9     29.219306
dtype: float64

In [15]:
print('Среднее предсказаное моделью', predictions_valid_1.mean())

Среднее предсказаное моделью 68.72854689544577


In [16]:
features_2 = drill_2.drop(['product','id'], axis=1)
target_2 = drill_2['product']
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2) 
predictions_valid_2 = model_2.predict(features_valid_2) 

result = mean_squared_error(target_valid_2, predictions_valid_2) ** 0.5
print("RMSE модели линейной регрессии на валидационной выборке:", result)
predictions_valid_2 = pd.Series(predictions_valid_2)
print('Предсказание модели на валидационной выборке')
predictions_valid_2.head(10)

RMSE модели линейной регрессии на валидационной выборке: 40.02970873393434
Предсказание модели на валидационной выборке


0     93.599633
1     75.105159
2     90.066809
3    105.162375
4    115.303310
5    121.939197
6    119.053040
7     75.396575
8    111.400543
9     84.029320
dtype: float64

In [17]:
print('Среднее предсказаное моделью', predictions_valid_2.mean())

Среднее предсказаное моделью 94.96504596800506


* Сохраним правильные ответы на валидационной выборке

In [18]:
target_valid_0 = target_valid_0.reset_index(drop=True)
target_valid_1 = target_valid_1.reset_index(drop=True)
target_valid_2 = target_valid_2.reset_index(drop=True)
target_valid_0

0         10.038645
1        114.551489
2        132.603635
3        169.072125
4        122.325180
            ...    
24995    170.116726
24996     93.632175
24997    127.352259
24998     99.782700
24999    177.821022
Name: product, Length: 25000, dtype: float64

### Подготовка к расчету прибыли

* Бюджет на разработку скважин в регионе(руб)

In [19]:
BUDGET = 10000000000

* Доход с каждой единицы продукта(руб\тыс.барелей)

In [20]:
INCOME = 450000

* Количество скважин (шт)

In [21]:
Q = 200

* Достаточный объем сырья для для безубыточной разработки скважины

In [22]:
v_enough = BUDGET / (Q * INCOME)
v_enough

111.11111111111111

In [23]:
predict_mean_income_0 = predictions_valid_0.mean() * INCOME
predict_mean_income_0

41666655.50297104

In [24]:
predict_mean_income_1 = predictions_valid_1.mean() * INCOME
predict_mean_income_1

30927846.1029506

In [25]:
predict_mean_income_2 = predictions_valid_2.mean() * INCOME
predict_mean_income_2

42734270.68560228

#### Вывод

**Среднего запаса по скважинам в каждом регионе не хватит для безубыточной работы, нужно искать максимальные скважины.**

### Напишем функцию для расчета прибыли по выбранным скважинам и предсказаниям модели.

* Выберем скважины с максимальным значением предсказаний.

In [26]:
def profit(target_valid_i, predictions_valid_i):
    predmax_i = predictions_valid_i.nlargest(Q)
    selected = target_valid_i[predmax_i.index][:Q]
    profit = (selected.sum() * INCOME) - BUDGET
    return(profit)
profit(target_valid_0, predictions_valid_0)

3320826043.1398506

In [27]:
profit(target_valid_1, predictions_valid_1)

2415086696.681511

In [28]:
profit(target_valid_2, predictions_valid_2)

2710349963.5998325

### Посчитаем риски и прибыль для каждого региона

In [29]:
def count_profit(target_valid_i, predictions_valid_i):
    state = np.random.RandomState(12345)
    values = []
    for i in range(1000):
        target_subsample = target_valid_i.sample(n=500, replace=True, random_state=state)
        probs_subsample = predictions_valid_i[target_subsample.index]
        profit_sample = profit(target_subsample, probs_subsample)
        values.append(profit_sample)
    values = pd.Series(values)  
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    count = 0
    for i in range(len(values)):
        if values[i] < 0:
            count += 1
    return values.mean(), lower, upper, count / len(values) * 100, pd.Series(values < 0).mean()
count_profit(target_valid_0, predictions_valid_0)

(425938526.910592, -102090094.83793654, 947976353.3583689, 6.0, 0.06)

In [30]:
count_profit(target_valid_1, predictions_valid_1)

(515222773.44329005, 68873225.37050176, 931547591.2570494, 1.0, 0.01)

In [31]:
count_profit(target_valid_2, predictions_valid_2)

(435008362.782756, -128880547.32978901, 969706954.1802661, 6.4, 0.064)

#### Вывод
* Вероятность убытков меньше 2,5 % у второго региона.Наибольшая средняя прибыль у второго региона. Принимаем второй регион как ниболее прибыльный с приемлемым уровнем риска.