**Импорт необходимых библиотек**

In [1]:
import pandas as pd

import numpy as np


from sklearn.pipeline import Pipeline

from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

## Загрузка и подготовка данных

### Загружаем данные

In [2]:
data0 = pd.read_csv("/datasets/geo_data_0.csv")
data1 = pd.read_csv("/datasets/geo_data_1.csv")
data2 = pd.read_csv("/datasets/geo_data_2.csv")

### Предобработка данных

#### Предобработка данных из файла `geo_data_0.csv`

In [3]:
data0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


**Комментарий**: Данные соответствуют описанию в условии.

In [4]:
data0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


**Комментарий**: Пропусков в данных нет, типы данных соответствуют значениям.

In [5]:
data0['id'].duplicated().sum()

10

**Комментарий**: В данных найдено `10` дубликатов в столбце `id`.

In [6]:
data0[data0['id'].duplicated(keep=False)]

Unnamed: 0,id,f0,f1,f2,product
931,HZww2,0.755284,0.368511,1.863211,30.681774
1364,bxg6G,0.411645,0.85683,-3.65344,73.60426
1949,QcMuo,0.506563,-0.323775,-2.215583,75.496502
3389,A5aEY,-0.039949,0.156872,0.209861,89.249364
7530,HZww2,1.061194,-0.373969,10.43021,158.828695
16633,fiKDv,0.157341,1.028359,5.585586,95.817889
21426,Tdehs,0.829407,0.298807,-0.049563,96.035308
41724,bxg6G,-0.823752,0.546319,3.630479,93.007798
42529,AGS9W,1.454747,-0.479651,0.68338,126.370504
51970,A5aEY,-0.180335,0.935548,-2.094773,33.020205


**Комментарий**: Теперь понятно, данные совпадают только по `id`, можно сказать что просто проводились повторные исследования для этих скважен. Так как этих данных очень мало, просто очистим таблицу от этих дубликатов.

In [7]:
data0 = data0.drop_duplicates(subset='id', keep='first')

#### Предобработка данных из файла `geo_data_1.csv`

In [8]:
data1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


**Комментарий**: Данных также соответствуют описанию из условия

In [9]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


**Комментарий**: Пропусков в данных нет и типы данных соответствуют значениям

In [10]:
data1['id'].duplicated().sum()

4

**Комментарий**: Cнова `4` дубликата по столбцу `id`

In [11]:
data1[data1['id'].duplicated(keep=False)]

Unnamed: 0,id,f0,f1,f2,product
1305,LHZR0,11.170835,-1.945066,3.002872,80.859783
2721,bfPNe,-9.494442,-5.463692,4.006042,110.992147
5849,5ltQ6,-3.435401,-12.296043,1.999796,57.085625
41906,LHZR0,-8.989672,-4.286607,2.009139,57.085625
47591,wt4Uk,-9.091098,-8.109279,-0.002314,3.179103
82178,bfPNe,-6.202799,-4.820045,2.995107,84.038886
82873,wt4Uk,10.259972,-9.376355,4.994297,134.766305
84461,5ltQ6,18.213839,2.191999,3.993869,107.813044


**Комментарий**: Ситуация такая же как и в первом файле, значения совпадают только по столбцу `id`, в остальных столбцах данные различны. Делаем тоже самое, что делали до этого-удаляем по одному дубликату.

In [12]:
data1 = data1.drop_duplicates(subset='id', keep='first')

#### Предобработка данных из файла `geo_data_2.csv`

In [13]:
data2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


**Комментарий**: Данные соответствуют описанию из условия

In [14]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


**Комментарий**: Пропусков в значениях нет и типы данных соответствуют значениям

In [15]:
data2['id'].duplicated().sum()

4

**Комментарий**: Снова `4` дубликата в столбце `id`

In [16]:
data2[data2['id'].duplicated(keep=False)]

Unnamed: 0,id,f0,f1,f2,product
11449,VF7Jo,2.122656,-0.858275,5.746001,181.716817
28039,xCHr8,1.633027,0.368135,-2.378367,6.120525
43233,xCHr8,-0.847066,2.101796,5.59713,184.388641
44378,Vcm5J,-1.229484,-2.439204,1.222909,137.96829
45404,KUPhW,0.231846,-1.698941,4.990775,11.716299
49564,VF7Jo,-0.883115,0.560537,0.723601,136.23342
55967,KUPhW,1.21115,3.176408,5.54354,132.831802
95090,Vcm5J,2.587702,1.986875,2.482245,92.327572


**Комментарий**: Все точно также как и в 2-ух предыдущих случаях, данные совпадают только по `id`, а остальные данные различны. Снова просто удаляем по одному дубликату

In [17]:
data2 = data2.drop_duplicates(subset='id', keep='first')

## Обучение и проверка модели

### Разбиение данных на выборки

#### Разбиение на выборки данных из файла `geo_data_0.csv`

In [18]:
X0 = data0.drop(['id', 'product'], axis=1)
y0 = data0['product']
state = 44
X_train0, X_val0, y_train0, y_val0 = train_test_split(X0, y0, test_size=0.25, random_state=state)

#### Разбиение на выборки данных из файла `geo_data_1.csv`

In [19]:
X1 = data1.drop(['id', 'product'], axis=1)
y1 = data1['product']
X_train1, X_val1, y_train1, y_val1 = train_test_split(X1, y1, test_size=0.25, random_state=state)

#### Разбиение на выборки данных из файла `geo_data_2.csv`

In [20]:
X2 = data2.drop(['id', 'product'], axis=1)
y2 = data2['product']
X_train2, X_val2, y_train2, y_val2 = train_test_split(X2, y2, test_size=0.25, random_state=state)

### Обучение модели и предсказания на валидационной выборке

In [21]:
model = LinearRegression()

#### Обучение модели и предсказание на валидационной выборке для файла `geo_data_0.csv`

In [22]:
model.fit(X_train0, y_train0)
y_pred_lr0 = model.predict(X_val0)
rmse_lr0 = mean_squared_error(y_val0, y_pred_lr0, squared=False) 
y_val0 = y_val0.reset_index(drop=True)
y_pred0 = pd.Series(y_pred_lr0, index=y_val0.index)

<div class="alert alert-warning">
<font size="4"><b>⚠️ Комментарий ревьюера</b></font>
    <br /> 
    <font size="3", color = "black">
<br />
Код обучения моделей и получения метрик в целом идентичен в каждом регионе. А в реальном проекте регионов может быть не 3, а 10, 50, 100, сколько угодно. И вот представь, что понадобилось поменять размер валидационной выборки с 0.25 на 0.2. Получается, тебе надо в коде каждого региона изменить одно и то же число. Ну такое себе. Поэтому повторяющийся код стоит оформлять в функцию, ну хотя бы цикл.

**Комментарий**: Обучили модель линейнной регрессии и сделали предсказания на валидационной выборке, также рассчитали метрику `RMSE`

#### Обучение модели и предсказание на валидационной выборке для файла `geo_data_1.csv`

In [23]:
model.fit(X_train1, y_train1)
y_pred_lr1 = model.predict(X_val1)
rmse_lr1 = mean_squared_error(y_val1, y_pred_lr1, squared=False)
y_val1 = y_val1.reset_index(drop=True)
y_pred1 = pd.Series(y_pred_lr1, index=y_val1.index)

**Комментарий**: Обучили модель линейнной регрессии и сделали предсказания на валидационной выборке, также рассчитали метрику `RMSE`

#### Обучение модели и предсказание на валидационной выборке для файла `geo_data_2.csv`

In [24]:
model.fit(X_train2, y_train2)
y_pred_lr2 = model.predict(X_val2)
rmse_lr2 = mean_squared_error(y_val2, y_pred_lr2, squared=False)
y_val2 = y_val2.reset_index(drop=True)
y_pred2 = pd.Series(y_pred_lr2, index=y_val2.index)

**Комментарий**: Обучили модель линейнной регрессии и сделали предсказания на валидационной выборке, также рассчитали метрику `RMSE`

### Cредний запас предсказанного сырья и RMSE модели

#### Cредний запас предсказанного сырья и RMSE модели на данных из файла `geo_data_0.csv`

In [25]:
display('Средний запас предсказанного сырья: ', y_pred_lr0.mean())
display('RMSE модели: ', rmse_lr0)

'Средний запас предсказанного сырья: '

92.57294676859895

'RMSE модели: '

37.83221797447191

#### Cредний запас предсказанного сырья и RMSE модели на данных из файла `geo_data_1.csv`

In [26]:
display('Средний запас предсказанного сырья: ', y_pred_lr1.mean())
display('RMSE модели: ', rmse_lr1)

'Средний запас предсказанного сырья: '

68.69982242514492

'RMSE модели: '

0.8885322237377635

#### Cредний запас предсказанного сырья и RMSE модели на данных из файла `geo_data_2.csv`

In [27]:
display('Средний запас предсказанного сырья: ', y_pred_lr2.mean())
display('RMSE модели: ', rmse_lr2)

'Средний запас предсказанного сырья: '

95.0808810144466

'RMSE модели: '

40.323278782784946

### Анализ результатов и вывод

**Вывод по анализу трёх регионов**

**Регион 0**
- Средний предсказанный запас: 92.57 тыс. баррелей
- RMSE модели: 37.83
- Высокий средний объём добычи, но модель предсказывает с заметной ошибкой.

**Регион 1**
- Средний предсказанный запас: 68.70 тыс. баррелей
- RMSE модели: 0.89
- Самый точный прогноз. Хотя средний запас ниже, модель работает почти идеально — это снижает риск ошибок при отборе скважин.

**Регион 2**
- Средний предсказанный запас: 95.08 тыс. баррелей
- RMSE модели: 40.32
- Самый высокий прогноз по добыче, но с наибольшей ошибкой. Есть риск переоценки запасов.

**Вывод**:
Регион 1 показывает самую надёжную модель, но может уступать в прибыли. Регион 2 выглядит наиболее перспективным по среднему запасу, однако требует проверки

## Подготовка к расчёту прибыли

### Сохранение всех ключевых значений для расчета

In [28]:
budget = 10000000000
points_total = 500
points_wells = 200
cost_unit = 450000
cost_wells = budget/points_wells
risk = 0.025

mean_pred0 = y_pred_lr0.mean()
mean_pred1 = y_pred_lr1.mean()
mean_pred2 = y_pred_lr2.mean()

pred0 = pd.Series(y_pred_lr0)
pred1 = pd.Series(y_pred_lr1)
pred2 = pd.Series(y_pred_lr2)

targets_0 = y_val0.reset_index(drop=True)
targets_1 = y_val1.reset_index(drop=True)
targets_2 = y_val2.reset_index(drop=True)

### Рассчет достаточного объема сырья для безубыточной разработки скважины

In [29]:
display(cost_wells/cost_unit)

111.11111111111111

**Комментарий**: Минимальный объем. который должна приносить  скважена, чтобы не уходить в убыток, это `111.11`

In [30]:
display('Среднее 0 регион: ', mean_pred0)
display('Среднее 1 регион: ', mean_pred1)
display('Среднее 2 регион: ', mean_pred2)

'Среднее 0 регион: '

92.57294676859895

'Среднее 1 регион: '

68.69982242514492

'Среднее 2 регион: '

95.0808810144466

**Сравнение**: Средний объем по регионам меньше, чем безубыточный объём, но надо понимать, что по регионам посчитаны средние запасы, а не объемы именно тех скважен, которые будут буриться (топ 200 скважен в каждом регионе)

### Выводы по этапу подготовки рассчета прибыли

**Выводы по этапу подготовки расчёта прибыли**

- Рассчитан безубыточный объём сырья: 111.11 тыс. баррелей — именно столько должна дать одна скважина, чтобы окупить затраты на бурение.

**Средние запасы во всех регионах (по всем 500 точкам) оказались ниже безубыточного уровня:**

- Регион 0 — 92.57 тыс.

- Регион 1 — 68.70 тыс.

- Регион 2 — 95.08 тыс.

**Это не означает убыток, так как разрабатываться будут только 200 лучших скважин по предсказаниям модели.**

Подготовлены все необходимые переменные для оценки прибыли и рисков

## Расчёт прибыли и рисков 

### Расчёт прибыли

In [36]:
def calculate_profit(y_true, y_pred):
    # 4.1 — Выбираем топ-200 скважин по предсказанию
    top_indices = y_pred.sort_values(ascending=False).head(200).index
    
    # 4.2 — Получаем реальные значения объёма сырья по этим индексам и суммируем
    selected_true_values = y_true.loc[top_indices]
    selected_true_values = selected_true_values.sum()
    
    # 4.3 — Считаем прибыль: доход - расходы
    revenue = selected_true_values * cost_unit
    total_cost = 200 * cost_wells
    profit = revenue - total_cost
    
    return profit


In [37]:
profit_0 = calculate_profit(targets_0, pred0)
profit_1 = calculate_profit(targets_1, pred1)
profit_2 = calculate_profit(targets_2, pred2)

display(f'Прибыль региона 0: {profit_0:,.0f}')
display(f'Прибыль региона 1: {profit_1:,.0f}')
display(f'Прибыль региона 2: {profit_2:,.0f}')

'Прибыль региона 0: 3,078,563,092'

'Прибыль региона 1: 2,415,086,697'

'Прибыль региона 2: 2,313,347,106'

**Комментарий**: Самую высокую прибыль показал `Регион 0` - `3,078,563,092`, а самая низкая прибыль в `Регионе 2` - `2,313,347,106`

### Подсчет рисков для каждого региона

#### Подсчет рисков для региона `0`

In [38]:
ran_state = np.random.RandomState(12345)
values0 = []
for i in range(1000):
    sample_idx = ran_state.choice(y_pred0.index, size=500, replace=False)
    selected_true = targets_0.loc[sample_idx]
    selected_pred = y_pred0.loc[sample_idx]
    total_profit = calculate_profit(selected_true, selected_pred)
    values0.append(total_profit)
values0 = pd.Series(values0)
values0_mean = values0.mean()
lower0 = values0.quantile(0.025)
upper0 = values0.quantile(0.975)
risk0 = (values0 < 0).mean()
display('Средняя прибыль: ',  values0_mean)
display('Нижняя граница доверительного интервала', lower0)
display('Верхняя граница доверительного интервала', upper0)
display('Риск: ', risk0)

'Средняя прибыль: '

364318802.22746396

'Нижняя граница доверительного интервала'

-162271452.7704695

'Верхняя граница доверительного интервала'

872056953.94418

'Риск: '

0.086

**Комментарий**: Средняя прибыль в `Регионе 0` составляет `364.318.802,23`, риски - `8.6%`

#### Подсчет рисков для региона 1

In [39]:
values1 = []
for i in range(1000):
    sample_idx = ran_state.choice(y_pred1.index, size=500, replace=False)
    selected_true = targets_1.loc[sample_idx]
    selected_pred = y_pred1.loc[sample_idx]
    total_profit = calculate_profit(selected_true, selected_pred)
    values1.append(total_profit)
values1 = pd.Series(values1)
values1_mean = values1.mean()
lower1 = values1.quantile(0.025)
upper1 = values1.quantile(0.975)
risk1 = (values1 < 0).mean()
display('Средняя прибыль: ',  values1_mean)
display('Нижняя граница доверительного интервала', lower1)
display('Верхняя граница доверительного интервала', upper1)
display('Риск: ', risk1)

'Средняя прибыль: '

460605162.1543653

'Нижняя граница доверительного интервала'

73112143.99965401

'Верхняя граница доверительного интервала'

851544610.864066

'Риск: '

0.011

**Комментарий**: Средняя прибыль в `Регионе 1` составляет `460.605.162,15`, а риски - `1.1 %`

#### Подсчет рисков для региона 2

In [40]:
values2 = []
for i in range(1000):
    sample_idx = ran_state.choice(y_pred2.index, size=500, replace=False)
    selected_true = targets_2.loc[sample_idx]
    selected_pred = y_pred2.loc[sample_idx]
    total_profit = calculate_profit(selected_true, selected_pred)
    values2.append(total_profit)
values2 = pd.Series(values2)
values2_mean = values2.mean()
lower2 = values2.quantile(0.025)
upper2 = values2.quantile(0.975)
risk2 = (values2 < 0).mean()
display('Средняя прибыль: ',  values2_mean)
display('Нижняя граница доверительного интервала', lower2)
display('Верхняя граница доверительного интервала', upper2)
display('Риск: ', risk2)

'Средняя прибыль: '

300755975.40529734

'Нижняя граница доверительного интервала'

-205130571.77326757

'Верхняя граница доверительного интервала'

807134032.8962525

'Риск: '

0.137

**Комментарий**: Средняя прибыль в `Регионе 2` составляет `300.755.975,5`, а риски - `13.7%`

### Выводы

На основании анализа трёх регионов по метрикам средней прибыли, доверительного интервала и риска убытков можно сделать следующие выводы:

| Регион | Средняя прибыль (руб)  | Риск убытков |
|--------|------------------------|--------------|
| 0      | 364 318 802            | 8.6%         |
| **1**  | **460 605 162**        | **1.1%**     |
| 2      | 300 755 975            | 13.7%        |

**Рекомендация:**  
Для разработки месторождения рекомендуется выбрать **регион 1**.

**Обоснование:**
- В регионе 1 самая высокая средняя прибыль — более **460 млн руб**. Риск убытков составляет **1.1%**, что ниже допустимого порога в 2.5%.
- В регионе 2 прибыль ниже, а риск сильно превышает порог (13.7%).
- В регионе 0 прибыль составляет **364 млн руб**, что меньше чем в **Регионе 1**, а риск убытков превышает порог (8.6%).

Таким образом, **Регион 1** является наиболее надёжным и выгодным для разработки нефтяных скважин.
