## Загрузка и подготовка данных

In [1]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

In [2]:
df_0 = pd.read_csv('/datasets/geo_data_0.csv')

In [3]:
df_1 = pd.read_csv('/datasets/geo_data_1.csv')

In [4]:
df_2 = pd.read_csv('/datasets/geo_data_2.csv')

Выведем на экран первые десять строк каждой таблицы:

In [5]:
df_0.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
5,wX4Hy,0.96957,0.489775,-0.735383,64.741541
6,tL6pL,0.645075,0.530656,1.780266,49.055285
7,BYPU6,-0.400648,0.808337,-5.62467,72.943292
8,j9Oui,0.643105,-0.551583,2.372141,113.35616
9,OLuZU,2.173381,0.563698,9.441852,127.910945


In [6]:
df_1.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
5,HHckp,-3.32759,-2.205276,3.003647,84.038886
6,h5Ujo,-11.142655,-10.133399,4.002382,110.992147
7,muH9x,4.234715,-0.001354,2.004588,53.906522
8,YiRkx,13.355129,-0.332068,4.998647,134.766305
9,jG6Gi,1.069227,-11.025667,4.997844,137.945408


In [7]:
df_2.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
5,LzZXx,-0.758092,0.710691,2.585887,90.222465
6,WBHRv,-0.574891,0.317727,1.773745,45.641478
7,XO8fn,-1.906649,-2.45835,-0.177097,72.48064
8,ybmQ5,1.776292,-0.279356,3.004156,106.616832
9,OilcN,-1.214452,-0.439314,5.922514,52.954532


Получим общую информацию о каждой таблице:

In [8]:
df_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [10]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


В каждой таблице пять признаков. Целевой признак, который нужно предсказать, — `product`.

Согласно документации к данным:

- `id` — уникальный идентификатор скважины;
- `f0, f1, f2` — три признака точек (признаки значимы);
- `product` — объём запасов в скважине (тыс. баррелей).

In [11]:
df_0_main = df_0.drop(['id'], axis=1)
df_1_main = df_1.drop(['id'], axis=1)
df_2_main = df_2.drop(['id'], axis=1)

In [12]:
features_0 = df_0_main.drop(['product'], axis=1)
target_0 = df_0_main['product']
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(features_0, 
                                                                                      target_0, 
                                                                                      test_size = 0.25,  
                                                                                      random_state = 12345)

In [13]:
features_1 = df_1_main.drop(['product'], axis=1)
target_1 = df_1_main['product']
features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(features_1, 
                                                                                      target_1, 
                                                                                      test_size = 0.25,  
                                                                                      random_state = 12345)

In [14]:
features_2 = df_2_main.drop(['product'], axis=1)
target_2 = df_2_main['product']
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(features_2, 
                                                                                      target_2, 
                                                                                      test_size = 0.25,  
                                                                                      random_state = 12345)

In [15]:
# проверка размеров полученных выборок для первого региона
print(features_train_0.shape) 
print(target_train_0.shape)
print(features_valid_0.shape)
print(target_valid_0.shape)

(75000, 3)
(75000,)
(25000, 3)
(25000,)


In [16]:
# проверка размеров полученных выборок для второго региона
print(features_train_1.shape)
print(target_train_1.shape)
print(features_valid_1.shape)
print(target_valid_1.shape)

(75000, 3)
(75000,)
(25000, 3)
(25000,)


In [17]:
# проверка размеров полученных выборок для третьего региона
print(features_train_2.shape)
print(target_train_2.shape)
print(features_valid_2.shape)
print(target_valid_2.shape)

(75000, 3)
(75000,)
(25000, 3)
(25000,)


In [18]:
# создадим список названий количественных признаков
numeric = ['f0', 'f1', 'f2']

In [19]:
# приведем численные признаки к одному масштабу для первого региона
scaler_0 = StandardScaler()
scaler_0.fit(features_train_0[numeric])
pd.options.mode.chained_assignment = None
features_train_0[numeric] = scaler_0.transform(features_train_0[numeric])
features_valid_0[numeric] = scaler_0.transform(features_valid_0[numeric])

In [20]:
# приведем численные признаки к одному масштабу для второго региона
scaler_1 = StandardScaler()
scaler_1.fit(features_train_1[numeric])
pd.options.mode.chained_assignment = None
features_train_1[numeric] = scaler_1.transform(features_train_1[numeric])
features_valid_1[numeric] = scaler_1.transform(features_valid_1[numeric])

In [21]:
# приведем численные признаки к одному масштабу для третьего региона
scaler_2 = StandardScaler()
scaler_2.fit(features_train_2[numeric])
pd.options.mode.chained_assignment = None
features_train_2[numeric] = scaler_2.transform(features_train_2[numeric])
features_valid_2[numeric] = scaler_2.transform(features_valid_2[numeric])

### Вывод

Каждый объект в трех наборах данных (регионах) — это характеристики для каждой скважины. Дополнительно стоит упомянуть, что пропущенных данных нет. Была проведена подготовка данных:

- удален лишний столбец `id` в каждой таблице;
- данные разделены на на обучающую и валидационную выборки в соотношении 75:25;
- для каждого региона количественные признаки были приведены к одному масштабу.

## Обучение и проверка модели

In [22]:
# обучим и проверим модель для первого региона
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predicted_valid_0 = model_0.predict(features_valid_0)
mse_0 = mean_squared_error(target_valid_0, predicted_valid_0)
rmse_0 = mse_0 ** 0.5
average_pred_product_0 = predicted_valid_0.mean()
print("Cредний запас предсказанного сырья для первого региона:", average_pred_product_0)
print("RMSE модели для первого региона:", rmse_0)

Cредний запас предсказанного сырья для первого региона: 92.59256778438038
RMSE модели для первого региона: 37.5794217150813


In [23]:
# обучим и проверим модель для второго региона
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predicted_valid_1 = model_1.predict(features_valid_1)
mse_1 = mean_squared_error(target_valid_1, predicted_valid_1)
rmse_1 = mse_1 ** 0.5
average_pred_product_1 = predicted_valid_1.mean()
print("Cредний запас предсказанного сырья для второго региона:", average_pred_product_1)
print("RMSE модели для второго региона:", rmse_1)

Cредний запас предсказанного сырья для второго региона: 68.728546895446
RMSE модели для второго региона: 0.8930992867756158


In [24]:
# обучим и проверим модель для второго региона
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predicted_valid_2 = model_2.predict(features_valid_2)
mse_2 = mean_squared_error(target_valid_2, predicted_valid_2)
rmse_2 = mse_2 ** 0.5
average_pred_product_2 = predicted_valid_2.mean()
print("Cредний запас предсказанного сырья для третьего региона:", average_pred_product_2)
print("RMSE модели для третьего региона:", rmse_2)

Cредний запас предсказанного сырья для третьего региона: 94.96504596800489
RMSE модели для третьего региона: 40.02970873393434


**Вывод**

Исследовав модель для каждого региона, можно прийти к выводу, что наибольший средний запас сырья прогнозируется для третьего региона. Отметим, что модель для второго региона показала наименьшее значение RMSE, то есть с точки зрения метрики качества данная модель лучше остальных.

## Подготовка к расчёту прибыли

In [25]:
# сохраним ключевые значения для расчётов в отдельных переменных
budget = 10000000000
profit_unit = 450000
points_for_budget = 200

In [26]:
# рассчитаем достаточный объём сырья для безубыточной разработки новой скважины
volume_well = budget / profit_unit / points_for_budget
print("Достаточный объём сырья для безубыточной разработки новой скважины:", volume_well)

Достаточный объём сырья для безубыточной разработки новой скважины: 111.11111111111111


In [27]:
# средний запас сырья в первом регионе
target_0.mean()

92.50000000000001

In [28]:
# средний запас сырья во втором регионе
target_1.mean()

68.82500000000002

In [29]:
# средний запас сырья в третьем регионе
target_2.mean()

95.00000000000004

**Вывод**

Если сравнивать полученный объём сырья со средним запасом в каждом регионе, то наиболее перспективным окажется третий регион с наибольшим средним запасом около 95 тыс. баррелей. Однако, во всех регионах концентрация продукта слишком низкая, чтобы выбирать точки случайно.

**Далее создадим функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели.**

In [30]:
def profit(target, predictions, count):
    predictions_sorted = predictions.sort_values(ascending=False)
    selected = target[predictions_sorted.index][:count]
    return (profit_unit * selected.sum()) - budget

## Расчёт прибыли и рисков 

Для того, чтобы посчитать риски и прибыль для каждого региона, применим технику Bootstrap. 

In [31]:
# переведем данные в pd.Series
predicted_valid_0_series = pd.Series(predicted_valid_0)
target_valid_0_series = pd.Series(target_valid_0)

state = np.random.RandomState(12345)
 
values_0 = []
 
for i in range(1000):
    target_subsample_0 = target_valid_0_series.reset_index(drop=True).sample(n=500, replace=True, random_state=state)
    predicted_subsample_0 = predicted_valid_0_series[target_subsample_0.index]
    values_0.append(profit(target_subsample_0, predicted_subsample_0, points_for_budget))
 
 
values_0 = pd.Series(values_0)
mean_0 = values_0.mean()
lower_0 = values_0.quantile(0.025)
upper_0 = values_0.quantile(0.975)
risk_loss_0 = (values_0 < 0).mean()
print('Средняя прибыль для первого региона:', mean_0)
print('95%-й доверительный интервал для первого региона:', lower_0, upper_0)
print('Риск убытков для первого региона:', risk_loss_0)

Средняя прибыль для первого региона: 425938526.9105923
95%-й доверительный интервал для первого региона: -102090094.83793654 947976353.358369
Риск убытков для первого региона: 0.06


In [32]:
# переведем данные в pd.Series
predicted_valid_1_series = pd.Series(predicted_valid_1)
target_valid_1_series = pd.Series(target_valid_1)

state = np.random.RandomState(12345)
 
values_1 = []
 
for i in range(1000):
    target_subsample_1 = target_valid_1_series.reset_index(drop=True).sample(n=500, replace=True, random_state=state)
    predicted_subsample_1 = predicted_valid_1_series[target_subsample_1.index]
    values_1.append(profit(target_subsample_1, predicted_subsample_1, points_for_budget))
 
 
values_1 = pd.Series(values_1)
mean_1 = values_1.mean()
lower_1 = values_1.quantile(0.025)
upper_1 = values_1.quantile(0.975)
risk_loss_1 = (values_1 < 0).mean()
print('Средняя прибыль для второго региона:', mean_1)
print('95%-й доверительный интервал для второго региона:', lower_1, upper_1)
print('Риск убытков для второго региона:', risk_loss_1)

Средняя прибыль для второго региона: 515222773.44328994
95%-й доверительный интервал для второго региона: 68873225.37050177 931547591.2570496
Риск убытков для второго региона: 0.01


In [33]:
# переведем данные в pd.Series
predicted_valid_2_series = pd.Series(predicted_valid_2)
target_valid_2_series = pd.Series(target_valid_2)

state = np.random.RandomState(12345)
 
values_2 = []
 
for i in range(1000):
    target_subsample_2 = target_valid_2_series.reset_index(drop=True).sample(n=500, replace=True, random_state=state)
    predicted_subsample_2 = predicted_valid_2_series[target_subsample_2.index]
    values_2.append(profit(target_subsample_2, predicted_subsample_2, points_for_budget))
 
 
values_2 = pd.Series(values_2)
mean_2 = values_2.mean()
lower_2 = values_2.quantile(0.025)
upper_2 = values_2.quantile(0.975)
risk_loss_2 = (values_2 < 0).mean()
print('Средняя прибыль для третьего региона:', mean_2)
print('95%-й доверительный интервал для третьего региона:', lower_2, upper_2)
print('Риск убытков для третьего региона:', risk_loss_2)

Средняя прибыль для третьего региона: 435008362.78275555
95%-й доверительный интервал для третьего региона: -128880547.32978901 969706954.1802679
Риск убытков для третьего региона: 0.064


## Общий вывод

Для ответ на вопрос исследования были изучены таблицы с данными, проведена подготовка наборов данных, обучены и проверены модели, а также посчитаны риски и прибыль для каждого региона.

**В результате анализа возможной прибыли и рисков техникой Bootstrap для разработки скважин предложен второй регион. Данный выбор обоснован следующими факторами:**

1. Наименьшая вероятность убытков наблюдается во втором регионе и равна **1%, что меньше 2.5% и соответствует основному условию исследования.**


2. Средняя прибыль для второго региона составила около 515 млрд. рублей, что больше, чем для других двух регионов.


3. С вероятностью 95% средняя прибыль для второго региона попадает в интервал от 68 до 931 млрд. рублей, т. е. в отличие от доверительных интервалов для первого и третьего регионов 0.025-квантиль принимает положительное значение.