## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression

In [2]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv', sep=',')
geo_data_0.head(1)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062


In [3]:
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv', sep=',')
geo_data_1.head(1)

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103


In [4]:
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv', sep=',')
geo_data_2.head(1)

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673


### Предобработка данных

Выведем общую информацию о датасетах и проверим на наличие простых дубликатов.

In [5]:
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [6]:
geo_data_0.duplicated().sum()

0

In [7]:
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
geo_data_1.duplicated().sum()

0

In [9]:
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [10]:
geo_data_2.duplicated().sum()

0

Типы данных в датасетах нас устраивают. Простых дубликатов не выявлено.

## Обучение и проверка модели

### geo_data_0

#### Разобьем данные на тренировочную и валидационную выборки.

In [11]:
X = geo_data_0.drop(['product', 'id'], axis=1)
y = geo_data_0['product']

X_train, X_valid, y_train, y_valid = train_test_split(
    X, 
    y, 
    random_state=42, test_size=0.25
) 

#### Обучение и прогноз модели линейной регерессии.

In [12]:
model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_valid)

mse = mean_squared_error(y_valid, y_pred)
rmse_0 = np.sqrt(mse)

print('Данные по первому региону:')
print('Средний запас предсказанного сырья', y_pred.mean())
print('RMSE:', rmse_0)

Данные по первому региону:
Средний запас предсказанного сырья 92.39879990657768
RMSE: 37.75660035026169


#### Сохраним предсказания и истинные значения валидационной выборки

In [13]:
predictions_df = pd.DataFrame(y_pred, columns=['prediction'])
validation_df = y_valid.copy()

geo_0 = pd.concat([
    validation_df.reset_index(drop=True),
    predictions_df.reset_index(drop=True)],
    axis=1)

geo_0.head(1)

Unnamed: 0,product,prediction
0,122.07335,101.901017


### geo_data_1

#### Разобьем данные на тренировочную и валидационную выборки.

In [14]:
X = geo_data_1.drop(['product', 'id'], axis=1)
y = geo_data_1['product']

X_train, X_valid, y_train, y_valid = train_test_split(
    X, 
    y, 
    random_state=42, test_size=0.25
) 

#### Обучение и прогноз модели линейной регерессии.

In [15]:
model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_valid)

mse = mean_squared_error(y_valid, y_pred)
rmse_1 = np.sqrt(mse)

print('Данные по второму региону:')
print('Средний запас предсказанного сырья', y_pred.mean())
print('RMSE:', rmse_1)

Данные по второму региону:
Средний запас предсказанного сырья 68.71287803913762
RMSE: 0.890280100102884


#### Сохраним предсказания и истинные значения валидационной выборки

In [16]:
predictions_df = pd.DataFrame(y_pred, columns=['prediction'])
validation_df = y_valid.copy()

geo_1 = pd.concat([
    validation_df.reset_index(drop=True),
    predictions_df.reset_index(drop=True)],
    axis=1)

geo_1.head(1)

Unnamed: 0,product,prediction
0,0.0,0.844738


### geo_data_2

#### Разобьем данные на тренировочную и валидационную выборки.

In [17]:
X = geo_data_2.drop(['product', 'id'], axis=1)
y = geo_data_2['product']

X_train, X_valid, y_train, y_valid = train_test_split(
    X, 
    y, 
    random_state=42, test_size=0.25
) 

#### Обучение и прогноз модели линейной регерессии.

In [18]:
model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_valid)

mse = mean_squared_error(y_valid, y_pred)
rmse_2 = np.sqrt(mse)

print('Данные по третьему региону:')
print('Средний запас предсказанного сырья', y_pred.mean())
print('RMSE:', rmse_2)

Данные по третьему региону:
Средний запас предсказанного сырья 94.77102387765939
RMSE: 40.145872311342174


#### Сохраним предсказания и истинные значения валидационной выборки

In [19]:
predictions_df = pd.DataFrame(y_pred, columns=['prediction'])
validation_df = y_valid.copy()

geo_2 = pd.concat([
    validation_df.reset_index(drop=True),
    predictions_df.reset_index(drop=True)],
    axis=1)

geo_2.head(1)

Unnamed: 0,product,prediction
0,117.441301,98.301916


## Подготовка к расчёту прибыли

### Все ключевые значения для расчётов сохраним в отдельных переменных.

In [20]:
#общий бюджет для разработки региона
money = 10000000000

#количество разрабатываемых (лучших после МО тестирования) скважин в регионе
n_wells = 200

#прибыль с каждой единицы продукта (тысяча баррелей):
revenue = 450000

### Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины. Сравним полученный объём сырья со средним запасом в каждом регионе.

Можем рассчитать необходимый объем сырья (product) для безубыточной разработки новой скважины:  

In [21]:
product = money / n_wells / revenue
print('Необходимый объем сырья (product) для безубыточной разработки скважины составляет:', product)

Необходимый объем сырья (product) для безубыточной разработки скважины составляет: 111.11111111111111


Сравним это значение со средними показателями скважин для каждого региона:

In [22]:
print('Средний объём сырья скважины в первом регионе:', geo_data_0['product'].mean())
print('Средний объём сырья скважины во втором  регионе:', geo_data_1['product'].mean())
print('Средний объём сырья скважины в третьем регионе:', geo_data_2['product'].mean())

Средний объём сырья скважины в первом регионе: 92.50000000000001
Средний объём сырья скважины во втором  регионе: 68.82500000000002
Средний объём сырья скважины в третьем регионе: 95.00000000000004


### Промежуточный вывод

Необходимый объем сырья (product) для безубыточной разработки скважины составляет - 111.11  
Это значение превышает средние показатели скважин по каждому региону, но ничего страшного, ведь мы будем отбирать только лучшие скважины для разработки!

## Расчёт прибыли и рисков 

### Создадим функцию для подсчета выручки лучших по предсказаниям скважин.

In [23]:
def calc(data, n):
    x = data.sort_values(by='prediction', ascending=False).head(n)
    return x['product'].sum() * revenue

### Оценим прибыль лучших скважин для каждого региона с помощью функции

In [24]:
print('Прибыль лучших скважин первого региона:', calc(geo_0, 200))
print('Прибыль лучших скважин второго региона:', calc(geo_1, 200))
print('Прибыль лучших скважин третьего региона:', calc(geo_2, 200))

Прибыль лучших скважин первого региона: 13359141114.46218
Прибыль лучших скважин второго региона: 12415086696.68151
Прибыль лучших скважин третьего региона: 12598571759.374111


In [25]:
state = np.random.RandomState(12345)
frac = 0.02

In [29]:
values_0 = []
loss_0 = 0

for i in range(1000):
    subsample = geo_0.sample(frac=frac, replace=True, random_state=state)
    profit = calc(subsample, 200) - money  
    values_0.append(profit)
    if profit < 0:
        loss_0 += 1

values_0 = pd.Series(values_0)

values_0.sort_values(ascending=True)

lower = values_0.quantile(0.025)
upper = values_0.quantile(0.975)

print('Средняя прибыль в первом регионе:', values_0.mean())
print('Вероятность убытков в первом регионе:', (loss_0 / 1000))
print('95%-й доверительный интервал для первого региона от', lower, 'до', upper)

Средняя прибыль в первом регионе: 402421126.37110597
Вероятность убытков в первом регионе: 0.058
95%-й доверительный интервал для первого региона от -82451825.01066132 до 917218102.6088879


In [30]:
values_1 = []
loss_1 = 0

for i in range(1000):
    subsample = geo_1.sample(frac=frac, replace=False, random_state=state)
    profit = calc(subsample, 200) - money  
    values_1.append(profit)
    if profit < 0:
        loss_1 += 1

values_1 = pd.Series(values_1)

values_1.sort_values(ascending=True)

lower = values_1.quantile(0.025)
upper = values_1.quantile(0.975)

print('Средняя прибыль во втором регионе:', values_1.mean())
print('Вероятность убытков во втором регионе:', (loss_1 / 1000))
print('95%-й доверительный интервал для второго региона от', lower, 'до', upper)

Средняя прибыль во втором регионе: 441910007.10389036
Вероятность убытков во втором регионе: 0.009
95%-й доверительный интервал для второго региона от 64483472.14596219 до 813770652.1922506


In [31]:
values_2 = []
loss_2 = 0

for i in range(1000):
    subsample = geo_2.sample(frac=frac, replace=False, random_state=state)
    profit = calc(subsample, 200) - money  
    values_2.append(profit)
    if profit < 0:
        loss_2 += 1

values_2 = pd.Series(values_2)

values_2.sort_values(ascending=True)

lower = values_2.quantile(0.025)
upper = values_2.quantile(0.975)

print('Средняя прибыль в третьем регионе:', values_2.mean())
print('Вероятность убытков в третьем регионе:', (loss_2 / 1000))
print('95%-й доверительный интервал для третьего региона от', lower, 'до', upper)

Средняя прибыль в третьем регионе: 385933338.3132061
Вероятность убытков в третьем регионе: 0.061
95%-й доверительный интервал для третьего региона от -119759846.60163827 до 890517721.8530927
