# Выбор локации для скважины

Нужно решить где добывающей компании бурить новую скважину.

В наличии данные о пробах нефти в трёх регионах: в каждом 10 000 месторождений, где измерено качество нефти и объём её запасов. Нужно построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.

**Описание данных**

Данные геологоразведки трёх регионов находятся в файлах:

•	/datasets/geo_data_0.csv. Скачать датасет

•	/datasets/geo_data_1.csv. Скачать датасет

•	/datasets/geo_data_2.csv. Скачать датасет

•	id — уникальный идентификатор скважины;

•	f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);

•	product — объём запасов в скважине (тыс. баррелей).

Условия задачи:

•	Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).

•	При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.

•	Бюджет на разработку скважин в регионе — 10 млрд рублей.

•	При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.

•	После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.


## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.linear_model import LinearRegression
import seaborn as sns
from sklearn.utils import shuffle
from sklearn.metrics import mean_squared_error
from numpy.random import RandomState
from sklearn.preprocessing import StandardScaler 

In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

Проанализируем инфрмацию о каждом из датасетов.

In [3]:
# data = [data_0, data_1, data_2]

# for i in data:
#     print(f"\n Информация о датасете:\n")
#     i.info()
#     print(i.describe())
#     print(i.shape)
#     print('Явных дубликатов', i.duplicated().sum())
#     print('Дубликатов в id', i['id'].duplicated().sum())
#     print(i.corr(method='spearman'))
#     print(i.head(5))
#     i.drop_duplicates(subset='id',inplace=True)

In [4]:
print(f"\n Информация о датасете:\n")
data_0.info()
print(data_0.describe())
print(data_0.shape)
print('Явных дубликатов', data_0.duplicated().sum())
print('Дубликатов в id', data_0['id'].duplicated().sum())
print(data_0.corr(method='spearman'))
print(data_0.head(5))
data_0.drop_duplicates(subset='id',inplace=True)


 Информация о датасете:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         

In [5]:
print(f"\n Информация о датасете:\n")
data_1.info()
print(data_1.describe())
print(data_1.shape)
print('Явных дубликатов', data_1.duplicated().sum())
print('Дубликатов в id', data_1['id'].duplicated().sum())
print(data_1.corr(method='spearman'))
print(data_1.head(5))
data_1.drop_duplicates(subset='id',inplace=True)


 Информация о датасете:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        1.141296      -4.796579       2.494541      68.825000
std         8.965932       5.119872       1.703572      45.944423
min       -31.609576     -26.358598      -0.018144       0.000000
25%        -6.298551      -8.267985       1.000021      26.953261
50%         1.153055      -4.813172       2.011479      57.085625
75%         8.621015      -1.332816       3.999904     107.813044
max        2

In [6]:
print(f"\n Информация о датасете:\n")
data_2.info()
print(data_2.describe())
print(data_2.shape)
print('Явных дубликатов', data_2.duplicated().sum())
print('Дубликатов в id', data_2['id'].duplicated().sum())
print(data_2.corr(method='spearman'))
print(data_2.head(5))
data_2.drop_duplicates(subset='id',inplace=True)


 Информация о датасете:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
                  f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.002023      -0.002081       2.495128      95.000000
std         1.732045       1.730417       3.473445      44.749921
min        -8.760004      -7.084020     -11.970335       0.000000
25%        -1.162288      -1.174820       0.130359      59.450441
50%         0.009424      -0.009482       2.484236      94.925613
75%         1.158535       1.163678       4.858794     130.595027
max         

В таблице с данными data_1  признак f2 коррелирует с целевой переменной product.

Также видно небольше количество дубликатов в столбце 'id', я буду удалять эти дубликаты ввиду их небольшго количества, но в целом на качество модели они вряд ли бы повлияли.

Для построения линейной модели мне будет мешать столбец 'id', тип данных - object. Так как он не несет информации, которая необходима для исследования, удалю его в каждом из датафреймов/

Также у будущих целевых признаков разный масштаб, это нужно исправить перед посторением моделей.

In [7]:
# data = [data_0, data_1, data_2]

# for i in data:
#     sns.heatmap(i.corr()[['product']], cmap = 'coolwarm')
    

## Обучение и проверка модели

In [8]:
features_0 = data_0.drop(['id', 'product'], axis=1)
target_0 = data_0['product']

features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
     features_0, target_0, test_size=0.25, random_state=12345)

print(f"Размер выборок: {features_train_0.shape, features_valid_0.shape, target_train_0.shape, target_valid_0.shape}")


scaler = StandardScaler()
scaler.fit(features_train_0)
features_train_0_st= scaler.transform(features_train_0)
features_valid_0_st = scaler.transform(features_valid_0) 


model_0 = LinearRegression()# инициализируйте модель LinearRegression
model_0.fit(features_train_0_st, target_train_0) # обучите модель на тренировочной выборке
predictions_valid_0 = model_0.predict(features_valid_0_st) # получите предсказания модели на валидационной выборке
print(f"RMSE модели линейной регрессии на валидационной выборке по первому региону: {mean_squared_error(target_valid_0, predictions_valid_0)**0.5}")
print('Средний запас предсказанного сырья по первому региону:', pd.DataFrame(predictions_valid_0).sort_values(by=0, ascending=False).mean()[0])

Размер выборок: ((74992, 3), (24998, 3), (74992,), (24998,))
RMSE модели линейной регрессии на валидационной выборке по первому региону: 37.853527328872964
Средний запас предсказанного сырья по первому региону: 92.78915638280624


In [9]:
features_1 = data_1.drop(['id', 'product'], axis=1)
target_1 = data_1['product']

features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
     features_1, target_1, test_size=0.25, random_state=12345)

print(f"Размер выборок: {features_train_1.shape, features_valid_1.shape, target_train_1.shape, target_valid_1.shape}")


scaler = StandardScaler()
scaler.fit(features_train_1)
features_train_1_st= scaler.transform(features_train_1)
features_valid_1_st = scaler.transform(features_valid_1) 


model_1 = LinearRegression()# инициализируйте модель LinearRegression
model_1.fit(features_train_1_st, target_train_1) # обучите модель на тренировочной выборке
predictions_valid_1 = model_1.predict(features_valid_1_st) # получите предсказания модели на валидационной выборке
print(f"RMSE модели линейной регрессии на валидационной выборке по второму региону: {mean_squared_error(target_valid_1, predictions_valid_1)**0.5}")
print('Средний запас предсказанного сырья по второму региону:', pd.DataFrame(predictions_valid_1).sort_values(by=0, ascending=False).mean()[0])

Размер выборок: ((74997, 3), (24999, 3), (74997,), (24999,))
RMSE модели линейной регрессии на валидационной выборке по второму региону: 0.8920592647717033
Средний запас предсказанного сырья по второму региону: 69.1783195703043


In [10]:
features_2 = data_2.drop(['id', 'product'], axis=1)
target_2 = data_2['product']

features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
     features_2, target_2, test_size=0.25, random_state=12345)

print(f"Размер выборок: {features_train_2.shape, features_valid_2.shape, target_train_2.shape, target_valid_2.shape}")


scaler = StandardScaler()
scaler.fit(features_train_2)
features_train_2_st= scaler.transform(features_train_2)
features_valid_2_st = scaler.transform(features_valid_2) 


model_2 = LinearRegression()# инициализируйте модель LinearRegression
model_2.fit(features_train_2_st, target_train_2) # обучите модель на тренировочной выборке
predictions_valid_2 = model_2.predict(features_valid_2_st) # получите предсказания модели на валидационной выборке
print(f"RMSE модели линейной регрессии на валидационной выборке по третьему региону: {mean_squared_error(target_valid_2, predictions_valid_2)**0.5}")
print('Средний запас предсказанного сырья по третьему региону:', pd.DataFrame(predictions_valid_2).sort_values(by=0, ascending=False).mean()[0])

Размер выборок: ((74997, 3), (24999, 3), (74997,), (24999,))
RMSE модели линейной регрессии на валидационной выборке по третьему региону: 40.07585073246016
Средний запас предсказанного сырья по третьему региону: 94.86572480562035


Модель по второму региону имеет самоую низкую RMSE и минимальный объем предсказанного сырья, что говорит о том, что она способна лучше всего предсказывать значения.
Предсказанный запас сырья выше всего в первом регионе, не смотря на то,что RMSE модели 2го региона достаточно высокая.

## Подготовка к расчёту прибыли

• При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.

• Бюджет на разработку скважин в регионе — 10 млрд рублей.

• При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.



In [11]:
#все ключевые значения для расчётов сохраните в отдельных переменных
points = 500
best_points = 200
budget = 10e9
rev_unit = 450000
break_even_point = budget/rev_unit/best_points
print('Достаточный объём сырья для безубыточной разработки новой скважины', break_even_point)

Достаточный объём сырья для безубыточной разработки новой скважины 111.11111111111111


Минимальное среднее количество сырья для безубыточной разработки новой скважины 111,(1) тыс. баррелей.
Сравнивая средние предсказанные запасы сырья с достаточным объемом для безубыточной разработки новой скважины видим, что наиболее близки к нему по прогнозным значениям первый и третий регионы.

In [12]:
data = [data_0, data_1, data_2]

for i in data:
    print(i['product'].mean())

92.49968421774354
68.82391591804064
94.99834211933378


In [13]:
def revenue(target, probabilities):
    prob_best_points = pd.Series(probabilities).sort_values(ascending=False)[:best_points]
    target_best_points = (target.reset_index(drop = True)[prob_best_points.index]).sort_index()
    total_profit  = target_best_points.sum()
    return round((total_profit * rev_unit) - budget)

print('Прибыль топ 200 скважин первого региона:', revenue(target_valid_0, predictions_valid_0))
print('Прибыль топ 200 скважин второго региона:', revenue(target_valid_1, predictions_valid_1))
print('Прибыль топ 200 скважин третьего региона:', revenue(target_valid_2, predictions_valid_2))

Прибыль топ 200 скважин первого региона: 3365187238
Прибыль топ 200 скважин второго региона: 2415086697
Прибыль топ 200 скважин третьего региона: 2501283853


## Расчёт прибыли и рисков 

После оценки рисков оставлю лишь те регионы, в которых вероятность убытков меньше 2.5% и среди них выберу прибыльные.
Техника "Bootstrap" позволяет оценить риск убытков при случайным отборе точек.

In [16]:
#ячейка ревьюера

display(pd.Series([-2, -1, 4, 5]))
'Риск убытков = {:.2%} '.format((pd.Series([-2, -1, 4, 5])<0).mean())

0   -2
1   -1
2    4
3    5
dtype: int64

'Риск убытков = 50.00% '

In [17]:
state = np.random.RandomState(12345)

def confidence_interval(target, probabilities):
    values = []
    for i in range(1000):
        subsample = pd.Series(probabilities).sample(n = 500, replace=True, random_state = state)
        values.append(revenue(target,subsample))
    values = pd.Series(values)
    print(f"\nСредняя прибыль ТОП 200 скважин:", values.mean())
    print('Риск убытков = {:.2%} '.format(values.apply ( lambda x: x < 0).mean()))

    
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    
    return lower, upper

print("Первый регион 95%-й доверительный интервал :", confidence_interval(target_valid_0, predictions_valid_0))
print("Второй регион 95%-й доверительный интервал :", confidence_interval(target_valid_1, predictions_valid_1))
print("Третий регион 95%-й доверительный интервал :", confidence_interval(target_valid_2, predictions_valid_2))


Средняя прибыль ТОП 200 скважин: 380613470.01
Риск убытков = 7.70% 
Первый регион 95%-й доверительный интервал : (-142942739.325, 890976833.425)

Средняя прибыль ТОП 200 скважин: 479159869.99
Риск убытков = 0.60% 
Второй регион 95%-й доверительный интервал : (73849212.10000001, 917953817.9499999)

Средняя прибыль ТОП 200 скважин: 315441916.036
Риск убытков = 12.40% 
Третий регион 95%-й доверительный интервал : (-216265050.225, 811060708.5999999)


Вывод

Для разработки скважин более всего подходит второй регион, регион с высокой прибылью и низкой rmse.
Именно в этом регионе низкий риск убыткови высокое значение средней прибыли.
Отчасти это может быть связано с достаточно сильным влиянием признака f2 на целевую переменную.