# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
#импортируем необходимые библиотеки
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
#загрузка данных
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
#ознакомление с данными
data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [4]:
data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [5]:
data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [6]:
data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [8]:
data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
#проверим дубликаты в датафреймах
data_0.duplicated().sum()

0

In [10]:
data_1.duplicated().sum()

0

In [11]:
data_2.duplicated().sum()

0

# Вывод: 
Данные были загружены и проверены на дубликаты. Во всех датафреймах одинаковое количество данных, типы данных совпадают и нет дубликатов.

## Обучение и проверка модели

По очереди рассмотрим каждый регион и обучим модели

In [12]:
#1 регион
df_0_train, df_0_valid = train_test_split(data_0, test_size=.25, random_state=12345)

# исключим ненужные столбцы и сделаем столбец product - целевым
features_train_0 = df_0_train.drop(['id', 'product'], axis=1)
target_train_0 = df_0_train['product']
features_valid_0 = df_0_valid.drop(['id', 'product'], axis=1)
target_valid_0 = df_0_valid['product']

#обучим модель LinearRegression()
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predictions_valid_0 = model_0.predict(features_valid_0)


In [13]:
#среднеквадратичная ошибка RMSE
rmse_0 = mean_squared_error(target_valid_0, predictions_valid_0) ** 0.5
rmse_0

37.5794217150813

In [38]:
#средний запас сырья
product_mean_0 = predictions_valid_0.mean()
product_mean_0

92.59256778438035

ИТОГ: отклонение 37.579 средний запас  сырья - 92.592

In [39]:
#2 регион
df_1_train, df_1_valid = train_test_split(data_1, test_size=.25, random_state=12345)

features_train_1 = df_1_train.drop(['id', 'product'], axis=1)
target_train_1 = df_1_train['product']
features_valid_1 = df_1_valid.drop(['id', 'product'], axis=1)
target_valid_1 = df_1_valid['product']

model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predictions_valid_1 = model_1.predict(features_valid_1)

rmse_1 = mean_squared_error(target_valid_1, predictions_valid_1) ** .5
print(rmse_1)

product_mean_1 = predictions_valid_1.mean()
print(product_mean_1)

0.893099286775617
68.728546895446


ИТОГ: отклонение 0.893 средний запас  сырья - 68.728

In [40]:
#3 регион
df_2_train, df_2_valid = train_test_split(data_2, test_size=.25, random_state=12345)

features_train_2 = df_2_train.drop(['id', 'product'], axis=1)
target_train_2 = df_2_train['product']
features_valid_2 = df_2_valid.drop(['id', 'product'], axis=1)
target_valid_2 = df_2_valid['product']

model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predictions_valid_2 = model_2.predict(features_valid_2)

rmse_2 = mean_squared_error(target_valid_2, predictions_valid_2) ** .5
print(rmse_2)

product_mean_2 = predictions_valid_2.mean()
print(product_mean_2)


40.02970873393434
94.96504596800489


ИТОГ: отклонение 40.029 средний запас сырья - 94.965

***Вывод:***
- 1 регион отклонение 37.579 средний запас сырья - 92.592
- 2 регион отклонение 0.893 средний запас сырья - 68.728
- 3 регион отклонение 40.029 средний запас сырья - 94.965

Из этих данных нельзя выбрать луший регион так как наименьшее отклонение у 2 региона но и запас сырья у них минимальный

## Подготовка к расчёту прибыли

In [42]:
#ключевые значения для рассчета
income = 450000 # доход с единицы продукта
total = 500 # количество исследуемых точек
best = 200 # точек надо выбрать
budget = 10000000000 # бюджет на разработку скважин в регионе
samples_number = 1000 # колво выборок


In [43]:
#преобразуем целевые признаки в Series

target_valid_0 = pd.Series(target_valid_0).reset_index(drop=True)
predictions_valid_0 = pd.Series(predictions_valid_0).reset_index(drop=True)

target_valid_1 = pd.Series(target_valid_1).reset_index(drop=True)
predictions_valid_1 = pd.Series(predictions_valid_1).reset_index(drop=True)

target_valid_2 = pd.Series(target_valid_2).reset_index(drop=True)
predictions_valid_2 = pd.Series(predictions_valid_2).reset_index(drop=True)

In [44]:
# рассчет достаточного обьема сырья для безубыточной разработки новой скважины

volume_oil = budget / (income * best)
print(volume_oil)

111.11111111111111


***Вывод:***
Достаточный обьем сырья для безубыточной разработки новой скважины равен 111.111. Средний запас скважин в каждом регионе ниже необходимого

## Расчёт прибыли и рисков 

***Создание функции для рассчета прибыли по выбранным скважинам и предсказаниям модели***

- Функция принимает целевые значения объёмов запасов скважин и предсказания модели а так же количество нужных точек

In [45]:
def revenue(target, predictions, best):
    preds_sorted = predictions.sort_values(ascending=False)
    selected = target[preds_sorted.index][:best]
    return income * selected.sum() - budget

In [46]:
target = [target_valid_0, target_valid_1, target_valid_2]
predictions = [predictions_valid_0, predictions_valid_1, predictions_valid_2]
regions = ['1 регион', '2 регион', '3 регион']

state = np.random.RandomState(12345)

for k in range(len(target)):
    values = []
    for i in range(samples_number):
        target_subsample = target[k].sample(n=total, replace=True, random_state=state)
        predictions_subsample = predictions[k].loc[target_subsample.index]
        values.append(revenue(target_subsample.reset_index(drop=True), predictions_subsample.reset_index(drop=True), best))

    values = pd.Series(values)
    lower = values.quantile(.025)
    upper = values.quantile(.975)

    mean = values.mean()
    
    fail_prob = sum(values < 0) / values.count() * 100
    
    print(regions[k])
    print("Средняя возможная прибыль:", mean )
    print("Доверительный интервал:", "от", lower, "до", upper)
    print("Вероятность убытков:", fail_prob, "%")
    

1 регион
Средняя возможная прибыль: 396164984.8023711
Доверительный интервал: от -111215545.89049526 до 909766941.5534226
Вероятность убытков: 6.9 %
2 регион
Средняя возможная прибыль: 461155817.2772397
Доверительный интервал: от 78050810.7517417 до 862952060.2637234
Вероятность убытков: 0.7000000000000001 %
3 регион
Средняя возможная прибыль: 392950475.17060447
Доверительный интервал: от -112227625.37857565 до 934562914.5511636
Вероятность убытков: 6.5 %


***Вывод:*** 
- Возможная средняя прибыль у второго региона выше остальных, а вероятность убытков - ниже

## Вывод

В исследовании были обработаны данные трёх регионов с 10000 месторождений в каждом.Для этого былв создана модель линейной регрессии.
Наиболее точные предсказания оказались у модели второго региона: средний запас сырья в скважине 68.7 при отклонении 0.89, предсказания по первому и третьему региону получились схожими между собой. 
Также в процессе был рассчитан достаточный объём сырья для безубыточной разработки новой скважины - 111. 
Для расчёта распределения прибыли применена техника Bootstrap с 1000 выборок, которая показала, что наиболее подходящий для разработки регион - второй, так как у него наименьшая вероятность убытков и наибольшая средняя возможная прибыль. 

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Выполнен шаг 1: данные подготовлены
- [x]  Выполнен шаг 2: модели обучены и проверены
    - [x]  Данные корректно разбиты на обучающую и валидационную выборки
    - [x]  Модели обучены, предсказания сделаны
    - [x]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [x]  На экране напечатаны результаты
    - [x]  Сделаны выводы
- [x]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [x]  Для всех ключевых значений созданы константы Python
    - [x]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [x]  По предыдущему пункту сделаны выводы
    - [x]  Написана функция расчёта прибыли
- [x]  Выполнен шаг 4: посчитаны риски и прибыль
    - [x]  Проведена процедура *Bootstrap*
    - [x]  Все параметры бутстрепа соответствуют условию
    - [x]  Найдены все нужные величины
    - [x]  Предложен регион для разработки месторождения
    - [x]  Выбор региона обоснован