# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

Загрузка необходимых библиотек:

In [1]:
!pip install -q phik==0.11.1
!pip install -q scikit-learn==1.1.3
!pip install -q catboost
!pip install -q shap
!pip install -q optuna 



In [3]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import shapiro
from scipy import stats as st
import phik

## Загрузка и подготовка данных

Чтение исходных данных в таблицы:

In [5]:
try:
    derrick1area = pd.read_csv('geo_data_0.csv')
    derrick2area = pd.read_csv('geo_data_1.csv')
    derrick3area = pd.read_csv('geo_data_2.csv')
except:
    derrick1area = pd.read_csv('/datasets/geo_data_0.csv')
    derrick2area = pd.read_csv('/datasets/geo_data_1.csv')
    derrick3area = pd.read_csv('/datasets/geo_data_2.csv')

Выполним небольшую предобработку данных, хотя данные не разнообразны и скорее всего проблем нет.

In [6]:
table_set = [derrick1area, derrick2area, derrick3area]
table_names =  ['группа скажин-1', 'группа скажин-2', 'группа скажин-3']

In [7]:
[display(item.sample(3)) for item in table_set];   

Unnamed: 0,id,f0,f1,f2,product
5282,5k6sX,-0.239412,1.101276,-2.293092,133.534396
75025,VK0gO,0.867475,0.168868,3.29996,78.676128
95501,O5fHc,-0.902717,0.601422,-1.688709,78.3756


Unnamed: 0,id,f0,f1,f2,product
41700,ltPJD,14.12147,-5.751657,-0.006526,0.0
98058,KQM0v,-4.25627,2.057889,0.012264,3.179103
24644,zWGHr,5.15873,-4.656169,1.996458,53.906522


Unnamed: 0,id,f0,f1,f2,product
33560,0rPZI,0.634436,-1.359932,8.031346,121.303249
49357,QkYGx,0.549825,0.092766,-1.18306,105.582962
77079,qfQB1,-0.613297,3.19854,2.385271,133.344769


 - Все таблицы содержат одинаковые столбцы, в том числе id номер скважины;
 - Все основные данные числовые непрерывные.

In [9]:
[item.info() for item in table_set];

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null 

 - Пропусков в данных нет

Проверим данные на наличие явных дубликатов:

In [22]:
[print('Количество дубликатов по таблицам:', '"', table_names[i], '"' ,item.duplicated().sum()) for i, item in enumerate(table_set)]; 

Количество дубликатов по таблицам: " группа скажин-1 " 0
Количество дубликатов по таблицам: " группа скажин-2 " 0
Количество дубликатов по таблицам: " группа скажин-3 " 0


 - Явных дубликатов нет

Возможно оставить индексацию по номеру, а можно перейти к индексации по 'id' - что имеет больше смысла (в том числе сразу исключаем id из списка признаков при обучении модели - это не проблема но что тянуть)

In [25]:
[item.set_index('id', inplace=True) for item in table_set];

Проверим на дубликаты в данных еще раз без учета 'id' потому, что он не является значимым признаком, а чтобы не переобучить модель на тренеровочной выборке их не должно быть. Хотя на выборки делим позже, но проверить сейчас нам ничего не мешает.

In [26]:
[print('Количество дубликатов по таблицам:', '"', table_names[i], '"' ,item.duplicated().sum()) for i, item in enumerate(table_set)]; 

Количество дубликатов по таблицам: " группа скажин-1 " 0
Количество дубликатов по таблицам: " группа скажин-2 " 0
Количество дубликатов по таблицам: " группа скажин-3 " 0


 - Явных дубликатов нет

**Вывод:** Данные загружены и обработаны, противоречий нет, не выявлено наличие Nan или иных дефектов.

## Обучение и проверка модели

## Подготовка к расчёту прибыли

## Расчёт прибыли и рисков 

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Выполнен шаг 1: данные подготовлены
- [ ]  Выполнен шаг 2: модели обучены и проверены
    - [ ]  Данные корректно разбиты на обучающую и валидационную выборки
    - [ ]  Модели обучены, предсказания сделаны
    - [ ]  Предсказания и правильные ответы на валидационной выборке сохранены
    - [ ]  На экране напечатаны результаты
    - [ ]  Сделаны выводы
- [ ]  Выполнен шаг 3: проведена подготовка к расчёту прибыли
    - [ ]  Для всех ключевых значений созданы константы Python
    - [ ]  Посчитано минимальное среднее количество продукта в месторождениях региона, достаточное для разработки
    - [ ]  По предыдущему пункту сделаны выводы
    - [ ]  Написана функция расчёта прибыли
- [ ]  Выполнен шаг 4: посчитаны риски и прибыль
    - [ ]  Проведена процедура *Bootstrap*
    - [ ]  Все параметры бутстрепа соответствуют условию
    - [ ]  Найдены все нужные величины
    - [ ]  Предложен регион для разработки месторождения
    - [ ]  Выбор региона обоснован