# Выбор локации для скважины

Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Нам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Необходимо построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. 

**Цель проекта:**
- определить регион с наименьшими рисками убытков

**Описание данных**

- id — уникальный идентификатор скважины;
- f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);
- product — объём запасов в скважине (тыс. баррелей).

## Загрузка и подготовка данных

### Общая информация

In [19]:
# импортируем библиотеки

import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [20]:
# загрузим данные

try:
    data_0 = pd.read_csv('/datasets/geo_data_0.csv')
    data_1 = pd.read_csv('/datasets/geo_data_1.csv')
    data_2 = pd.read_csv('/datasets/geo_data_2.csv')
except:
    data_0 = pd.read_csv('geo_data_0.csv')
    data_1 = pd.read_csv('geo_data_1.csv')
    data_2 = pd.read_csv('geo_data_2.csv')

display(data_0)
display(data_1)
display(data_2)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [21]:
# познакомимся с общей информацией
 
display(data_0.info())
display(data_1.info())
display(data_2.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

In [22]:
# проверим наличие дубликатов

print('Дубликатов в первой таблице:', data_0.duplicated(subset=['id']).sum())
print('Дубликатов во второй таблице:', data_1.duplicated(subset=['id']).sum())
print('Дубликатов в третьей таблице:', data_2.duplicated(subset=['id']).sum())

Дубликатов в первой таблице: 10
Дубликатов во второй таблице: 4
Дубликатов в третьей таблице: 4


In [23]:
# избавимся от столбца с идентификационным номером - он нам не нужен для исследования

data_0 = data_0.drop(['id'], axis=1)
data_1 = data_1.drop(['id'], axis=1)
data_2 = data_2.drop(['id'], axis=1)


**Вывод**

В нашем распоряжении 3 таблицы с данными, имеющие одинаковую структуру.

При проверке в даных пропусков не обнаружено, но есть несколько дубликатов - в первой таблице 10 одинаковых id, во второй и третьей по 4. Такое количество дубликатов не должно исказить результаты исследования, поэтому оставим все как есть.



## Обучение и проверка модели

### Разделение на выборки

In [24]:
# обучающая и тестовая выборки
# напишем функцию

def split_function(data, size, state):
    ''' на вход функция принимает основной датасет
    и делит его на обучающую и тестовую выборки
    '''
    
    data_train, data_test = train_test_split(data, test_size=size, random_state=state)
    return data_train, data_test



data_train_0, data_test_0 = split_function(data_0, 0.25, 12345)
data_train_1, data_test_1 = split_function(data_1, 0.25, 12345)
data_train_2, data_test_2 = split_function(data_2, 0.25, 12345)

display(f'Размер 1 обучающей выборки: {data_train_0.shape[0]}')
display(f'Размер 1 тестовой выборки: {data_test_0.shape[0]}')

display(f'Размер 2 обучающей выборки: {data_train_1.shape[0]}')
display(f'Размер 2 тестовой выборки: {data_test_1.shape[0]}')

display(f'Размер 3 обучающей выборки: {data_train_2.shape[0]}')
display(f'Размер 3 тестовой выборки: {data_test_2.shape[0]}')


'Размер 1 обучающей выборки: 75000'

'Размер 1 тестовой выборки: 25000'

'Размер 2 обучающей выборки: 75000'

'Размер 2 тестовой выборки: 25000'

'Размер 3 обучающей выборки: 75000'

'Размер 3 тестовой выборки: 25000'

In [25]:
# определим признаки для каждой выборки
# напишем функцию

def features_function(data_train, data_test):
    ''' на вход функция принимает данные
    и делит на признаки и целевые признаки
    '''
    
    features_train = data_train.drop(['product'], axis=1)
    features_test = data_test.drop(['product'], axis=1)
    target_train = data_train['product']
    target_test = data_test['product']
    return features_train, target_train, features_test, target_test

features_train_0, target_train_0, features_test_0, target_test_0 = features_function(data_train_0, data_test_0)
features_train_1, target_train_1, features_test_1, target_test_1 = features_function(data_train_1, data_test_1)
features_train_2, target_train_2, features_test_2, target_test_2 = features_function(data_train_2, data_test_2)

**С помощью двух пользовательских функций разделили данные на выборки и определили признаки для них. Данные готовы к обучению и тестированию модели.**

### Обучение для первой таблицы

In [26]:
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predictions_0 = model_0.predict(features_test_0)

mse_0 = mean_squared_error(target_test_0, predictions_0)
rmse_0 = mse_0 ** 0.5

avg_stock_0 = predictions_0.mean()


display(f'Средний запас сырья: {avg_stock_0}')
display(f'RMSE: {rmse_0}')

'Средний запас сырья: 92.59256778438035'

'RMSE: 37.5794217150813'

### Обучение для второй таблицы

In [27]:
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predictions_1 = model_1.predict(features_test_1)

mse_1 = mean_squared_error(target_test_1, predictions_1)
rmse_1 = mse_1 ** 0.5

avg_stock_1 = predictions_1.mean()


display(f'Средний запас сырья: {avg_stock_1}')
display(f'RMSE: {rmse_1}')

'Средний запас сырья: 68.728546895446'

'RMSE: 0.8930992867756171'

### Обучение для третьей таблицы

In [28]:
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predictions_2 = model_2.predict(features_test_2)

mse_2 = mean_squared_error(target_test_2, predictions_2)
rmse_2 = mse_2 ** 0.5

avg_stock_2 = predictions_2.mean()


display(f'Средний запас сырья: {avg_stock_2}')
display(f'RMSE: {rmse_2}')

'Средний запас сырья: 94.96504596800489'

'RMSE: 40.02970873393434'

In [29]:
# сохраним правильные ответыи предсказания в переменные

# 1
true_answers_0 = target_test_0
predictions_test_0 = pd.Series(predictions_0, index=true_answers_0.index)

# 2
true_answers_1 = target_test_1
predictions_test_1 = pd.Series(predictions_1, index=true_answers_1.index)

# 3
true_answers_2 = target_test_2
predictions_test_2 = pd.Series(predictions_2, index=true_answers_2.index)

**Вывод**

По результатам предсказаний самое высокое среднее у нас находится в третьей таблице. А самый низкий показатель RMSE во второй.

## Подготовка к расчёту прибыли

**Создадим переменные с осоновными значениями для расчетов и определим достаточный объем сырья для безубыточной разработки скважины**

In [30]:
# бюджет на разработку скважин на один ренион
BUDJET = 10000000000

# доход с одной единицы продукта - 450 рублей
INCOME = 450000

# количество исследуемых скважин
WELLS = 500

# количество лучших исследуемых скважин
BEST_WELLS = 200

# достаточный объем сырья
MINIMUM_PRODUCT = BUDJET/BEST_WELLS/INCOME

print(f'Минимальный объём сырья для безубыточного производства: {MINIMUM_PRODUCT}')

Минимальный объём сырья для безубыточного производства: 111.11111111111111


Расчитаем достаточный объем сырья для одной скважины для безубыточного производства. В расчетах далее мы будем использовать 200 наивысших значений объема сырья, стоимость 1 тысячи барелей - 450 000 руб. Поделим весь бюджет на регион на количество сквадин и на доход за тысячу барелей. Получаем 111 тыс. барелей минимального объема для 200 скважин, чтобы не получить убытки. 

Полученный нами объем значительно отличается от средних значений полученных выше.

## Расчёт прибыли и рисков 

**Напишем функцию для расчета прибыли**

In [31]:
# функция для расчета прибыли 

def profit(answers, predictions):
    
    ''' функция получает на вход правильные ответы и предсказания,
    сортирует предсказания в порядке убывания и отбирает 200 первых строк,
    и расчитывает прибыль
    '''

    profit = 0

    sorted_predictions = predictions.sort_values(ascending=False).head(BEST_WELLS)
    sorted_answers = answers[sorted_predictions.index][:BEST_WELLS]

    for WELLS in sorted_answers:
        profit += INCOME*(WELLS-MINIMUM_PRODUCT)
    
    return profit

**Напишем функцию для того, чтобы найти распределение прибыли, саму среднюю прибыль, доверительный интервал и риски убытка**

In [32]:
# Bootstrap

def bootstrap_function(answers, predictions):

    ''' функция получает на вход правильные ответы и предсказания,
    создает 1000 подвыборок и добавляет их в список,
    из этого списка определяет квантили для 95% интервала, среднее и прочситывает риск убытка
    '''

    state = np.random.RandomState(12345)
    values = []

    for i in range(1000):
        answers_subsample = answers.sample(n=WELLS, replace=True, random_state=state)
        predictions_subsumple = (pd.Series(predictions, index=answers.index))[answers_subsample.index]
        values.append(profit(answers_subsample, predictions_subsumple))

    values = pd.Series(values)
    mean = values.mean()
    upper = values.quantile(0.975)
    lower = values.quantile(0.025)
    risk = (values < 0).mean()

    print(f'Средняя прибыль: {mean:.2f}')
    print(f'Доверитильный интервал (95%): {lower:.2f} - {upper:.2f}')
    print(f'Риск убытка: {risk:.1%}')

**Применим функцию Bootstrap на тестовых выборках**

In [33]:
# для первого региона

bootstrap_function(true_answers_0, predictions_test_0)

Средняя прибыль: 425938526.91
Доверитильный интервал (95%): -102090094.84 - 947976353.36
Риск убытка: 6.0%


In [34]:
# для второго региона

bootstrap_function(true_answers_1, predictions_test_1)

Средняя прибыль: 515222773.44
Доверитильный интервал (95%): 68873225.37 - 931547591.26
Риск убытка: 1.0%


In [35]:
# для третьего региона

bootstrap_function(true_answers_2, predictions_test_2)

Средняя прибыль: 435008362.78
Доверитильный интервал (95%): -128880547.33 - 969706954.18
Риск убытка: 6.4%


## Вывод

Исходя из полученных значений мы можем предложить второй регион (geo_data_1) для разработки скважин так как:

1. Средняя прибыль по региону сотавляет свыше 515 млн.(по первому региону - почти 426 млн, по третьему - 435 млн.)
2. Риск убытка составляет 1%, это на 5% меньше чем в первом и третьем регионе
3. Доверительный интервал входит в промежуток положительных значений (по двум другим регионам интервал начинается с отрицательных показателей)