# Выбор локации для скважины

**Задача:**

Необходимо решить, где бурить новую скважину. Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль.

**Данные:**

В распоряжении данные о пробах нефти трёх регионов: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

### Данные геологоразведки первого региона.

In [2]:
geo_data_1 = pd.read_csv('geo_data_0.csv')
geo_data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [3]:
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


### Данные геологоразведки второго региона.

In [4]:
geo_data_2 = pd.read_csv('geo_data_1.csv')
geo_data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [5]:
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


### Данные геологоразведки третьего региона.

In [6]:
geo_data_3 = pd.read_csv('geo_data_2.csv')
geo_data_3.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


In [7]:
geo_data_3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Описание данных:
- `id` — уникальный идентификатор скважины;
- `f0`, `f1`, `f2` — три признака точек;
- `product` — объём запасов в скважине (тыс. баррелей) (*целевой признак*).

Проверка данных на дубликаты.

In [8]:
data_geo = [geo_data_1, geo_data_2, geo_data_3]

for i in data_geo:
    print(i.duplicated().sum())

0
0
0


**Вывод:**

Представленные данные выглядят замечательно. Ни пропусков, ни дубликатов не обнаружено. Названия столбцов соответствуют PEP8. Сразу же можно переходить к обучению и проверки модели.

## Обучение и проверка модели

### Первый регион

In [9]:
features_geo_1 = geo_data_1.drop(['product', 'id'], axis=1)
target_geo_1 = geo_data_1['product']

In [10]:
features_1_train, features_1_valid, target_1_train, target_1_valid = train_test_split(
    features_geo_1, target_geo_1, test_size=0.25, random_state=12345)

In [11]:
print('Размер обучающей выборки датасета geo_data_1:')
print(features_1_train.shape)
print(target_1_train.shape)
print('-'*50)
print('Размер валидационной выборки датасета geo_data_1:')
print(features_1_valid.shape)
print(target_1_valid.shape)

Размер обучающей выборки датасета geo_data_1:
(75000, 3)
(75000,)
--------------------------------------------------
Размер валидационной выборки датасета geo_data_1:
(25000, 3)
(25000,)


In [12]:
model_1 = LinearRegression().fit(features_1_train, target_1_train)
prediction_1 = model_1.predict(features_1_valid)
rmse_1 = mean_squared_error(target_1_valid, prediction_1) ** 0.5
print(f'RMSE модели: {rmse_1}')
print(f'Предсказанный средний запас сырья: {prediction_1.mean():.2f} тыс. баррелей')

RMSE модели: 37.5794217150813
Предсказанный средний запас сырья: 92.59 тыс. баррелей


***

### Второй регион

In [13]:
features_geo_2 = geo_data_2.drop(['product', 'id'], axis=1)
target_geo_2 = geo_data_2['product']

In [14]:
features_2_train, features_2_valid, target_2_train, target_2_valid = train_test_split(
    features_geo_2, target_geo_2, test_size=0.25, random_state=12345)

In [15]:
print('Размер обучающей выборки датасета geo_data_2:')
print(features_2_train.shape)
print(target_2_train.shape)
print('-'*50)
print('Размер валидационной выборки датасета geo_data_2:')
print(features_2_valid.shape)
print(target_2_valid.shape)

Размер обучающей выборки датасета geo_data_2:
(75000, 3)
(75000,)
--------------------------------------------------
Размер валидационной выборки датасета geo_data_2:
(25000, 3)
(25000,)


In [16]:
model_2 = LinearRegression().fit(features_2_train, target_2_train)
prediction_2 = model_2.predict(features_2_valid)
rmse_2 = mean_squared_error(target_2_valid, prediction_2) ** 0.5
print(f'RMSE модели: {rmse_2}')
print(f'Предсказанный средний запас сырья: {prediction_2.mean():.2f} тыс. баррелей')

RMSE модели: 0.893099286775617
Предсказанный средний запас сырья: 68.73 тыс. баррелей


***

### Третий регион

In [17]:
features_geo_3 = geo_data_3.drop(['product', 'id'], axis=1)
target_geo_3 = geo_data_3['product']

In [18]:
features_3_train, features_3_valid, target_3_train, target_3_valid = train_test_split(
    features_geo_3, target_geo_3, test_size=0.25, random_state=12345)

In [19]:
print('Размер обучающей выборки датасета geo_data_3:')
print(features_3_train.shape)
print(target_3_train.shape)
print('-'*50)
print('Размер валидационной выборки датасета geo_data_3:')
print(features_3_valid.shape)
print(target_3_valid.shape)

Размер обучающей выборки датасета geo_data_3:
(75000, 3)
(75000,)
--------------------------------------------------
Размер валидационной выборки датасета geo_data_3:
(25000, 3)
(25000,)


In [20]:
model_3 = LinearRegression().fit(features_3_train, target_3_train)
prediction_3 = model_3.predict(features_3_valid)
rmse_3 = mean_squared_error(target_3_valid, prediction_3) ** 0.5
print(f'RMSE модели: {rmse_3}')
print(f'Предсказанный средний запас сырья: {prediction_3.mean():.2f} тыс. баррелей')

RMSE модели: 40.02970873393434
Предсказанный средний запас сырья: 94.97 тыс. баррелей


***

Для каждого из трех регионов провели обучение моделей регрессии. Сохраним правильные ответы по валидационной выборке и средний предсказанный запас сырья следующим образом:

In [21]:
print('Превый регион:\n- Правильные ответы: "target_1_valid";\n- Предсказанный средний запас сырья: "prediction_1".')
print()
print('Второй регион:\n- Правильные ответы: "target_2_valid";\n- Предсказанный средний запас сырья: "prediction_2".')
print()
print('Третий регион:\n- Правильные ответы: "target_3_valid";\n- Предсказанный средний запас сырья: "prediction_3".')
print()

Превый регион:
- Правильные ответы: "target_1_valid";
- Предсказанный средний запас сырья: "prediction_1".

Второй регион:
- Правильные ответы: "target_2_valid";
- Предсказанный средний запас сырья: "prediction_2".

Третий регион:
- Правильные ответы: "target_3_valid";
- Предсказанный средний запас сырья: "prediction_3".



**Вывод:**

Модели обучены и проверены на качество предсказания метрикой RMSE, которая определяет величину среднеквадратичной ошибки в предсказании модели. Можно заметить, что величина RMSE во втором регионе сильно отличается от двух других.

## Подготовка к расчёту прибыли

Все ключевые значения для расчётов сохраним в отдельных переменных.

При разведке региона исследуюем **500** точек, из которых с помощью машинного обучения выберем **200** лучших для разработки.

Бюджет на разработку скважин в регионе — **10 млрд рублей**.

При нынешних ценах один баррель сырья приносит **450 рублей** дохода. Доход с каждой единицы продукта составляет **450 тыс.
рублей**, поскольку объём указан в тысячах баррелей.

После оценки рисков оставим лишь те регионы, в которых вероятность убытков меньше **2.5%**. Среди них выберем регион с наибольшей средней прибылью.

### Ключевые значения для расчета прибыли

In [22]:
budget = 10000000 #Бюджет на разработку скважин в регионе, тыс.рублей.
revenue_one_prod = 450 #Доход с каждой единицы продукта.

mean_product_1 = geo_data_1['product'].mean()
mean_product_2 = geo_data_2['product'].mean()
mean_product_3 = geo_data_3['product'].mean()

In [23]:
print(f'Средний запас сырья в первом регионе, тыс. баррелей: {mean_product_1:.2f}')
print(f'Средний запас сырья во втором регионе, тыс. баррелей: {mean_product_2:.2f}')
print(f'Средний запас сырья в третьем регионе, тыс. баррелей: {mean_product_3:.2f}')

Средний запас сырья в первом регионе, тыс. баррелей: 92.50
Средний запас сырья во втором регионе, тыс. баррелей: 68.83
Средний запас сырья в третьем регионе, тыс. баррелей: 95.00


In [24]:
budget_one_borehole = budget/200
print(f'Бюджет на одну скважину: {budget_one_borehole} млн. рублей')

Бюджет на одну скважину: 50000.0 млн. рублей


### Достаточный объем сырья для безубыточной разработки скважины

In [25]:
break_even_production = budget/revenue_one_prod/200
print(f'Достаточный объем сырья для безубыточной разработки скважины: {break_even_production:.2f} тыс. баррелей')

Достаточный объем сырья для безубыточной разработки скважины: 111.11 тыс. баррелей


### Сравнение объёма сырья для безубыточной разработки и среднего запаса сырья в каждом регионе

#### Сравнение объёмов сырья в первом регионе

In [26]:
geo_data_1['turnover'] = (geo_data_1['product'] * revenue_one_prod).round(2)
geo_data_1.head(5)

Unnamed: 0,id,f0,f1,f2,product,turnover
0,txEyH,0.705745,-0.497823,1.22117,105.280062,47376.03
1,2acmU,1.334711,-0.340164,4.36508,73.03775,32866.99
2,409Wp,1.022732,0.15199,1.419926,85.265647,38369.54
3,iJLyR,-0.032172,0.139033,2.978566,168.620776,75879.35
4,Xdl7t,1.988431,0.155413,4.751769,154.036647,69316.49


In [27]:
print(f'Разница объема сырья для безубыточной разработки скважины по среднему значению 1 региона:\n'
      f'{break_even_production-mean_product_1:.2f} тыс.баррелей')

Разница объема сырья для безубыточной разработки скважины по среднему значению 1 региона:
18.61 тыс.баррелей


***

#### Сравнение объёмов сырья во втором регионе

In [28]:
geo_data_2['turnover'] = (geo_data_2['product'] * revenue_one_prod).round(2)
geo_data_2.head(5)

Unnamed: 0,id,f0,f1,f2,product,turnover
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103,1430.6
1,62mP7,14.272088,-3.475083,0.999183,26.953261,12128.97
2,vyE1P,6.263187,-5.948386,5.00116,134.766305,60644.84
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408,62075.43
4,AHL4O,12.702195,-8.147433,5.004363,134.766305,60644.84


In [29]:
print(f'Разница объема сырья для безубыточной разработки скважины по среднему значению 2 региона:\n'
      f'{break_even_production-mean_product_2:.2f} тыс.баррелей')

Разница объема сырья для безубыточной разработки скважины по среднему значению 2 региона:
42.29 тыс.баррелей


***

#### Сравнение объёмов сырья в третьем регионе

In [30]:
geo_data_3['turnover'] = (geo_data_3['product'] * revenue_one_prod).round(2)
geo_data_3.head(5)

Unnamed: 0,id,f0,f1,f2,product,turnover
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673,12491.4
1,WJtFt,0.262778,0.269839,-2.530187,56.069697,25231.36
2,ovLUW,0.194587,0.289035,-5.586433,62.87191,28292.36
3,q6cA6,2.23606,-0.55376,0.930038,114.572842,51557.78
4,WPMUX,-0.515993,1.716266,5.899011,149.600746,67320.34


In [31]:
print(f'Разница объема сырья для безубыточной разработки скважины по среднему значению 3 региона:\n'
      f'{break_even_production-mean_product_3:.2f} тыс.баррелей')

Разница объема сырья для безубыточной разработки скважины по среднему значению 3 региона:
16.11 тыс.баррелей


**Вывод:**

При бюджете, рассчитанном на 200 скважин в регионе, на одну скважину приходится 50 млн. рублей. Достаточный объем сырья для безубыточной разработки скважины составляет 111.11 тыс. баррелей, что больше, чем средний запас сырья в отдельно взятых регионов. Но самым близким к безубыточной разработке является третий регион со средним запасом сырья в 95 тыс. баррелей.

## Расчёт прибыли и рисков 

### Функция для расчёта прибыли по выбранным скважинам и предсказаниям модели

In [32]:
def cal_max_vol_mat(prediction,target,count):
    prediction_sort = pd.Series(prediction, index=target.index).sort_values(ascending=False)
    prediction_max_vol_mat = prediction_sort[:count]
    max_sum = prediction_max_vol_mat.sum()
    print(f'Сумма запасов сырья в 200 лучших скважинах: {max_sum:.2f} тыс. баррелей')
    profit = (max_sum*revenue_one_prod)-budget
    print(f'Прибыль от полученного сырья: {profit/1000:.2f} млн. рублей')

In [33]:
cal_max_vol_mat(prediction_1, target_1_valid, 200)

Сумма запасов сырья в 200 лучших скважинах: 31102.33 тыс. баррелей
Прибыль от полученного сырья: 3996.05 млн. рублей


In [34]:
cal_max_vol_mat(prediction_2, target_2_valid, 200)

Сумма запасов сырья в 200 лучших скважинах: 27746.03 тыс. баррелей
Прибыль от полученного сырья: 2485.71 млн. рублей


In [35]:
cal_max_vol_mat(prediction_3, target_3_valid, 200)

Сумма запасов сырья в 200 лучших скважинах: 29603.90 тыс. баррелей
Прибыль от полученного сырья: 3321.75 млн. рублей


**Вывод:**

При выборе из 200 лучших скважин в каждом регионе прибыль достаточно хорошая. Посчитаем риски и найдем прибыль для каждого региона.

### Распределение прибыли по технике Bootstrap.

In [36]:
def revenue(prediction,target,count):
    prediction_sort = prediction.sort_values(ascending=False)
    prediction_max_vol_mat = target[prediction_sort.index][:count]
    max_sum = prediction_max_vol_mat.sum()
    revenue = max_sum * revenue_one_prod
    return revenue - budget

In [37]:
def bootstap_1000(target,prediction):
    values = []
    count=0
    state = np.random.RandomState(12345)
    prediction = pd.Series(prediction, index=target.index)
    
    for i in range(1000):
        target_subsample = target.sample(500, replace=True, random_state=state)
        probs_subsample = prediction[target_subsample.index]
        values.append(revenue(probs_subsample,target_subsample, 200))  
    for i in values:
        if i < 0:
            count +=1
            
    values = pd.Series(values)
    mean = values.mean()
    
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    
    print(f'Средняя прибыль: {mean/1000:.2f} млн.руб')
    print(f'С вероятностью 95% прибыль в данном регионе будет составлять от: {lower/1000:.2f} млн.руб до: {upper/1000:.2f} млн.руб')
    print (f'Риск убытка в данном регионе: {count/1000:.1%}')

In [38]:
bootstap_1000(target_1_valid, prediction_1)

Средняя прибыль: 425.94 млн.руб
С вероятностью 95% прибыль в данном регионе будет составлять от: -102.09 млн.руб до: 947.98 млн.руб
Риск убытка в данном регионе: 6.0%


In [39]:
bootstap_1000(target_2_valid, prediction_2)

Средняя прибыль: 515.22 млн.руб
С вероятностью 95% прибыль в данном регионе будет составлять от: 68.87 млн.руб до: 931.55 млн.руб
Риск убытка в данном регионе: 1.0%


In [40]:
bootstap_1000(target_3_valid, prediction_3)

Средняя прибыль: 435.01 млн.руб
С вероятностью 95% прибыль в данном регионе будет составлять от: -128.88 млн.руб до: 969.71 млн.руб
Риск убытка в данном регионе: 6.4%


**Оценим риски и оставим лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.**

In [41]:
comparison_table = pd.DataFrame(index=['Средняя прибыль в регионе, млн.руб',
                                       'Суммарный запас сырья, тыс.баррелей',
                                       'Вероятность убытка, %'], 
                                columns=['1 регион','2 регион','3 регион'])
comparison_table['1 регион'] = '425.94', '31102.33','6.0'
comparison_table['2 регион'] = '515.22', '27746.03','1.0'
comparison_table['3 регион'] = '435.01', '29603.90','6.4'
comparison_table

Unnamed: 0,1 регион,2 регион,3 регион
"Средняя прибыль в регионе, млн.руб",425.94,515.22,435.01
"Суммарный запас сырья, тыс.баррелей",31102.33,27746.03,29603.9
"Вероятность убытка, %",6.0,1.0,6.4


**Вывод:**

Самым прибыльным регионом оказался **второй регион**. Хоть его суммарный запас сырья не самый высокий среди остальных регионов, зато риск убытка в данном регионе составляет **1%**, что меньше первого и третьего региона, но не больше чем поставленный в задаче процент риска в 2.5%.

## Общий вывод

Было проведено исследование для определения региона, где бурить новую скважину для добычи нефти. Результаты исследования позволят определить регион с самой большой прибылью. 

Сведения о данных: в каждом из 3 регионов 10 000 месторождений, где измерили качество нефти и объём её запасов.

В ходе исследования были проведены следующие шаги:
- Изучение данных;

- Обучение и проверка моделей машинного обучения по каждому из регионов. Были предсказаны средние запасы сырья, где самым большим средним запасом сырья выделился третий регион, а так же предсказания были проверены на среднеквадратичную ошибку, где предсказания второго региона меньше всего отличались от целевого признака;

- Сравнение объемов для безубыточной разработки. При бюджете, рассчитанном на 200 скважин в регионе, посчитали сколько приходится на одну скважину и выявили достаточный объем сырья для безубыточной разработки скважины. При сравнении получилось, что безубыточная разработка больше, чем средний запас сырья в отдельно взятых регионов. Но самым близким к безубыточной разработке является третий регион;

- Расчет прибыли и рисков. По каждому из регионов была вычислена наибольшая прибыль, которую могут принести 200 лучших скважин в регионе. По прибыли без учета рисков самым удачным оказался первый регион. Но после подсчета рисков и распределения прибыли по технике `Bootstrap` (средняя прибыль по нескольким выборкам и вероятность прибыли), с учетом того, что процент риска не должен превышать 2.5, первый регион оказался с риском в 6%.

Самым прибыльным регионом по итогам исследования оказался второй регион, со средней прибылью в **515.22 млн.руб** и риском в **1%**.