# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
from IPython.display import display
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression
#from sklearn.utils import shuffle

from sklearn.metrics import mean_squared_error
#import matplotlib.pyplot as plt

#from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings('ignore') 

In [2]:
df1 = pd.read_csv('/datasets/geo_data_0.csv')
display(df1.head())
print(df1.shape[0])
df1 = df1.drop_duplicates('id').reset_index(drop=True)
print(df1['id'].nunique())
df1.info()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


100000
99990
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99990 entries, 0 to 99989
Data columns (total 5 columns):
id         99990 non-null object
f0         99990 non-null float64
f1         99990 non-null float64
f2         99990 non-null float64
product    99990 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [3]:
df2 = pd.read_csv('/datasets/geo_data_1.csv')
display(df2.head())
print(df2.shape[0])
df2 = df2.drop_duplicates('id').reset_index(drop=True)
print(df2['id'].nunique())
df2.info()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


100000
99996
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99996 entries, 0 to 99995
Data columns (total 5 columns):
id         99996 non-null object
f0         99996 non-null float64
f1         99996 non-null float64
f2         99996 non-null float64
product    99996 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [4]:
df3 = pd.read_csv('/datasets/geo_data_2.csv')
display(df3.head())
print(df3.shape[0])
df3 = df3.drop_duplicates('id').reset_index(drop=True)
print(df3['id'].nunique())
df3.info()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


100000
99996
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99996 entries, 0 to 99995
Data columns (total 5 columns):
id         99996 non-null object
f0         99996 non-null float64
f1         99996 non-null float64
f2         99996 non-null float64
product    99996 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


## Обучение и проверка модели

### Регион № 1

In [5]:
target1 = df1['product']
features1 = df1.drop(['product', 'id'], axis=1)

In [6]:
features_train1, features_valid1, target_train1, target_valid1 = train_test_split(
    features1, target1, test_size=0.25, random_state=0)

In [7]:
model = LinearRegression() 
model.fit(features_train1, target_train1)
predicted1 = model.predict(features_valid1)

rmse1 = mean_squared_error(target_valid1, predicted1) ** 0.5

print("RMSE =", rmse1)
print("Cредний запас предсказанного сырья :", predicted1.mean())


RMSE = 37.7262428254728
Cредний запас предсказанного сырья : 92.69630160501748


### Регион № 2

In [8]:
target2 = df2['product']
features2 = df2.drop(['product', 'id'], axis=1)

In [9]:
features_train2, features_valid2, target_train2, target_valid2 = train_test_split(
    features2, target2, test_size=0.25, random_state=0)

In [10]:
model.fit(features_train2, target_train2)
predicted2 = model.predict(features_valid2)

rmse2 = mean_squared_error(target_valid2, predicted2) ** 0.5

print("RMSE =", rmse2)
print("Cредний запас предсказанного сырья :", predicted2.mean())


RMSE = 0.8861463104896511
Cредний запас предсказанного сырья : 69.29357037294382


### Регион № 3

In [11]:
target3 = df3['product']
features3 = df3.drop(['product', 'id'], axis=1)

In [12]:
features_train3, features_valid3, target_train3, target_valid3 = train_test_split(
    features3, target3, test_size=0.25, random_state=0)

In [13]:
model.fit(features_train3, target_train3)
predicted3 = model.predict(features_valid3)

rmse3 = mean_squared_error(target_valid3, predicted3) ** 0.5

print("RMSE =", rmse3)
print("Cредний запас предсказанного сырья :", predicted3.mean())


RMSE = 40.185356062741405
Cредний запас предсказанного сырья : 95.14086176571024


## Подготовка к расчёту прибыли

•	При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.

•	Бюджет на разработку скважин в регионе — 10 млрд рублей.

•	При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.

•	**После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.**


In [14]:
v_breakeven= int(10000000000/450000)
print('{} тыс. баррелей сырья необходимо для обеспечения безубыточности'.format(v_breakeven))

22222 тыс. баррелей сырья необходимо для обеспечения безубыточности


In [15]:
v_breakeven_1= int(v_breakeven/200)
print('{} тыс. баррелей сырья необходимо для обеспечения безубыточности c одной из 200 скважин взятых для разработки'.format(v_breakeven_1))

111 тыс. баррелей сырья необходимо для обеспечения безубыточности c одной из 200 скважин взятых для разработки


### Средний фактический запас сырья в каждом регионе

In [16]:
print('Регион № 1: ', df1['product'].mean())

Регион № 1:  92.49968421774354


In [17]:
print('Регион № 2: ', df2['product'].mean())

Регион № 2:  68.82391591804064


In [18]:
print('Регион № 3: ', df3['product'].mean())

Регион № 3:  94.99834211933378


In [19]:
predicted1 =pd.Series(predicted1)
predicted1

0         66.766198
1         93.205741
2        106.239408
3         52.724906
4         87.409830
            ...    
24993     71.951139
24994    106.924986
24995     89.681925
24996     74.470270
24997    116.111127
Length: 24998, dtype: float64

In [20]:
target_valid1=target_valid1.reset_index(drop=True)
print(target_valid1)

0         34.296236
1        138.190876
2        134.264474
3         31.232856
4        135.339431
            ...    
24993     23.710047
24994     57.186537
24995     51.884171
24996     48.188818
24997     52.920644
Name: product, Length: 24998, dtype: float64


In [21]:
predicted2 =pd.Series(predicted2)
target_valid2=target_valid2.reset_index(drop=True)

predicted3 =pd.Series(predicted3)
target_valid3=target_valid3.reset_index(drop=True)

### Прибыль с 200 скважин с максимальными значениями предсказаний

In [22]:
def revenue_200_best(target, predicted, count):
    
    pred_sorted = predicted.sort_values(ascending=False)
    selected = target[pred_sorted.index][:count]
    return selected.sum()*450000-10000000000

profit1=int(revenue_200_best(target_valid1, predicted1, 200))
            
profit2=int(revenue_200_best(target_valid2, predicted2, 200))
            
profit3=int(revenue_200_best(target_valid3, predicted3, 200))
            
print(
    'Регион № 1. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit1
)
print(
    'Регион № 2. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit2
)
print(
    'Регион № 3. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit3
)

Регион № 1. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  3349337163
Регион № 2. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  2415086696
Регион № 3. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  2502603381


## Расчёт прибыли и рисков 

### Регион № 1

In [23]:
def revenue(target, predicted, count):
    
    pred_sorted = predicted.sort_values(ascending=False)
    selected = target[pred_sorted.index][:count]
    return selected.sum()*450000-10000000000

state = np.random.RandomState(12345)

def profit(target_valid, predicted):
    values = []
    for i in range(1000):
        target_subsample = target_valid.sample(500, replace = True, random_state = state) 
        pred_subsample = predicted[target_subsample.index] 
        values.append(revenue(target_subsample, pred_subsample, 200))
    
    
    values = pd.Series(values)
    lower = int(values.quantile(0.025))
    upper= int(values.quantile(0.975))

    mean = int(values.mean())

    return 'Средняя прибыль с 200 лучших скважин: {}, 2.5%-квантиль: {}, 97.5%-квантиль: {}'.format(mean, lower, upper)

print('Регион № 1')
profit(target_valid1, predicted1)

Регион № 1


'Средняя прибыль с 200 лучших скважин: 475135696, 2.5%-квантиль: -69759828, 97.5%-квантиль: 968191712'

In [24]:
def frac(target_valid, predicted):
    values = []
    for i in range(1000):
        target_subsample = target_valid.sample(500, replace = True, random_state = state) 
        pred_subsample = predicted[target_subsample.index] 
        values.append(revenue(target_subsample, pred_subsample, 200))
    
    
    values = pd.Series(values)
    fraction1=(len(values[values<0])/len(values))*100  

    return 'Вероятность убытков {} %'.format(fraction1)

print('Регион № 1')
frac(target_valid1, predicted1)

Регион № 1


'Вероятность убытков 3.8 %'

In [25]:
print(
    'Регион № 1. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit1
)

Регион № 1. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  3349337163


### Регион № 2

In [26]:
print('Регион № 2')
profit(target_valid2, predicted2)

Регион № 2


'Средняя прибыль с 200 лучших скважин: 543632485, 2.5%-квантиль: 118836796, 97.5%-квантиль: 979275078'

In [27]:
print('Регион № 2')
frac(target_valid2, predicted2)

Регион № 2


'Вероятность убытков 0.2 %'

In [28]:
print(
    'Регион № 2. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit2
)

Регион № 2. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  2415086696


### Регион № 3

In [29]:
print('Регион № 3')
profit(target_valid3, predicted3)

Регион № 3


'Средняя прибыль с 200 лучших скважин: 357157539, 2.5%-квантиль: -181781029, 97.5%-квантиль: 882735604'

In [30]:
print('Регион № 3')
frac(target_valid3, predicted3)

Регион № 3


'Вероятность убытков 9.2 %'

In [31]:
print(
    'Регион № 3. Прибыль с 200 скважин, у которых были максимальные значения предсказаний: ',
    profit3
)

Регион № 3. Прибыль с 200 скважин, у которых были максимальные значения предсказаний:  2502603381


## Выбор региона

<div class="alert alert-block alert-info">
<b></b> 
    
**Только во втором регионе вероятность убытков минимальная, менее 1%. В первом и третьем более 2,5%. Прибыль во 2 регионе около 2 500 000 000.  Только 2 регион соответствует требованиям, рекомендую выбирать его.**
    
</div>