# Выбор локации для скважины

**Условия задачи**:
Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).  
При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.  

Бюджет на разработку скважин в регионе — 10 млрд рублей.  
При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.  

После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.  
Данные синтетические.


### Описание данных

id — уникальный идентификатор скважины;    
f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);   
product — объём запасов в скважине (тыс. баррелей).  

In [None]:
import pandas as pd

In [5]:
data1 = pd.read_csv('/datasets/geo_data_0.csv')
data2 = pd.read_csv('/datasets/geo_data_1.csv')
data3 = pd.read_csv('/datasets/geo_data_2.csv')

display(data1.head())
display(data1.info())
display(data1.describe())



Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [6]:
print(data1['id'].duplicated().sum())
print(data1['f0'].duplicated().sum())
print(data1['f1'].duplicated().sum())
print(data1['f2'].duplicated().sum())
print(data1['product'].duplicated().sum())

10
0
0
0
0


В столбце 'id' 10 дубликатов - это 0,01% от общего числа строк, предлагаю их удалить. 

In [7]:
data1 = data1.drop_duplicates(subset='id', keep='first', inplace=False).reset_index(drop=True)
print(data1['id'].duplicated().sum())



0


In [8]:
display(data2.head())
display(data2.info())
display(data2.describe())


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [9]:
print(data2['id'].duplicated().sum())
print(data2['f0'].duplicated().sum())
print(data2['f1'].duplicated().sum())
print(data2['f2'].duplicated().sum())
print(data2['product'].duplicated().sum())

4
0
0
0
99988


В столбце 'id' 4 дубликата - это 0,004% от общего числа строк, предлагаю их удалить.

In [10]:
data2 = data2.drop_duplicates(subset='id', keep='first', inplace=False).reset_index(drop=True)
print(data2['id'].duplicated().sum())

print(data2.info())


print('\n', data2['product'].unique())

0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99996 entries, 0 to 99995
Data columns (total 5 columns):
id         99996 non-null object
f0         99996 non-null float64
f1         99996 non-null float64
f2         99996 non-null float64
product    99996 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
None

 [  3.17910258  26.95326103 134.76630516 137.94540774  84.03888568
 110.99214671  53.90652206   0.         107.81304413  57.08562465
  30.13236361  80.85978309]


В столбце "product" 99988 дубликата. Думаю, оставить, как есть, но похоже, что есть ошибка в сборе данных или в выгрузке - всего 12 уникальных значений на 100000 строк! Так как по условию задачи для подсчета прибыли нам важны именно предсказания модели, а не фактические значения, то можно построить модель, используя и такие данные. В любом случае, даже к предсказаниям, полученным по таким данным, следует относиться с осторожностью. 

In [11]:
display(data3.head())
display(data3.info())
display(data3.describe())



Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


In [12]:
print(data3['id'].duplicated().sum())
print(data3['f0'].duplicated().sum())
print(data3['f1'].duplicated().sum())
print(data3['f2'].duplicated().sum())
print(data3['product'].duplicated().sum())

4
0
0
0
0


В столбце 'id' 4 дубликата - это 0,004% от общего числа строк, предлагаю их удалить.

In [13]:
data3 = data3.drop_duplicates(subset='id', keep='first', inplace=False).reset_index(drop=True)
print(data3['id'].duplicated().sum())

0


Во всех трех таблицах для дальнейшего обучения, нам не нужны столбцы таблиц 'id', тк они могут помешают обучению модели, удалим их

In [14]:
data1_noid = data1.drop('id', axis=1)
data2_noid = data2.drop('id', axis=1)
data3_noid = data3.drop('id', axis=1)

print(data1_noid.head())

         f0        f1        f2     product
0  0.705745 -0.497823  1.221170  105.280062
1  1.334711 -0.340164  4.365080   73.037750
2  1.022732  0.151990  1.419926   85.265647
3 -0.032172  0.139033  2.978566  168.620776
4  1.988431  0.155413  4.751769  154.036647


### Краткий вывод

Данные загружены и очищены, столбец "product" 2 таблицы вызывает вопросы, столбец "id" каждой таблицы был удален, так как может помешать обучению моделей. 

## Обучение и проверка модели

In [15]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df_all = [
    data1.drop('id', axis=1),
    data2.drop('id', axis=1),
    data3.drop('id', axis=1),
]

s_target = []
s_predictions = []
for regions in range(len(df_all)):
    data = df_all[regions]
    features = data.drop('product', axis=1)
    target = data['product']
    features_train, features_valid, target_train, target_valid = train_test_split(features, target,
                                                                                  test_size=0.25 )
    
    model=LinearRegression()
    model.fit(features_train, target_train)
    predictions = model.predict(features_valid)
    s_target.append(target_valid.reset_index(drop=True))
    s_predictions.append(pd.Series(predictions))
    
    rmse_score=(mean_squared_error(target_valid, predictions))**(1/2)
    print('Регион:' , regions)
    print('Средний объем предсказанного сырья:', predictions.mean())
    print('RMSE предсказаний модели:', rmse_score)
    


Регион: 0
Средний объем предсказанного сырья: 92.5197093787131
RMSE предсказаний модели: 37.57970666852851
Регион: 1
Средний объем предсказанного сырья: 68.79903950055895
RMSE предсказаний модели: 0.8911437560963213
Регион: 2
Средний объем предсказанного сырья: 95.0399946318002
RMSE предсказаний модели: 39.86873423934455


## Обучим модель первого региона:

In [16]:



features1 = data1_noid.drop('product', axis=1)
train1 = data1_noid['product']

features1_train, features1_valid, target1_train, target1_valid = train_test_split(features1, train1,
                                                                                  test_size=0.25 )


In [17]:
model1 = LinearRegression()
model1.fit(features1_train, target1_train)

predictions1 = pd.Series(model1.predict(features1_valid))
rmse_score=(mean_squared_error(target1_valid, predictions1))**(1/2)

print('Средний объем предсказанного сырья:', predictions1.mean())
print('RMSE предсказаний модели:', rmse_score)

Средний объем предсказанного сырья: 92.56605376696503
RMSE предсказаний модели: 37.5082030342475


## Обучим модель второго региона:

In [18]:
features2 = data2_noid.drop('product', axis=1)
train2 = data2_noid['product']

features2_train, features2_valid, target2_train, target2_valid = train_test_split(features2, train2,
                                                                                  test_size=0.25 )



In [19]:
model2 = LinearRegression()
model2.fit(features2_train, target2_train)

predictions2 = pd.Series(model2.predict(features2_valid))
rmse_score=(mean_squared_error(target2_valid, predictions2))**(1/2)

print('Средний объем предсказанного сырья:', predictions2.mean())
print('RMSE предсказаний модели:', rmse_score)

Средний объем предсказанного сырья: 68.82435949876933
RMSE предсказаний модели: 0.8871542429484639


## Обучим модель третьего региона:


In [20]:
features3 = data3_noid.drop('product', axis=1)
train3 = data3_noid['product']

features3_train, features3_valid, target3_train, target3_valid = train_test_split(features3, train3,
                                                                                  test_size=0.25 )




In [21]:
model3 = LinearRegression()
model3.fit(features3_train, target3_train)

predictions3 = pd.Series(model3.predict(features3_valid))
rmse_score=(mean_squared_error(target3_valid, predictions3))**(1/2)

print('Средний объем предсказанного сырья:', predictions3.mean())
print('RMSE предсказаний модели:', rmse_score)

Средний объем предсказанного сырья: 95.25715754167834
RMSE предсказаний модели: 39.89338488689131


## Вывод
В первом и третьем регионах средний объем предсказанного сырья и RMSE схожи. Во втором регионе средний объем гораздо больше, но и RMSE больше в три раза - скорее всего, на это повлияли значения "product" (уникальных значений всего 12) - и модель делает предсказания, основываясь на этих "немногочисленных" значениях, а от этого такой разброс значений и, соответственно, значение RMSE.

## Подготовка к расчёту прибыли



Сохраним отдельно важные значения: 

In [22]:
spots_count = 200
budget = 10000000000
revenue_perr_unit = 450000

min_volume_units = budget/revenue_perr_unit
print(min_volume_units)

22222.222222222223


Нам доступна информация про общий бюджет на разработку региона, данных по издержкам на разработку одной скважины вообще или конкретных скважин нет, также общий бюджет =/= издержки, но в данном контексте, будет считать, что общий бюджет - это максимально доступная сумма, которую фирма готова потратить, и нужно предсказать регион, который принесет максимальную прибыль и убытки с минимальной вероятностью. 

In [23]:
#расчитываем минимумальный запас сырья для одной скважины:
min_volume_units_perr_spot = min_volume_units/200
print('Минимальный средний запас сырья на одной скважине для безубыточной добычи:', min_volume_units_perr_spot)

Минимальный средний запас сырья на одной скважине для безубыточной добычи: 111.11111111111111


#### Вывод

Для безубыточной добычи на скважине должно быть не менее 111.(1) единиц продукта, в то время как средний объем предсказанных моделью запасов в каждом регионе меньше. 

## Расчёт прибыли и рисков 



In [24]:
#def calculate_profit(predictions, target, count):
#    predictions_sorted = predictions.sort_values(ascending=False)[:count].index
#    spots = target.iloc[predictions_sorted]
#    spots_sum = sum(spots)
#    profit = spots_sum*revenue_perr_unit-budget
#    return profit


#print(len(s_target[0]))
#print(len(s_predictions[]))

In [25]:
def calculate_profit(predict, target, count):
    predict_sorted = predict.sort_values(ascending=False)
    selected_points = target[predict_sorted.index][:count]
    product = selected_points.sum()
    revenue = product * revenue_perr_unit
    return revenue - budget


region_1_profit = calculate_profit(s_predictions[0], s_target[0], spots_count)
print("Ожидаемая прибыль региона-1", region_1_profit )

region_2_profit = calculate_profit(s_predictions[1], s_target[1], spots_count)
print("Ожидаемая прибыль региона-2", region_2_profit )


region_3_profit = calculate_profit(s_predictions[2], s_target[2], spots_count)
print("Ожидаемая прибыль региона-3", region_3_profit )

Ожидаемая прибыль региона-1 3408431503.727543
Ожидаемая прибыль региона-2 2415086696.681511
Ожидаемая прибыль региона-3 2700432236.6597176


### Найдем распределение прибыли:

In [26]:
from numpy.random import RandomState

state = RandomState(12345)

In [27]:
values=[[],[],[]]
counters={}

for region in range(len(s_target)):
    counter=0
    for i in range(1000):
        target_sample = s_target[region].sample(500, replace=True, random_state=state)
        predicted_values = s_predictions[region][target_sample.index]
        profit = calculate_profit(predicted_values, target_sample, 200)
        values[region].append(profit)
        if profit<0:
            counter+=1
    counters.update({region:counter})
            
        
print('Количество выборок по каждому региону с отрицательной прибылью:',counters)
print('%:' )
my_list = list(counters.values())
for i in range(3):
    print(i,my_list[i]/1000)


values_0 = pd.Series(values[0])
lower_0 = values_0.quantile(q=0.025)
upper_0 = values_0.quantile(q=0.975)

values_1 = pd.Series(values[1])
lower_1 = values_1.quantile(q=0.025)
upper_1 = values_1.quantile(q=0.975)


values_2 = pd.Series(values[2])
lower_2 = values_2.quantile(q=0.025)
upper_2 = values_2.quantile(q=0.975)

print("Регион:", 1)
print('Средняя выручка в регионе:', values_0.mean())
print("Нижняя граница 95% доверительного интервала:", lower_0)
print("Верхняя граница 95% доверительного интервала:", upper_0)
print("Регион:", 2)
print('Средняя выручка в регионе:', values_1.mean())
print("Нижняя граница 95% доверительного интервала:", lower_1)
print("Верхняя граница 95% доверительного интервала:", upper_1)
print("Регион:", 3)
print('Средняя выручка в регионе:', values_2.mean())
print("Нижняя граница 95% доверительного интервала:", lower_2)
print("Верхняя граница 95% доверительного интервала:", upper_2)




Количество выборок по каждому региону с отрицательной прибылью: {0: 53, 1: 6, 2: 81}
%:
0 0.053
1 0.006
2 0.081
Регион: 1
Средняя выручка в регионе: 438695111.0806991
Нижняя граница 95% доверительного интервала: -72428644.19328466
Верхняя граница 95% доверительного интервала: 968025477.1307755
Регион: 2
Средняя выручка в регионе: 510959161.4803768
Нижняя граница 95% доверительного интервала: 78789433.77039571
Верхняя граница 95% доверительного интервала: 948725630.1771711
Регион: 3
Средняя выручка в регионе: 372284384.7958445
Нижняя граница 95% доверительного интервала: -143108949.89005044
Верхняя граница 95% доверительного интервала: 903653589.2194804


## Общий вывод

Модель показала наибольшую прибыль в третьем регионе. RMSE третьего региона сопоставима с RMSE первого региона. RMSE 2 региона мала, но, возможно, это связано с количеством дубликатов в целевом столбце таблицы. Также, третий регион показал наименьшую среднюю отрицательную прибыль нижнего порога 95%-доверительного интервала по сравнению с первым. Исходя из лучшей прибыли, наименьшой возможной средними убытками и невозможностью доверять значению RMSE модели по 2-му региону, для разработки предлагаю выбрать третий регион.