# Выбор локации для скважины

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
   
Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски.

</div>


<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
<b> Описание данных:</b>
    
Данные геологоразведки трёх регионов находятся в трех файлах.

- id — уникальный идентификатор скважины;

- f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);

- product — объём запасов в скважине (тыс. баррелей).

</div>


## Загрузка и подготовка данных

### Загрузка и проверка данных

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.options.mode.chained_assignment = None
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import precision_score, recall_score, mean_squared_error
from sklearn.utils import shuffle

In [2]:
df0 = pd.read_csv('/geo_data_0.csv')
df1 = pd.read_csv('/geo_data_1.csv')
df2 = pd.read_csv('/geo_data_2.csv')

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
    Подгрузили данные из CSV. Проверим содержимое.
</div>

In [3]:
df0.info()
df0.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
5,wX4Hy,0.96957,0.489775,-0.735383,64.741541
6,tL6pL,0.645075,0.530656,1.780266,49.055285
7,BYPU6,-0.400648,0.808337,-5.62467,72.943292
8,j9Oui,0.643105,-0.551583,2.372141,113.35616
9,OLuZU,2.173381,0.563698,9.441852,127.910945


In [4]:
df1.info()
df1.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
5,HHckp,-3.32759,-2.205276,3.003647,84.038886
6,h5Ujo,-11.142655,-10.133399,4.002382,110.992147
7,muH9x,4.234715,-0.001354,2.004588,53.906522
8,YiRkx,13.355129,-0.332068,4.998647,134.766305
9,jG6Gi,1.069227,-11.025667,4.997844,137.945408


In [5]:
df2.info()
df2.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
5,LzZXx,-0.758092,0.710691,2.585887,90.222465
6,WBHRv,-0.574891,0.317727,1.773745,45.641478
7,XO8fn,-1.906649,-2.45835,-0.177097,72.48064
8,ybmQ5,1.776292,-0.279356,3.004156,106.616832
9,OilcN,-1.214452,-0.439314,5.922514,52.954532


<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">

Пропусков в данных не обнаружено, можем переходить к формированию выборок, но прежде создадим переменную с именами колнок с цифровыми данными, которые станут признаками для обучения моделей, так как ID не может быть таким признаком, но и убрать его нельзя.
    
</div>

In [6]:
num_features = ['f0', 'f1', 'f2']

### Разбиение на подвыборки

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Разделяем фреймы на обучающие и валидационные выборки в соотношении 75/25.
</div>

In [7]:
df_train_0, df_valid_0 = train_test_split(df0, test_size=0.25, random_state=12345)

In [8]:
df_train_1, df_valid_1 = train_test_split(df1, test_size=0.25, random_state=12345)

In [9]:
df_train_2, df_valid_2 = train_test_split(df2, test_size=0.25, random_state=12345)

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Получившиеся выборки делим на признаки и целевой признак. Начнем с обучающих:
</div>

In [10]:
features_train_0 = df_train_0.drop(['product'], axis=1)
target_train_0 = df_train_0['product']

In [11]:
features_train_1 = df_train_1.drop(['product'], axis=1)
target_train_1 = df_train_1['product']

In [12]:
features_train_2 = df_train_2.drop(['product'], axis=1)
target_train_2 = df_train_2['product']

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Валидационные:
</div>

In [13]:
features_valid_0 = df_valid_0.drop(['product'], axis=1)
target_valid_0 = df_valid_0['product']

In [14]:
features_valid_1 = df_valid_1.drop(['product'], axis=1)
target_valid_1 = df_valid_1['product']

In [15]:
features_valid_2 = df_valid_2.drop(['product'], axis=1)
target_valid_2 = df_valid_2['product']

### Масштабирование колличественных признаков

In [16]:
features_train_0.describe()

Unnamed: 0,f0,f1,f2
count,75000.0,75000.0,75000.0
mean,0.497441,0.250064,2.505917
std,0.871824,0.504203,3.249684
min,-1.408605,-0.848218,-10.138341
25%,-0.075827,-0.199952,0.296284
50%,0.499079,0.24969,2.519854
75%,1.070328,0.700239,4.725356
max,2.362331,1.343769,16.00379


<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
В фреймах присутствуют столбци с количественными данными с разным диапазонм максимальных и минимальных значений, модели будут востпринимать значимость таких данных по разному, избавимся от этого стандартизируя данные. 
</div>

In [17]:
scaler = StandardScaler()
scaler.fit(features_train_0[num_features]) 
features_train_0[num_features] = scaler.transform(features_train_0[num_features])
features_valid_0[num_features] = scaler.transform(features_valid_0[num_features])

In [18]:
scaler = StandardScaler()
scaler.fit(features_train_1[num_features]) 
features_train_1[num_features] = scaler.transform(features_train_1[num_features])
features_valid_1[num_features] = scaler.transform(features_valid_1[num_features])

In [19]:
scaler = StandardScaler()
scaler.fit(features_train_2[num_features]) 
features_train_2[num_features] = scaler.transform(features_train_2[num_features])
features_valid_2[num_features] = scaler.transform(features_valid_2[num_features])

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Проверим результат.
</div>

In [20]:
features_train_0.describe()

Unnamed: 0,f0,f1,f2
count,75000.0,75000.0,75000.0
mean,1.704118e-16,-3.349025e-17,6.252776e-18
std,1.000007,1.000007,1.000007
min,-2.186288,-2.178269,-3.890945
25%,-0.6575544,-0.8925344,-0.6799576
50%,0.001878842,-0.0007407961,0.004288679
75%,0.6571176,0.8928514,0.6829752
max,2.139081,2.169192,4.153623


<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Разброс стал значительно меньше, можем переходить к обучению моделей.
</div>



## Обучение и проверка модели

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Для увеличения количества обучающих данных объеденим обучающие выборки для всех трех регионов, далее при обучении и валидации моделей будем использовать как обучающие выборки по регионам так и объединеннную.
</div>

In [21]:
features_train_joint = pd.concat([features_train_0] + [features_train_1] + [features_train_2])
target_train_joint = pd.concat([target_train_0] + [target_train_1] + [target_train_2])

In [22]:
features_train_joint.describe()

Unnamed: 0,f0,f1,f2
count,225000.0,225000.0,225000.0
mean,4.9516930000000006e-17,-4.3358900000000004e-17,-3.3569200000000005e-17
std,1.000002,1.000002,1.000002
min,-5.060306,-4.206546,-4.167323
25%,-0.7311705,-0.7350389,-0.8195005
50%,0.002865967,-0.002221747,-0.00230804
75%,0.7274355,0.7317949,0.8153131
max,4.176529,4.588691,4.153623


### Обучение

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Создадим модели:
</div>

In [23]:
model_joint = LinearRegression()
model_splited_0 = LinearRegression()
model_splited_1 = LinearRegression()
model_splited_2 = LinearRegression()

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Обучим модель на объедененной выборке, и предскажем целевой признак для каждого региона на вылидационных признаках. Для каждого предсказания сохраним соответсвующее значение квадратного кореня из средней квадратичной ошибки (RMSE), получив такми образом среднюю ошибку в значениях целевого признака, а именно в тысячах баррелей:
</div>

In [24]:
model_joint.fit(features_train_joint[num_features], target_train_joint)
predictions_valid_joint_0 = model_joint.predict(features_valid_0[num_features])
RMSE_joint_0 = mean_squared_error(target_valid_0, predictions_valid_joint_0) ** 0.5

In [25]:
predictions_valid_joint_1 = model_joint.predict(features_valid_1[num_features])
RMSE_joint_1 = mean_squared_error(target_valid_1, predictions_valid_joint_1) ** 0.5

In [26]:
predictions_valid_joint_2 = model_joint.predict(features_valid_2[num_features])
RMSE_joint_2 = mean_squared_error(target_valid_2, predictions_valid_joint_2) ** 0.5

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Очередь моделей обученных на признаках только своего региона, так же сохраним RMSE:
</div>

In [27]:
model_splited_0.fit(features_train_0[num_features], target_train_0)
predictions_valid_0 = model_splited_0.predict(features_valid_0[num_features])
RMSE_0 = mean_squared_error(target_valid_0, predictions_valid_0) ** 0.5

In [28]:
model_splited_1.fit(features_train_1[num_features], target_train_1)
predictions_valid_1 = model_splited_1.predict(features_valid_1[num_features])
RMSE_1 = mean_squared_error(target_valid_1, predictions_valid_1) ** 0.5

In [29]:
model_splited_2.fit(features_train_2[num_features], target_train_2)
predictions_valid_2 = model_splited_2.predict(features_valid_2[num_features])
RMSE_2 = mean_squared_error(target_valid_2, predictions_valid_2) ** 0.5

### Проверка

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Сравним значения сохраненной метрики RMSE:
</div>

In [30]:
print("RMSE_joint_0: ", RMSE_joint_0, '\n', "RMSE_joint_1: ", RMSE_joint_1, '\n', "RMSE_joint_2: ", RMSE_joint_2,
      '\n', '\n', "RMSE_0: ", RMSE_0, '\n', "RMSE_1: ", RMSE_1, '\n', "RMSE_2: ", RMSE_2, sep='')

RMSE_joint_0: 39.29843252242969
RMSE_joint_1: 24.03445993968729
RMSE_joint_2: 42.187357981612806

RMSE_0: 37.5794217150813
RMSE_1: 0.8930992867756158
RMSE_2: 40.02970873393434


<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Модель на данных из фрейма под номером 1 показала феноминальный результат, давайте найдем отличия данных обеспечившие такой результат. А так же делаем вывод, что обучение модели на объединенных пизнаках не дает прироста в точночти предсказания, видимо сказывается влияние данных и из фрейма 1:
</div>

In [31]:
target_valid_1.value_counts()

53.906522     2131
26.953261     2122
30.132364     2117
134.766305    2106
57.085625     2095
80.859783     2095
137.945408    2080
3.179103      2077
0.000000      2069
84.038886     2065
110.992147    2028
107.813044    2015
Name: product, dtype: int64

In [32]:
target_train_0.value_counts()

158.379001    1
101.093916    1
156.274591    1
144.656129    1
70.738701     1
             ..
54.691566     1
131.115894    1
6.209049      1
48.596338     1
0.000000      1
Name: product, Length: 75000, dtype: int64

In [33]:
target_train_2.value_counts()

133.530141    1
64.200390     1
46.812550     1
67.348560     1
148.551386    1
             ..
119.654403    1
188.515650    1
36.583590     1
120.371769    1
105.315293    1
Name: product, Length: 75000, dtype: int64

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Вот и объяснение нашим результатам. Для фрейма 1 задача регрессии с 75000 ответов превратилась в задачу классификации по 12 классам. Тут то и возникают вопросы, с которыми имеет смысл идти к коллегам сформировавшим эти данные. В реальной ситуации необходимо выяснить являются ли эти данные корректными? Можем ли привести к такому виду и данные по остальным регионам? Возможно мы можем кластеризовать данные в фреймах 0 и 2 и т.д.
    
Но в наших условиях мы исходим из того, что данные верны и продолжаем наше исследование.
</div>

## Подготовка к расчёту прибыли

### Расчет окупаемости

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Сохраним ключевые значения используемые при расчете прибыли, а именно Бюджет на разработку, Доходс тысячи баррелей и Порог вероятности убков:
</div>

In [34]:
BADGET = 10_000_000_000
INCOME_BARREL = 450_000
Q = 0.025

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Посчитаем сколько тысяч баррелей должны принести осовоенные скважины в регионе для окупаемости разработки региона 
</div>

In [35]:
region_profit_level = BADGET / INCOME_BARREL

In [36]:
region_profit_level

22222.222222222223

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Так же посчитаем сколько в среднем должна выдавть одна скважина в разработанном регионе для выхода на окупаемость:
</div>

In [37]:
well_profit_level = region_profit_level / 200

In [38]:
well_profit_level

111.11111111111111

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Теперь проверим как обстоят дела со средним значением запаса в скважинах по регионам:
</div>

In [39]:
df0['product'].mean()

92.50000000000001

In [40]:
df1['product'].mean()

68.82500000000002

In [41]:
df2['product'].mean()

95.00000000000004

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Вот и получаем обоснованность применения ML в этой задаче, если мы будем выбирать скважины случайным образом, то в большинстве случаев не буем выходить на окупаемость, не говоря о прибыли.
</div>

###  Функция для расчёта прибыли по выбранным скважинам и предсказаниям модели:

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Для дальнейших расчетов по регионам нам нужна функция расчета прибыли. Функция будет принимать на вход номер фрейма и 500 отобраных скважин из этого фрейма. Далее фунция:
    
- Выберет 200 скважин с максимальными значениями предсказаний.
    
- Просуммирует целевое значение объёма сырья, соответствующее этим предсказаниям.
    
- Рассчитайт и вернет прибыль для полученного объёма сырья.
</div>

In [42]:
def profit(df_number, selected):
    if df_number == 0:
        model = model_splited_0
        target_valid = target_valid_0
        features_valid  = features_valid_0
    elif df_number == 1:
        model = model_splited_1
        target_valid = target_valid_1
        features_valid  = features_valid_1
    elif df_number == 2:
        model = model_splited_2
        target_valid = target_valid_2
        features_valid  = features_valid_2
    else:
        return 'Wrong df number.'
    
    ind_500 = selected.index
    
    prediction = pd.Series(model.predict((features_valid.loc[ind_500,num_features])), index=ind_500)
    prediction = prediction.sort_values(ascending=False)
    
    top_200 = prediction.head(200)
    
    ind_200 = top_200.index
           
    return (target_valid.loc[ind_200,].sum() * INCOME_BARREL) - BADGET

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Функция готова, проверим работу функции на одной случайной выборке:
</div>

In [43]:
ex = target_valid_0.sample(500, random_state=12345)
rez = profit(0, ex)
rez

679068857.8924236

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
В действительности тестов и отображаемых параметров было больше, но оставим тольк этот для наглядности и переходим к множественным выборкам и сравнению регионов.
</div>

## Расчёт прибыли и рисков 

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">
Пришло время проанализировать наши ругионы применив нашу функцию и технику Bootstrap.
    
- Техникой Bootstrap получим тысячу выборок и функцией из них получим распределение прибыли.
    
- Выведем на экран 95%-й доверительный интервал и среднюю прибыль.
    
- Отдельно посчитаем вероятность убытков.
</div>

### Регион 0

In [44]:
state = np.random.RandomState(12345)
values_0 = []
for i in range(1000):
    subsample = target_valid_0.sample(n=500, replace=True, random_state=state)
    prof = profit(0, subsample)
    values_0.append(prof)

values_0 = pd.Series(values_0)

lower = values_0.quantile(Q)
upper = values_0.quantile(1 - Q)

print('Верхняя граница доверительного интервала в 97.5%:', upper)
print('Среднее значение прибыли по региону 0:           ', values_0.mean())
print('Нижняя граница доверительного интервала в 2.5%: ', lower)

Верхняя граница доверительного интервала в 97.5%: 909766941.5534225
Среднее значение прибыли по региону 0:            396164984.8023711
Нижняя граница доверительного интервала в 2.5%:  -111215545.89049526


In [45]:
loss = 0
income = values_0.quantile(loss)
while income <= 0:
    loss += 0.001
    income = values_0.quantile(loss)
    
loss -= 0.001
print('Вероятность убытковпо региону 0: {:.1%}'.format(loss))

Вероятность убытковпо региону 0: 6.8%


### Регион 1

In [46]:
state = np.random.RandomState(12345)
values_1 = []
for i in range(1000):
    subsample = target_valid_1.sample(n=500, replace=True, random_state=state)
    prof = profit(1, subsample)
    values_1.append(prof)

values_1 = pd.Series(values_1)
lower = values_1.quantile(Q)
upper = values_1.quantile(1 - Q)

print('Верхняя граница доверительного интервала в 97.5%:', upper)
print('Среднее значение прибыли по региону 1:           ', values_1.mean())
print('Нижняя граница доверительного интервала в 2.5%:   ', lower)

Верхняя граница доверительного интервала в 97.5%: 852289453.866036
Среднее значение прибыли по региону 1:            456045105.7866609
Нижняя граница доверительного интервала в 2.5%:    33820509.39898549


In [47]:
loss = 0
income = values_0.quantile(loss)
while income <= 0:
    loss += 0.001
    income = values_1.quantile(loss)
    
loss -= 0.001
print('Вероятность убытков по региону 1: {:.1%}'.format(loss))

Вероятность убытков по региону 1: 1.4%


### Регион 2

In [48]:
state = np.random.RandomState(12345)
values_2 = []
for i in range(1000):
    subsample = target_valid_2.sample(n=500, replace=True, random_state=state)
    prof = profit(2, subsample)
    values_2.append(prof)

values_2 = pd.Series(values_2)
lower = values_2.quantile(Q)
upper = values_2.quantile(1 - Q)

print('Верхняя граница доверительного интервала в 97.5%:', upper)
print('Среднее значение прибыли по региону 2:           ', values_2.mean())
print('Нижняя граница доверительного интервала в 2.5%: ', lower)

Верхняя граница доверительного интервала в 97.5%: 950359574.9237995
Среднее значение прибыли по региону 2:            404403866.56835675
Нижняя граница доверительного интервала в 2.5%:  -163350413.39559925


In [49]:
loss = 0
income = values_0.quantile(loss)
while income <= 0:
    loss += 0.001
    income = values_2.quantile(loss)
    
loss -= 0.001
print('Вероятность убытков по региону 2: {:.1%}'.format(loss))

Вероятность убытков по региону 2: 7.5%


### Вывод

<div style="border-radius: 15px; border: 1px solid grey; padding: 15px;">

В заданном доверительном диапазоне мы можем рекомендовать к разработке регион 1, так как нижния граница интервала показывает положительную среднюю прибыль, то есть веротность получить убыток в регионе 1 менее 2.5%, а именно 1.4%, так же средняя пибыль у этого региона выше остальных.

А вот другие два региона не вписываются в наши ограничения и имеют высокую вероятность убытков, регон 0 с вероятностью 6,8% принесет убытки, а регон 1 с вероятностью в 7,5% покажет отрицательную прибыль.

Стоит помнить о особенностях целевого признака для региона 1, но если они верны, то и наш прогноз верен.

</div>