# Выбор локации для скважины

## Загрузка и подготовка данных

In [240]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import roc_curve 
from sklearn.metrics import roc_auc_score
from sklearn.metrics import mean_squared_error

from sklearn.utils import shuffle

from sklearn.linear_model import LinearRegression

from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier 

from sklearn.dummy import DummyClassifier

In [241]:
scaler = StandardScaler()

In [242]:
pd.options.mode.chained_assignment = None

In [243]:
# загрузим данные


df0=pd.read_csv("/datasets/geo_data_0.csv")
df1=pd.read_csv("/datasets/geo_data_1.csv")
df2=pd.read_csv("/datasets/geo_data_2.csv")

In [244]:
df0

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [245]:
df0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [246]:
df1

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [247]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [248]:
df2

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


In [249]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Пропусков нет, типы данных правильные. 

In [250]:
# удалим слобцы с идентификатором скважины в каждом регионе, тк это не признак скваажины а ее обозначение


df0 = df0.drop('id', axis=1)
df1 = df1.drop('id', axis=1)
df2 = df2.drop('id', axis=1)

In [251]:
df0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4)
memory usage: 3.1 MB


In [252]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4)
memory usage: 3.1 MB


In [253]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4)
memory usage: 3.1 MB


## Обучение и проверка модели

### Разобьем данные на обучающую и валидационную выборки в соотношении 75:25 

In [254]:
#  Разобьем данные первой скважины на обучающую и валидационную выборки в соотношении 75:25 

target_0 = df0['product']
features_0 = df0.drop('product', axis=1)

features_0_train, features_0_valid, target_0_train, target_0_valid = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)


In [255]:
features_0_train.shape

(75000, 3)

In [256]:
features_0_valid.shape

(25000, 3)

In [257]:
target_0_train.shape

(75000,)

In [258]:
target_0_valid.shape

(25000,)

In [259]:
#  Разобьем данные второй скважины на обучающую и валидационную выборки в соотношении 75:25 

target_1 = df1['product']
features_1 = df1.drop('product', axis=1)

features_1_train, features_1_valid, target_1_train, target_1_valid = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)


In [260]:
features_1_train.shape

(75000, 3)

In [261]:
features_1_valid.shape

(25000, 3)

In [262]:
target_1_train.shape

(75000,)

In [263]:
target_1_valid.shape

(25000,)

In [264]:
#  Разобьем данные третей скважины на обучающую и валидационную выборки в соотношении 75:25 

target_2 = df2['product']
features_2 = df2.drop('product', axis=1)

features_2_train, features_2_valid, target_2_train, target_2_valid = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)


In [265]:
features_1_train.shape

(75000, 3)

In [266]:
features_1_valid.shape

(25000, 3)

In [267]:
target_1_train.shape

(75000,)

In [268]:
target_1_valid.shape

(25000,)

In [269]:
model = LinearRegression()

In [270]:
# обучим модель для первого региона и напечатаем Средний запас предсказанного сырья и RMSE модели


model.fit(features_0_train,target_0_train)

predicted_0_valid=model.predict(features_0_valid)
predicted_0_valid = pd.Series(predicted_0_valid)

mse= mean_squared_error(predicted_0_valid,target_0_valid)

print("Средний запас предсказанного сырья:", predicted_0_valid.mean())
print("RMSE =", mse ** 0.5)

Средний запас предсказанного сырья: 92.59256778438038
RMSE = 37.5794217150813


In [271]:
# обучим модель для второго региона и напечатаем Средний запас предсказанного сырья и RMSE модели


model.fit(features_1_train,target_1_train)

predicted_1_valid=model.predict(features_1_valid)
predicted_1_valid = pd.Series(predicted_1_valid)

mse= mean_squared_error(predicted_1_valid,target_1_valid)

print("Средний запас предсказанного сырья:", predicted_1_valid.mean())
print("RMSE =", mse ** 0.5)

Средний запас предсказанного сырья: 68.728546895446
RMSE = 0.893099286775616


In [272]:
# обучим модель для третьего региона и напечатаем Средний запас предсказанного сырья и RMSE модели


model.fit(features_2_train,target_2_train)

predicted_2_valid=model.predict(features_2_valid)
predicted_2_valid = pd.Series(predicted_2_valid)

mse= mean_squared_error(predicted_2_valid,target_2_valid)

print("Средний запас предсказанного сырья:", predicted_2_valid.mean())
print("RMSE =", mse ** 0.5)

Средний запас предсказанного сырья: 94.96504596800489
RMSE = 40.02970873393434


Вывод: мы разбили данные на обучающую и валидационную выборку, обучили модель и предсказали запасы сырья в скважинах.

## Подготовка к расчёту прибыли

Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины.

Сравним полученный объём сырья со средним запасом в каждом регионе

In [273]:
# Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины
# Бюджет на разработку скважин в регионе — 10 млрд рублей.
# Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
# Количество лучших точек для разработки = 200


POINTS_FOR_BUDGET = 200 

BUDGET = 10000000000
PROFIT = 450000

volume = BUDGET / PROFIT / POINTS_FOR_BUDGET
print('Достаточный обьем сырья для безубыточной разработки новой скважины: ',volume, 'тысяч баррелей.')

Достаточный обьем сырья для безубыточной разработки новой скважины:  111.11111111111111 тысяч баррелей.


In [274]:
# Сравним полученный объём сырья со средним запасом в каждом регионе


print("средним запас объёма сырья")
print()
print("в первом регионе:", df0['product'].mean(), 'тысяч баррелей.')
print("во втором регионе:", df1['product'].mean(), 'тысяч баррелей.')
print("в третьем регионе:", df2['product'].mean(), 'тысяч баррелей.')

средним запас объёма сырья

в первом регионе: 92.50000000000001 тысяч баррелей.
во втором регионе: 68.82500000000002 тысяч баррелей.
в третьем регионе: 95.00000000000004 тысяч баррелей.


Выводы: средний запас сырья в каждом регионе не дотягивает до достаточного для безубыточной разработки объема, это значит что с вероятностью более 50% выбранная наугад скважина будет убыточна в каждом регионе.

## Расчёт прибыли и рисков 

### Функция для расчёта прибыли

Напишем функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:

Выберем скважины с максимальными значениями предсказаний.

Просуммируем целевое значение объёма сырья, соответствующее этим предсказаниям.

Рассчитаем прибыль для полученного объёма сырья

In [275]:
# Напишем функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели


def profit_calc(target, predictions, count):
    predict_sorted = predictions.sort_values(ascending=False)
    selected = target[predict_sorted.index][:count]
    return PROFIT * selected.sum() - BUDGET

### Расчет рисков и прибыли для каждого региона

- Применим технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.
- Найдем среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.
- Напишем выводы: предложим регион для разработки скважин и обоснуем выбор.

In [276]:
# Расчет рисков и прибыли для первого региона


state = np.random.RandomState(12345)
 
values_0 = []

for i in range(1000):
    target_subsample_0 = target_0_valid.reset_index(drop=True).sample(n=500,replace=True,random_state=state)
    predicted_subsample_0 = predicted_0_valid[target_subsample_0.index]   
    values_0.append(profit_calc(target_subsample_0,predicted_subsample_0,POINTS_FOR_BUDGET))
 
 
values_0 = pd.DataFrame(values_0)

mean_0 = values_0.mean()
        
lower_0 = values_0.quantile([0.025, 0.975])
 
risk_0 = (values_0 < 0).mean()

print('Средняя выручка первого региона =', mean_0)
print('95%-й доверительный интервал в первом регионе =', lower_0)
print('Риск убытков в первом регионе =', risk_0)


Средняя выручка первого региона = 0    4.259385e+08
dtype: float64
95%-й доверительный интервал в первом регионе =                   0
0.025 -1.020901e+08
0.975  9.479764e+08
Риск убытков в первом регионе = 0    0.06
dtype: float64


In [277]:
# Расчет рисков и прибыли для второго региона


state = np.random.RandomState(12345)
 
values_1 = []
 
for i in range(1000):
    target_subsample_1 = target_1_valid.reset_index(drop=True).sample(n=500,replace=True,random_state=state)
    predicted_subsample_1 = predicted_1_valid[target_subsample_1.index]   
    values_1.append(profit_calc(target_subsample_1,predicted_subsample_1,POINTS_FOR_BUDGET))
 
 
values_1 = pd.Series(values_1)

mean_1 = values_1.mean()
        
lower_1 = values_1.quantile([0.025, 0.975])
 
risk_1 = (values_1 < 0).mean()
 
print('Средняя выручка первого региона =', mean_1)
print('95%-й доверительный интервал в первом регионе =', lower_1)
print('Риск убытков в втором регионе =', risk_1)

Средняя выручка первого региона = 515222773.44328994
95%-й доверительный интервал в первом регионе = 0.025    6.887323e+07
0.975    9.315476e+08
dtype: float64
Риск убытков в втором регионе = 0.01


In [278]:
# Расчет рисков и прибыли для третьего региона


state = np.random.RandomState(12345)
 
values_2 = []
 
for i in range(1000):
    target_subsample_2 = target_2_valid.reset_index(drop=True).sample(n=500,replace=True,random_state=state)
    predicted_subsample_2 = predicted_2_valid[target_subsample_2.index]   
    values_2.append(profit_calc(target_subsample_2,predicted_subsample_2,POINTS_FOR_BUDGET))
 
 
values_2 = pd.Series(values_2)

mean_2 = values_2.mean()
        
lower_2 = values_2.quantile([0.025, 0.975])
 
risk_2 = (values_2 < 0).mean()
 
print('Средняя выручка третьего региона =', mean_2)
print('95%-й доверительный интервал в третьем регионе =', lower_2)
print('Риск убытков в третьем регионе =', risk_2)

Средняя выручка третьего региона = 435008362.78275555
95%-й доверительный интервал в третьем регионе = 0.025   -1.288805e+08
0.975    9.697070e+08
dtype: float64
Риск убытков в третьем регионе = 0.064


Вывод: первый и третий регион имеют риск убытков в 6 и более процентов. И только второй регион имеет неоходимый нам уровень риска меньше 2.5%. 

И поэтому именно второй регион более перспективен для разработки исходя из имеющихся у нас данных.

## Выводы

По итогу мы можем сделать следующие выводы:

- мы написали цель проекта, план выполнения, описание данных и условия задачи
- мы провели загрузку и подготовку данных
- данные были без пропусков и некорректных значений
- мы провели обучение и проверку модели
- мы подготовились к расчету прибыли
- мы провели расчет прибыли и рисков для каждого региона
- мы получили средние значения выручки для каждого региона
- мы получили риск убытков: в первом регионе: 6%, во втором: 0.3%, в третьем: 6.2%

Предлагаемый регион для разработки скважин - второй, так как только он имеет риск убытков меньше 2.5%
