# Описание проекта

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Мне предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Нужно Проанализировать возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

# 1. Загрузка и подготовка данных

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

In [2]:
data_0 = pd.read_csv('/datasets/geo_data_0.csv')
data_1 = pd.read_csv('/datasets/geo_data_1.csv')
data_2 = pd.read_csv('/datasets/geo_data_2.csv')
print(data_0.dtypes)
print(data_1.dtypes)
print(data_2.dtypes)
data_0

id          object
f0         float64
f1         float64
f2         float64
product    float64
dtype: object
id          object
f0         float64
f1         float64
f2         float64
product    float64
dtype: object
id          object
f0         float64
f1         float64
f2         float64
product    float64
dtype: object


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


***В данных нет ошибок***  

# 2. Обучение и проверка модели

In [3]:
target_0 = data_0['product']
features_0 = data_0.drop(['product', 'id'], axis=1)

# выборки в соотношении 75:25
features_train_0, features_valid_0, target_train_0, target_valid_0 = train_test_split(
    features_0, target_0, test_size=0.25, random_state=12345)

# Обучение модели и предсказания на валидационной выборке.
model_0 = LinearRegression()
model_0.fit(features_train_0, target_train_0)
predicted_valid_0 = model_0.predict(features_valid_0)
mse_0 = mean_squared_error(target_valid_0, predicted_valid_0) # MSE

print("MSE =", mse_0)
print("RMSE =", mse_0 ** 0.5)

predicted_valid_mean_0 = pd.Series(target_train_0.mean(), index=target_valid_0.index) # константная модель: каждому объекту она прогнозирует ' среднее значение целевого признака '
mse_mean_0 = mean_squared_error(target_valid_0, predicted_valid_mean_0)

print("\nMean")
print("MSE =", mse_mean_0)
print("RMSE =", mse_mean_0 ** 0.5)

print("\nR2 =", r2_score(target_valid_0, predicted_valid_0))

MSE = 1412.2129364399243
RMSE = 37.5794217150813

Mean
MSE = 1961.5678757223516
RMSE = 44.289591053907365

R2 = 0.27994321524487786


In [4]:
target_1 = data_1['product']
features_1 = data_1.drop(['product', 'id'], axis=1)

# выборки в соотношении 75:25
features_train_1, features_valid_1, target_train_1, target_valid_1 = train_test_split(
    features_1, target_1, test_size=0.25, random_state=12345)

# Обучение модели и предсказания на валидационной выборке.
model_1 = LinearRegression()
model_1.fit(features_train_1, target_train_1)
predicted_valid_1 = model_1.predict(features_valid_1)
mse_1 = mean_squared_error(target_valid_1, predicted_valid_1) # MSE

print("MSE =", mse_1)
print("RMSE =", mse_1 ** 0.5)

predicted_valid_mean_1 = pd.Series(target_train_1.mean(), index=target_valid_1.index) # константная модель: каждому объекту она прогнозирует ' среднее значение целевого признака '
mse_mean_1 = mean_squared_error(target_valid_1, predicted_valid_mean_1)

print("\nMean")
print("MSE =", mse_mean_1)
print("RMSE =", mse_mean_1 ** 0.5)

print("\nR2 =", r2_score(target_valid_1, predicted_valid_1))

MSE = 0.7976263360391139
RMSE = 0.893099286775616

Mean
MSE = 2117.9734309299147
RMSE = 46.02144533725462

R2 = 0.9996233978805127


In [5]:
target_2 = data_2['product']
features_2 = data_2.drop(['product', 'id'], axis=1)

# выборки в соотношении 75:25
features_train_2, features_valid_2, target_train_2, target_valid_2 = train_test_split(
    features_2, target_2, test_size=0.25, random_state=12345)

# Обучение модели и предсказания на валидационной выборке.
model_2 = LinearRegression()
model_2.fit(features_train_2, target_train_2)
predicted_valid_2 = model_2.predict(features_valid_2)
mse_2 = mean_squared_error(target_valid_2, predicted_valid_2) # MSE

print("MSE =", mse_2)
print("RMSE =", mse_2 ** 0.5)

predicted_valid_mean_2 = pd.Series(target_train_2.mean(), index=target_valid_2.index) # константная модель: каждому объекту она прогнозирует ' среднее значение целевого признака '
mse_mean_2 = mean_squared_error(target_valid_2, predicted_valid_mean_2)

print("\nMean")
print("MSE =", mse_mean_2)
print("RMSE =", mse_mean_2 ** 0.5)

print("\nR2 =", r2_score(target_valid_2, predicted_valid_2))

MSE = 1602.3775813236196
RMSE = 40.02970873393434

Mean
MSE = 2016.2210072435087
RMSE = 44.90234968510566

R2 = 0.20524758386040443


***Можно сделать вывод что запасы в первом и третям регионах довольно большие, а вот в втором довольно скудные***

In [6]:
budget = 10000000000 # бюджет
bar_price = 450000 # стоимость барреля
good_holes = 200 # количество скважин для этого бюджета
holes = 500 # количество скважин

#достаточный объём сырья для безубыточной разработки новой скважины
good_hole_price = (budget / good_holes) / bar_price 
good_hole_price 

111.11111111111111

- budget - бюджет
- bar_price - стоимость барреля
- good_holes - количество скважин для этого бюджета
- holes - количество скважин
- good_hole_price - достаточный объём сырья для безубыточной разработки новой скважины

In [7]:
print('среднее в 1 регионе', data_0['product'].mean())
print('среднее в 2 регионе', data_1['product'].mean())
print('среднее в 3 регионе', data_2['product'].mean())

среднее в 1 регионе 92.50000000000001
среднее в 2 регионе 68.82500000000002
среднее в 3 регионе 95.00000000000004


***Здесь видно, что первый и третий регион идентичны и в разы превышают минимум,
а вот в втором регионе запасов не хватит чтобы окупить будущие шахты***


# 3. Подготовка к расчёту прибыли

In [8]:
def revenue(target, probabilities, count):
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    return bar_price * selected.sum()

target = target_valid_0[:500].reset_index(drop=True) 
probabilities = pd.Series(predicted_valid_0)[:500] 

res = revenue(target, probabilities, 200)

print(res - budget)

196771396.9994259


***Можно сделать вывод что второй регион убыточен и начинать разработку там нельзя. Прибыль составит 196.771.397руб***

# 4. Расчёт прибыли и рисков 

In [17]:
target = target_valid_0.reset_index(drop=True) 
probabilities = pd.Series(predicted_valid_0)

state = np.random.RandomState(12345)
 
values_0 = []
b = 0
for i in range(1000): 
    target_subsample = target.sample(n=500, replace=True, random_state=state) 
    probs_subsample = probabilities[target_subsample.index]
 
    values_0.append(revenue(target_subsample, probs_subsample, 200))
    if revenue(target_subsample, probs_subsample, 200) - budget  < 0:
        b += 1
        
values_0 = pd.Series(values_0)
lower = values_0.quantile(0.05)
upper = values_0.quantile(0.90)
 
mean = values_0.mean()
print("Средняя выручка:", mean - budget)
print("5%-квантиль:", lower - budget)
print("85%-квантиль:", upper - budget)
print('вероятность убытков:', b/1000)

Средняя выручка: 425938526.91059303
5%-квантиль: -31803114.34611702
85%-квантиль: 801501278.2033157
вероятность убытков: 0.06


Для разработки годиться только второй регион


In [18]:
target = target_valid_1.reset_index(drop=True) 
probabilities = pd.Series(predicted_valid_1)

state = np.random.RandomState(12345)
g = 0
b = 0
values_1 = []
for i in range(1000): 
    target_subsample = target.sample(n = 500, replace=True, random_state=state) 
    probs_subsample = probabilities[target_subsample.index]
 
    values_1.append(revenue(target_subsample, probs_subsample, 200)) 
    if revenue(target_subsample, probs_subsample, 200) - budget  < 0:
        b += 1
values_1 = pd.Series(values_1)
lower = values_1.quantile(0.05)
upper = values_1.quantile(0.90)
 
mean = values_1.mean()
print("Средняя выручка:", mean - budget)
print("5%-квантиль:", lower - budget)
print("85%-квантиль:", upper - budget)
print('вероятность убытков:', b/1000)

Средняя выручка: 515222773.4432907
5%-квантиль: 150785740.64118004
85%-квантиль: 798830252.2696915
вероятность убытков: 0.01


In [19]:
target = target_valid_2.reset_index(drop=True) 
probabilities = pd.Series(predicted_valid_2)

state = np.random.RandomState(12345)
g = 0
b = 0
values_2 = []
for i in range(1000): 
    target_subsample = target.sample(n = 500, replace=True, random_state=state) 
    probs_subsample = probabilities[target_subsample.index]
 
    values_2.append(revenue(target_subsample, probs_subsample, 200)) 
    if revenue(target_subsample, probs_subsample, 200) - budget  < 0:
        b += 1
        
values_2 = pd.Series(values_2)
lower = values_2.quantile(0.05)
upper = values_2.quantile(0.90)
 
mean = values_2.mean()
print("Средняя выручка:", mean - budget)
print("5%-квантиль:", lower - budget)
print("85%-квантиль:", upper - budget)
print('вероятность убытков:', b/1000)

Средняя выручка: 435008362.7827568
5%-квантиль: -43448491.32250404
85%-квантиль: 784904953.9330597
вероятность убытков: 0.064


### Вывод:
Могу сказать точно, что лучший регион для разработки это второй, а худший это третий. Так же в втором регионе я бы не начинал разработку так-как вероятность убытков более 2.5% .