# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

In [1]:
!pip install -Uq scikit-learn

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import root_mean_squared_error
import numpy as np

## Загрузка и подготовка данных

In [3]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [4]:
geo_data_0 = geo_data_0.set_index('id')
geo_data_1 = geo_data_1.set_index('id')
geo_data_2 = geo_data_2.set_index('id')

### geo_data_0

In [5]:
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, txEyH to 1CWhH
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [6]:
geo_data_0.head()

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
txEyH,0.705745,-0.497823,1.22117,105.280062
2acmU,1.334711,-0.340164,4.36508,73.03775
409Wp,1.022732,0.15199,1.419926,85.265647
iJLyR,-0.032172,0.139033,2.978566,168.620776
Xdl7t,1.988431,0.155413,4.751769,154.036647


In [7]:
geo_data_0.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

In [8]:
geo_data_0.duplicated().sum()

0

### geo_data_1

In [9]:
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, kBEdx to relB0
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [10]:
geo_data_1.head()

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
kBEdx,-15.001348,-8.276,-0.005876,3.179103
62mP7,14.272088,-3.475083,0.999183,26.953261
vyE1P,6.263187,-5.948386,5.00116,134.766305
KcrkZ,-13.081196,-11.506057,4.999415,137.945408
AHL4O,12.702195,-8.147433,5.004363,134.766305


In [11]:
geo_data_1.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

In [12]:
geo_data_1.duplicated().sum()

0

### geo_data_2

In [13]:
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, fwXo0 to V9kWn
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [14]:
geo_data_2.head()

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
fwXo0,-1.146987,0.963328,-0.828965,27.758673
WJtFt,0.262778,0.269839,-2.530187,56.069697
ovLUW,0.194587,0.289035,-5.586433,62.87191
q6cA6,2.23606,-0.55376,0.930038,114.572842
WPMUX,-0.515993,1.716266,5.899011,149.600746


In [15]:
geo_data_2.isna().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

In [16]:
geo_data_2.duplicated().sum()

0

<b>Ни у одного датасета нет пропусков и дубликатов.</b>

## Обучение и проверка модели

### geo_data_0

In [17]:
RANDOM_STATE = 42
X0 = geo_data_0.drop('product', axis=1)
y0 = geo_data_0['product']
X0_train, X0_valid, y0_train, y0_valid = train_test_split(X0, y0, test_size=0.25, random_state=RANDOM_STATE)

In [18]:
scaler_0 = StandardScaler()
X0_train = scaler_0.fit_transform(X0_train)
X0_valid = scaler_0.transform(X0_valid)

In [19]:
model_0 = LinearRegression()
model_0.fit(X0_train, y0_train)
predict_0 = model_0.predict(X0_valid)

In [20]:
mean_0 = predict_0.mean()
rmse_0 = root_mean_squared_error(y0_valid, predict_0)
print(mean_0, rmse_0)

92.39879990657768 37.75660035026169


<b>Среднее значение — 92.39879990657768, метрика RMSE — 37.75660035026169.</b>

### geo_data_1

In [21]:
X1 = geo_data_1.drop('product', axis=1)
y1 = geo_data_1['product']
X1_train, X1_valid, y1_train, y1_valid = train_test_split(X1, y1, test_size=0.25, random_state=RANDOM_STATE)

In [22]:
scaler_1 = StandardScaler()
X1_train = scaler_1.fit_transform(X1_train)
X1_valid = scaler_1.transform(X1_valid)

In [23]:
model_1 = LinearRegression()
model_1.fit(X1_train, y1_train)
predict_1 = model_1.predict(X1_valid)

In [24]:
mean_1 = predict_1.mean()
rmse_1 = root_mean_squared_error(y1_valid, predict_1)
print(mean_1, rmse_1)

68.7128780391376 0.8902801001028846


<b>Среднее значение — 68.7128780391376, метрика RMSE — 0.8902801001028846.</b>

### geo_data_2

In [25]:
X2 = geo_data_2.drop('product', axis=1)
y2 = geo_data_2['product']
X2_train, X2_valid, y2_train, y2_valid = train_test_split(X2, y2, test_size=0.25, random_state=RANDOM_STATE)

In [26]:
scaler_2 = StandardScaler()
X2_train = scaler_2.fit_transform(X2_train)
X2_valid = scaler_2.transform(X2_valid)

In [27]:
model_2 = LinearRegression()
model_2.fit(X2_train, y2_train)
predict_2 = model_2.predict(X2_valid)

In [28]:
mean_2 = predict_2.mean()
rmse_2 = root_mean_squared_error(y2_valid, predict_2)
print(mean_2, rmse_2)

94.77102387765939 40.145872311342174


<b>Среднее значение — 94.77102387765939, метрика RMSE — 40.145872311342174.</b>

<b>Самая точная модель — вторая, судя по метрике RMSE. Чем ближе значение этой метрики к нулю, тем точнее работает модель. У первой модели RMSE около 37, у третьей — около 40. Наименьшее среднее значение у второй модели — 68.7128780391376, у первой и третьей модели около 90.</b>

## Подготовка к расчёту прибыли

In [29]:
n = 200 # 200 лучших скважин
budget = 10 * 10**9
revenue = 450000

In [30]:
budget_per_unit = budget / n
volume = budget_per_unit / revenue
volume

111.11111111111111

<b>Убытов удасться избежать, если объём продукта в каждой скважине будет не менее 111.</b>

## Расчёт прибыли и рисков 

In [31]:
def calculation(data, y_valid, y_predict):
    data = pd.DataFrame(data.join(pd.DataFrame({'valid': y_valid.values, 'predict': y_predict})))
    print(data)
    data = data.sort_values(by='predict', ascending=False)
    data = data.head(200)
    income = data['valid'].sum() * revenue - budget
    # здесь ещё вместо income выводил data, вроде data является DataFrame, а ошибка всё равно есть
    return income

In [32]:
pd.DataFrame(X0_valid).join(pd.DataFrame({
    'valid': y0_valid.values,
    'predict': predict_0
    }))

Unnamed: 0,0,1,2,valid,predict
0,0.113830,-1.605391,-0.119836,122.073350,101.901017
1,0.274030,-1.417818,-1.187407,48.738540,78.217774
2,1.057896,-1.560307,0.371855,131.338088,115.266901
3,1.238466,-0.971658,0.090665,88.327757,105.618618
4,0.480343,-0.450600,0.027088,36.959266,97.980185
...,...,...,...,...,...
24995,0.291949,-1.515226,0.030842,148.821520,105.076959
24996,-0.644370,0.528145,-0.552783,123.454003,74.768176
24997,0.107509,-1.342572,-0.934248,91.945213,82.544397
24998,-0.345986,0.403163,-0.311768,149.295563,81.826689


In [34]:
state = np.random.RandomState(12345)

In [35]:
income0 = []
for i in range(1000):
    subsample = pd.DataFrame(X0_valid).sample(n=500, replace=True, random_state=state)
    income0.append(calculation(subsample, y0_valid, predict_0))

              0         1         2       valid    predict
108   -1.791099 -0.500434 -0.995602  103.223767  68.835329
161   -0.848857  1.373860 -0.187757  116.692074  75.831059
279   -1.439586  0.777216  0.551623  140.264907  93.981956
293    0.761792 -1.388112 -0.773860  156.771951  88.494682
341   -1.409416  1.057125 -0.395823   23.918455  71.774474
...         ...       ...       ...         ...        ...
24806 -1.167792  1.131315 -0.779457   59.243376  63.830353
24839  0.445906  0.839247  0.112478   14.443187  90.430823
24866 -0.111025 -0.959000 -1.115173  152.351635  75.182987
24895 -0.583742  0.037019 -2.171688   75.139012  43.814743
24993  0.015105  1.323035  0.301097  113.283274  89.557197

[500 rows x 5 columns]
              0         1         2       valid     predict
31     0.611067 -0.297270 -0.580228   10.839831   84.304835
62    -1.363192  0.708329  0.855743  144.718153  101.247504
289    0.366094 -1.926421 -1.910130  133.323165   66.694701
292   -0.963727  1.488518  0

In [36]:
income1 = []
for i in range(1000):
    subsample = pd.DataFrame(X1_valid).sample(n=500, replace=True, random_state=state)
    income1.append(calculation(subsample, y1_valid, predict_1))

              0         1         2       valid     predict
84     1.126068  0.798290 -0.289499   53.906522   54.015088
90    -1.010980 -1.839602  1.467739  137.945408  137.764248
121   -0.066428 -0.090345  0.299422   84.038886   82.701964
166   -1.112519 -0.351048  0.884871  110.992147  110.969646
184   -2.205349 -1.123019 -0.877070   30.132364   31.578203
...         ...       ...       ...         ...         ...
24902  0.734991 -0.092625 -0.876785   26.953261   27.657653
24903 -1.623745  0.209316 -0.878893   30.132364   30.591262
24909 -0.568515 -0.782579 -0.290692   57.085625   56.336858
24938  0.601914 -0.594249  1.472651  134.766305  135.756549
24963  1.049198 -0.590177  0.294135   80.859783   81.065496

[500 rows x 5 columns]
              0         1         2       valid     predict
52     0.353400 -1.570490 -0.294092   53.906522   55.070608
170   -0.795917  0.642763 -1.462004    3.179103    2.695288
197   -0.738035 -1.778693 -0.286171   57.085625   56.875079
250    0.314412 

In [37]:
income2 = []
for i in range(1000):
    subsample = pd.DataFrame(X2_valid).sample(n=500, replace=True, random_state=state)
    income2.append(calculation(subsample, y2_valid, predict_2))

              0         1         2       valid     predict
38    -0.766624  0.514427 -0.127100  115.737655   92.507110
83    -0.387129  0.833349 -0.686985   46.233941   81.252344
115    0.236582 -0.667380  0.206068   83.620106   99.051941
146   -0.227634  0.924710  1.155239  130.615968  118.048894
175   -0.927038  0.025238  0.570306   82.862968  106.483262
...         ...       ...       ...         ...         ...
24496 -0.314922 -0.144200 -0.536436  128.990005   84.277176
24674  2.293529 -1.500074 -0.498774  110.898817   84.686259
24699 -1.638376  1.402252  0.421672  147.633549  103.579135
24727 -0.268968  0.345965 -0.992124  104.664834   75.149101
24971 -0.217378  0.609402  0.240865   38.730463   99.779401

[500 rows x 5 columns]
              0         1         2       valid     predict
31    -0.212411 -1.976870 -0.610004   61.180752   82.840827
94    -0.902526  1.268378 -2.305649  146.334230   48.962053
130    0.734928  1.319069  1.311672  107.046365  121.024878
154    0.360634 

### Первая скважина

In [38]:
pd.Series(income0).mean()

406278783.42441905

In [39]:
lower = pd.Series(income0).quantile(0.025)
upper = pd.Series(income0).quantile(0.975)
print(f'95%-доверительный интервал для первого региона от {lower} до {upper}')

95%-доверительный интервал для первого региона от -117742136.49486831 до 911737050.7514055


In [40]:
print('Доля отрицательных значений в первой скважине: ', len([i for i in income0 if i<0])/len(income0)*100)

Доля отрицательных значений в первой скважине:  6.7


### Вторая скважина

In [41]:
pd.Series(income1).mean()

441504277.5922549

In [42]:
lower = pd.Series(income1).quantile(0.025)
upper = pd.Series(income1).quantile(0.975)
print(f'95%-доверительный интервал для второго региона от {lower} до {upper}')

95%-доверительный интервал для второго региона от 35728489.280851334 до 828006639.0043902


In [43]:
print('Доля отрицательных значений во второй скважине: ', len([i for i in income1 if i<0])/len(income1)*100)

Доля отрицательных значений во второй скважине:  1.6


### Третья скважина

In [44]:
pd.Series(income2).mean()

385213195.91415244

In [45]:
lower = pd.Series(income2).quantile(0.025)
upper = pd.Series(income2).quantile(0.975)
print(f'95%-доверительный интервал для третьего региона от {lower} до {upper}')

95%-доверительный интервал для третьего региона от -164785166.1090443 до 888206234.1976783


In [46]:
print('Доля отрицательных значений в третьей скважине: ', len([i for i in income2 if i<0])/len(income2)*100)

Доля отрицательных значений в третьей скважине:  7.8


## Вывод

<b>В начале работы у нас имеется три датафрейма, состоящие из 100000 строк и 4 столбцов.

    
Затем мы разделили датасеты на валидационные и тестовые выборки, использовали масштабирование.

Измерили метрики MSE и RMSE у моделей.
    
    У первой модели среднее значение — 92.39879990657768, метрика RMSE — 37.75660035026169.
    У второй модели среднее значение — 68.7128780391376, метрика RMSE — 0.8902801001028846.
    У третьей модели среднее значение — 94.77102387765939, метрика RMSE — 40.145872311342174.
    
Написали функцию для расчёта прибыли.
    
Применили технику Bootstrap с выборкой 1000, чтобы найти распределение прибыли.

    
Нашли среднее значение прибыли, 95% доверительный интервал, риск убытков.
    
У первой скважины:
    
    Среднее - 406278783.42441905
    95%-доверительный интервал для первого региона от -117742136.49486831 до 911737050.7514055
    Доля отрицательных значений в первой скважине:  6.7
    
У второй скважины:
    
    Среднее - 441504277.5922549
    95%-доверительный интервал для второго региона от 35728489.280851334 до 828006639.0043902
    Доля отрицательных значений во второй скважине:  1.6
    
У третьей скважины:
    
    Среднее - 385213195.91415244
    95%-доверительный интервал для третьего региона от -164785166.1090443 до 888206234.1976783
    Доля отрицательных значений в третьей скважине:  7.8
    
    
Самая низкая доля отрицательных значений у второй скважины, поэтому она самая "смачная", именно её надо разрабатывать, она принесёт больше всего прибыли.
</b>