## Загрузка и подготовка данных

<a id='info1'></a>
### Загрузка библиотек

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score

model = LinearRegression()
RANDOM_STATE = 42
state = np.random.RandomState(12345)

### Загрузка данных

In [2]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv', index_col='id')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv', index_col='id')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv', index_col='id')

<a id='info2'></a>
### Обзор данных

In [3]:
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, txEyH to 1CWhH
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [4]:
geo_data_0.sample(10)

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
uSuxb,-0.860028,0.18662,-2.850494,23.411418
Qpek2,0.361223,0.931696,-2.868632,78.713022
os9aQ,-1.038109,0.100215,5.474367,127.546168
hUm5f,1.002522,0.345089,1.135205,31.775404
N4KOe,0.863687,-0.284945,0.626453,89.688048
VCOgp,0.720623,-0.395868,-4.518592,33.133972
PxNR7,0.49003,0.765245,3.24986,38.461654
QnpP7,0.258734,-0.312024,0.614154,79.755292
MYKmH,0.845636,0.468374,1.185441,127.431676
0TP9X,1.805315,0.044226,3.038539,108.737047


In [5]:
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, kBEdx to relB0
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [6]:
geo_data_1.sample(10)

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
sgPeB,8.367184,-2.25111,-0.0046,0.0
okPXU,-6.968897,3.809828,0.001407,3.179103
Y1vfa,-0.752484,5.861915,1.001569,26.953261
8Zp1A,5.5845,-10.55242,4.993565,134.766305
1i1Ax,-7.648644,-1.538179,2.996192,84.038886
khWd2,8.482623,-5.689899,1.003194,26.953261
hqC4M,10.208121,3.108155,0.997522,26.953261
1twsx,11.200454,-4.392766,5.002457,134.766305
R1nHs,-6.016249,2.221784,2.996343,84.038886
ioyO0,7.522464,-0.777984,1.99706,53.906522


In [7]:
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, fwXo0 to V9kWn
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   f0       100000 non-null  float64
 1   f1       100000 non-null  float64
 2   f2       100000 non-null  float64
 3   product  100000 non-null  float64
dtypes: float64(4)
memory usage: 3.8+ MB


In [8]:
geo_data_2.sample(10)

Unnamed: 0_level_0,f0,f1,f2,product
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
sFML2,-1.796448,-2.251426,-0.051647,38.239589
WfIV6,0.678231,-3.589307,2.754652,117.013721
p6bbA,0.349538,-1.353792,2.279853,126.870345
ckplc,-3.114208,1.113927,1.29046,105.011914
wnU0C,-0.241383,0.282447,10.220742,150.803361
baSR3,0.138306,-2.043267,9.283011,150.300101
mxUla,3.873716,-3.745049,7.979813,113.905696
dv9Cj,-0.424991,-1.573405,-2.742091,155.412974
VHJBL,-0.273623,2.494995,-1.617064,44.125398
2TCeL,1.370352,1.5581,-0.242173,59.749235


<a id='info3'></a>
### Объединение данных

In [9]:
geo_data_all = pd.concat([geo_data_0, geo_data_1, geo_data_2])

In [10]:
geo_data_all.info

<bound method DataFrame.info of              f0        f1        f2     product
id                                             
txEyH  0.705745 -0.497823  1.221170  105.280062
2acmU  1.334711 -0.340164  4.365080   73.037750
409Wp  1.022732  0.151990  1.419926   85.265647
iJLyR -0.032172  0.139033  2.978566  168.620776
Xdl7t  1.988431  0.155413  4.751769  154.036647
...         ...       ...       ...         ...
4GxBu -1.777037  1.125220  6.263374  172.327046
YKFjq -1.261523 -0.894828  2.524545  138.748846
tKPY3 -1.199934 -2.957637  5.219411  157.080080
nmxp2 -2.419896  2.417221 -5.548444   51.795253
V9kWn -2.551421 -2.025625  6.090891  102.775767

[300000 rows x 4 columns]>

In [11]:
geo_data_all.describe()

Unnamed: 0,f0,f1,f2,product
count,300000.0,300000.0,300000.0,300000.0
mean,0.547913,-1.516172,2.497439,85.441667
std,5.316634,3.90022,2.916502,46.519494
min,-31.609576,-26.358598,-12.088328,0.0
25%,-1.003037,-2.478939,0.648213,52.666629
50%,0.347934,-0.229632,2.491215,84.038886
75%,1.755365,0.678562,4.344943,124.174086
max,29.421755,18.734063,16.739402,190.029838


### Проверка на дубликаты и пропуски

In [12]:
geo_data_all.isnull().sum()

f0         0
f1         0
f2         0
product    0
dtype: int64

In [13]:
geo_data_all.duplicated().sum()

0

## Обучение и проверка модели

2.1. Разбейте данные на обучающую и валидационную выборки в соотношении 75:25.

2.2. Обучите модель и сделайте предсказания на валидационной выборке.

2.3. Сохраните предсказания и правильные ответы на валидационной выборке.

2.4. Напечатайте на экране средний запас предсказанного сырья и RMSE модели.

<a id='model1'></a>
### Обучение модели

In [14]:
results = []

for region_data in [geo_data_0, geo_data_1, geo_data_2]:
    X = region_data[['f0', 'f1', 'f2']]
    y = region_data['product']
    
    X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=RANDOM_STATE)
    
    
    model.fit(X_train, y_train)
    predictions = model.predict(X_valid)
    
    results.append(pd.DataFrame({'actual': y_valid, 'predictions': predictions}))
    
    rmse = mean_squared_error(y_valid, predictions, squared=False)
    mean_prediction = predictions.mean()
    
    
    print(f"Средний запас предсказанного сырья для региона: {mean_prediction}, RMSE: {rmse}")

    scores = cross_val_score(model, X, y, cv=3)

    final_score = scores.mean()

    print('Средняя оценка качества модели:', final_score)

Средний запас предсказанного сырья для региона: 92.39879990657768, RMSE: 37.75660035026169
Средняя оценка качества модели: 0.2756742735466014
Средний запас предсказанного сырья для региона: 68.71287803913762, RMSE: 0.890280100102884
Средняя оценка качества модели: 0.9996243886479773
Средний запас предсказанного сырья для региона: 94.77102387765939, RMSE: 40.145872311342174
Средняя оценка качества модели: 0.1987398624233513


<a id='model2'></a>
### Результат

**Вывод:** Средняя оценка качества модели у региона 1 практически 100%, лучшая модель, но при этом точность меньше 1%, у региона 0 и 2 качество моделей ниже 3%, зато точность выше 37 %

## Подготовка к расчёту прибыли

3.1. Все ключевые значения для расчётов сохраните в отдельных переменных.

3.2. Рассчитайте достаточный объём сырья для безубыточной разработки новой скважины. Сравните полученный объём сырья со средним запасом в каждом регионе. 

3.3. Напишите выводы по этапу подготовки расчёта прибыли.

<a id='preparation1'></a>
### Переменные ключевых значений

In [15]:
BUDGET = 10000000000 # Бюджет на разработку
PRICE_PER_BARREL = 450000 # Доход с каждой единицы продукта

### Рассчеты

In [16]:
required_volume = BUDGET / (PRICE_PER_BARREL * 200)
required_volume # Необходимый объём сырья для безубыточной разработки новой скважины

111.11111111111111

<a id='preparation2'></a>
### Результат

In [17]:
for region in [geo_data_0, geo_data_1, geo_data_2]:
    mean_volume = region['product'].mean()
    print(f"Регион: {mean_volume}, Необходимый объём: {required_volume}")

Регион: 92.50000000000001, Необходимый объём: 111.11111111111111
Регион: 68.82500000000002, Необходимый объём: 111.11111111111111
Регион: 95.00000000000004, Необходимый объём: 111.11111111111111


**Вывод:** В среднем объема в регионах не хватает до необходимого объема

## Функция для расчёта прибыли

4.1. Выберите скважины с максимальными значениями предсказаний. 

4.2. Просуммируйте целевое значение объёма сырья, соответствующее этим предсказаниям.

4.3. Рассчитайте прибыль для полученного объёма сырья.

In [18]:
results_0_df = pd.DataFrame(results[0])
results_1_df = pd.DataFrame(results[1])
results_2_df = pd.DataFrame(results[2])

<a id='function'></a>
### Функция

In [19]:
def calculate_profit(data, n_wells=200):
    top_wells = data.nlargest(n_wells, 'predictions')
    total_extracted = top_wells['actual'].sum()
    profit = total_extracted * PRICE_PER_BARREL - BUDGET
    return profit

In [20]:
profit_0 = calculate_profit(results_0_df)
profit_0

3359141114.462179

In [21]:
profit_1 = calculate_profit(results_1_df)
profit_1

2415086696.681511

In [22]:
profit_2 = calculate_profit(results_2_df)
profit_2

2598571759.374111

## Посчитайте риски и прибыль для каждого региона

5.1. Примените технику Bootstrap с 1000 выборок, чтобы найти распределение прибыли.

5.2. Найдите среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

5.3. Напишите выводы: предложите регион для разработки скважин и обоснуйте выбор.

<a id='profit'></a>
### Функция распределения прибыли

In [23]:
def profit_distribution(data, n_iterations=1000):
    profits = []
    for _ in range(n_iterations):
        sample = data.sample(n=500, replace=True, random_state=state)
        profit = calculate_profit(sample)
        profits.append(profit)
    return profits

In [24]:
profits_0 = profit_distribution(results_0_df)
profits_1 = profit_distribution(results_1_df)
profits_2 = profit_distribution(results_2_df)

<a id='risk'></a>
### Средняя прибыль, доверительный интервал, риски

In [25]:
profits_0 = pd.Series(profits_0)
mean_profit = profits_0.mean()
lower = profits_0.quantile(0.025)
upper = profits_0.quantile(0.975)
risk_of_loss = (profits_0 < 0).mean() * 100

print(f"Средняя прибыль: {mean_profit:.2f}")
print(f"95% Доверительный интервал: [{lower:.2f}, {upper:.2f}]")
print(f"Риск убытков: {risk_of_loss:.1f} %")

Средняя прибыль: 406278783.42
95% Доверительный интервал: [-117742136.49, 911737050.75]
Риск убытков: 6.7 %


In [26]:
profits_1 = pd.Series(profits_1)
mean_profit = profits_1.mean()
lower = profits_1.quantile(0.025)
upper = profits_1.quantile(0.975)
risk_of_loss = (profits_1 < 0).mean() * 100

print(f"Средняя прибыль: {mean_profit:.2f}")
print(f"95% Доверительный интервал: [{lower:.2f}, {upper:.2f}]")
print(f"Риск убытков: {risk_of_loss:.1f} %")

Средняя прибыль: 441504277.59
95% Доверительный интервал: [35728489.28, 828006639.00]
Риск убытков: 1.6 %


In [27]:
profits_2 = pd.Series(profits_2)
mean_profit = profits_2.mean()
lower = profits_2.quantile(0.025)
upper = profits_2.quantile(0.975)
risk_of_loss = (profits_2 < 0).mean() * 100

print(f"Средняя прибыль: {mean_profit:.2f}")
print(f"95% Доверительный интервал: [{lower:.2f}, {upper:.2f}]")
print(f"Риск убытков: {risk_of_loss:.1f} %")

Средняя прибыль: 385213195.91
95% Доверительный интервал: [-164785166.11, 888206234.20]
Риск убытков: 7.8 %


<a id='results'></a>
### Вывод

Исходя из полученных данных: регион "1" с наибольшей средней прибылью и вероятностью убытков меньше 2.5%