# Выбор локации для скважины

## Загрузка и подготовка данных

In [60]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
from numpy.random import RandomState

In [61]:
data0 = pd.read_csv('/datasets/geo_data_0.csv')
data1 = pd.read_csv('/datasets/geo_data_1.csv')
data2 = pd.read_csv('/datasets/geo_data_2.csv')

In [62]:
display(data0.info())
display(data0.describe())
display(data1.info())
display(data1.describe())
display(data2.info())
display(data2.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


None

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


### Вывод

- Информация о структуре данных - двумерная(DataFrame);
- таблица имеет 100000 строк и 5 столбцов; 
- присутствуют названия столбцов и количество ненулевых значений;
- в таблице присутствуют значения типов float(4 столбца), object(1 столбeц);
- использование памяти.

Посмотрим, есть ли пропуски:

In [63]:
display(data0.isna().sum())
display(data1.isna().sum())
display(data2.isna().sum())

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Пропусков нет.

Проверим дубликаты:

In [64]:
dubl_data0 = data0[data0.duplicated()].head()
dubl_data1 = data1[data1.duplicated()].head()
dubl_data2 = data2[data2.duplicated()].head()
display(dubl_data0)
display(dubl_data1)
display(dubl_data2)

Unnamed: 0,id,f0,f1,f2,product


Unnamed: 0,id,f0,f1,f2,product


Unnamed: 0,id,f0,f1,f2,product


Дубликатов нет.

## Обучение и проверка модели

### Разделим данные на обучающую и тестовую выборки:

In [65]:
features0 = data0.drop(['id', 'product'], axis=1) #признаки
target0 = data0['product'] #целевой признак

features0_train, features0_valid, target0_train, target0_valid = train_test_split(
    features0, target0, test_size=0.25, random_state=12345)

display(features0_train.shape)
display(target0_train.shape)
display(features0_valid.shape)
display(target0_valid.shape)

(75000, 3)

(75000,)

(25000, 3)

(25000,)

In [66]:
features1 = data1.drop(['id', 'product'], axis=1) #признаки
target1 = data1['product'] #целевой признак

features1_train, features1_valid, target1_train, target1_valid = train_test_split(
    features1, target1, test_size=0.25, random_state=12345)

display(features1_train.shape)
display(target1_train.shape)
display(features1_valid.shape)
display(target1_valid.shape)

(75000, 3)

(75000,)

(25000, 3)

(25000,)

In [67]:
features2 = data2.drop(['id', 'product'], axis=1) #признаки
target2 = data2['product'] #целевой признак

features2_train, features2_valid, target2_train, target2_valid = train_test_split(
    features2, target2, test_size=0.25, random_state=12345)

display(features2_train.shape)
display(target2_train.shape)
display(features2_valid.shape)
display(target2_valid.shape)

(75000, 3)

(75000,)

(25000, 3)

(25000,)

### Обучим модель и сделаем предсказания на валидационной выборке:

In [68]:
def predictions(data):
    features = data.drop(['id', 'product'], axis=1) #признаки
    target = data['product'] #целевой признак

    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=12345)
    model = LinearRegression()
    model.fit(features_train, target_train)
    return pd.Series(model.predict(features_valid)), target_valid

### Сохраним предсказания и правильные ответы на валидационной выборке:

In [69]:
predicted0, target0_valid = predictions(data0)
predicted1, target1_valid = predictions(data1)
predicted2, target2_valid = predictions(data2)

### Напечатаем на экране средний запас предсказанного сырья и RMSE модели:

In [70]:
average_stock0 = predicted0.mean()
rmse0 = mean_squared_error(target0_valid, predicted0) ** 0.5
display('Средний запас:', average_stock0, 'RMSE_0:', rmse0)

'Средний запас:'

92.59256778438035

'RMSE_0:'

37.5794217150813

In [71]:
average_stock1 = predicted1.mean()
rmse1 = mean_squared_error(target1_valid, predicted1) ** 0.5
display('Средний запас:', average_stock1, 'RMSE_1:', rmse1)

'Средний запас:'

68.728546895446

'RMSE_1:'

0.893099286775617

In [72]:
average_stock2 = predicted2.mean()
rmse2 = mean_squared_error(target2_valid, predicted2) ** 0.5
display('Средний запас:', average_stock2, 'RMSE_2:', rmse2)

'Средний запас:'

94.96504596800489

'RMSE_2:'

40.02970873393434

### Анализ результатов

- Нулевой регион:
Среднеквадратическая ошибка и средний объем запасов в нулевом регионе находится на втором месте.
- Первый регион:
Уступает другим регионам и по показателю среднеквадратичной ошибки и по среднему объему запасов.
- Второй регион:
Самый высокий средний объем запасов, а также среднеквадратичная ошибка, регион на первом месте.

## Подготовка к расчёту прибыли

### Все ключевые значения для расчётов сохраним в отдельных переменных:

In [73]:
BUDGET_PER_REGION = 10*(10**9)
BEFORE_POINTS = 500
AFTER_POINTS = 200
PRICE_PER_BARREL = 450000
PROBABILITY_OF_LOSSES =  0.025
NON_DAMAGE_POINT = BUDGET_PER_REGION/PRICE_PER_BARREL/AFTER_POINTS

### Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины:

In [74]:
display("Достаточный объём сырья для безубыточной разработки новой скважины (тыс. баррелей):",round(NON_DAMAGE_POINT, 2))

'Достаточный объём сырья для безубыточной разработки новой скважины (тыс. баррелей):'

111.11

### Выводы по этапу подготовки расчёта прибыли:

Минимальное количество баррелей нефти для безубыточной разработки новой скважины составило 111.(1)
А максимально средний запас сырья в регионах равен 95. 

## Расчёт прибыли и рисков 

### Напишем функцию для расчёта прибыли по выбранным скважинам и предсказаниям модели:

In [75]:
def profit(target, predictions):
    pred_sorted = predictions.sort_values(ascending=False)[:AFTER_POINTS]
    selected = (target.reset_index(drop = True)[pred_sorted.index])
    selected_sum = selected.sum()
    return round((selected_sum * PRICE_PER_BARREL) - BUDGET_PER_REGION,2)

### Рассчитаем прибыль для полученного объёма сырья:

In [76]:
print('Прибыль с лучших 200 скважин в нулевом регионе:', profit(target0_valid, predicted0))
print('Прибыль с лучших 200 скважин в первом регионе:', profit(target1_valid, predicted1))
print('Прибыль с лучших 200 скважин во втором регионе:', profit(target2_valid, predicted2))

Прибыль с лучших 200 скважин в нулевом регионе: 3320826043.14
Прибыль с лучших 200 скважин в первом регионе: 2415086696.68
Прибыль с лучших 200 скважин во втором регионе: 2710349963.6


## Посчитаем риски и прибыль для каждого региона:

In [77]:
def confidence_interval(target, predictions):
    state = np.random.RandomState(12345)
    values = []
    for i in range(1000):
        value = pd.Series(predictions).sample(n = BEFORE_POINTS, replace=True, random_state=state)
        values.append(profit(target,value))
    values = pd.Series(values)
    print('Средняя выручка:', values.mean())
    print('Риски убытка:', values.apply(lambda x: x < 0).sum()/len(values)*100,"%")
    
    lower = values.quantile(PROBABILITY_OF_LOSSES)
    upper = values.quantile(0.975)
    return round(lower,2), round(upper,2)

In [78]:
print('95% доверительный итервал для нулевого региона лежит между:', confidence_interval(target0_valid, predicted0))
print('95% доверительный итервал для первого региона лежит между:', confidence_interval(target1_valid, predicted1))
print('95% доверительный итервал для второго региона лежит между:', confidence_interval(target2_valid, predicted2))

Средняя выручка: 396164984.80228
Риски убытка: 6.9 %
95% доверительный итервал для нулевого региона лежит между: (-111215545.89, 909766941.55)
Средняя выручка: 456045105.78665996
Риски убытка: 1.5 %
95% доверительный итервал для первого региона лежит между: (33820509.4, 852289453.86)
Средняя выручка: 404403866.56838
Риски убытка: 7.6 %
95% доверительный итервал для второго региона лежит между: (-163350413.39, 950359574.93)


Вывод: Проведя анализ, видим что для разработки новой скважины нам подходит первый регион, так риски минимальны и средняя прибыль выше чем в других регионах.