# Выбор локации для скважины

Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

## Загрузка и подготовка данных

In [22]:
#подключение необходимых библиотек
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

import warnings
warnings.filterwarnings("ignore")

In [23]:
#подключение датасетов
data_1 = pd.read_csv('/datasets/geo_data_0.csv')
data_2 = pd.read_csv('/datasets/geo_data_1.csv')
data_3 = pd.read_csv('/datasets/geo_data_2.csv')

In [24]:
#просмотр состава и информации о датасетах
print("DATA_1:", "\n", data_1.head(), "\n")
data_1.info()

print("\n","DATA_2:", "\n", data_2.head(), "\n")
data_2.info()

print("\n", "DATA_3:", "\n", data_3.head(), "\n")
data_3.info()

DATA_1: 
       id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB

 DATA_2: 
       id         f0         f1        f2     product
0  kBEdx -15.001348  -8.276000 -0.005876    3.179103
1  62mP7  14.272088  -3.475083  0.999183   26.953261
2  vyE1P   6.263187  -5.948386  5.001160  134.766305
3  KcrkZ -13.081196 -11.

Типы данных соответствую друг другу, пропусков нет. Проверим данные на неявные дубликаты.

In [25]:
#проверка на дубликаты data_1
data_1.duplicated().sum()

0

In [26]:
#проверка на дубликаты data_2
data_2.duplicated().sum()

0

In [27]:
#проверка на дубликаты data_3
data_3.duplicated().sum()

0

**Вывод: дубликаты отсутствуют, пропуски в данных отсутствуют, типы данных соответствуют.**

## Обучение и проверка модели

Теперь приступим к машинному обучению. Для этого разделим все датасеты **(data_0, data_1, data_2)** на выборки в соотношении 75:25. Запишем целевой признак product.

### Регион 1 (data_1)

#### Разделение на выборки

In [28]:
#разделение на выборки data_1
data_1_train, data_1_valid = train_test_split(data_1, test_size=0.25, random_state=12345)

features_1_train = data_1_train.drop(['product', 'id'], axis=1)
target_1_train = data_1_train['product']
features_1_valid = data_1_valid.drop(['product', 'id'], axis=1)
target_1_valid = data_1_valid['product']

#### Обучение модели

In [29]:
#обучение модели
model_1 = LinearRegression()
model_1.fit(features_1_train, target_1_train)

LinearRegression()

#### Сохранение предсказаний и правильных ответов

In [30]:
#сохранение предсказаний
predictions_1_valid = model_1.predict(features_1_valid)

#### Вычисление RMSE и среднего запаса предсказанного сырья

In [31]:
#вычисление и вывод на экран значения RMSE
rmse_1 = mean_squared_error(target_1_valid, predictions_1_valid) ** .5
print("RMSE по Региону 1 равно: ", rmse_1)

#вычисление и вывод на экран значения среднего запаса предсказанного сырья
product_1_mean = predictions_1_valid.mean()
print("Средний запас предсказанного сырья по Региону 1 равен: ", product_1_mean)

RMSE по Региону 1 равно:  37.5794217150813
Средний запас предсказанного сырья по Региону 1 равен:  92.59256778438035


#### Выводы

* RMSE по **Региону 1** равно:  37.5794217150813
* Средний запас предсказанного сырья по **Региону 1** равен:  92.59256778438035

### Регион 2 (data_2)

#### Разделение на выборки

In [32]:
#разделение на выборки data_2
data_2_train, data_2_valid = train_test_split(data_2, test_size=0.25, random_state=12345)

features_2_train = data_2_train.drop(['product', 'id'], axis=1)
target_2_train = data_2_train['product']
features_2_valid = data_2_valid.drop(['product', 'id'], axis=1)
target_2_valid = data_2_valid['product']

#### Обучение модели

In [33]:
#обучение модели
model_2 = LinearRegression()
model_2.fit(features_2_train, target_2_train)

LinearRegression()

#### Сохранение предсказаний и правильных ответов

In [34]:
#сохранение предсказаний
predictions_2_valid = model_2.predict(features_2_valid)

#### Вычисление RMSE и среднего запаса предсказанного сырья

In [36]:
#вычисление и вывод на экран значения RMSE
rmse_2 = mean_squared_error(target_2_valid, predictions_2_valid) ** .5
print("RMSE по Региону 2 равно: ", rmse_2)

#вычисление и вывод на экран значения среднего запаса предсказанного сырья
product_2_mean = predictions_2_valid.mean()
print("Средний запас предсказанного сырья по Региону 2 равен: ", product_2_mean)

RMSE по Региону 2 равно:  0.893099286775617
Средний запас предсказанного сырья по Региону 2 равен:  68.728546895446


#### Выводы

* RMSE по **Региону 2** равно:  0.893099286775617
* Средний запас предсказанного сырья по **Региону 2** равен:  68.728546895446

### Регион 3 (data_3)

#### Разделение на выборки

In [37]:
#разделение на выборки data_3
data_3_train, data_3_valid = train_test_split(data_3, test_size=0.25, random_state=12345)

features_3_train = data_3_train.drop(['product', 'id'], axis=1)
target_3_train = data_3_train['product']
features_3_valid = data_3_valid.drop(['product', 'id'], axis=1)
target_3_valid = data_3_valid['product']

#### Обучение модели

In [38]:
#обучение модели
model_3 = LinearRegression()
model_3.fit(features_3_train, target_3_train)

LinearRegression()

#### Сохранение предсказаний и правильных ответов

In [39]:
#сохранение предсказаний
predictions_3_valid = model_3.predict(features_3_valid)

#### Вычисление RMSE и среднего запаса предсказанного сырья

In [40]:
#вычисление и вывод на экран значения RMSE
rmse_3 = mean_squared_error(target_3_valid, predictions_3_valid) ** .5
print("RMSE по Региону 3 равно: ", rmse_3)

#вычисление и вывод на экран значения среднего запаса предсказанного сырья
product_3_mean = predictions_3_valid.mean()
print("Средний запас предсказанного сырья по Региону 3 равен: ", product_3_mean)

RMSE по Региону 3 равно:  40.02970873393434
Средний запас предсказанного сырья по Региону 3 равен:  94.96504596800489


#### Выводы

* RMSE по **Региону 3** равно:  40.02970873393434
* Средний запас предсказанного сырья по **Региону 3** равен:  94.96504596800489

**Итоговый вывод:**
* Регион 1:

    RMSE по Региону 1 равно: 37.5794217150813
    
    Средний запас предсказанного сырья по Региону 1 равен: 92.59256778438035


* Регион 2:

    RMSE по Региону 2 равно: 0.893099286775617
    
    Средний запас предсказанного сырья по Региону 2 равен: 68.728546895446


* Регион 3:


    RMSE по Региону 3 равно: 40.02970873393434
    
    Средний запас предсказанного сырья по Региону 3 равен: 94.96504596800489
**Минимальные показатели** в **Регионе 2**, **максимальные показатели** в **Регионе 3**.

## Подготовка к расчёту прибыли

### Сохранение ключевых значений для расчетов в отдельных переменных

Сохраним входные данные в переменные.
* buget - бюджет на разработку скважин в регионе
* points - количество исследуемых точек
* best_points - количество лучших точек
* points_income - прибыль с каждой единицы продукта

In [41]:
#сохранение входных данных
budget = 10 ** 10
points = 500
best_points = 200
points_income = 450000

Преобразуем предсказания и целевые признаки к Series.

In [42]:
#преобразование предсказаний и признаков data_1
target_1_valid = pd.Series(target_1_valid).reset_index(drop=True)
predictions_1_valid = pd.Series(predictions_1_valid).reset_index(drop=True)

#преобразование предсказаний и признаков data_2
target_2_valid = pd.Series(target_2_valid).reset_index(drop=True)
predictions_2_valid = pd.Series(predictions_2_valid).reset_index(drop=True)

#преобразование предсказаний и признаков data_3
target_3_valid = pd.Series(target_3_valid).reset_index(drop=True)
predictions_3_valid = pd.Series(predictions_3_valid).reset_index(drop=True)

### Расчет достаточного объёма сырья для безубыточной разработки новой скважины.

In [43]:
enough = budget / points_income / best_points
print('Достаточный объём сырья для безубыточной разработки новой скважины равен: ', enough)

Достаточный объём сырья для безубыточной разработки новой скважины равен:  111.11111111111111


### Выводы по этапу

* Средний запас предсказанного сырья по Региону 1 равен: 92.59256778438035
* Средний запас предсказанного сырья по Региону 2 равен: 68.728546895446
* Средний запас предсказанного сырья по Региону 3 равен: 94.96504596800489

**Во всех регионах средний объем сырья меньше необходимого для безубыточной разработки.**

## Функция для расчёта прибыли по выбранным скважинам и предсказаниям модели

In [56]:
#Функция принимает целевые объемы запасов сырья скважин, предсказания и точки для разработки.
def income(target, predictions, best_points):
    
    #сортируем предсказанные значения по убыванию
    predictions_sorted = predictions.sort_values(ascending=False)
    
    #выбираем реальные максимальные показания объемов сырья предсказанным
    selected = target[predictions_sorted.index][:best_points]
    
    return points_income * selected.sum() - budget

#проверка
print(" Возможная прибыль по Региону 1: ", income(target_1_valid, predictions_1_valid, best_points))
print(" Возможная прибыль по Региону 2: ", income(target_2_valid, predictions_2_valid, best_points))
print(" Возможная прибыль по Региону 3: ", income(target_3_valid, predictions_3_valid, best_points))

 Возможная прибыль по Региону 1:  3320826043.1398506
 Возможная прибыль по Региону 2:  2415086696.681511
 Возможная прибыль по Региону 3:  2710349963.5998325


## Расчет рисков и прибыли для каждого региона

In [53]:
#создаем переменный со списками признаков, предсказаний и регионов
all_targets = [target_1_valid, target_2_valid, target_3_valid]
all_predictions = [predictions_1_valid, predictions_2_valid, predictions_3_valid]
all_regions = ['Регион 1', 'Регион 2', 'Регион 3']

state = np.random.RandomState(12345)

#создаем цикл для просчета прибыли и рисков
for area in range(len(all_targets)):
    
    #список для сохранения результатов
    values = []
    
    #bootstrap
    for i in range(1000):
        target_subsample = all_targets[area].sample(n=points, replace=True, random_state=state)
        predictions_subsample = all_predictions[area].loc[target_subsample.index]
        values.append(income(target_subsample.reset_index(drop=True),\
                             predictions_subsample.reset_index(drop=True), best_points))
    
    values = pd.Series(values)
    
    lower = values.quantile(0.25)
    upper = values.quantile(0.975)
    
    #средние показатели прибыли
    mean = values.mean()
    
    #вероятность убытков
    loss_probability = sum(values < 0) / values.count() * 100
    
    print(all_regions[area], "\n")
    print("Средние показатели прибыли:", mean, "\n")
    print("95%-доверительный интервал:", "от", lower, "до", upper, "\n")
    print("Вероятность убытков:", loss_probability, "%", "\n\n")

Регион 1 

Средние показатели прибыли: 396164984.8023711 

95%-доверительный интервал: от 213920379.53535748 до 909766941.5534226 

Вероятность убытков: 6.9 % 


Регион 2 

Средние показатели прибыли: 461155817.2772397 

95%-доверительный интервал: от 322186710.86017036 до 862952060.2637234 

Вероятность убытков: 0.7000000000000001 % 


Регион 3 

Средние показатели прибыли: 392950475.17060447 

95%-доверительный интервал: от 204390313.24232578 до 934562914.5511636 

Вероятность убытков: 6.5 % 




Вывод: **Максимальная прибыль по Региону 2, минимальные убытки по Региону 2.**

**Регион 1:**
* Средние показатели прибыли: 396164984.8023711 
* 95%-доверительный интервал: от 213920379.53535748 до 909766941.5534226 
* Вероятность убытков: 6.9 %

**Регион 2:** 
* Средние показатели прибыли: 461155817.2772397 
* 95%-доверительный интервал: от 322186710.86017036 до 862952060.2637234 
* Вероятность убытков: 0.7000000000000001 %

**Регион 3:**
* Средние показатели прибыли: 392950475.17060447 
* 95%-доверительный интервал: от 204390313.24232578 до 934562914.5511636 
* Вероятность убытков: 6.5 %

## Общий вывод

1) Были исследованы данные 3 регионов. В результате применения Линейной регрессии были получены следующие результаты:

**Регион 1:**
* RMSE по Региону 1 равно: 37.5794217150813
* Средний запас предсказанного сырья по Региону 1 равен: 92.59256778438035

**Регион 2:**
* RMSE по Региону 2 равно: 0.893099286775617
* Средний запас предсказанного сырья по Региону 2 равен: 68.728546895446

**Регион 3:**
* RMSE по Региону 3 равно: 40.02970873393434
* Средний запас предсказанного сырья по Региону 3 равен: 94.96504596800489

**Наменьшее RMSE по Региону 2, что говорит о наиболее верном предсказании модели.**

2) Достаточный объём сырья для безубыточной разработки новой скважины равен:  111.11111111111111.

*    Средний запас предсказанного сырья по Региону 1 равен: 92.59256778438035
*    Средний запас предсказанного сырья по Региону 2 равен: 68.728546895446
*    Средний запас предсказанного сырья по Региону 3 равен: 94.96504596800489

**Во всех регионах средний объем сырья меньше необходимого для безубыточной разработки.**

3) Была применена техника Bootstrap для расчета распределения прибыли по регионам, в результате которой были получены следующий результаты: 

**Регион 1:**
* Средние показатели прибыли: 396164984.8023711 
* 95%-доверительный интервал: от 213920379.53535748 до 909766941.5534226 
* Вероятность убытков: 6.9 %

**Регион 2:** 
* Средние показатели прибыли: 461155817.2772397 
* 95%-доверительный интервал: от 322186710.86017036 до 862952060.2637234 
* Вероятность убытков: 0.7000000000000001 %

**Регион 3:**
* Средние показатели прибыли: 392950475.17060447 
* 95%-доверительный интервал: от 204390313.24232578 до 934562914.5511636 
* Вероятность убытков: 6.5 %

**Максимальная прибыль и минимальные убытки по Региону 2. Этот регион является приоритетным для разработки месторождения.**