# <span style="color: crimson">Выбор локации для скважины</span>

---  
**<span style="color: crimson">Заказчик</span>:** компания «ГлавРосГосНефть».  

**<span style="color: crimson">Задача</span>:** определить наиболее прибыльный район по добыче нефти. Построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.  

**<span style="color: crimson">Датасет</span>:** пробы нефти в трёх регионах. Пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов.

**<span style="color: crimson">Условия задачи</span>:** 
* При разведке региона исследуют 500 точек, из которых с помощью машинного обучения выбирают 200 лучших для разработки.
* Бюджет на разработку скважин в регионе — 10 млрд рублей.
* При нынешних ценах один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.
* После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.

**<span style="color: crimson">Шаги для выбора локации</span>:** 

* В избранном регионе ищут месторождения, для каждого определяют значения признаков;
* Строят модель и оценивают объём запасов;
* Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
* Прибыль равна суммарной прибыли отобранных месторождений.


---

<h3>Описание данных:</h3>  
<h4 style="color:crimson"> Признаки </h4>

* **<span style="color: red">id</span>** — уникальный идентификатор скважины.
* **<span style="color: red">f0, f1, f2</span>** — три признака точек. (без описания)

<h4 style="color:crimson"> Целевой признак </h4>

* **<span style="color: red">product</span>** — объём запасов в скважине (тыс. баррелей).

---

<h2> Импорт библиотек: </h2>

In [38]:
!pip3 install optuna



In [60]:
import pandas as pd

from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error


import numpy as np
from scipy import stats as st
import optuna

## <span style="color: crimson">Этап 1</span> Изучение данных

In [40]:
geo_data_0 = pd.read_csv('./geo_data_0.csv')
geo_data_1 = pd.read_csv('./geo_data_1.csv')
geo_data_2 = pd.read_csv('./geo_data_2.csv')

In [41]:
# Для анализа соеденим данные в один датасет, ну а после разделим.
geo_data_0['region'] = 0
geo_data_1['region'] = 1
geo_data_2['region'] = 2

df = pd.concat([geo_data_0, geo_data_1, geo_data_2])

In [42]:
df.sample(5)

Unnamed: 0,id,f0,f1,f2,product,region
32837,GvCP9,1.130154,0.688341,9.077288,125.669331,2
34056,3OuMD,10.575691,-0.023305,3.997154,107.813044,1
28380,3MJne,5.648997,-3.546743,2.999349,80.859783,1
24099,QyyLm,-6.332702,-0.112894,9.827302,172.809442,2
98527,WTRVc,-9.449929,-9.065061,0.000972,3.179103,1


<h4 style="color:crimson">Общая информация:

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 300000 entries, 0 to 99999
Data columns (total 6 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       300000 non-null  object 
 1   f0       300000 non-null  float64
 2   f1       300000 non-null  float64
 3   f2       300000 non-null  float64
 4   product  300000 non-null  float64
 5   region   300000 non-null  int64  
dtypes: float64(4), int64(1), object(1)
memory usage: 16.0+ MB


In [44]:
df.describe()

Unnamed: 0,f0,f1,f2,product,region
count,300000.0,300000.0,300000.0,300000.0,300000.0
mean,0.547913,-1.516172,2.497439,85.441667,1.0
std,5.316634,3.90022,2.916502,46.519494,0.816498
min,-31.609576,-26.358598,-12.088328,0.0,0.0
25%,-1.003037,-2.478939,0.648213,52.666629,0.0
50%,0.347934,-0.229632,2.491215,84.038886,1.0
75%,1.755365,0.678562,4.344943,124.174086,2.0
max,29.421755,18.734063,16.739402,190.029838,2.0


**Вывод:** 
1. Стоит сменить типы данных на более корректные, т.к. у нас не настолько большой разброс значений.
2. В данных отсутствуют пропуски.

<h4 style="color:crimson"> Дубликаты: 

In [45]:
df['id'].duplicated().sum()

49

Всего у нас **49** дубликатов (не полных) при наборе в 1 млн объектов, их можно просто удалить.

### <center><span style="color: crimson"><b>Вывод</b></span></center>
**Нужно:**
1. Удалить дубликаты.
2. Удалить столбец  **id**.
3. Изменить тип данных.

---

## <span style="color: crimson">Этап 2</span> Предобработка данных

**Удаление <span style="color: crimson">дубликатов</span>:**

In [46]:
df = df.drop_duplicates(subset=['id'])

**Удаление  <span style="color: crimson">столбцов</span>:**

После удаления дубликатов столбец **id** можно удалить.

In [47]:
df = df.drop(['id'], axis=1)

**<span style="color:crimson">Изменение типов данных</span>:**

In [48]:
df["f0"] = df["f0"].astype("float16")
df["f1"] = df["f1"].astype("float16")
df["f2"] = df["f2"].astype("float16")
df["region"] = df["region"].astype("int8")

<h4><span style="color: crimson">Разделение df</span> по регионам:</h4>

In [49]:
geo_data_0 = df.query('region == 0').drop(['region'], axis=1)
geo_data_1 = df.query('region == 1').drop(['region'], axis=1)
geo_data_2 = df.query('region == 2').drop(['region'], axis=1)

---

## <span style="color: crimson">Этап 3</span> Создание и тестирование моделей 

Разделение данных проведем прямо во время тестирования, так проще и удобнее.

### **Используемые модели:**
* Градиентный бустин.
* Elastic Net.

**Настройка optuma**

In [50]:
RANDOM_SEED = 666

kfolds = KFold(n_splits=10, shuffle=True, random_state=RANDOM_SEED)

def tune(objective):
    study = optuna.create_study(direction="maximize")
    study.optimize(objective, n_trials=100)

    params = study.best_params
    best_score = study.best_value
    print(f"Best score: {best_score}\n")
    print(f"Optimized parameters: {params}\n")
    return params

### <span style="color: crimson">1.</span> Градиентный бустинг 

In [None]:
%%time

def test_model_GBC(date):
    def objective(trial):
        param = {
            "learning_rate": trial.suggest_float("learning_rate", 0.01, 1.0),
            "max_depth": trial.suggest_int("max_depth", 1, 15),
            "subsample": trial.suggest_float("subsample", .5, 1.),
            "n_estimators": trial.suggest_int("n_estimators", 1, 500),
        }
        model = GradientBoostingRegressor(**param, random_state=RANDOM_SEED)
        scores = cross_val_score(
            model,
            features, 
            target,
            scoring='neg_root_mean_squared_error',
            cv=kfolds,
        ).mean()

        model.fit(features, target) 
        scores = f1_score(target_valid, model.predict(features_valid))  

    features = date.drop(['product'], axis=1)
    target = date['product']
    
    GBC_params = tune(objective)
    GBC = GradientBoostingRegressor(**GBC_params, random_state=RANDOM_SEED)
    model_GBC.fit(features, target) 

    A_GBC = model_GBC.score(features_test, target_test) 
    F_GBC = f1_score(target_test, model_GBC.predict(features_test))  
    
    print("F1_score модели {}".format(F_GBC))


In [87]:
%%time

def test_model_GBC(date):
    def objective(trial):
        param = {
            "learning_rate": trial.suggest_float("learning_rate", 0.01, 1.0),
            "max_depth": trial.suggest_int("max_depth", 1, 15),
            "subsample": trial.suggest_float("subsample", .5, 1.),
            "n_estimators": trial.suggest_int("n_estimators", 1, 500),
        }

        model = GradientBoostingRegressor(**param, random_state=RANDOM_SEED)
        scores = cross_val_score(
            model,
            features, 
            target,
            scoring='neg_root_mean_squared_error',
            cv=kfolds,
        ).mean()

        return scores

    features = date.drop(['product'], axis=1)
    target = date['product']
    
    GBC_params = tune(objective)
    GBC = GradientBoostingRegressor(**GBC_params, random_state=RANDOM_SEED)
    
    

CPU times: total: 0 ns
Wall time: 0 ns


In [None]:
test_model_GBC(geo_data_0)

[32m[I 2022-03-23 22:01:18,603][0m A new study created in memory with name: no-name-75069bf3-901d-400e-a94b-0a76db45336f[0m
[32m[I 2022-03-23 22:06:29,739][0m Trial 0 finished with value: -40.02964700455683 and parameters: {'learning_rate': 0.3131542768072353, 'max_depth': 10, 'subsample': 0.8310734993921944, 'n_estimators': 168}. Best is trial 0 with value: -40.02964700455683.[0m
[32m[I 2022-03-23 22:07:07,269][0m Trial 1 finished with value: -37.191154114361 and parameters: {'learning_rate': 0.24267513759361625, 'max_depth': 3, 'subsample': 0.5542149446177009, 'n_estimators': 87}. Best is trial 1 with value: -37.191154114361.[0m
[32m[I 2022-03-23 22:07:29,720][0m Trial 2 finished with value: -37.33246399929406 and parameters: {'learning_rate': 0.40315455089945246, 'max_depth': 1, 'subsample': 0.664664062514256, 'n_estimators': 108}. Best is trial 1 with value: -37.191154114361.[0m
[32m[I 2022-03-23 22:10:01,429][0m Trial 3 finished with value: -47.28205681656816 and par

### <span style="color: crimson">2.</span> Линейная регрессия

In [15]:
model = LinearRegression()

In [16]:
def prediction_target(data):
    features = data.drop(["product"], axis=1)
    target = data["product"]

    features_train, features_valid, target_train, target_valid = train_test_split(
        features, target, test_size=0.25, random_state=0
    )
    model.fit(features_train, target_train)

    return pd.Series(model.predict(features_valid)), target_valid

In [17]:
predicted_0, target_0 = prediction_target(geo_data_0)
predicted_1, target_1 = prediction_target(geo_data_1)
predicted_2, target_2 = prediction_target(geo_data_2)

<h4 style="color:crimson"> Cредний запас предсказанного сырья и RMSE модели.

In [18]:
def mean_product_and_rmse (answers, predictions):
    mse = mean_squared_error(answers, predictions)
    print('Среднее кол-во нефти:', predictions.mean(), 'тыс.')
    print('RMSE:', mse ** 0.5)

In [19]:
print('Регион №0')
print()
mean_product_and_rmse(target_0, predicted_0)

Регион №0

Среднее кол-во нефти: 92.72644 тыс.
RMSE: 37.72623571423873


In [20]:
print('Регион №1')
print()
mean_product_and_rmse(target_1, predicted_1)

Регион №1

Среднее кол-во нефти: 69.066505 тыс.
RMSE: 0.8847939188930067


In [21]:
print('Регион №2')
print()
mean_product_and_rmse(target_2, predicted_2)

Регион №2

Среднее кол-во нефти: 95.11724 тыс.
RMSE: 39.9913735369623


<h4 style="color:crimson"> Анализ результатов

Кроме 1го региона наша модель дает серьезные отклонения, примерно на 1/3, от результата.

---

## Шаг 3.Подготовка к расчёту прибыли

 <h4 style="color:crimson"> Сохранение ключевых значений для расчётов в отдельных переменных

In [22]:
# Бюджет на разработку скважин в регионе 
BUDGET = 10000000000

# Количество скважин, которые мы можем выбрать для разработки
OIL_WELLS_COUNT = 200

# Доход с каждой единицы продукта 
INCOME = 450000

<h4 style="color:crimson"> Расчёт достаточный объём сырья для безубыточной разработки новой скважины

In [23]:
(BUDGET / OIL_WELLS_COUNT) / INCOME

111.11111111111111

<h4 style="color:crimson"> Сравнение полученный объём сырья со средним запасом в каждом регионе.

In [24]:
print('Регион 0:', target_0.mean())

Регион 0: 92.7579632180877


In [25]:
print('Регион 1:', target_1.mean())

Регион 1: 69.07554774031735


In [26]:
print('Регион 2:', target_2.mean())

Регион 2: 94.83605915571196


Если разрабатывать весь регион, то мы везде будем в убытке.

<h4 style="color:crimson"> Выбор скважины с максимальными значениями предсказаний,  суммирование целевого значение объёма сырья, а затем рассчитайте прибыль для полученного объёма сырья.

Найдем по предсказаням самые прибыльные вышки и посмотрим фактическую от них прибль.

In [27]:
def profit(predicted, target):
    predicted = pd.Series(predicted).reset_index(drop=True)
    target = pd.Series(target).reset_index(drop=True)

    predicted_sort = predicted.sort_values(ascending=False)
    fuel_quantity = target[predicted_sort.index][:OIL_WELLS_COUNT].sum()
    
    operational_profit = ((fuel_quantity*INCOME) - BUDGET) / 1000000000
    
    return operational_profit

| Регион 0

In [28]:
print('Предсказанная оперативная прибыль: {} млрд'.format(profit(predicted_0, target_0).round(1)))

Предсказанная оперативная прибыль: 3.3 млрд


| Регион 1

In [29]:
print('Предсказанная оперативная прибыль: {} млрд'.format(profit(predicted_1, target_1).round(1)))

Предсказанная оперативная прибыль: 2.4 млрд


| Регион 2

In [30]:
print('Предсказанная оперативная прибыль: {} млрд'.format(profit(predicted_2, target_2).round(1)))

Предсказанная оперативная прибыль: 2.5 млрд


<h4 style="color:crimson"> Анализ результатов:

По полученным результатам, наиболее оптимальные районы это 0 и 2, т.к. они принесут наибольшую прибль.

## Шаг 4. Расчёт прибыли и рисков 

<h4 style="color:crimson"> Применение техники Bootstrap с 1000 выборок, чтобы найти распределение прибыли.

In [31]:
state = np.random.RandomState(0)

In [32]:
def bootstrap(predicted, target):
    target = target.reset_index(drop=True)
    values = []
    
    for i in range(1000):
        target_subsample = target.sample(n=500, replace=True, random_state=state)
        predicted_subsample = predicted[target_subsample.index]
        
        profit_ = profit(predicted_subsample,target_subsample)
        values.append(profit_)
        
    return pd.Series(values)

<h4 style="color:crimson"> Поиск среднюю прибыль, 95%-й доверительный интервал и риск убытков. Убыток — это отрицательная прибыль.

In [33]:
def analysis(predicted, target):
    values = bootstrap(predicted, target)
    
    mean = values.mean()
    confidence_interval = [values.quantile(0.025), values.quantile(0.975)]
    confidence_interval_t = st.t.interval(0.95, len(values)-1, mean, values.sem())


    print("Средняя выручка:", mean)
    print("Доверительный интервал:", confidence_interval)
    print("Доверительный интервал среднего:", confidence_interval_t)
    print("Риски убытка:", (values < 0).mean())

In [34]:
analysis(predicted_0, target_0)

Средняя выручка: 0.44448772216163585
Доверительный интервал: [-0.08778495948548436, 0.9319994431379525]
Доверительный интервал среднего: (0.42819010783833983, 0.46078533648493186)
Риски убытка: 0.05


In [35]:
analysis(predicted_1, target_1)

Средняя выручка: 0.47034410102978064
Доверительный интервал: [0.06957608348509284, 0.8744496994214478]
Доверительный интервал среднего: (0.45789102487502287, 0.4827971771845384)
Риски убытка: 0.012


In [36]:
analysis(predicted_2, target_2)

Средняя выручка: 0.3576659526854113
Доверительный интервал: [-0.16760750026770782, 0.8708221554682299]
Доверительный интервал среднего: (0.34096826466421803, 0.37436364070660455)
Риски убытка: 0.091


<h4 style="color:crimson"> Анализ результатов

Первый регион наиболее прибыльный и имеет наименьший риск убытка (1.2%).