# Машинное обучение в бизнесе
____

## Описание проекта
Допустим, вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.
Шаги для выбора локации обычно такие:
* В избранном регионе собирают характеристики для скважин: качество нефти и объём её запасов;
* Строят модель для предсказания объёма запасов в новых скважинах;
* Выбирают скважины с самыми высокими оценками значений;
* Определяют регион с максимальной суммарной прибылью отобранных скважин.

Вам предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Постройте модель для определения региона, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.
___

## Описание данных
* **Признаки:**
    1. **`id`** — уникальный идентификатор скважины;
    2. **`f0`**, **`f1`**, **`f2`** — три признака точек;
* **Целевой признак:**
    1. **`product`** — объём запасов в скважине (тыс. баррелей).
___

## Структура проекта
<a href='#section1'></a>
1. [Подготовка данных](#section1)
<a href='#section2'></a>
2. [Обучение моделей в регионах](#section2)
<a href='#section3'></a>
3. [Метрика прибыли](#section3)
<a href='#section4'></a>
4. [Рассчёт прибыльности регионов](#section4)
<a href='#section5'></a>
5. [Выводы исследования](#section5)
___
___

<a id='section1'></a>
## 1. Подготовка данных

In [1]:
import numpy as np
import pandas as pd
import warnings 
# Модели
from sklearn.linear_model import LinearRegression
# Интструменты
from sklearn.model_selection import train_test_split as tts
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.utils import shuffle
from tqdm import tqdm
# Графики
import matplotlib.pyplot as plt
import seaborn as sns

warnings.filterwarnings("ignore")

In [2]:
geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')
geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

In [3]:
# Первый взгляд.
hatched_line = '\n' + 100*'-' + '\n'
bold_line = 100*'—'
for data in [geo_data_0, geo_data_1, geo_data_2]:
    print(
        bold_line, '\n',
        data.info(), hatched_line,
        'HEAD:\n', data.head(), hatched_line,
        'DESCRIBE:\n', data.describe(), hatched_line,
        'NaNs percent:\n', (data.isna().sum() / data.shape[0] * 100).round(2).sort_values(),
        'Duplicates:\n', data.duplicated().sum(),
        bold_line, '\n',
        sep='\n'
    )

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
————————————————————————————————————————————————————————————————————————————————————————————————————


None

----------------------------------------------------------------------------------------------------

HEAD:

      id        f0        f1        f2     product
0  txEyH  0.705745 -0.497823  1.221170  105.280062
1  2acmU  1.334711 -0.340164  4.365080   73.037750
2  409Wp  1.022732  0.151990  1.419926   85.265647
3  iJLyR -0.032172  0.139033  2.978566  168.620776
4  Xdl7t  1.988431  0.155413  4.751769  154.036647

----------------------------------------------------------------------------------------------------

DESCRIBE:

                  f0       

`NaN`s не наблюдаем в данных, однако во время `data.describe()` вылезли нули (минимумы значений в столбце `product`. Рассмотрим их.

In [4]:
for i, data in enumerate([geo_data_0, geo_data_1, geo_data_2]):
    zeros_num = data[data['product']==0]['product'].count()
    zeros_percent = zeros_num / data.shape[0]
    print(
        'Количество нулевых запасов в скважинах региона {:.0f} : {:.0f}'.format(i, zeros_num), '\n'
        'Процент нулевых запасов в скважинах региона {:.0f} : {:.2%}'.format(i, zeros_percent)
    )
    print()

Количество нулевых запасов в скважинах региона 0 : 1 
Процент нулевых запасов в скважинах региона 0 : 0.00%

Количество нулевых запасов в скважинах региона 1 : 8235 
Процент нулевых запасов в скважинах региона 1 : 8.24%

Количество нулевых запасов в скважинах региона 2 : 1 
Процент нулевых запасов в скважинах региона 2 : 0.00%



Наблюдается отличие второго региона от своих "конкурентов"😉. Либо имеет ошибка в вызгрузке данных, либо работники поленились измерить (маловероятно), либо не успели измерить до конца к моменту выгрузки данных, либо имеют место уже опустощённые скважины в регионе. 

В силу невозможности их классифицировать (прогуляться до заказчика / отдела в компании / сборщиков данных и т.д. и задать вопросы), нулевые данные во втором регионе остаются.

Исбавимся от столбца `id`. Никакой полезной для обучения информации не несёт. 

In [5]:
geo_data_0 = geo_data_0.drop(labels=['id'], axis=1)
geo_data_1 = geo_data_1.drop(labels=['id'], axis=1)
geo_data_2 = geo_data_2.drop(labels=['id'], axis=1)

**Выводы:**
1. Загруженные данные во всех регионах без пропусков;
2. Во втором регионе замечены скважины с нулевым объёмом ($8.24\%$). Было решено их оставить из-за невозможности классифицировать проблему в достаточной мере, чтобы удалять.
___

<a id='section2'></a>
## 2. Обучение моделей в регионах

**План действий:**
1. Нормализация признаков для стабильности работы моделей;
2. Разбиение на обучающую и валидационные выборки;
3. Обучение модели `Линейной регрессии`.

Нормализацию проводим с помощью `StandardScaler`.

In [6]:
def train_valid(data, target_name='product', valid_size=0.25, is_scaled=True):
    target = data[target_name]
    features = data.drop([target_name], axis=1)
    
    features_train, features_valid, target_train, target_valid = tts(
        features, target, test_size=valid_size, random_state=271828
    )
    numeric = features.columns
    features_list = [features_train, features_valid]
    def scaler(features_list, numeric):
        scaler = StandardScaler()
        scaler.fit(features[numeric])
        features_list[0][numeric] = scaler.transform(features_list[0][numeric])
        features_list[1][numeric] = scaler.transform(features_list[1][numeric])
        return features_list
    features_list = scaler(features_list, numeric)
    return features_list[0], features_list[1], target_train, target_valid

In [7]:
def print_table(table):
    longest_cols = [
        (max([len(str(row[i])) for row in table]) + 3)
        for i in range(len(table[0]))
    ]
    row_format = "".join(["{:>" + str(longest_col) + "}" for longest_col in longest_cols])
    for row in table:
        print(row_format.format(*row))

In [8]:
# Инициализируем модель Линейной регрессии.
model = LinearRegression()

In [9]:
def get_predictions(data_t : tuple()):
    features_train, features_valid, target_train, target_valid = data_t
    model.fit(features_train, target_train)
    predicted_valid = model.predict(features_valid)
    df = pd.DataFrame(
        data = {
            'product' : target_valid,
            'predicted' : predicted_valid
               },
        columns = ['product', 'predicted']
    )
    rmse = np.round(mean_squared_error(target_valid, predicted_valid) ** .5, 4)
    mae = np.round(mean_absolute_error(target_valid, predicted_valid), 4)
    r2 = np.round(r2_score(target_valid, predicted_valid), 4)
    product_mean = np.round(df['product'].mean(), 4)
    predicted_mean = np.round(df['predicted'].mean(), 4)
    product_sum = np.round(df['product'].sum(), 2)
    predicted_sum = np.round(df['predicted'].sum(), 2)
    params_df = pd.DataFrame(
        data = {
            'product_mean' : product_mean,
            'predicted_mean' : predicted_mean,
            'product_sum' : product_sum,
            'predicted_sum' : predicted_sum
        },
        columns = ['product_mean', 'predicted_mean', 'product_sum', 'predicted_sum'],
        index = [0]
    )
    metrics = [rmse, mae, r2]
    return df, params_df, metrics

**`geo_data_0`**

In [10]:
predictions_0, params_0, metrics_0 = get_predictions(train_valid(geo_data_0))
print('RMSE модели для региона 0 =', metrics_0[0])
print('MAE модели для региона 0 =', metrics_0[1])
print('R^2 модели для региона 0 =', metrics_0[2])
predictions_0.sample(5)

RMSE модели для региона 0 = 37.6225
MAE модели для региона 0 = 31.0734
R^2 модели для региона 0 = 0.2806


Unnamed: 0,product,predicted
90064,130.45581,125.540022
53855,20.142712,70.290942
92300,59.619582,56.113433
62311,112.859826,123.567734
40134,84.461062,80.209561


**`geo_data_1`**

In [11]:
predictions_1, params_1, metrics_1 = get_predictions(train_valid(geo_data_1))
print('RMSE модели для региона 1 =', metrics_1[0])
print('MAE модели для региона 1 =', metrics_1[1])
print('R^2 модели для региона 1 =', metrics_1[2])
predictions_1.head(5)

RMSE модели для региона 1 = 0.8889
MAE модели для региона 1 = 0.7168
R^2 модели для региона 1 = 0.9996


Unnamed: 0,product,predicted
65242,30.132364,29.949185
11433,30.132364,29.840978
3552,84.038886,82.7533
37035,84.038886,83.074599
28297,30.132364,30.074786


**`geo_data_2`**

In [12]:
predictions_2, params_2, metrics_2 = get_predictions(train_valid(geo_data_2))
print('RMSE модели для региона 1 =', metrics_2[0])
print('MAE модели для региона 1 =', metrics_2[1])
print('R^2 модели для региона 1 =', metrics_2[2])
predictions_2.head(5)

RMSE модели для региона 1 = 40.1322
MAE модели для региона 1 = 32.9593
R^2 модели для региона 1 = 0.2036


Unnamed: 0,product,predicted
65242,93.287617,84.200262
11433,128.822066,86.067169
3552,8.391635,81.086119
37035,74.060369,76.811163
28297,140.158561,76.418823


Таблицы реальных/предсказанных средних и сумм запасов сырья в регионе с RMSE моделей, получивших такие результаты.

In [13]:
metrics = pd.DataFrame(data = [metrics_0, metrics_1, metrics_2], columns = ['RMSE', 'MAE', 'R^2'])
params = pd.concat([params_0, params_1, params_2], ignore_index=True)
final_table = pd.concat([params, metrics], axis=1)
final_table

Unnamed: 0,product_mean,predicted_mean,product_sum,predicted_sum,RMSE,MAE,R^2
0,92.5533,92.4899,2313832.65,2312248.46,37.6225,31.0734,0.2806
1,68.9755,68.9867,1724387.12,1724666.84,0.8889,0.7168,0.9996
2,94.8377,94.9058,2370943.26,2372644.44,40.1322,32.9593,0.2036


**Результаты:**
1. Построенные модели для каждого региона предсказывают с высокой долей точности (<< $1\%$) суммарные запасы в регионе.
2. Наилучший показатель по $RMSE, MAE$ у `региона_1`, однако согласно коэффициенту Пирсона, модель сильно переобучилась. Вдобавок помним об утерянных $8,24\%$ данных и сумма запасов в этом регионе наименьшая из всех.
3. Из вышесказанного конечный выбор региона для разработки будет производить между `регионом_0` и `регионом_2`.

<a id='section3'></a>
## 3. Метрика прибыли

Вводные данные

In [14]:
budget = 1e7    # [тыс. рублей]
chosen_points = 500
best_points = 200
price_per_barrel = 450

Рассчитаем безубыточные характеристики для разработки на лучших скважинах.

In [15]:
average_revenue_per_point = budget / best_points
print('Средняя прибыль с лучших точек = ', np.round(average_revenue_per_point), '[тыс. рублей]')
average_barrels_per_point = average_revenue_per_point / price_per_barrel
print('Средняя объём с лучших точек = ', np.round(average_barrels_per_point, 2), '[тыс. рублей]')
average_barrels = budget / price_per_barrel
print('Средняя объём в регионе = ', np.round(average_barrels, 2), '[тыс. рублей]')
print(
    'Средние запасы в регионах (по порядку):', 
    np.round(geo_data_0['product'].mean(), 4), 
    np.round(geo_data_1['product'].mean(), 4), 
    np.round(geo_data_2['product'].mean(), 4)
     )

Средняя прибыль с лучших точек =  50000.0 [тыс. рублей]
Средняя объём с лучших точек =  111.11 [тыс. рублей]
Средняя объём в регионе =  22222.22 [тыс. рублей]
Средние запасы в регионах (по порядку): 92.5 68.825 95.0


**Выводы:**
1. Рассчитаны безубыточные характеристики для разработки на лучших скважинах;
2. По оценке средних суммарных запасов в регионах наиболее предпочтительными (повторно) кажутся `регион_0`, `регион_2`.

<a id='section4'></a>
## 4. Расчёт прибыльности регионов

In [16]:
state = np.random.RandomState(271828)

In [17]:
def bootstrap(target, probabilities, steps=1000):
    values = list()
    count = 0
    
    def get_revenue(target, probabilities, count):
        probabilities_sorted = probabilities.sort_values(ascending=False)
        selected = target[probabilities_sorted.index][:count]
        return price_per_barrel * selected.sum() - budget
        
    for i in tqdm(range(steps)):
        target_sample = target.sample(n=chosen_points, replace=True, random_state=state)
        probabilities_sample = probabilities[target_sample.index]
        
        revenue = get_revenue(target, probabilities_sample, best_points)
        if revenue < 0:
            count += 1
        values.append(revenue)
    
    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    mean = values.mean()
    risk = count / 1000
    return mean, lower, upper, risk

**`geo_data_0`**

In [18]:
mean_0, lower_0, upper_0, risk_0 = bootstrap(predictions_0['product'], predictions_0['predicted'], steps=1000)
print(
    'Регион 0:\n',
    'Средняя прибыль = {:.2f} [тыс. рублей]'.format(mean_0),
    'Доверительный интервал 95% = ( {:.2f} , {:.2f} ) [тыс. рублей]'.format(lower_0, upper_0),
    'Риск разработки = {:.2%}'.format(risk_0),
    sep='\n'
)

100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 360.81it/s]

Регион 0:

Средняя прибыль = 456196.01 [тыс. рублей]
Доверительный интервал 95% = ( -46978.39 , 962055.09 ) [тыс. рублей]
Риск разработки = 3.70%





**`geo_data_1`**

In [19]:
mean_1, lower_1, upper_1, risk_1 = bootstrap(predictions_1['product'], predictions_1['predicted'], steps=1000)
print(
    'Регион 1:\n',
    'Средняя прибыль = {:.2f} [тыс. рублей]'.format(mean_1),
    'Доверительный интервал 95% = ( {:.2f} , {:.2f} ) [тыс. рублей]'.format(lower_1, upper_1),
    'Риск разработки = {:.2%}'.format(risk_1),
    sep='\n'
)

100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 351.87it/s]

Регион 1:

Средняя прибыль = 461144.99 [тыс. рублей]
Доверительный интервал 95% = ( 75982.67 , 847330.57 ) [тыс. рублей]
Риск разработки = 1.20%





**`geo_data_2`**

In [20]:
mean_2, lower_2, upper_2, risk_2 = bootstrap(predictions_2['product'], predictions_2['predicted'], steps=1000)
print(
    'Регион 2:\n',
    'Средняя прибыль = {:.2f} [тыс. рублей]'.format(mean_2),
    'Доверительный интервал 95% = ( {:.2f} , {:.2f} ) [тыс. рублей]'.format(lower_2, upper_2),
    'Риск разработки = {:.2%}'.format(risk_2),
    sep='\n'
)

100%|█████████████████████████████████████████████████████████████████████████████| 1000/1000 [00:02<00:00, 358.70it/s]

Регион 2:

Средняя прибыль = 382547.76 [тыс. рублей]
Доверительный интервал 95% = ( -143215.27 , 905934.67 ) [тыс. рублей]
Риск разработки = 7.30%





**Результаты:**
1. Для всех трёх регионов были рассчитаны экономические характеристики: прибыль, доверительный интервал, риски;
2. Наименьшие риски показывает `регион_1`. Даже при самом неудачном выборе точек нижняя граница интервала позволит остаться разработке доходной;
3. Далее по степени риска идут `регион_0`, `регион_2` соответственно.

<a id='section5'></a>
## 5. Выводы исследования

1. **Подготовка данных:**  
    1. Загруженные данные во всех регионах без пропусков;
    2. Во втором регионе замечены скважины с нулевым объёмом ($8.24\%$). Было решено их оставить из-за невозможности классифицировать проблему в достаточной мере, чтобы удалять.
2. **Обучение моделей в регионах:**  
    1. Построенные модели для каждого региона предсказывают с высокой долей точности (<< $1\%$) суммарные запасы в регионе.
    2. Наилучший показатель по $RMSE, MAE$ у `региона_1`, однако согласно коэффициенту Пирсона, модель сильно переобучилась. Вдобавок помним об утерянных $8,24\%$ данных и сумма запасов в этом регионе наименьшая из всех.
    3. Из вышесказанного конечный выбор региона для разработки будет производить между `регионом_0` и `регионом_2`.
3. **Метрика прибыли:**  
    1. Рассчитаны безубыточные характеристики для разработки на лучших скважинах;
    2. По оценке средних суммарных запасов в регионах наиболее предпочтительными (повторно) кажутся `регион_0`, `регион_2`.
4. **Расчёт прибыльности регионов:**  
    1. Для всех трёх регионов были рассчитаны экономические характеристики: прибыль, доверительный интервал, риски;
    2. Наименьшие риски показывает `регион_1`. Даже при самом неудачном выборе точек нижняя граница интервала позволит остаться разработке доходной;
    3. Далее по степени риска идут `регион_0`, `регион_2` соответственно.
5. **Общий вывод:**  
В результате проведённого исследования для разработки рекомендуется взять `регион_0`. 
    * Он имеет достаточно малую степень риска, что компенсирует меньшие суммарные запасы;
    * Построенная модель показывает результаты лучше, чем в `регионе_2` ($R^2_0 = 0.28$ против $R^2_2 = 0.2$); 
    * Отсутвуют недостатки в данных присущие `региону_1` (нули в значениях `product`, переобучение на этих данных). 