# Содержание #
[1. Выбор локации для скважины](#project) </br> &nbsp;&nbsp;&nbsp;
    [- Инструкция по выполнению проекта](#project_instruction) </br> &nbsp;&nbsp;&nbsp;
    [- Описание данных](#project_data) </br> &nbsp;&nbsp;&nbsp;
    [- Условия задачи](#project_conditions) </br>
[2. Импорт библиотек/глобальные переменные](#import_libs) </br>
[3. Загрузка и подготовка данных](#data) </br> &nbsp;&nbsp;&nbsp;
    [- Загрузка данных](#data_load) </br> &nbsp;&nbsp;&nbsp;
    [- Подготовка данных](#data_prepare) </br>
[4. Обучение и проверка моделей](#model) </br> &nbsp;&nbsp;&nbsp;
    [- Создание обучающих/валидационных наборов](#model_data_split) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Функция создания обучающих/валидационных наборов](#function_data_split) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Создание обучающих/валидационных наборов для первого региона](#model_data_split_0) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Создание обучающих/валидационных наборов для второго региона](#model_data_split_1) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Создание обучающих/валидационных наборов для третьего региона](#model_data_split_2) </br> &nbsp;&nbsp;&nbsp;
    [- Обучение моделей](#model_predict) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Функция обучения/предсказания моделей](#function_model_predict) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Предсказание для первого региона](#model_predict_0) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Предсказание для второго региона](#model_predict_1) </br> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
        [* Предсказание для третьего региона](#model_predict_2) </br> &nbsp;&nbsp;&nbsp;
    [ - Результаты предсказаний для всех регионов](#model_predict_result) </br>
[5. Подготовка к расчёту прибыли](#revenue_calc_prepare) </br>
[6. Расчёт прибыли и рисков](#revenue_calc) </br> &nbsp;&nbsp;&nbsp;
    [- Функция расчета прибыли](#function_revenue_calc) </br> &nbsp;&nbsp;&nbsp;
    [- Функция bootstrap](#function_bootstrap) </br> &nbsp;&nbsp;&nbsp;
    [- Распределение значений запасов сырья и прибыли для регионов](#revenue_distribution) </br> &nbsp;&nbsp;&nbsp;
    [- Функция расчета доверительного интервала](#function_confidence_interval) </br> &nbsp;&nbsp;&nbsp;
    [- Расчет доверительного интервала](#revenue_confidence_interval) </br> &nbsp;&nbsp;&nbsp;
    [- Функция расчета риска разработки региона](#function_risks) </br> &nbsp;&nbsp;&nbsp;
    [- Расчет риска разработки региона](#revenue_risks) </br> &nbsp;&nbsp;&nbsp;
    [- Формирование итоговой таблицы](#revenue_results) </br>
[7. Вывод](#results)

<a id='project'></a>
# Выбор локации для скважины

<a id='import_libs'></a>
# Импорт библиотек/глобальные переменные #

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from numpy import sqrt

pd.options.mode.chained_assignment = None

state = np.random.RandomState(2020)

<a id='data'></a>
# Загрузка и подготовка данных #

<a id='data_load'></a>
## Загрузка данных ##

In [2]:
data_0 = pd.read_csv('datasets/geo_data_0.csv')
data_1 = pd.read_csv('datasets/geo_data_1.csv')
data_2 = pd.read_csv('datasets/geo_data_2.csv')

In [3]:
print(f'''##### Data_0: #####
            {data_0}''')
print()
print(f'''##### Data_1: #####
            {data_1}''')
print()
print(f'''##### Data_2: #####
            {data_2}''')
print()

##### Data_0: #####
                      id        f0        f1        f2     product
0      txEyH  0.705745 -0.497823  1.221170  105.280062
1      2acmU  1.334711 -0.340164  4.365080   73.037750
2      409Wp  1.022732  0.151990  1.419926   85.265647
3      iJLyR -0.032172  0.139033  2.978566  168.620776
4      Xdl7t  1.988431  0.155413  4.751769  154.036647
...      ...       ...       ...       ...         ...
99995  DLsed  0.971957  0.370953  6.075346  110.744026
99996  QKivN  1.392429 -0.382606  1.273912  122.346843
99997  3rnvd  1.029585  0.018787 -1.348308   64.375443
99998  7kl59  0.998163 -0.528582  1.583869   74.040764
99999  1CWhH  1.764754 -0.266417  5.722849  149.633246

[100000 rows x 5 columns]

##### Data_1: #####
                      id         f0         f1        f2     product
0      kBEdx -15.001348  -8.276000 -0.005876    3.179103
1      62mP7  14.272088  -3.475083  0.999183   26.953261
2      vyE1P   6.263187  -5.948386  5.001160  134.766305
3      KcrkZ -13.081

In [4]:
print(f'''##### Data_0 info: #####
            {data_0.info()}''')
print()
print(f'''##### Data_1 info: #####
            {data_1.info()}''')
print()
print(f'''##### Data_2 info: #####
            {data_2.info()}''')
print()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
##### Data_0 info: #####
            None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB
##### Data_1 info: #####
            None

<class 'pandas.core.frame.DataFrame'>
RangeInd

In [5]:
print(f'''##### Data_0 describe: #####
            {data_0.describe()}''')
print()
print(f'''##### Data_1 describe: #####
            {data_1.describe()}''')
print()
print(f'''##### Data_2 describe: #####
            {data_2.describe()}''')
print()

##### Data_0 describe: #####
                              f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        0.500419       0.250143       2.502647      92.500000
std         0.871832       0.504433       3.248248      44.288691
min        -1.408605      -0.848218     -12.088328       0.000000
25%        -0.072580      -0.200881       0.287748      56.497507
50%         0.502360       0.250252       2.515969      91.849972
75%         1.073581       0.700646       4.715088     128.564089
max         2.362331       1.343769      16.003790     185.364347

##### Data_1 describe: #####
                              f0             f1             f2        product
count  100000.000000  100000.000000  100000.000000  100000.000000
mean        1.141296      -4.796579       2.494541      68.825000
std         8.965932       5.119872       1.703572      45.944423
min       -31.609576     -26.358598      -0.018144       0.

### Проверка дубликатов ###

In [6]:
data_0.duplicated().sum()

0

In [7]:
data_1.duplicated().sum()

0

In [8]:
data_2.duplicated().sum()

0

## Вывод ##
1. пропущенные значения отсутствуют
2. столбцы названы корректно, переименование не требуется
3. столбец data_*.id - для обучения не нужен
4. features:
    * data_*.f0
    * data_*.f1
    * data_*.f2
5. target:
    * data_*.product
6. дубликаты в данных отсутствуют

<a id='data_prepare'></a>
## Подготовка данных ##

In [9]:
features_0 = data_0[['f0','f1','f2']]
target_0 = data_0[['product']]

print(f'''##### Feature_0 info: #####
            {features_0.info()}''')
print()
print(f'''##### Target_0 info: #####
            {target_0.info()}''')
print()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 3 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   f0      100000 non-null  float64
 1   f1      100000 non-null  float64
 2   f2      100000 non-null  float64
dtypes: float64(3)
memory usage: 2.3 MB
##### Feature_0 info: #####
            None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 1 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   product  100000 non-null  float64
dtypes: float64(1)
memory usage: 781.4 KB
##### Target_0 info: #####
            None



In [10]:
features_1 = data_1[['f0','f1','f2']]
target_1 = data_1[['product']]
print(f'''##### Feature_1 info: #####
            {features_1.info()}''')
print()
print(f'''##### Target_1 info: #####
            {target_1.info()}''')
print()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 3 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   f0      100000 non-null  float64
 1   f1      100000 non-null  float64
 2   f2      100000 non-null  float64
dtypes: float64(3)
memory usage: 2.3 MB
##### Feature_1 info: #####
            None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 1 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   product  100000 non-null  float64
dtypes: float64(1)
memory usage: 781.4 KB
##### Target_1 info: #####
            None



In [11]:
features_2 = data_2[['f0','f1','f2']]
target_2 = data_2[['product']]
print(f'''##### Feature_2 info: #####
            {features_2.info()}''')
print()
print(f'''##### Target_2 info: #####
            {target_2.info()}''')
print()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 3 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   f0      100000 non-null  float64
 1   f1      100000 non-null  float64
 2   f2      100000 non-null  float64
dtypes: float64(3)
memory usage: 2.3 MB
##### Feature_2 info: #####
            None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 1 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   product  100000 non-null  float64
dtypes: float64(1)
memory usage: 781.4 KB
##### Target_2 info: #####
            None



## Вывод ##
1. Сформированы наборы features:
    * features_0
    * features_1
    * features_2
2. Сформированы наборы target:
    * target_0
    * target_1
    * target_2

<div class="alert alert-block alert-success">
<b>Успех:</b> Данные загружены и осмотрены замечательным образом, выводы логичны
</div>


<a id='model'></a>
# Обучение и проверка моделей #

<a id='model_data_split'></a>
## Создание обучающих/валидационных наборов ##

<a id='function_data_split'></a>
### Функция создания обучающих/валидационных наборов ###

In [12]:
def sets_create(features, target):
    features_train, features_valid, target_train, target_valid = train_test_split(features,
                                                                                  target,
                                                                                  train_size=0.75,
                                                                                  random_state=state,
                                                                                  shuffle=False)
    return features_train, features_valid, target_train, target_valid

<a id='model_data_split_0'></a>
### Создание обучающих/валидационных наборов для первого региона ###

In [13]:
features_0_train, features_0_valid, target_0_train, target_0_valid = sets_create(features=features_0,
                                                                                 target=target_0)
print(f'''##### Feature_0_train shape: #####
            {features_0_train.shape}''')
print()
print(f'''##### Feature_0_valid shape: #####
            {features_0_valid.shape}''')
print()
print(f'''##### Target_0_train shape: #####
            {target_0_train.shape}''')
print()
print(f'''##### Target_0_valid shape: #####
            {target_0_valid.shape}''')

##### Feature_0_train shape: #####
            (75000, 3)

##### Feature_0_valid shape: #####
            (25000, 3)

##### Target_0_train shape: #####
            (75000, 1)

##### Target_0_valid shape: #####
            (25000, 1)


<a id='model_data_split_1'></a>
### Создание обучающих/валидационных наборов для второго региона ###

In [14]:
features_1_train, features_1_valid, target_1_train, target_1_valid = sets_create(features=features_1,
                                                                                 target=target_1)
print(f'''##### Feature_1_train shape: #####
            {features_1_train.shape}''')
print()
print(f'''##### Feature_1_valid shape: #####
            {features_1_valid.shape}''')
print()
print(f'''##### Target_1_train shape: #####
            {target_1_train.shape}''')
print()
print(f'''##### Target_1_valid shape: #####
            {target_1_valid.shape}''')

##### Feature_1_train shape: #####
            (75000, 3)

##### Feature_1_valid shape: #####
            (25000, 3)

##### Target_1_train shape: #####
            (75000, 1)

##### Target_1_valid shape: #####
            (25000, 1)


<a id='model_data_split_2'></a>
### Создание обучающих/валидационных наборов для третьего региона ###

In [15]:
features_2_train, features_2_valid, target_2_train, target_2_valid = sets_create(features=features_2,
                                                                                 target=target_2)
print(f'''##### Feature_2_train shape: #####
            {features_2_train.shape}''')
print()
print(f'''##### Feature_2_valid shape: #####
            {features_2_valid.shape}''')
print()
print(f'''##### Target_2_train shape: #####
            {target_2_train.shape}''')
print()
print(f'''##### Target_2_valid shape: #####
            {target_2_valid.shape}''')

##### Feature_2_train shape: #####
            (75000, 3)

##### Feature_2_valid shape: #####
            (25000, 3)

##### Target_2_train shape: #####
            (75000, 1)

##### Target_2_valid shape: #####
            (25000, 1)


## Вывод: ##
1. Созданы обучающие наборы:
    * features_0_train
    * target_0_train
    * features_1_train
    * target_1_train
    * features_2_train
    * target_2_train
2. Созданы валидационные наборы:
    * features_0_valid
    * target_0_valid
    * features_1_valid
    * target_1_valid
    * features_2_valid
    * target_2_valid

<a id='model_predict'></a>
## Обучение моделей ##

<a id='function_model_predict'></a>
### Функция обучения/предсказания моделей ###

In [16]:
def model_predict(features_train, target_train, features_valid, target_valid):
    scaler = StandardScaler()

    scaler.fit(features_train)

    features_train = scaler.transform(features_train)
    features_valid = scaler.transform(features_valid)

    model = LinearRegression()
    model.fit(features_train, target_train)

    predicted_valid = model.predict(features_valid)
    return model.score(features_valid, target_valid), predicted_valid

<a id='model_predict_0'></a>
### Предсказание для первого региона ###

In [17]:
model_0_score, predicted_valid_0 = model_predict(features_train=features_0_train,
                                                 target_train=target_0_train,
                                                 features_valid=features_0_valid,
                                                 target_valid=target_0_valid)

<a id='model_predict_1'></a>
### Предсказание для второго региона ###

In [18]:
model_1_score, predicted_valid_1 = model_predict(features_train=features_1_train,
                                                 target_train=target_1_train,
                                                 features_valid=features_1_valid,
                                                 target_valid=target_1_valid)

<a id='model_predict_2'></a>
### Предсказание для третьего региона ###

In [19]:
model_2_score, predicted_valid_2 = model_predict(features_train=features_2_train,
                                                 target_train=target_2_train,
                                                 features_valid=features_2_valid,
                                                 target_valid=target_2_valid)

<a id='model_predict_result'></a>
## Результаты предсказаний для всех регионов ##

In [20]:
target_0_predict = pd.concat([target_0_valid.reset_index(drop=True), pd.DataFrame(predicted_valid_0)], axis=1)
target_1_predict = pd.concat([target_1_valid.reset_index(drop=True), pd.DataFrame(predicted_valid_1)], axis=1)
target_2_predict = pd.concat([target_2_valid.reset_index(drop=True), pd.DataFrame(predicted_valid_2)], axis=1)

target_0_predict = target_0_predict.rename(columns={0:'predicted_product'})
target_1_predict = target_1_predict.rename(columns={0:'predicted_product'})
target_2_predict = target_1_predict.rename(columns={0:'predicted_product'})

In [21]:
model_results = pd.DataFrame({'real_materials_volume'        :[target_0_valid['product'].sum(),
                                                               target_1_valid['product'].sum(),
                                                               target_2_valid['product'].sum()],
                              'predict_material_volume'      : [predicted_valid_0.sum(),
                                                                predicted_valid_1.sum(),
                                                                predicted_valid_2.sum()],
                              'mean_predict_materila_volume' : [predicted_valid_0.mean(),
                                                                predicted_valid_1.mean(),
                                                                predicted_valid_2.mean()],
                              'RMSE'                         : [sqrt(mean_squared_error(target_0_valid, predicted_valid_0)),
                                                                sqrt(mean_squared_error(target_1_valid, predicted_valid_1)),
                                                                sqrt(mean_squared_error(target_2_valid, predicted_valid_2))],
                              'R2-score'                     : [model_0_score,
                                                                model_1_score,
                                                                model_2_score]
}
)

model_results

Unnamed: 0,real_materials_volume,predict_material_volume,mean_predict_materila_volume,RMSE,R2-score
0,2310666.0,2314842.0,92.593681,37.650563,0.273593
1,1723502.0,1723938.0,68.957534,0.894446,0.999622
2,2372809.0,2381887.0,95.275462,40.003681,0.202021


## Вывод ##
1. Правильные ответы и предсказания моделей сохранены в:
    - model_results
2. Анализ характеристик каждого региона показал:
    - наиболее перспектиные регионы по среднему предсказанному запасу сырья являются 1-й и 3-й регион
    - минимальное значение RMSE получено для 2-го региона
    - максимальное качество(коэффициент детерминации) имеет модель полученная для 2-го региона

<a id='revenue_calc_prepare'></a>
# Подготовка к расчёту прибыли #

In [22]:
MATERIAL_UNIT_PRICE = 10**3*450                      # доход с единицы сырья(1000 баррелей)
INVESTMENT_SUM = 10**10                             # бюджет на разработку скважин
HOLE_PRICE = INVESTMENT_SUM/200                      # стоимость стротельства одной скважины
HOLE_TRESHOLD = HOLE_PRICE/MATERIAL_UNIT_PRICE       # необходимый запас сырья для безубыточности скважины
REGION_TRESHOLD = INVESTMENT_SUM/MATERIAL_UNIT_PRICE # необходимый запас сырья для безубыточности региона
print(f'''
Порог безубыточности скважины: {HOLE_TRESHOLD} ед. сырья
Порог безубыточности региона:  {REGION_TRESHOLD} ед. сырья''')


Порог безубыточности скважины: 111.11111111111111 ед. сырья
Порог безубыточности региона:  22222.222222222223 ед. сырья


# Вывод #
Для начала освоения региона необходимо, чтобы запасы сырья в отобранных 200 скважинах были более 22223 ед. сырья.
Запасы сырьяя в каждой отобранной скважине должны быть более 112 ед. сырья.

<a id='revenue_calc'></a>
# Расчёт прибыли и рисков #

<a id='function_revenue_calc'></a>
## Функция расчета прибыли ##

In [23]:
def material_sum_revenue(target, probabilities, count):
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    material_sum = selected.sum()
    material_revenue = material_sum*MATERIAL_UNIT_PRICE - INVESTMENT_SUM
    return pd.DataFrame({'material_sum':[material_sum], 'material_revenue':[material_revenue]})

<a id='function_bootstrap'></a>
## Функция bootstrap ##

In [24]:
def bootstrap(target_valid, probabilities_valid, hole_count):
    region_boot = pd.DataFrame()
    for i in range(1000):
        target_subsample = target_valid.sample(n=hole_count, replace=True, random_state=state)
        probs_subsample = probabilities_valid[target_subsample.index]
        region_boot = region_boot.append(material_sum_revenue(target_subsample, probs_subsample, 200), ignore_index=True)
    return  region_boot

<a id='revenue_distribution'></a>
## Распределение значений запасов сырья и прибыли для регионов ##

In [25]:
region_0_boot = bootstrap(target_valid=target_0_predict['product'],
                          probabilities_valid=target_0_predict['predicted_product'],
                          hole_count=500)

region_1_boot = bootstrap(target_valid=target_1_predict['product'],
                            probabilities_valid=target_1_predict['predicted_product'],
                            hole_count=500)

region_2_boot = bootstrap(target_valid=target_2_predict['product'],
                            probabilities_valid=target_2_predict['predicted_product'],
                            hole_count=500)

In [26]:
region_0_boot

Unnamed: 0,material_sum,material_revenue
0,23360.146756,5.120660e+08
1,22474.088624,1.133399e+08
2,22179.510065,-1.922047e+07
3,21758.135034,-2.088392e+08
4,23968.189502,7.856853e+08
...,...,...
995,24200.388292,8.901747e+08
996,23014.834460,3.566755e+08
997,23820.702656,7.193162e+08
998,22588.769489,1.649463e+08


<a id='function_confidence_interval'></a>
## Функция расчета доверительного интервала ##

In [27]:
def get_confidence_interval(region_boot):
    return (region_boot.material_revenue.quantile(0.025), region_boot.material_revenue.quantile(0.975))

<a id='revenue_confidence_interval'></a>
## Расчет доверительного интервала ##

In [28]:
confidence_interval_region_0 = get_confidence_interval(region_0_boot)
confidence_interval_region_1 = get_confidence_interval(region_1_boot)
confidence_interval_region_2 = get_confidence_interval(region_2_boot)

<a id='function_risks'></a>
## Функция расчета риска разработки региона ##

In [29]:
def risk_percent(region_boot):
    low_treshold_count = len(region_boot.query('material_revenue <= 0'))
    return low_treshold_count/len(region_boot) * 100


<a id='revenue_risks'></a>
## Расчет риска разработки региона ##

In [30]:
risk_region_0 = risk_percent(region_0_boot)
risk_region_1 = risk_percent(region_1_boot)
risk_region_2 = risk_percent(region_2_boot)

<a id='revenue_results'></a>
## Формирование итоговой таблицы ##

In [31]:
region_final = pd.DataFrame({'Средняя прибыль региона, руб.'      : [region_0_boot.material_revenue.mean(),
                                                                     region_1_boot.material_revenue.mean(),
                                                                     region_2_boot.material_revenue.mean()],
                             '95%-й доверительный интервал, руб.' : [confidence_interval_region_0,
                                                                     confidence_interval_region_1,
                                                                     confidence_interval_region_2],
                             'Вероятность убытков, %'             : [risk_region_0,
                                                                     risk_region_1,
                                                                     risk_region_2]}, index=['Регион 1','Регион 2','Регион 3'])
region_final

Unnamed: 0,"Средняя прибыль региона, руб.","95%-й доверительный интервал, руб.","Вероятность убытков, %"
Регион 1,435895300.0,"(-105951189.97876148, 936297443.5804422)",5.0
Регион 2,541762500.0,"(120267392.5062757, 998014332.9608271)",0.4
Регион 3,533798300.0,"(100808174.70538989, 968727541.5222876)",1.1


<a id='results'></a>
# Вывод #
1. Для разработки рекомендуется "Регион 2", по следующим причинам:
    * минимальная вероятность убытков ~ 0.4%
    * максимальная средняя прибыль из предложенных для анализа регионов