# План работы

1. Загрузка и подготовка данных
2. Обучениеи проверка модели
3. Подготовка к расчёту прибыли
4. Расчёт прибыли и рисков
5. Выводы

## Загрузка и подготовка данных

<div style="border:solid blue 2px; padding: 20px">

Импортируем библиотеки
</div>

In [1]:
pip install -U pandas-profiling[notebook]



In [2]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.utils import shuffle
import warnings
warnings.filterwarnings('ignore')

<div style="border:solid blue 2px; padding: 20px">

Откроем и изучим файл
</div>

In [3]:
# чтение файла с данными и сохранение в data_users
# метод try-except поможет загрузить данные локально или глобально
try:
    geo_data_0 = pd.read_csv('C:/Users/geo_data_0.csv')  # Локальный путь
    geo_data_1 = pd.read_csv('C:/Users/geo_data_1.csv')
    geo_data_2 = pd.read_csv('C:/Users/geo_data_2.csv')
except:
    geo_data_0 = pd.read_csv('/datasets/geo_data_0.csv')  # Серверный путь
    geo_data_1 = pd.read_csv('/datasets/geo_data_1.csv')
    geo_data_2 = pd.read_csv('/datasets/geo_data_2.csv')

<div style="border:solid blue 2px; padding: 20px">
    
`head()` выводим на экран первые пять строк таблицы:
    </div>

In [4]:
# получение первых 5 строк таблицы geo_data_0
geo_data_0.head()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


In [5]:
# получение первых 5 строк таблицы geo_data_1
geo_data_1.head()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


In [6]:
# получение первых 5 строк таблицы geo_data_2
geo_data_2.head()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<div style="border:solid blue 2px; padding: 20px">
    
`info()` получим общую информацию о таблице:
    </div>

In [7]:
# получение общей информации о данных в таблице geo_data_0
geo_data_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
# получение общей информации о данных в таблице geo_data_1
geo_data_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [9]:
# получение общей информации о данных в таблице geo_data_2
geo_data_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


<div style="border:solid blue 2px; padding: 20px">
    
 
Методом `describe()` получим описание данных
    
    
</div> 

In [10]:
# описание данных geo_data_0
geo_data_0.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.500419,0.250143,2.502647,92.5
std,0.871832,0.504433,3.248248,44.288691
min,-1.408605,-0.848218,-12.088328,0.0
25%,-0.07258,-0.200881,0.287748,56.497507
50%,0.50236,0.250252,2.515969,91.849972
75%,1.073581,0.700646,4.715088,128.564089
max,2.362331,1.343769,16.00379,185.364347


In [11]:
# описание данных geo_data_1
geo_data_1.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,1.141296,-4.796579,2.494541,68.825
std,8.965932,5.119872,1.703572,45.944423
min,-31.609576,-26.358598,-0.018144,0.0
25%,-6.298551,-8.267985,1.000021,26.953261
50%,1.153055,-4.813172,2.011479,57.085625
75%,8.621015,-1.332816,3.999904,107.813044
max,29.421755,18.734063,5.019721,137.945408


In [12]:
# описание данных geo_data_2
geo_data_2.describe()

Unnamed: 0,f0,f1,f2,product
count,100000.0,100000.0,100000.0,100000.0
mean,0.002023,-0.002081,2.495128,95.0
std,1.732045,1.730417,3.473445,44.749921
min,-8.760004,-7.08402,-11.970335,0.0
25%,-1.162288,-1.17482,0.130359,59.450441
50%,0.009424,-0.009482,2.484236,94.925613
75%,1.158535,1.163678,4.858794,130.595027
max,7.238262,7.844801,16.739402,190.029838


<div style="border:solid blue 2px; padding: 20px">
    
 
`ProfileReport()` применим для исследовательского анализа данных
    
    
</div> 

In [None]:
# презентация результатов анализа geo_data_0
profile_0 = ProfileReport(geo_data_0, title='geo_data_0 Pandas Profiling Report', explorative = True)
profile_0

In [None]:
# презентация результатов анализа geo_data_1
profile_1 = ProfileReport(geo_data_1, title='geo_data_1 Pandas Profiling Report', explorative = True)
profile_1

<div style="border:solid blue 2px; padding: 20px">
    
 
Сильная корреляция целевого признака `product` и `f2` признака точки скважины для `geo_data_1`
    
</div> 

In [None]:
# презентация результатов анализа geo_data_2
profile_2 = ProfileReport(geo_data_2, title='geo_data_2 Pandas Profiling Report', explorative = True)
profile_2

In [16]:
# удаление столбцов из таблиц
geo_data_0 = geo_data_0.drop(['id'], axis=1)
geo_data_1 = geo_data_1.drop(['id'], axis=1)
geo_data_2 = geo_data_2.drop(['id'], axis=1)

<div style="border:solid blue 2px; padding: 20px">
    
 
Сохраним в переменную `random_state` значение параметра, чтобы результаты получились одинаковыми
    
    
</div> 

In [17]:
# сохранение параметра
random_state = 1234

<div style="border:solid blue 2px; padding: 20px">

### Вывод


    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
**Оценка полученных данных**

Наблюдения, представленные в таблице описываются категориальными и количественными значениями.
    
Данные можно исследовать для дальнейшего анализа.
    
Данные содержат категориальные признаки `id`, которые по условию задачи 
    
не используются для обучения модели и соответственно удалены.
    
    
Мультиколлинеарность факторов `f2` и `product` в `geo_data_1`. Принимаем решение оставить признак
    
    
    
**Таблицы `geo_data` (данные геологоразведки регионов )**:
    
`id` — уникальный идентификатор скважины
    
`f0` — `качество` признак точки скважины(неважно, что они означают, но сами признаки значимы)
    
`f1` — `качество` признак точки скважины(неважно, что они означают, но сами признаки значимы)
    
`f2` — `качество` признак точки скважины(неважно, что они означают, но сами признаки значимы)
    
`product` — объём запасов в скважине (тыс. баррелей).
    

    

**Количественный целевой признак** - `product` - задача регрессии



Данные таблицы `geo_data_0` содержат по объёму `0` запасов `product` в `1 скважине` это `< 0.1% `
                                                                                               
Данные таблицы `geo_data_1` содержат по объёму `0` запасов `product` в `8235 скважинах` это `8.2%`
                                                                                               
Данные таблицы `geo_data_2` содержат по объёму `0` запасов `product` в `1 скважине` это `< 0.1%`
    
</div>

## Обучение и проверка модели

<div style="border:solid blue 2px; padding: 20px">
    
 
`geo_data` разделим на обучающую `train` выборку `3-и части` и 
    
валидационную `valid` оставшуюся `1-у часть` выборки
    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
 
Создадим функцию с именем `test_split()` c параметрами `geo_data` `target`, в теле функции 

разделим `geo_data` на обучающую и валидационную выборки в соотношении 75:25
    
признаки обучающей и валидационной выборки сохраним в отдельных переменных
    
`StandardScaler()` стандартизируем данные
    
`transform()` преобразуем обучающую и валидационную выборки
    
</div> 

In [18]:
def test_split(geo_data, target):
    geo_data_train, geo_data_valid = train_test_split(geo_data, test_size=0.25, random_state=random_state)
    print('Объектов обучающей выборки', geo_data_train.shape[0])
    print('Объектов валидационной выборки', geo_data_valid.shape[0])
    features_train = geo_data_train.drop(columns=[target])
    target_train = geo_data_train[target]
    features_valid = geo_data_valid.drop(columns=[target])
    target_valid = geo_data_valid[target]
    numeric = list(geo_data.drop(columns=[target]).columns)
    scaler = StandardScaler()
    scaler.fit(features_train[numeric])
    features_train[numeric] = scaler.transform(features_train[numeric])
    features_valid[numeric] = scaler.transform(features_valid[numeric])
    return features_train, features_valid, target_train, target_valid

In [19]:
# получение обучающей и валидационной выборки geo_data_0
features_train_0, features_valid_0, target_train_0, target_valid_0 = test_split(geo_data_0, 'product')
features_train_0.head()

Объектов обучающей выборки 75000
Объектов валидационной выборки 25000


Unnamed: 0,f0,f1,f2
39682,0.769305,-1.412592,-1.787834
87490,-1.464535,0.998119,0.084362
12337,-1.613974,0.998325,-0.340144
9307,-1.399742,0.822198,0.840438
79863,0.501631,-0.089375,0.231547


In [20]:
# получение обучающей и валидационной выборки geo_data_1
features_train_1, features_valid_1, target_train_1, target_valid_1 = test_split(geo_data_1, 'product')
features_train_1.head()

Объектов обучающей выборки 75000
Объектов валидационной выборки 25000


Unnamed: 0,f0,f1,f2
39682,1.133257,0.344924,-0.293558
87490,0.662928,-1.218405,-0.880318
12337,1.013283,-0.572276,0.889062
9307,1.295637,-0.33666,-0.290278
79863,-0.774638,0.626531,0.291585


In [21]:
# получение обучающей и валидационной выборки geo_data_2
features_train_2, features_valid_2, target_train_2, target_valid_2 = test_split(geo_data_2, 'product')
features_train_2.head()

Объектов обучающей выборки 75000
Объектов валидационной выборки 25000


Unnamed: 0,f0,f1,f2
39682,-1.0372,0.345573,-1.75989
87490,0.106117,0.305196,1.887385
12337,0.496556,0.039489,2.124963
9307,-1.265815,-0.007693,-0.852643
79863,-0.26067,0.972462,0.085269


<div style="border:solid blue 2px; padding: 20px">
    
 
Исследуем качество на модели — линейная регрессия.

    
    
</div> 

In [22]:
model_0 = LinearRegression() # инициализируем модель
model_0.fit(features_train_0, target_train_0) # обучение модели
predictions_valid_0 = model_0.predict(features_valid_0)
print('Средний запас предсказанного сырья:', predictions_valid_0.mean())
print('RMSE модели линейной регрессии на валидационной выборке:', mean_squared_error(target_valid_0, predictions_valid_0)**0.5)

Средний запас предсказанного сырья: 92.43045952558441
RMSE модели линейной регрессии на валидационной выборке: 37.562394183637785


In [23]:
# сохранение предсказаний и правильных ответов на валидационной выборке
df_0 = {'target_geo_data_0' : target_valid_0, 'predictions_geo_data_0' : pd.Series(predictions_valid_0, index=target_valid_0.index)}
df_valid_0 = pd.DataFrame(df_0, columns = ['target_geo_data_0', 'predictions_geo_data_0'])
df_valid_0.sample(5)

Unnamed: 0,target_geo_data_0,predictions_geo_data_0
83731,63.150599,88.759477
92724,85.534132,84.454483
13486,22.580105,73.167566
82787,137.84456,113.291473
25644,153.949383,111.627029


<div style="border:solid blue 2px; padding: 20px">
    
    
`92.4304` Средний запас предсказанного сырья для региона `geo_data_0`
    
`37.5623` RMSE на модели — линейной регрессии с масштабированнием признаков

    
    
</div> 

In [24]:
model_1 = LinearRegression() # инициализируем модель
model_1.fit(features_train_1, target_train_1) # обучение модели
predictions_valid_1 = model_1.predict(features_valid_1)
print('Средний запас предсказанного сырья:', predictions_valid_1.mean())
print('RMSE модели линейной регрессии на валидационной выборке:', mean_squared_error(target_valid_1, predictions_valid_1)**0.5)

Средний запас предсказанного сырья: 68.80248249798365
RMSE модели линейной регрессии на валидационной выборке: 0.8939344738117703


In [25]:
# сохранение предсказаний и правильных ответов на валидационной выборке
df_1 = {'target_geo_data_1' : target_valid_1, 'predictions_geo_data_1' : pd.Series(predictions_valid_1, index=target_valid_1.index)}
df_valid_1 = pd.DataFrame(df_1, columns = ['target_geo_data_1', 'predictions_geo_data_1'])
df_valid_1.sample(5)

Unnamed: 0,target_geo_data_1,predictions_geo_data_1
21548,57.085625,56.350678
67159,107.813044,108.630265
8184,0.0,0.684735
5011,80.859783,81.289707
5093,134.766305,135.797899


<div style="border:solid blue 2px; padding: 20px">
    
    
`68.8024` Средний запас предсказанного сырья для региона `geo_data_1`
    
`0.8939` RMSE на модели — линейной регрессии с масштабированнием признаков

    
    
</div> 

In [26]:
model_2 = LinearRegression() # инициализируем модель
model_2.fit(features_train_2, target_train_2) # обучение модели
predictions_valid_2 = model_2.predict(features_valid_2)
print('Средний запас предсказанного сырья:', predictions_valid_2.mean())
print('RMSE модели линейной регрессии на валидационной выборке:', mean_squared_error(target_valid_2, predictions_valid_2)**0.5)

Средний запас предсказанного сырья: 94.91573817913459
RMSE модели линейной регрессии на валидационной выборке: 40.10318099258418


In [27]:
# сохранение предсказаний и правильных ответов на валидационной выборке
df_2 = {'target_geo_data_2' : target_valid_2, 'predictions_geo_data_2' : pd.Series(predictions_valid_2, index=target_valid_2.index)}
df_valid_2 = pd.DataFrame(df_2, columns = ['target_geo_data_2', 'predictions_geo_data_2'])
df_valid_2.sample(5)

Unnamed: 0,target_geo_data_2,predictions_geo_data_2
39107,124.994027,63.932149
27996,78.687491,105.298649
70284,81.526269,100.88603
53443,142.95723,74.175687
65710,102.583322,117.034213


<div style="border:solid blue 2px; padding: 20px">
    
    
`94.9157` Средний запас предсказанного сырья для региона `geo_data_2`
    
`40.1031` RMSE на модели — линейной регрессии с масштабированнием признаков

    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">

### Вывод


    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
    
    
Для региона `geo_data_1` получили наименьший средний запас предсказанного сырья.
    
Регионы `geo_data_0` и `geo_data_2` показали наибольший средний запас предсказанного сырья.

    
    
</div> 

## Подготовка к расчёту прибыли

<div style="border:solid blue 2px; padding: 20px">
    
    
Все ключевые значения для расчётов сохраним в отдельных переменных

    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
    
По условию задачи
    
`product` объём запасов, тыс. баррелей
    
`points` 500
    
`best_points` 200    

`budget` 10000000 тыс. рублей
    
`price_per_product` 450 тыс. рублей

    
    
</div> 

In [28]:
# сохранение переменных
points = 500
best_points = 200
budget = 10000000
price_per_product = 450

<div style="border:solid blue 2px; padding: 20px">
    
    
Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины

    
    
</div> 

In [29]:
# расчёт объём сырья для разработки в регионе в рамках бюджета
product_per_geo_data = budget / price_per_product
print('Минимальный средний объем нефти на регион:',round(product_per_geo_data, 2), 'тыс. барелей')

Минимальный средний объем нефти на регион: 22222.22 тыс. барелей


In [30]:
# расчёт объём сырья для безубыточной разработки новой скважины
product_per_best_points = product_per_geo_data/best_points
print('Минимальный средний объем нефти на точку:',round(product_per_best_points, 2), 'тыс. барелей')

Минимальный средний объем нефти на точку: 111.11 тыс. барелей


In [31]:
# расчёт среднего объёма запаса сырья в каждом регионе на скважину
print('Средний запас сырья регионе "geo_data_0" на скважину:', round(geo_data_0['product'].mean(), 2), 'тыс. барелей')
print('Средний запас сырья регионе "geo_data_1" на скважину:', round(geo_data_1['product'].mean(), 2), 'тыс. барелей')
print('Средний запас сырья регионе "geo_data_2" на скважину:', round(geo_data_2['product'].mean(), 2), 'тыс. барелей')

Средний запас сырья регионе "geo_data_0" на скважину: 92.5 тыс. барелей
Средний запас сырья регионе "geo_data_1" на скважину: 68.83 тыс. барелей
Средний запас сырья регионе "geo_data_2" на скважину: 95.0 тыс. барелей


<div style="border:solid blue 2px; padding: 20px">

### Вывод


    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
    
По условию задачи достаточный объём сырья для безубыточной разработки новой скважины
    
составляет `111.11 тыс. барелей`
    
К данному значению самый близкий регион 
    
со средним запасом сырья регионе `geo_data_2` на скважину: `95.0 тыс. барелей`
    
Следующим является регион 
    
со средним запасом сырья регионе `geo_data_0` на скважину: `92.5 тыс. барелей`
    
И последним является регион 
    
со средним запасом сырья регионе `geo_data_1` на скважину: `68.83 тыс. барелей`
    
Исходя из описания данных и презентации результатов анализа
    
во всех регионах возможно выбрать скважины с самыми высокими значениями, 

подходящими для безубыточной разработки.    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
 
Создадим функцию `profit_calculation()` c параметрами `target` `probabilities` `count`, в теле функции 

выберим скважины с максимальными значениями предсказаний
    
просуммируем целевое значение объёма сырья, соответствующее этим предсказаниям
    
рассчитаем прибыль для полученного объёма сырья
    
</div> 

In [32]:
# функция рассчёта прибыли
def profit_calculation(target, probabilities, count):
    probabilities = pd.Series(probabilities, index=target.index)
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    return price_per_product * selected.sum() - budget
print('Прибыль для полученного объёма сырья региона "geo_data_0" на 200 скважин:', profit_calculation(target_valid_0, predictions_valid_0, 200))
print('Прибыль для полученного объёма сырья региона "geo_data_1" на 200 скважин:', profit_calculation(target_valid_1, predictions_valid_1, 200))
print('Прибыль для полученного объёма сырья региона "geo_data_2" на 200 скважин:', profit_calculation(target_valid_2, predictions_valid_2, 200))

Прибыль для полученного объёма сырья региона "geo_data_0" на 200 скважин: 3424026.3202475384
Прибыль для полученного объёма сырья региона "geo_data_1" на 200 скважин: 2415086.6966815125
Прибыль для полученного объёма сырья региона "geo_data_2" на 200 скважин: 2554955.424433958


## Расчёт прибыли и рисков 

<div style="border:solid blue 2px; padding: 20px">
    
`bootstrap()` применим технику с 1000 выборок, чтобы найти распределение прибыли
    </div>

<div style="border:solid blue 2px; padding: 20px">
    
    
- Найдем среднюю прибыль `mean()`
    
- `95%-й`  доверительный интервал
    
- риск убытков, когда `profit_calculation()` отрицательная
    
    </div>

<div style="border:solid blue 2px; padding: 20px">
    
`RandomState()` создадим объект из модуля `numpy.random` и 
    
при каждом новом вызове его состояние будет меняться на случайное, так получаем разные подвыборки
    </div>

In [33]:
# указываем state для воспроизводимости
state = np.random.RandomState(1234)

<div style="border:solid blue 2px; padding: 20px">
    
Условие задачи: оставить регионы соответствующие условию
    
- вероятность убытков `< 2.5% `
                           
- из них выбрать с наибольшей прибыльностью
                             
    </div>

In [34]:
def bootstrap_1000(target, probabilities):
    values=[]
    loss = 0
    for i in range(1000):
        target_subsample = target.sample(n=points, random_state=state, replace=True)
        probs_subsample = probabilities[target_subsample.index]
        profit = profit_calculation(target_subsample, probs_subsample, best_points)
        values.append(profit)
        if profit < 0:
            loss +=1
    values = pd.Series(values)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    mean = values.mean()
    risk = loss / 1000
    return mean, lower, upper, risk

In [35]:
mean_geo_data_0, lower_geo_data_0, upper_geo_data_0, risk_geo_data_0 = bootstrap_1000(df_valid_0['target_geo_data_0'], df_valid_0['predictions_geo_data_0'])
print('Данные по первому региону.')
print('Средняя прибыль по региону = {:.2f} тыс.руб.'.format(mean_geo_data_0))
print('95% доверительный интервал от {:.2f} до {:.2f} тыс.руб.'.format(lower_geo_data_0, upper_geo_data_0))
print('Процент риска {:.2%}'.format(risk_geo_data_0))

Данные по первому региону.
Средняя прибыль по региону = 408945.00 тыс.руб.
95% доверительный интервал от -116359.76 до 961049.51 тыс.руб.
Процент риска 6.20%


In [36]:
mean_geo_data_1, lower_geo_data_1, upper_geo_data_1, risk_geo_data_1 = bootstrap_1000(df_valid_1['target_geo_data_1'], df_valid_1['predictions_geo_data_1'])
print('Данные по первому региону.')
print('Средняя прибыль по региону = {:.2f} тыс.руб.'.format(mean_geo_data_1))
print('95% доверительный интервал от {:.2f} до {:.2f} тыс.руб.'.format(lower_geo_data_1, upper_geo_data_1))
print('Процент риска {:.2%}'.format(risk_geo_data_1))

Данные по первому региону.
Средняя прибыль по региону = 487659.29 тыс.руб.
95% доверительный интервал от 82432.79 до 900138.23 тыс.руб.
Процент риска 1.00%


In [37]:
mean_geo_data_2, lower_geo_data_2, upper_geo_data_2, risk_geo_data_2 = bootstrap_1000(df_valid_2['target_geo_data_2'], df_valid_2['predictions_geo_data_2'])
print('Данные по первому региону.')
print('Средняя прибыль по региону = {:.2f} тыс.руб.'.format(mean_geo_data_2))
print('95% доверительный интервал от {:.2f} до {:.2f} тыс.руб.'.format(lower_geo_data_2, upper_geo_data_2))
print('Процент риска {:.2%}'.format(risk_geo_data_2))

Данные по первому региону.
Средняя прибыль по региону = 373761.09 тыс.руб.
95% доверительный интервал от -181422.18 до 890927.92 тыс.руб.
Процент риска 9.50%


<div style="border:solid blue 2px; padding: 20px">

### Вывод


    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
    
    
По условию задачи оставить регионы соответствующие условию
    
- вероятность убытков `< 2.5% `
                           
- из них выбрать с наибольшей прибыльностью
    
Данные по регионам `geo_data_0` и `geo_data_2` не соответсвуют этому условию
                             
Предположительно `geo_data_1` регион подходит для разработки месторождения                        
                             
    
</div> 

<div style="border:solid blue 2px; padding: 20px">

## Итоговый Вывод


    
    
</div> 

<div style="border:solid blue 2px; padding: 20px">
    
    
Так где же бурить новую скважину???
    
Пройдя по шагам для выбора локации, постоили модель линейной регрессии для определения региона,
    
где принесёт нибольшую прибыль.
    
Техникой `Bootstrap` проанализировали возможную прибыль и риски
    
Принимая во внимание условие поставленной задачи, 
    
что бюджет на разработку скважин в регионе составляет — 10 млрд рублей
    
с вероятность убытков меньше `2.5%`
    
можно рекомедовать для дальнейших геолого-поисковых работ регион `geo_data_1`:
    
- провести сейсморазведки и обработать для интерпретации сейсмические данные
    
- сформировать геолого-геофизическую модель месторождений
    
- близость открытых месторождений к действующей инфраструктуре позволит вводить новые запасы в разработку в кратчайшие сроки

    
    
    
    
    
</div> 