<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных" data-toc-modified-id="Обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных</a></span></li><li><span><a href="#Обучение-и-проверка-модели" data-toc-modified-id="Обучение-и-проверка-модели-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение и проверка модели</a></span></li><li><span><a href="#Подготовка-к-расчёту-прибыли" data-toc-modified-id="Подготовка-к-расчёту-прибыли-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Подготовка к расчёту прибыли</a></span></li><li><span><a href="#Расчёт-прибыли-и-рисков" data-toc-modified-id="Расчёт-прибыли-и-рисков-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Расчёт прибыли и рисков</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

**Описание проекта**  
Вы работаете в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой *Bootstrap.*

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

*Описание данных*    
Данные геологоразведки трёх регионов находятся в файлах:  
geo_data_0.csv.  
geo_data_1.csv.     
geo_data_2.csv.  
  
id — уникальный идентификатор скважины;  
f0, f1, f2 — три признака точек (неважно, что они означают, но сами признаки значимы);  
product — объём запасов в скважине (тыс. баррелей).  

*Условия задачи:*    
- Для обучения модели подходит только линейная регрессия (остальные — недостаточно предсказуемые).  
- При разведке региона исследуют 500 точек, из которых выбирают 200 лучших для расчёта прибыли.  
- Бюджет на разработку скважин в регионе — 10 млрд рублей.  
- Один баррель сырья приносит 450 рублей дохода. Доход с каждой единицы продукта составляет 450 тыс. рублей, поскольку объём указан в тысячах баррелей.  
- После оценки рисков нужно оставить лишь те регионы, в которых вероятность убытков меньше 2.5%. Среди них выбирают регион с наибольшей средней прибылью.  
- Данные синтетические: детали контрактов и характеристики месторождений не разглашаются.

## Обзор данных

In [24]:
import pandas as pd
import numpy as np
import random

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from scipy import stats as st
from sklearn.metrics import mean_squared_error

In [25]:
#geo_data_0 = pd.read_csv(r'C:\Users\Susanna\Downloads\geo_data_0.csv')
geo_data_0 = pd.read_csv(r'/datasets/geo_data_0.csv')
display(geo_data_0.head())
geo_data_0.info()

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [26]:
#geo_data_1 = pd.read_csv(r'C:\Users\Susanna\Downloads\geo_data_1.csv')
geo_data_1 = pd.read_csv(r'/datasets/geo_data_1.csv')
display(geo_data_1.head())
geo_data_1.info()

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [27]:
#geo_data_2 = pd.read_csv(r'C:\Users\Susanna\Downloads\geo_data_2.csv')
geo_data_2 = pd.read_csv(r'/datasets/geo_data_2.csv')
display(geo_data_2.head())
geo_data_2.info()

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
id         100000 non-null object
f0         100000 non-null float64
f1         100000 non-null float64
f2         100000 non-null float64
product    100000 non-null float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


**Вывод**    
В трёх исходных файлах содержатся данные геологоразведки трёх регионов. В каждом 10 000 строк и 5 столбцов. Пропусков нет. Для построения моделей линейной регресси не нужны данные об уникальных идентификаторах скважин (id), удалю их. 

## Обучение и проверка модели

In [28]:
geo_data_0=geo_data_0.drop('id', axis=1)
geo_data_1=geo_data_1.drop('id', axis=1)
geo_data_2=geo_data_2.drop('id', axis=1)

In [29]:
target_predic=pd.DataFrame()
def LinearReg(df, i):
        
    features=df.drop(['product'], axis=1)
    target=df['product']

    features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
    
    model = LinearRegression()
    model.fit(features_train, target_train)
    predictions_valid=model.predict(features_valid)
         
    mse = mean_squared_error(target_valid, predictions_valid)
    rmse = mse ** 0.5
    
    print('Среднее предсказание:', predictions_valid.mean())
    print('RMSE:', rmse)
    
    target_predic[i]=target_valid
    target_predic[i+1]=predictions_valid

In [30]:
LinearReg(geo_data_0, 0)

Среднее предсказание: 92.59256778438038
RMSE: 37.5794217150813


In [31]:
LinearReg(geo_data_1, 2)

Среднее предсказание: 68.728546895446
RMSE: 0.893099286775616


In [32]:
LinearReg(geo_data_2, 4)

Среднее предсказание: 94.96504596800489
RMSE: 40.02970873393434


In [33]:
target_predic.columns=['geo_data_0_target', 'geo_data_0_predic', 'geo_data_1_target', 'geo_data_1_predic',
                       'geo_data_2_target', 'geo_data_2_predic']
target_predic.head()

Unnamed: 0,geo_data_0_target,geo_data_0_predic,geo_data_1_target,geo_data_1_predic,geo_data_2_target,geo_data_2_predic
71751,10.038645,95.894952,80.859783,82.663314,61.212375,93.599633
80493,114.551489,77.572583,53.906522,54.431786,41.850118,75.105159
2655,132.603635,77.89264,30.132364,29.74876,57.776581,90.066809
53233,169.072125,90.175134,53.906522,53.552133,100.053761,105.162375
91141,122.32518,70.510088,0.0,1.243856,109.897122,115.30331


**Вывод**    
Обучила и проверила модели для каждого региона:  
В первом и третьем регионах средние запасы сильно больше, чем во втором. Но и значение RMSE у первого и третьего региона значительно больше. На данном этапе сложно говорить о том, в каком регионе выгоднее начинать бурение скважин.   
Сохранила предсказания и правильные ответы на валидационной выборке в target_predic. 

## Подготовка к расчёту прибыли

In [34]:
#Общий бюджет и доход с единицы продукта
budget=10*10**9
income=450*10**3

In [35]:
#Бюджет на 1 скжважину
budget_1=budget/200
budget_1

50000000.0

In [36]:
#Необходимое кол-во единиц продукта в одной скважине
req=budget_1/income
req

111.11111111111111

In [37]:
#Кол-во выборок для бутсрэпа
n=1000

#Точки для исследования
points=500

**Вывод**    
Для безубыточной разработки одной скважины в регионе средний запас топлива в каждой из 200 скважин должен быть не меньше 111.11 тыс. баррелей.  
Во всех рех регионах средний объем запасов сырья меньше необходимого для безубыточности.  

## Расчёт прибыли и рисков 

In [38]:
def revenue(target, predictions):
    pred_sorted = predictions.sort_values(ascending=False)
    selected = target[pred_sorted.index].head(200)
    return income*selected.sum()-budget

In [39]:
def risk_revenue(target, predictions):
    state = np.random.RandomState(12345)
    values = []
    for i in range(n):
        pred_subsample=predictions.sample(n=points, replace=True, random_state=state)
        target_subsample=target[pred_subsample.index]
        values.append(revenue(target_subsample, pred_subsample))

    values = pd.Series(values)
    mean = values.mean()
    #confidence_interval = st.t.interval(0.95, len(values)-1,values.mean(), values.sem()) 
    confidence_interval = (values.quantile(0.025), values.quantile(0.975))
    risk=(values<0).mean()
    print("Средняя прибыль:", mean)
    print("95%-ый доверительный интервал:", confidence_interval)
    print('Риск убытков {:.2%}'.format(risk))
    

In [40]:
print('Первый регион:')
risk_revenue(target_predic['geo_data_0_target'], target_predic['geo_data_0_predic'])

Первый регион:
Средняя прибыль: 425938526.9105923
95%-ый доверительный интервал: (-102090094.83793654, 947976353.358369)
Риск убытков 6.00%


In [41]:
print('Второй регион:')
risk_revenue(target_predic['geo_data_1_target'], target_predic['geo_data_1_predic'])

Второй регион:
Средняя прибыль: 515222773.44328994
95%-ый доверительный интервал: (68873225.37050177, 931547591.2570496)
Риск убытков 1.00%


In [42]:
print('Третий регион:')
risk_revenue(target_predic['geo_data_2_target'], target_predic['geo_data_2_predic'])

Третий регион:
Средняя прибыль: 435008362.78275555
95%-ый доверительный интервал: (-128880547.32978901, 969706954.1802679)
Риск убытков 6.40%


## Вывод   
После применения теники Bootstrap и выбора оптимальных скважин, каждый из трех регионов оказался потенциально доходным.  
Риск убытков во всех трех регионах составляет меньше 7%.   
Оптимальным регионом для разработки меторождения считаю 2-й, так как там самая высокая средняя прибыль и самый низкий риск убытков.  