# Выбор наиболее выгодного региона нефтедобычи

Предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Нужно построить модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. 

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Загрузка-и-подготовка-данных" data-toc-modified-id="Загрузка-и-подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Загрузка и подготовка данных</a></span></li><li><span><a href="#Обучение-и-проверка-модели" data-toc-modified-id="Обучение-и-проверка-модели-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение и проверка модели</a></span></li><li><span><a href="#Подготовка-к-расчёту-прибыли" data-toc-modified-id="Подготовка-к-расчёту-прибыли-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Подготовка к расчёту прибыли</a></span></li><li><span><a href="#Расчёт-прибыли-и-рисков" data-toc-modified-id="Расчёт-прибыли-и-рисков-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Расчёт прибыли и рисков</a></span></li></ul></div>

## Загрузка и подготовка данных

Импортируем нужные нам библиотеки.

In [1]:
import pandas as pd 
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Считаем данные из csv-файлов в датафреймы и сохраним в переменные `df1`, `df2`, `df3`.

In [2]:
df1 = pd.read_csv('/datasets/geo_data_0.csv')
df2 = pd.read_csv('/datasets/geo_data_1.csv')
df3 = pd.read_csv('/datasets/geo_data_2.csv')

Выведим первые 10 строчек датафреймов на экран.

In [3]:
df1.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.22117,105.280062
1,2acmU,1.334711,-0.340164,4.36508,73.03775
2,409Wp,1.022732,0.15199,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
5,wX4Hy,0.96957,0.489775,-0.735383,64.741541
6,tL6pL,0.645075,0.530656,1.780266,49.055285
7,BYPU6,-0.400648,0.808337,-5.62467,72.943292
8,j9Oui,0.643105,-0.551583,2.372141,113.35616
9,OLuZU,2.173381,0.563698,9.441852,127.910945


In [4]:
df2.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.00116,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
5,HHckp,-3.32759,-2.205276,3.003647,84.038886
6,h5Ujo,-11.142655,-10.133399,4.002382,110.992147
7,muH9x,4.234715,-0.001354,2.004588,53.906522
8,YiRkx,13.355129,-0.332068,4.998647,134.766305
9,jG6Gi,1.069227,-11.025667,4.997844,137.945408


In [5]:
df3.head(10)

Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.87191
3,q6cA6,2.23606,-0.55376,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
5,LzZXx,-0.758092,0.710691,2.585887,90.222465
6,WBHRv,-0.574891,0.317727,1.773745,45.641478
7,XO8fn,-1.906649,-2.45835,-0.177097,72.48064
8,ybmQ5,1.776292,-0.279356,3.004156,106.616832
9,OilcN,-1.214452,-0.439314,5.922514,52.954532


Выведим основную информацию о датафреймах с помощью метода `info()`.

In [6]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [7]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


In [8]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Выведим количество пропущенных значений в каждом датафрейме.

In [9]:
df1.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [10]:
df2.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

In [11]:
df3.isna().sum()

id         0
f0         0
f1         0
f2         0
product    0
dtype: int64

Удалим признак `id`, который не влияет на целевой показатель.

In [12]:
df1 = df1.drop(columns=['id'])
df2 = df2.drop(columns=['id'])
df3 = df3.drop(columns=['id'])

**Вывод:** Загрузили и проанализировали данные. Пропусков в данных нет. Удалили ненужные показатели. 

## Обучение и проверка модели

Напишем функцию, которая разбивает данные на обучающую и валидационную выборку в соотношении 75:25

In [13]:
def df_split(df):
    target = df['product']
    features = df.drop('product', axis=1)
    return train_test_split(features, target, random_state=12345, test_size=0.25)

Разобьём данные в каждом датафрейме 

In [14]:
features_train1, features_valid1, target_train1, target_valid1 = df_split(df1)

Проверим корректность разбиения 

In [15]:
features_train1.shape[0]

75000

In [16]:
features_valid1.shape[0]

25000

Проделаем тоже самое для остальных датафреймов.

In [17]:
features_train2, features_valid2, target_train2, target_valid2 = df_split(df2)

In [18]:
features_train2.shape[0]

75000

In [19]:
features_valid2.shape[0]

25000

In [20]:
features_train3, features_valid3, target_train3, target_valid3 = df_split(df3)

In [21]:
features_train3.shape[0]

75000

In [22]:
features_valid3.shape[0]

25000

Напишем функцию, которая обучает модель линейной регресии, а также выводит средений запас предсказанного сырья и RMSE модели. Сохраним предсказанные значения. 

In [23]:
def res(features_train, features_valid, target_train, target_valid):
    model = LinearRegression() 
    model.fit(features_train, target_train)
    predictions_valid = model.predict(features_valid) 
    avg_pred = predictions_valid.mean()
    result = mean_squared_error(target_valid, predictions_valid)**0.5 
    print('Средний запас предсказанного сырья', avg_pred)
    print('RMSE модели', result)
    return predictions_valid

1 регион

In [24]:
predictions_valid1 = res(features_train1, features_valid1, target_train1, target_valid1)

Средний запас предсказанного сырья 92.59256778438035
RMSE модели 37.5794217150813


2 регион

In [25]:
predictions_valid2 = res(features_train2, features_valid2, target_train2, target_valid2)

Средний запас предсказанного сырья 68.728546895446
RMSE модели 0.893099286775617


3 регион

In [26]:
predictions_valid3 = res(features_train3, features_valid3, target_train3, target_valid3)

Средний запас предсказанного сырья 94.96504596800489
RMSE модели 40.02970873393434


**Вывод:** В первом и третьем регионе средний запас предсказанного сырья выше, чем во втором регионе. Однако показатель RMSE меньше, чем в первом и третьем регионе. Значит модель точнее построена для второго региона.   

## Подготовка к расчёту прибыли

Сохраним все ключевые значения для расчётов в отдельных переменных:

`total_wells` - сколько исследовано точек при разведке региона

`best_wells` - лучшие точки 

`budget` - бюджет на разработку скважин в регионе

`barrel_income` - доход за баррель

`unit_income` - доход за единицу продукта

In [27]:
total_wells = 500
best_wells = 200
budget = 10**10
barrel_income = 450
unit_income = 450000

Рассчитаем достаточный объём сырья для безубыточной разработки новой скважины. Для этого нужно поделить бюждет на доход за единицу продукта, но бюджет у нас на 200 скважин, поэтому поделим ещё на это число. 

In [28]:
avgmin_quantity = budget / unit_income / best_wells
print('Достаточный объём сырья для безубыточной разработки новой скважины', avgmin_quantity)

Достаточный объём сырья для безубыточной разработки новой скважины 111.11111111111111


**Вывод:** Значение достаточного объёма сырья для безубыточной разработки - 111.11111111111111. Это значение превышает средние запасы предсказанного сырья для любого региона. 

## Расчёт прибыли и рисков 

Для дальнейшей работы переведём наши предсказания в тип `Series`. А у таргетов сбросим индексы.  

In [29]:
predictions_valid1 = pd.Series(predictions_valid1)
target_valid1 = target_valid1.reset_index(drop=True)

predictions_valid2 = pd.Series(predictions_valid2)
target_valid2 = target_valid2.reset_index(drop=True)

predictions_valid3 = pd.Series(predictions_valid3)
target_valid3 = target_valid3.reset_index(drop=True)

Напишем функцию для расчёта прибыли в млн.

In [30]:
def revenue(target, probabilities, count):
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count] # выбираем count скважин с максимальными значениями предсказаний и просуммируем целевое значение с этим предсказанием
    return (unit_income * selected.sum() - budget) / 10**6 # для расчёта прибыли умножаем просуммированный запас на цену за единицу продукта и вычитаем бюждет на разработку скважины

Применяя технику Bootstrap, найдём среднюю прибыль, 95%-й доверительный интервал и риск убытков.

In [31]:
state = np.random.RandomState(12345)

def revenue_bootstrap(target, probabilities):
    values = []
    for _ in range(1000):
        target_subsample = target.sample(total_wells, replace=True, random_state=state)
        probs_subsample = probabilities[target_subsample.index]  
        values.append(revenue(target_subsample, probs_subsample, best_wells))

    values = pd.Series(values)
    # 95% доверительный интервал - 0.025-квантиль и 0.975-квантиль (97.5% - 2.5% = 95%)
    lower = values.quantile(0.025)
    upper = values.quantile(0.975)
    
    mean = values.mean()
    print("Средняя прибыль, млн:", mean)
    print(f"Доверительный интервал, млн: ({lower}, {upper})")
    print(f"Риск убытков: {(sum(values < 0) / len(values)) * 100}%") # доля отрицательных значений в векторе values

1 регион

In [32]:
revenue_bootstrap(target_valid1, predictions_valid1)

Средняя прибыль, млн: 425.9385269105924
Доверительный интервал, млн: (-102.09009483793655, 947.9763533583689)
Риск убытков: 6.0%


2 регион

In [33]:
revenue_bootstrap(target_valid2, predictions_valid2)

Средняя прибыль, млн: 518.2594936973248
Доверительный интервал, млн: (128.12323143308444, 953.6129820669086)
Риск убытков: 0.3%


3 регион

In [34]:
revenue_bootstrap(target_valid3, predictions_valid3)

Средняя прибыль, млн: 420.19400534405014
Доверительный интервал, млн: (-115.85260916001143, 989.629939844574)
Риск убытков: 6.2%


**Вывод:** Наиболее подходящим регионом для разработчки скважин является второй регион, риск убытков там самый минимальный - 0.3%. У остальных регионов риск убытков больше 2.5%, что противоречит условию задачи. 