# Задача

Вам предоставлены пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов. Постройте модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль.

Шаги для выбора локации:

- В избранном регионе ищут месторождения, для каждого определяют значения признаков;
- Строят модель и оценивают объём запасов;
- Выбирают месторождения с самым высокими оценками значений. Количество месторождений зависит от бюджета компании и стоимости разработки одной скважины;
- Прибыль равна суммарной прибыли отобранных месторождений.

In [63]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import itertools
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from numpy.random import RandomState
from tqdm import tqdm
import seaborn as sns

RANDOM = 42
state = RandomState(RANDOM) 

#  Загрузка и подготовка данных

In [64]:
zero_frame = pd.read_csv("./datasets/geo_data_0.txt", sep=" ")
first_frame = pd.read_csv("./datasets/geo_data_1.txt", sep=" ")
second_frame = pd.read_csv("./datasets/geo_data_2.txt", sep=" ")

# Head

In [65]:
print(f'Zero Frame :\n {zero_frame.head()}')
print(f'First Frame :\n {first_frame.head()}')
print(f'Second Frame :\n {second_frame.head()}')

Zero Frame :
       id        f0        f1        f2     product
0  V3Iux  0.415711 -0.107657  2.942731  175.967570
1  lUMXX  0.107308 -0.062418 -1.686659   52.846211
2  dqCXo -0.984753  0.152605  0.730856   36.592236
3  ET3QY -0.551515  0.770938  9.833564  160.476426
4  K0xka  2.095151  0.348512  6.898868   26.926149
First Frame :
       id         f0         f1        f2    product
0  0Maj6  -6.388812  -2.105505  2.001580  57.085625
1  Zjbn2  13.854163 -11.528089 -0.005556   0.000000
2  JLxRL  13.974398   0.588781  0.996990  26.953261
3  Oc2Ed  11.936196  -4.372905  2.006696  53.906522
4  igDGL   2.119656  -3.501748  1.009241  30.132364
Second Frame :
       id        f0        f1        f2     product
0  PeAoT  4.443158  0.959896  8.594151  149.112146
1  NYZPk -1.573397 -3.223844 -2.763954   60.050456
2  Q974L  2.081319 -0.274217  1.698028  127.810277
3  aT0E8 -0.598936  0.232715 -1.588904   55.343974
4  2pTwc  0.899855  0.079968  7.745764   72.570693


# INFO


In [66]:
print("Zero Frame")
print(zero_frame.info())
print()
print("First Frame")
print()
print(first_frame.info())
print()
print("Second Frame")
print()
print(second_frame.info())

Zero Frame
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       40 non-null     object 
 1   f0       40 non-null     float64
 2   f1       40 non-null     float64
 3   f2       40 non-null     float64
 4   product  40 non-null     float64
dtypes: float64(4), object(1)
memory usage: 1.7+ KB
None

First Frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id       40 non-null     object 
 1   f0       40 non-null     float64
 2   f1       40 non-null     float64
 3   f2       40 non-null     float64
 4   product  40 non-null     float64
dtypes: float64(4), object(1)
memory usage: 1.7+ KB
None

Second Frame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 5 columns):
 #   Col

## Проверим количество дубликатов

In [67]:
print(f'Количество дубликатов: {zero_frame.duplicated().sum()}')
print(f'Количество дубликатов: {first_frame.duplicated().sum()}')
print(f'Количество дубликатов: {second_frame.duplicated().sum()}')

Количество дубликатов: 0
Количество дубликатов: 0
Количество дубликатов: 0


## Посмотрим информацию о значениях

In [68]:
print(zero_frame.describe())
print(first_frame.describe())
print(second_frame.describe())

              f0         f1         f2     product
count  40.000000  40.000000  40.000000   40.000000
mean    0.513141   0.261983   3.109568  100.891044
std     0.860144   0.481064   2.785899   43.312150
min    -0.984753  -0.528582  -1.686659   26.926149
25%    -0.134329  -0.189292   1.305060   56.994591
50%     0.529185   0.284000   2.696547  103.978786
75%     1.026831   0.696818   5.261366  133.634173
max     2.095151   1.118132   9.833564  175.967570
              f0         f1         f2     product
count  40.000000  40.000000  40.000000   40.000000
mean    1.197259  -5.492486   2.275584   62.987698
std     8.761434   4.745775   1.631839   43.999877
min   -11.836518 -16.667892  -0.005556    0.000000
25%    -6.518045  -8.221435   1.003407   29.337588
50%     1.392685  -4.378789   2.000267   55.496074
75%     7.674289  -2.071706   3.251327   89.982426
max    22.318063   2.846599   5.005581  137.945408
              f0         f1         f2     product
count  40.000000  40.000000  40

### Визуализируем полученные данные

In [70]:
#построение диаграммы рассеяния
sns.relplot(data=zero_frame, x='f0', y='f2')
#определение размера фигуры
sns.set(rc={'figure.figsize':(30,15)})
#разметка
plt.title(f'f1 and f2', fontsize=16) #название графика
plt.xlabel('f1', fontsize=14) #метка x-оси
plt.ylabel('f2', fontsize=14) #метка y-оси
#показ сетки для лучшей визуализации
sns.set_style("ticks",{'axes.grid' : True})

In [71]:
print(zero_frame.corr())
print(first_frame.corr())
print(second_frame.corr())

               f0        f1        f2   product
f0       1.000000 -0.509181 -0.224392 -0.073238
f1      -0.509181  1.000000  0.371858  0.115228
f2      -0.224392  0.371858  1.000000  0.469830
product -0.073238  0.115228  0.469830  1.000000
               f0        f1        f2   product
f0       1.000000  0.129885 -0.147883 -0.178514
f1       0.129885  1.000000  0.081857  0.072188
f2      -0.147883  0.081857  1.000000  0.999351
product -0.178514  0.072188  0.999351  1.000000
               f0        f1        f2   product
f0       1.000000  0.052789 -0.066034 -0.020988
f1       0.052789  1.000000  0.007318  0.117225
f2      -0.066034  0.007318  1.000000  0.480924
product -0.020988  0.117225  0.480924  1.000000


### Выводы

Заметим, что в некоторых столбцах есть данные, выходящие за границы. Эти данные будут мешать модели обучаться, отвлекая её. Поэтому их необходимо удалить.
Выпишем необходимые столбцы для обработки в формате - (фрейм, столбец):
1. (zero_frame,"f2")
1. (first_frame,"f1")
1. (second_frame,"f0")
1. (second_frame,"f1")
1. (second_frame,"f2")

## Исправим недочеты, найденные в данных 

In [73]:
def remove_ouliers(frame,column):
    q25=np.array(frame[column].quantile(0.25))
    
    q75=np.array(frame[column].quantile(0.75))
    first_part=q25-1.5*(q75-q25)
    second_part=q75+1.5*(q75-q25)
    del_index = []
    for index_value, value in zip(frame[column].index,frame[column]):
        if second_part <= value or value <= first_part:
            del_index.append(index_value)
    
    print('Количество строк, выбранных для удаления: ',len(del_index))
    return del_index

In [74]:
noise_data = [
 (first_frame,"f2")]

for frame,column in noise_data:
    indexes = remove_ouliers(frame,column)
    frame.drop(indexes,axis = 0,inplace = True)

Количество строк, выбранных для удаления:  0


Выборки пострадали не сильно, в первых двух потери составили менее 1%, в последней же потеря данных составила 2%

In [75]:
zero_frame = zero_frame.reset_index(drop = True)
first_frame = first_frame.reset_index(drop = True)
second_frame = second_frame.reset_index(drop = True)

## Проверим корреляцию между признаками

In [77]:
print(zero_frame.corr())
print(first_frame.corr())
print(second_frame.corr())

               f0        f1        f2   product
f0       1.000000 -0.509181 -0.224392 -0.073238
f1      -0.509181  1.000000  0.371858  0.115228
f2      -0.224392  0.371858  1.000000  0.469830
product -0.073238  0.115228  0.469830  1.000000
               f0        f1        f2   product
f0       1.000000  0.129885 -0.147883 -0.178514
f1       0.129885  1.000000  0.081857  0.072188
f2      -0.147883  0.081857  1.000000  0.999351
product -0.178514  0.072188  0.999351  1.000000
               f0        f1        f2   product
f0       1.000000  0.052789 -0.066034 -0.020988
f1       0.052789  1.000000  0.007318  0.117225
f2      -0.066034  0.007318  1.000000  0.480924
product -0.020988  0.117225  0.480924  1.000000


### Вывод

Заметим, что в нулевом фрейме признаки f0 и f1 отрицательно коррелируют относительно друг друга и f2 слабо положительно коррелирует с целевым признаком. Так же в первом фрейме очень сильно коррелирует целевой признак и f2. Во втором фрейме так же есть коррелирующие признаки, такие как f2 и product.

Если в случае с первым фреймом все достаточно понятно, там очень высокая корреляция и признак f2 следует удалить, то вот в случае с другими двумя выборками стоит опираться на результат, который мы получим на моделях, Следовательно необходимо подготовить 3 выборок:
1. Нулевая со всеми столбцами
1. Первая без f2
1. Вторая со всеми столбцами

In [78]:
first_frame_out_f2 = first_frame.drop(["f2"],axis = 1)

## Вывод

Результаты первичного анализа:
1. Пропуски - отсутствуют
2. Типы столбцов - корректны
3. Названия столбцов - корректны 
1. Дубликаты - отсутствуют
1. Объем запасов - положительный 
1. Выбросы - удалены
1. Коррелирующие признаки - учтены

#  Обучение и проверка модели

In [79]:
array_name = ["zero_frame",
              "second_frame",
              "first_frame_out_f2"]

array_frame = [zero_frame,
              second_frame,
              first_frame_out_f2]

data_dict = {"pipelines":{},"scores":{},"valid":{}}

for frame, name in zip(array_frame,array_name):
    
    features = frame.drop(["id","product"], axis = 1)
    target = frame["product"]
    
    new_pipeline = make_pipeline(StandardScaler(),LinearRegression())
    
    
    (features_train,
    features_valid,
    target_train,
    target_valid) = train_test_split(features,
                                     target,
                                     test_size = 0.25,
                                     random_state = RANDOM)
    data_dict['valid'][name] = (features_valid,target_valid)
    new_pipeline.fit(features_train,target_train)
    
    data_dict['pipelines'][name] = new_pipeline
    data_dict['scores'][name] = mean_squared_error(target_valid,
                                                   new_pipeline.predict(features_valid))**0.5
    
    

In [80]:
data_dict['scores']

{'zero_frame': 52.75846245311124,
 'second_frame': 40.404795778577686,
 'first_frame_out_f2': 42.993319725878465}

Выборка с минимальной ошибкой: 
1. Нулевой регион: 'zero_frame'
1. Первый регион: "first_frame_out_f2"
1. Второй регион: 'second_frame'

In [81]:
best_model_zero = data_dict['pipelines']['zero_frame']
best_model_first = data_dict['pipelines']['first_frame_out_f2']
best_model_second = data_dict['pipelines']['second_frame']

predicted_values_zero = best_model_zero.predict(data_dict['valid']['zero_frame'][0])
predicted_values_first = best_model_first.predict(data_dict['valid']['first_frame_out_f2'][0])
predicted_values_second = best_model_second.predict(data_dict['valid']['second_frame'][0])

RMSE_model_zero = (mean_squared_error(data_dict['valid']['zero_frame'][1],predicted_values_zero))**0.5
RMSE_model_first = (mean_squared_error(data_dict['valid']['first_frame_out_f2'][1],predicted_values_first))**0.5
RMSE_model_second = (mean_squared_error(data_dict['valid']['second_frame'][1],predicted_values_second))**0.5

In [82]:
print("Zero_Frame",'Средний запас:', predicted_values_zero.mean(),"RMSE модели:",RMSE_model_zero)
print("First_Frame",'Средний запас:',predicted_values_first.mean(),"RMSE модели:",RMSE_model_first)
print("Second_Frame",'Средний запас:',predicted_values_second.mean(),"RMSE модели:",RMSE_model_second)

Zero_Frame Средний запас: 116.4882905615353 RMSE модели: 52.75846245311124
First_Frame Средний запас: 60.896194431332006 RMSE модели: 42.993319725878465
Second_Frame Средний запас: 93.54679871989383 RMSE модели: 40.404795778577686


# Расчет прибыли

In [83]:
BUDGET_PER_REGION = 10**7
PRE_MAX_POINTS = 500
FINAL_MAX_POINTS = 200
PRICE_PER_BARREL = 450
DAMAGE_THRESHOLD =  0.025
NON_DAMAGE_POINT = (BUDGET_PER_REGION/(PRICE_PER_BARREL * FINAL_MAX_POINTS)

In [84]:
print("Достаточный объем добычи для безубыточной разработки",round(NON_DAMAGE_POINT,2))

Достаточный объем добычи для безубыточной разработки 0.11


In [85]:
def income(true_target, pred_target):
    sort_Series = pd.Series(pred_target).sort_values(ascending=False)[:FINAL_MAX_POINTS]
    true_target_sort = (true_target
                         .reset_index(drop = True)[sort_Series.index])
    sum_true = true_target_sort.sum()
    return round((sum_true * PRICE_PER_BARREL) - BUDGET_PER_REGION,2)

In [86]:
print("Прибыль с лучших 200 скважин в нулевом регионе:",income(data_dict['valid']['zero_frame'][1],
                                                               predicted_values_zero))
print("Прибыль с лучших 200 скважин во втором регионе:",income(data_dict['valid']['second_frame'][1],
                                                               predicted_values_second))
print("Прибыль с лучших 200 скважин в первом регионе:",income(data_dict['valid']['first_frame_out_f2'][1],
                                                               predicted_values_first))

Прибыль с лучших 200 скважин в нулевом регионе: -9499773529.9
Прибыль с лучших 200 скважин во втором регионе: -9520134397.75
Прибыль с лучших 200 скважин в первом регионе: -9686761639.3


In [87]:
def confidence_interval(true_target,pred_target):
    samples = []
    for i in tqdm(range(1000)):
        sample = pd.Series(pred_target).sample(n = PRE_MAX_POINTS, replace=True, random_state=state)
        samples.append(income(true_target,sample))
    samples = pd.Series(samples)
    print(samples.mean())
    print(samples.apply(lambda x: x < 0).sum()/len(samples)*100,"%")
    
    lower = samples.quantile(0.025)
    upper = samples.quantile(0.975)
    return round(lower,2), round(upper,2)

In [88]:
print("95% доверительный итервал для Нулевового региона лежит между:",
      confidence_interval(data_dict['valid']['zero_frame'][1],pd.Series(predicted_values_zero)))
print()
print("95% Доверительный итервал для Второго региона лежит между:",
      confidence_interval(data_dict['valid']['second_frame'][1],predicted_values_second))
print()
print("95% Доверительный итервал для Первого  региона лежит между:",
      confidence_interval(data_dict['valid']['first_frame_out_f2'][1],predicted_values_first))

100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 2497.11it/s]


167316254.32310006
29.9 %
95% доверительный итервал для Нулевового региона лежит между: (-469135828.4, 795793264.14)



100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 2629.06it/s]


448684832.6792002
4.6 %
95% Доверительный итервал для Второго региона лежит между: (-65927461.27, 942068158.71)



100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 2629.17it/s]

-1926889563.6207993
100.0 %
95% Доверительный итервал для Первого  региона лежит между: (-2764285605.34, -1247861449.9)



