# Выбор локации для скважины

## Загрузка и подготовка данных

In [None]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

from sklearn.preprocessing import StandardScaler

Считаем и выведем все 3 датафрейма на экран, чтобы визуально изучить данные и возможные пропуски в них, которые могут помешать дальнейшему обучению

In [None]:
data_geo1 = pd.read_csv('/datasets/geo_data_0.csv')
data_geo2 = pd.read_csv('/datasets/geo_data_1.csv')
data_geo3 = pd.read_csv('/datasets/geo_data_2.csv')

In [None]:
data_geo1.info()
data_geo1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,txEyH,0.705745,-0.497823,1.221170,105.280062
1,2acmU,1.334711,-0.340164,4.365080,73.037750
2,409Wp,1.022732,0.151990,1.419926,85.265647
3,iJLyR,-0.032172,0.139033,2.978566,168.620776
4,Xdl7t,1.988431,0.155413,4.751769,154.036647
...,...,...,...,...,...
99995,DLsed,0.971957,0.370953,6.075346,110.744026
99996,QKivN,1.392429,-0.382606,1.273912,122.346843
99997,3rnvd,1.029585,0.018787,-1.348308,64.375443
99998,7kl59,0.998163,-0.528582,1.583869,74.040764


In [None]:
data_geo2.info()
data_geo2

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,kBEdx,-15.001348,-8.276000,-0.005876,3.179103
1,62mP7,14.272088,-3.475083,0.999183,26.953261
2,vyE1P,6.263187,-5.948386,5.001160,134.766305
3,KcrkZ,-13.081196,-11.506057,4.999415,137.945408
4,AHL4O,12.702195,-8.147433,5.004363,134.766305
...,...,...,...,...,...
99995,QywKC,9.535637,-6.878139,1.998296,53.906522
99996,ptvty,-10.160631,-12.558096,5.005581,137.945408
99997,09gWa,-7.378891,-3.084104,4.998651,137.945408
99998,rqwUm,0.665714,-6.152593,1.000146,30.132364


In [None]:
data_geo3.info()
data_geo3

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   id       100000 non-null  object 
 1   f0       100000 non-null  float64
 2   f1       100000 non-null  float64
 3   f2       100000 non-null  float64
 4   product  100000 non-null  float64
dtypes: float64(4), object(1)
memory usage: 3.8+ MB


Unnamed: 0,id,f0,f1,f2,product
0,fwXo0,-1.146987,0.963328,-0.828965,27.758673
1,WJtFt,0.262778,0.269839,-2.530187,56.069697
2,ovLUW,0.194587,0.289035,-5.586433,62.871910
3,q6cA6,2.236060,-0.553760,0.930038,114.572842
4,WPMUX,-0.515993,1.716266,5.899011,149.600746
...,...,...,...,...,...
99995,4GxBu,-1.777037,1.125220,6.263374,172.327046
99996,YKFjq,-1.261523,-0.894828,2.524545,138.748846
99997,tKPY3,-1.199934,-2.957637,5.219411,157.080080
99998,nmxp2,-2.419896,2.417221,-5.548444,51.795253


Пропусков нет, все признаки числовые, значит дополнительное преобразование не требуется, кроме значений в столбца id, однако он не является для нас целевым и может быть удален из таблицы, что мы и сделаем

In [None]:
data_geo3 = data_geo3.drop('id', axis=1)
data_geo2 = data_geo2.drop('id', axis=1)
data_geo1 = data_geo1.drop('id', axis=1)

Выделяем целевой признак для каждого региона, а также делим выборку на тренировочную и валидационную

In [None]:
geo1_target = data_geo1['product']
geo1_features = data_geo1.drop('product', axis=1)

geo1_features_train, geo1_features_valid, geo1_target_train, geo1_target_valid = train_test_split(geo1_features, geo1_target, test_size=0.25, random_state=12345)

In [None]:
geo2_target = data_geo2['product']
geo2_features = data_geo2.drop('product', axis=1)

geo2_features_train, geo2_features_valid, geo2_target_train, geo2_target_valid = train_test_split(
    geo2_features, geo2_target, test_size=0.25, random_state=12345)

In [None]:
geo3_target = data_geo3['product']
geo3_features = data_geo3.drop('product', axis=1)

geo3_features_train, geo3_features_valid, geo3_target_train, geo3_target_valid = train_test_split(
    geo3_features, geo3_target, test_size=0.25, random_state=12345)

Проводим масштабирование признаков, приводя признаки всех выборок к единому масштабу, так как насколько мы можем видеть по предыдущим данным, дисбаланс классов довольно велик

In [None]:
pd.options.mode.chained_assignment = None

scaler = StandardScaler()
scaler.fit(geo1_features_train)

geo1_features_train = scaler.transform(geo1_features_train)
geo1_features_valid = scaler.transform(geo1_features_valid)

In [None]:
pd.options.mode.chained_assignment = None

scaler = StandardScaler()
scaler.fit(geo2_features_train)

geo2_features_train = scaler.transform(geo2_features_train)
geo2_features_valid = scaler.transform(geo2_features_valid)

In [None]:
pd.options.mode.chained_assignment = None

scaler = StandardScaler()
scaler.fit(geo3_features_train)

geo3_features_train = scaler.transform(geo3_features_train)
geo3_features_valid = scaler.transform(geo3_features_valid)

## Обучение и проверка модели

Обучим модель на данных каждого реиона, попутно проверив модель на меняемость, сранив с предсказанием среднего значения для каждой модели.

1. Первый Регион

In [None]:
model = LinearRegression()
model.fit(geo1_features_train, geo1_target_train)
predicted_valid_1 = model.predict(geo1_features_valid)

result = mean_squared_error(geo1_target_valid, predicted_valid_1)**0.5

predictions = pd.Series(geo1_target_valid.mean(), index=geo1_target_valid.index)
result_test = mean_squared_error(geo1_target_valid, predictions)**0.5


print("Средний запас предсказанного сырья", predicted_valid_1.mean())
print("RMSE модели линейной регрессии на валидационной выборке:", result)
print("RMSE модели линейной регрессии на случайной модели:", result_test)
predicted_valid_1

Средний запас предсказанного сырья 92.59256778438035
RMSE модели линейной регрессии на валидационной выборке: 37.5794217150813
RMSE модели линейной регрессии на случайной модели: 44.28602687855358


array([ 95.89495185,  77.57258261,  77.89263965, ...,  61.50983303,
       118.18039721, 118.16939229])

2. Второй Регион

In [None]:
model = LinearRegression()
model.fit(geo2_features_train, geo2_target_train)
predicted_valid_2 = model.predict(geo2_features_valid)

result = mean_squared_error(geo2_target_valid, predicted_valid_2)**0.5

predictions_ = pd.Series(geo2_target_valid.mean(), index=geo2_target_valid.index)
result_test = mean_squared_error(geo2_target_valid, predictions)**0.5


print("Средний запас предсказанного сырья", predicted_valid_2.mean())
print("RMSE модели линейной регрессии на валидационной выборке:", result)
print("RMSE модели линейной регрессии на случайной модели:", result_test)

Средний запас предсказанного сырья 68.728546895446
RMSE модели линейной регрессии на валидационной выборке: 0.893099286775617
RMSE модели линейной регрессии на случайной модели: 51.608454050737286


3. Третий Регион

In [None]:
model = LinearRegression()
model.fit(geo3_features_train, geo3_target_train)
predicted_valid_3 = model.predict(geo3_features_valid)

result = mean_squared_error(geo3_target_valid, predicted_valid_3)**0.5

predictions = pd.Series(geo3_target_valid.mean(), index=geo3_target_valid.index)
result_test = mean_squared_error(geo3_target_valid, predictions)**0.5


print("Средний запас предсказанного сырья", predicted_valid_3.mean())
print("RMSE модели линейной регрессии на валидационной выборке:", result)
print("RMSE модели линейной регрессии на случайной модели:", result_test)

Средний запас предсказанного сырья 94.96504596800489
RMSE модели линейной регрессии на валидационной выборке: 40.02970873393434
RMSE модели линейной регрессии на случайной модели: 44.902084376898294


Проведя обучение, на данных лучшее качество показала модель обученная на втором регионе, качество первой и третьей можели примерно одинаковы.
При этом наименьший средней запас нефти в скважине показали данные из второго региона, в то время как первый и преждве всего третий регион показали наибольший средний запас нефти в скважине, что правда может быть неточным, с учетом низкого качества модели.

Расчитаем минимальное среднее колличество нефти в скважине, необходимое для безубыточной рзработки скважины

In [None]:
BUDGET = 10000000000
PRICE_PER_1000_BARREL= 450000
WELL_NUMBER = 200
min_barrel_for_mining = BUDGET / PRICE_PER_1000_BARREL / WELL_NUMBER
print(min_barrel_for_mining)

111.11111111111111


## Расчёт прибыли и рисков

1. Расчитаем потенциальную прибыль, риски убытков и 95%-й доверительный интервал для первого реигиона

In [None]:
state = np.random.RandomState(12345)
values = []

target = geo1_target_valid.reset_index(drop=True)
predictions = pd.Series(predicted_valid_1)
count = 0

for i in range(1000):
    target_subsample = target.sample(500, replace=True, random_state=state)
    predictions_subsample = predictions.loc[target_subsample.index.to_list()]

    predict_sorted = predictions_subsample.sort_values(ascending=False)
    selected = target_subsample.loc[predict_sorted.index.to_list()][:200]
    value = (selected.sum() * PRICE_PER_1000_BARREL) - BUDGET
    values.append(value)


values = pd.Series(values)
risk= (values < 0).mean()
lower = values.quantile(0.025)
upper = values.quantile(0.975)


print('Расчетная средняя прибыль одной скважины для 1-го региона, составит-', values.mean() , '\n'
      'Доверительный интервал в регионе составляет от', lower,'до', upper, '\n'
     'Риск при этом, составит- ', risk)


Расчетная средняя прибыль одной скважины для 1-го региона, составит- 425938526.91059244 
Доверительный интервал в регионе составляет от -102090094.83793654 до 947976353.3583689 
Риск при этом, составит-  0.06


2. Расчитаем потенциальную прибыль, риски убытков и 95%-й доверительный интервал для второго реигиона

In [None]:
state = np.random.RandomState(12345)
values = []

target = geo2_target_valid.reset_index(drop=True)
predictions = pd.Series(predicted_valid_2)
count = 0

for i in range(1000):
    target_subsample = target.sample(500, replace=True, random_state=state)
    predictions_subsample = predictions.loc[target_subsample.index.to_list()]

    predict_sorted = predictions_subsample.sort_values(ascending=False)
    selected = target_subsample.loc[predict_sorted.index.to_list()][:200]
    value = (selected.sum() * PRICE_PER_1000_BARREL) - BUDGET
    values.append(value)



values = pd.Series(values)
risk= (values < 0).mean()

lower = values.quantile(0.025)
upper = values.quantile(0.975)


print('Расчетная средняя прибыль одной скважины для 2-го региона, составит-', values.mean() , '\n'
      'Доверительный интервал в регионе составляет от', lower,'до', upper,'\n'
     'Риск при этом, составит- ', risk)


Расчетная средняя прибыль одной скважины для 2-го региона, составит- 515222773.4432899 
Доверительный интервал в регионе составляет от 68873225.37050176 до 931547591.2570494 
Риск при этом, составит-  0.01


In [None]:
state = np.random.RandomState(12345)
values = []

target = geo3_target_valid.reset_index(drop=True)
predictions = pd.Series(predicted_valid_3)
count = 0

for i in range(1000):
    target_subsample = target.sample(500, replace=True, random_state=state)
    predictions_subsample = predictions.loc[target_subsample.index.to_list()]

    predict_sorted = predictions_subsample.sort_values(ascending=False)
    selected = target_subsample.loc[predict_sorted.index.to_list()][:200]
    value = (selected.sum() * PRICE_PER_1000_BARREL) - BUDGET
    values.append(value)



values = pd.Series(values)
risk= (values < 0).mean()

lower = values.quantile(0.025)
upper = values.quantile(0.975)


print('Расчетная средняя прибыль одной скважины для 3-го региона, составит-', values.mean() , '\n'
      'Доверительный интервал в регионе составляет от', lower,'до', upper,'\n'
     'Риск при этом, составит- ', risk)


Расчетная средняя прибыль одной скважины для 3-го региона, составит- 435008362.7827556 
Доверительный интервал в регионе составляет от -128880547.32978901 до 969706954.1802661 
Риск при этом, составит-  0.064


**ВЫВОД:**

По итогам анализа, можно с уверенностью сказать, что лучший результат показывает второй регион, а именно: самую выскокую среднюю выручку и самый минимальный риск, что делает его наиболее пересперктивным регионом для разработки.