In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import lasio
import os

## Сохранение файлов continuous и discrete в формате .csv

In [4]:
def get_discrete_files(path):
    files = os.listdir(path)
    return [file for file in files if file.endswith('_discrete.las')]

In [5]:
def get_continuous_files(path):
    files = os.listdir(path)
    return [file for file in files if file.endswith('_continuous.las')]

In [6]:
def las_to_csv(las_file, output_path):
    las = lasio.read(las_file)
    df = las.df()
    df.reset_index(inplace=True)
    df.to_csv(f"{output_path}/{las_file.split('/')[-1].replace('.las', '.csv')}", index=False)

In [84]:
las_folder_path = '<your_path_here>'

In [6]:
discrete_files = get_discrete_files(las_folder_path)
continuous_files = get_continuous_files(las_folder_path)

In [7]:
dicrete_output_path = '<your_path_here>'
continuous_output_path = '<your_path_here>'

In [9]:
os.makedirs(dicrete_output_path, exist_ok=True)
os.makedirs(continuous_output_path, exist_ok=True)

In [10]:
for file in discrete_files:
    las_to_csv(f"{las_folder_path}/{file}", dicrete_output_path)

In [11]:
for file in continuous_files:
    las_to_csv(f"{las_folder_path}/{file}", continuous_output_path)

## Создание датасета, состоящего из обобщенных данных из файлов continuous и discrete

In [2]:
discrete_files_path = '<your_path_here>'
continuous_files_path = '<your_path_here>'

In [None]:
# создаем список для хранения данных по скважинам из файлов discrete

wells_discrete = [["WELL", "DEPT", "SSTVD", "Z", "FACIES", "LOG9"]]

for file in os.listdir(discrete_files_path):
    if file.endswith('.csv'):
        file_path = os.path.join(discrete_files_path, file)
        well_name = file.split('_')[0]
        with open(file_path) as f:
            lines = f.readlines()
            for line in lines[1:]:
                parsed_line = []
                for i in line.split(','):
                    try:
                        parsed_line.append(float(i.strip()))
                    except:
                        parsed_line.append(None)
                wells_discrete.append([well_name] + parsed_line)

In [5]:
# создаем список для хранения данных по скважинам из файлов continuous
wells_continuous = [["WELL", "DEPT", "SSTVD", "Z", "NEU", "GGKP"]]

for file in os.listdir(continuous_files_path):
    if file.endswith('.csv'):
        file_path = os.path.join(continuous_files_path, file)
        well_name = file.split('_')[0]
        with open(file_path) as f:
            lines = f.readlines()
            for line in lines[1:]:
                parsed_line = []
                for i in line.split(','):
                    try:
                        parsed_line.append(float(i.strip()))
                    except ValueError:
                        parsed_line.append(None)
                wells_continuous.append([well_name] + parsed_line)

In [7]:
# создаем датафреймы для дальнейшей работы
discrete_df =  pd.DataFrame(wells_discrete[1:], columns=wells_discrete[0])

In [8]:
# удаляем строки с пустыми значениями в столбцах FACIES и LOG9
discrete_df.dropna(subset=['FACIES', 'LOG9'], how='all', inplace=True)

In [9]:
# удаляем столбцы SSTVD и Z
discrete_df.drop(columns=['SSTVD', 'Z'], inplace=True)

In [28]:
continuous_df = pd.DataFrame(wells_continuous[1:], columns=wells_continuous[0])

In [30]:
# удаляем строки с пустыми значениями в столбцах NEU и GGKP
continuous_df.dropna(subset=['NEU', 'GGKP'], how='all', inplace=True)

In [32]:
# сортируем датафреймы по столбцам WELL и DEPT
continuous_df.sort_values(by=['WELL', 'DEPT'], inplace=True)
discrete_df.sort_values(by=['WELL', 'DEPT'], inplace=True)

In [7]:
# Импортируем библиотеку для построения KDTree
from scipy.spatial import cKDTree

def nearest_merge_with_threshold(left_df, right_df, on, max_distance, suffixes=('_left', '_right')):
    # Эта функция добавляет порог для максимального допустимого расстояния между значениями DEPT
    merged_df = pd.DataFrame() # Инициализируем пустой DataFrame для хранения результата

    # Обработка каждой скважины отдельно
    for well in pd.unique(left_df[on[0]]):
        left_subset = left_df[left_df[on[0]] == well].copy()
        right_subset = right_df[right_df[on[0]] == well].copy()

        if not left_subset.empty and not right_subset.empty:
            # Строим KDTree с использованием DEPT из правого поднабора
            kdtree = cKDTree(right_subset[[on[1]]])

            # Получаем расстояния и индексы ближайших точек
            distances, indices = kdtree.query(left_subset[[on[1]]], distance_upper_bound=max_distance)

            # Добавляем индексы и расстояния в левый поднабор
            left_subset['right_index'] = indices
            left_subset['distances'] = distances

            # Применяем порог к расстояниям
            mask = left_subset['distances'] <= max_distance
            left_subset.loc[~mask, 'right_index'] = np.nan # Присваиваем NaN, если расстояние слишком велико

            # Совмещаем результаты с правым поднабором на основе найденных индексов
            left_subset = left_subset.merge(right_subset.reset_index(), left_on='right_index', right_index=True, how='left', suffixes=suffixes)
            merged_df = pd.concat([merged_df, left_subset], ignore_index=True)

    # Удаляем лишние столбцы
    merged_df.drop(columns=['right_index', 'distances'], inplace=True)
    return merged_df


In [34]:
# Определяем столбцы для объединения и пороговое максимальное расстояние
on_columns = ['WELL', 'DEPT']
max_distance = 0.1 # Определяем максимальное допустимое расстояние между значениями DEPT

In [35]:
# Выполняем слияние с порогом расстояния
result_df = nearest_merge_with_threshold(continuous_df, discrete_df, on=on_columns, max_distance=max_distance)

In [36]:
result_df.head()

Unnamed: 0,WELL_left,DEPT_left,SSTVD,Z,NEU,GGKP,index,WELL_right,DEPT_right,FACIES,LOG9
0,12,2738.4756,1952.051221,-1952.051221,0.3154,,,,,,
1,12,2738.628,1952.155861,-1952.155861,0.3194,,,,,,
2,12,2738.7804,1952.260501,-1952.260501,0.3239,,,,,,
3,12,2738.9328,1952.36514,-1952.36514,0.3271,,,,,,
4,12,2739.0852,1952.46978,-1952.46978,0.3286,,,,,,


In [37]:
# Удаляем лишние столбцы
result_df.drop(columns=['WELL_right', 'DEPT_right', 'index'], inplace=True)

In [38]:
result_df.head()

Unnamed: 0,WELL_left,DEPT_left,SSTVD,Z,NEU,GGKP,FACIES,LOG9
0,12,2738.4756,1952.051221,-1952.051221,0.3154,,,
1,12,2738.628,1952.155861,-1952.155861,0.3194,,,
2,12,2738.7804,1952.260501,-1952.260501,0.3239,,,
3,12,2738.9328,1952.36514,-1952.36514,0.3271,,,
4,12,2739.0852,1952.46978,-1952.46978,0.3286,,,


In [39]:
# Переименовываем столбцы
result_df.columns = ['WELL', 'DEPT', 'SSTVD', 'Z', 'NEU', 'GGKP', 'FACIES', 'LOG9']

In [40]:
result_df

Unnamed: 0,WELL,DEPT,SSTVD,Z,NEU,GGKP,FACIES,LOG9
0,12,2738.4756,1952.051221,-1952.051221,0.3154,,,
1,12,2738.6280,1952.155861,-1952.155861,0.3194,,,
2,12,2738.7804,1952.260501,-1952.260501,0.3239,,,
3,12,2738.9328,1952.365140,-1952.365140,0.3271,,,
4,12,2739.0852,1952.469780,-1952.469780,0.3286,,,
...,...,...,...,...,...,...,...,...
264738,K-66,2833.5732,2210.045565,-2210.045565,,2.59,,
264739,K-66,2833.7256,2210.191964,-2210.191964,,2.60,,
264740,K-66,2833.8780,2210.338363,-2210.338363,,2.60,,
264741,K-66,2834.0304,2210.484762,-2210.484762,,2.60,,


In [41]:
# Сохраняем результат в CSV
result_df.to_csv('<your_path_here>', index=False)

## Использовнаие алгоритма RandomForest для предсказания значения FACIES

In [3]:
df = pd.read_csv('continuous_discrete_merged.csv')

  df = pd.read_csv('continuous_discrete_merged.csv')


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264743 entries, 0 to 264742
Data columns (total 8 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   WELL    264743 non-null  object 
 1   DEPT    264743 non-null  float64
 2   SSTVD   264743 non-null  float64
 3   Z       264743 non-null  float64
 4   NEU     254752 non-null  float64
 5   GGKP    210100 non-null  float64
 6   FACIES  2751 non-null    float64
 7   LOG9    2916 non-null    float64
dtypes: float64(7), object(1)
memory usage: 16.2+ MB


In [5]:
# Удаляем строки с пустыми значениями в столбцах NEU и GGKP
df.dropna(subset=['NEU', 'GGKP'], inplace=True)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 200109 entries, 18 to 264715
Data columns (total 8 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   WELL    200109 non-null  object 
 1   DEPT    200109 non-null  float64
 2   SSTVD   200109 non-null  float64
 3   Z       200109 non-null  float64
 4   NEU     200109 non-null  float64
 5   GGKP    200109 non-null  float64
 6   FACIES  2646 non-null    float64
 7   LOG9    2811 non-null    float64
dtypes: float64(7), object(1)
memory usage: 13.7+ MB


In [7]:
# Удаляем строки с пустыми значениями в столбцах FACIES и LOG9
df_filtered = df.dropna(subset=['FACIES', 'LOG9'])

In [8]:
# Определяем признаки и целевую переменную
X = df_filtered[[col for col in df_filtered.columns if col.startswith('DEPT') or col.startswith('GGKP')]]
y = df_filtered['FACIES'] # Измените на 'LOG9', если хотите предсказать LOG9

In [9]:
# Импортируем библиотеки для обучения модели
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
from sklearn.model_selection import StratifiedKFold

In [28]:
# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

In [29]:
# Random Search для исследования пространства параметров
param_dist = {
    'n_estimators': [100, 200, 300, 400, 500, 600],
    'criterion' : ['gini', 'entropy', 'log_loss'], 
    'min_samples_leaf': [2, 3, 4],
    'max_depth': [5, 10, 15, 20, 25]
}
cv = StratifiedKFold(n_splits=2) # Используем Stratified K-Fold для сохранения баланса классов
rf_random_search = RandomizedSearchCV(RandomForestClassifier(), param_distributions=param_dist, n_iter=50, cv=cv, n_jobs=-1) # n_iter - количество случайных комбинаций параметров
rf_random_search.fit(X_train, y_train)

# Лучшие параметры после Random Search
param_grid = {
    'n_estimators': [rf_random_search.best_params_['n_estimators'] - 50, rf_random_search.best_params_['n_estimators'], rf_random_search.best_params_['n_estimators'] + 50],
    'criterion': [rf_random_search.best_params_['criterion']],
    'min_samples_leaf': [rf_random_search.best_params_['min_samples_leaf'] - 1, rf_random_search.best_params_['min_samples_leaf'], rf_random_search.best_params_['min_samples_leaf'] + 1],
    'max_depth': [rf_random_search.best_params_['max_depth'] - 5, rf_random_search.best_params_['max_depth'], rf_random_search.best_params_['max_depth'] + 5]
}

# Grid Search для более точного поиска
rf_grid_search = GridSearchCV(RandomForestClassifier(), param_grid=param_grid, cv=cv, n_jobs=-1)
rf_grid_search.fit(X_train, y_train)

# Лучшие параметры после Grid Search
best_params = rf_grid_search.best_params_

In [33]:
# Создание модели с лучшими параметрами
best_rf_model = RandomForestClassifier(**best_params)

# Обучение модели на всем тренировочном наборе данных
best_rf_model.fit(X_train, y_train)

In [34]:
# Предсказание на тестовом наборе данных
y_pred = rf_grid_search.predict(X_test)

In [35]:
# Оценка модели
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         1.0       0.49      0.53      0.51        87
         2.0       0.47      0.39      0.43        56
         3.0       0.57      0.69      0.63        75
         4.0       0.63      0.59      0.61        46
         5.0       0.00      0.00      0.00         0
         6.0       0.00      0.00      0.00         1
         7.0       0.20      0.11      0.14         9
         8.0       0.50      0.55      0.52        44
         9.0       0.00      0.00      0.00         9
        10.0       0.62      0.50      0.55        26
        11.0       0.68      0.76      0.71        98
        12.0       0.62      0.45      0.53        11
        13.0       0.56      0.56      0.56        18
        15.0       0.61      0.51      0.56        49

    accuracy                           0.57       529
   macro avg       0.42      0.40      0.41       529
weighted avg       0.56      0.57      0.56       529



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
