In [1]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from collections import Counter
from typing import Generator, Tuple

In [2]:
def load_file(path) -> pd.DataFrame:
    """Загружает данные из exel файла, удаляет незаполненные значения, формирует колонку временной метки"""
    
    df = pd.read_excel(path, header=0)
    df['DateTime']= pd.to_datetime(df['Date'].astype(str)+' '+ df['Time'].astype(str))
    df = df.drop(['Date', 'Time'], axis=1)
    df.replace('-',np.NaN, inplace=True)
    df.dropna(axis=0, how='any', inplace=True)
    return df

def replace_outliers(df: pd.DataFrame, chunk_size: int, threshold: float) -> pd.DataFrame:
    filtered_data = df.copy()

    # Итерируемся по столбцам DataFrame
    for column in df.columns:
        # Пропускаем столбец с датой и временем
        if column == df.index.name or column == 'Расход нафты ККР на установку'or column == 'DateTime':
            continue

        # Разделяем столбец на блоки размером chunk_size
        chunks = [df[column].iloc[i:i + chunk_size].copy() for i in range(0, len(df), chunk_size)]
        
        # Вычисляем среднее значение для каждого блока
        averages = [chunk.mean() for chunk in chunks]
        averages = pd.Series(averages)

        # Вычисляем границы значения на основе порога threshold
        lower_bound = np.percentile(averages, threshold)
        upper_bound = np.percentile(averages, 100 - threshold)

        # Если все значения средних являются пустыми, пропускаем столбец
        if averages.isnull().all():
            continue

        # Заменяем значения в блоках, которые выходят за границы
        for i, avg in averages.items():
            if avg < lower_bound or avg > upper_bound:
                start_index = i * chunk_size
                end_index = (i + 1) * chunk_size
                filtered_data.loc[start_index:end_index, column] = np.nan
    
    # Применяем линейную интерполяцию и заполняем пропущенные значения
    for column in filtered_data.columns:
        if column != df.index.name:
            filtered_data[column] = filtered_data[column].interpolate(method='linear')
            filtered_data[column].fillna(method='ffill', inplace=True)
            filtered_data[column].fillna(method='bfill', inplace=True)

    return filtered_data

def construct_XY(df_X: pd.DataFrame, df_Y: pd.DataFrame, diff1: pd.Timedelta, diff2: pd.Timedelta) -> Generator[Tuple[np.ndarray, np.ndarray, pd.Timestamp, Tuple[pd.Timestamp, ...]], None, None]:
    """Формирует генератор точек X и Y, каждому Y соответствует несколько X во временном промежутке"""
    
    num = 0
    Y = df_Y.iloc[num, :-1].to_numpy(dtype=np.float64)
    timeY = df_Y.iloc[num, -1]
    X = np.array([], dtype=np.float64).reshape(0, len(df_X.columns)-1)
    timeX_tuples = []  # Пустой список для хранения временных меток

    for i in range(len(df_X)):
        timeX = df_X.iloc[i, -1]
        if timeX > timeY:
            yield X, Y, timeY, tuple(timeX_tuples)
            num += 1
            if num >= len(df_Y):
                break
            
            X = np.array([], dtype=np.float64).reshape(0, len(df_X.columns)-1)
            timeX_tuples = []  # Сбросить список временных меток для следующего набора Y
            Y = df_Y.iloc[num, :-1].to_numpy(dtype=np.float64)
            timeY = df_Y.iloc[num, -1]
        
        if (timeY - timeX > diff2) or (timeY - timeX < diff1):
            continue

        tmp_X = df_X.iloc[i, :-1].to_numpy(dtype=np.float64)
        X = np.vstack((X, tmp_X))
        timeX_tuples.append(timeX)  # Добавить временную метку в список

    # Убедитесь, что последний набор данных также возвращается, если цикл завершается до того, как timeX превышает timeY
    if X.size > 0:
        yield X, Y, timeY, tuple(timeX_tuples)

In [6]:
df_Y1 = load_file('Исходные данные/Лабораторные анализы Давление насыщенных паров в продукте, зимний период.xlsx')
df_X1 = replace_outliers(load_file('Исходные данные/Процессные данные Давление насыщенных паров в продукте, зимний период.xlsx'),50,10)


  filtered_data[column].fillna(method='ffill', inplace=True)
  filtered_data[column].fillna(method='bfill', inplace=True)


In [15]:
diff1 = pd.to_timedelta('1h')
diff2 = pd.to_timedelta('4h')

In [16]:
for _, Y, timeY, timeX in construct_XY(df_X1, df_Y1, diff1, diff2):
    print("Y:", Y)
    print("timeY:", timeY)
    print("timeX:", timeX)
    print("---")  # Разделитель для каждой генерированной четверки значений


Y: [49.8]
timeY: 2022-01-01 11:21:00
timeX: (Timestamp('2022-01-01 08:30:00'), Timestamp('2022-01-01 09:55:00'))
---
Y: [52.3]
timeY: 2022-01-02 10:50:00
timeX: (Timestamp('2022-01-02 07:10:00'), Timestamp('2022-01-02 08:35:00'))
---
Y: [50.7]
timeY: 2022-01-03 10:24:48
timeX: (Timestamp('2022-01-03 07:15:00'), Timestamp('2022-01-03 08:40:00'))
---
Y: [52.6]
timeY: 2022-01-04 11:12:49
timeX: (Timestamp('2022-01-04 07:20:00'), Timestamp('2022-01-04 08:45:00'), Timestamp('2022-01-04 10:10:00'))
---
Y: [54.7]
timeY: 2022-01-05 10:23:28
timeX: (Timestamp('2022-01-05 07:25:00'), Timestamp('2022-01-05 08:50:00'))
---
Y: [53.8]
timeY: 2022-01-06 11:19:20
timeX: (Timestamp('2022-01-06 07:30:00'), Timestamp('2022-01-06 08:55:00'))
---
Y: [54.4]
timeY: 2022-01-07 10:22:17
timeX: (Timestamp('2022-01-07 07:35:00'), Timestamp('2022-01-07 09:00:00'))
---
Y: [55.5]
timeY: 2022-01-08 10:26:39
timeX: (Timestamp('2022-01-08 07:40:00'), Timestamp('2022-01-08 09:05:00'))
---
Y: [55.5]
timeY: 2022-01-09 10