In [None]:
import os
import re
import pandas as pd

def process_files(input_dir, output_file):
    # Регулярное выражение для проверки имени файла
    
    pattern = r'^\d{4}-\d{2}-\d{2}-\d{2}-\d{2}-\d+\.csv$'

    # Регулярное выражение (pattern): Используется для проверки имени файла, соответствующего шаблону ГГГГ-ММ-ДД-ЧЧ-ММ-idклиента.csv.
    #Регулярное выражение ^\d{4}-\d{2}-\d{2}-\d{2}-\d{2}-\d+\.csv$ проверяет, что имя файла состоит из четырех цифр (год), 
    #затем двух цифр (месяц), затем двух цифр (день), затем двух цифр (часы), затем двух цифр (минуты), 
    #и в конце — одна или более цифр (id клиента), и все это заканчивается расширением .csv.

        
    # Создаем список для хранения данных из всех подходящих файлов
    all_data = []
    header = None
    
    # Проходим по всем файлам в указанной директории
    for filename in os.listdir(input_dir):
        # Проверяем соответствие имени файла заданному шаблону
        if re.match(pattern, filename):
            file_path = os.path.join(input_dir, filename)
            try:
                # Чтение данных из файла
                df = pd.read_csv(file_path)
                
                # Если заголовок еще не установлен, берем его из первого файла
                if header is None:
                    header = df.columns
                else:
                    # Проверка на соответствие заголовков
                    # Если заголовок (колонки) первого файла установлен, 
                    #все последующие файлы проверяются на соответствие этому заголовку. Если заголовки не совпадают, файл пропускается.
                    if not all(df.columns == header):
                        print(f"Warning: Columns do not match in file {filename}. Skipping this file.")
                        continue
                
                # Добавляем данные в общий список
                all_data.append(df)
                
                #Если имя файла соответствует шаблону, файл открывается с помощью pandas.read_csv(), и его содержимое добавляется в список all_data.
                
            except Exception as e:
                print(f"Error processing file {filename}: {e}")
    
    # Объединяем все данные в один DataFrame
    # Все подходящие данные объединяются с помощью pd.concat(). Объединенные данные сохраняются в файл combined_data.csv.
    if all_data:
        combined_df = pd.concat(all_data, ignore_index=True)
        # Сохраняем объединенные данные в указанный выходной файл
        combined_df.to_csv(output_file, index=False)
        print(f"Combined data saved to {output_file}")
    else:
        print("No valid data files found.")

# Пример использования
input_directory = '/path/to/input/directory'
output_file_path = '/path/to/output/combined_data.csv'

# Функция process_files принимает два аргумента: путь к директории с входными файлами и путь для сохранения объединенного файла.

process_files(input_directory, output_file_path)