In [1]:
import pandas as pd
import glob
import os

# --- 1. Настройка путей ---

# Убедимся, что мы находимся в главной директории проекта
# (Этот код должен быть в начале вашего ноутбука)
PROJECT_PATH = "/content/drive/MyDrive/GitHub/no2_prediction_pipeline"
%cd {PROJECT_PATH}

# Папка, где лежат ваши разделенные по годам CSV-файлы
# Судя по скриншоту, это 'data/raw/add_predictors/'
SOURCE_FOLDER = 'data/raw/add_predictors_Alm'

# --- 2. Поиск и фильтрация нужных файлов ---

# Составляем шаблон для поиска всех CSV в указанной папке
all_csv_files = glob.glob(os.path.join(SOURCE_FOLDER, "*.csv"))

# Создаем пустой список, куда будем складывать датафреймы
files_to_combine = []

print("Найдены следующие файлы для объединения:")
for file_path in all_csv_files:
    # Отбираем только файлы за нужные годы (2019-2024)
    if any(str(year) in file_path for year in range(2019, 2025)):
        print(f" - {os.path.basename(file_path)}")
        files_to_combine.append(file_path)

# --- 3. Чтение и объединение ---

# Создаем список, в который прочитаем каждый CSV как отдельный DataFrame
list_of_dataframes = [pd.read_csv(file) for file in files_to_combine]

# Объединяем все датафреймы из списка в один большой
if list_of_dataframes:
    combined_df = pd.concat(list_of_dataframes, ignore_index=True)

    # --- 4. Постобработка и сохранение ---

    # Преобразуем колонку 'date' в правильный формат даты
    combined_df['date'] = pd.to_datetime(combined_df['date'])

    # Сортируем весь датафрейм по дате, чтобы все было в хронологическом порядке
    combined_df = combined_df.sort_values(by='date').reset_index(drop=True)

    print("\n--- Итоговый датафрейм ---")
    print(f"Общее количество строк: {len(combined_df)}")
    print(f"Временной диапазон: от {combined_df['date'].min().date()} до {combined_df['date'].max().date()}")
    print("Первые 5 строк объединенного файла:")
    print(combined_df.head())

    # Папка для сохранения обработанных данных (хорошая практика)
    PROCESSED_FOLDER = 'data/processed/Alm'
    if not os.path.exists(PROCESSED_FOLDER):
        os.makedirs(PROCESSED_FOLDER)

    # Сохраняем итоговый файл
    output_filename = os.path.join(PROCESSED_FOLDER, 'Alm_data_2019_to_2024_COMBINED_WITH_AAI.csv')
    combined_df.to_csv(output_filename, index=False)

    print(f"\n✅ Файлы успешно объединены и сохранены в: {output_filename}")

else:
    print("❌ Не найдено файлов для объединения. Проверьте путь в SOURCE_FOLDER.")

/content/drive/MyDrive/GitHub/no2_prediction_pipeline
Найдены следующие файлы для объединения:
 - Almetyevsk_data_2019_FULL_YEAR.csv
 - Almetyevsk_data_2020_FULL_YEAR.csv
 - Almetyevsk_data_2021_FULL_YEAR.csv
 - Almetyevsk_data_2022_FULL_YEAR.csv
 - Almetyevsk_data_2023_FULL_YEAR.csv
 - Almetyevsk_data_2024_FULL_YEAR.csv

--- Итоговый датафрейм ---
Общее количество строк: 2192
Временной диапазон: от 2019-01-01 до 2024-12-31
Первые 5 строк объединенного файла:
        date        city  no2_trop_mean  aai_mean  cloud_frac_mean  \
0 2019-01-01  Almetyevsk            NaN  0.000000         0.875685   
1 2019-01-02  Almetyevsk            NaN -0.996572         0.623044   
2 2019-01-03  Almetyevsk            NaN -1.908676         0.742129   
3 2019-01-04  Almetyevsk            NaN  0.000000         0.964583   
4 2019-01-05  Almetyevsk            NaN  0.000000         0.962941   

   temperature_celsius  pressure_hpa  u_wind_10m  v_wind_10m  
0           -14.471187   1002.268750    0.949313    

In [2]:
combined_df

Unnamed: 0,date,city,no2_trop_mean,aai_mean,cloud_frac_mean,temperature_celsius,pressure_hpa,u_wind_10m,v_wind_10m
0,2019-01-01,Almetyevsk,,0.000000,0.875685,-14.471187,1002.268750,0.949313,2.578113
1,2019-01-02,Almetyevsk,,-0.996572,0.623044,-6.622771,1000.232828,0.652604,3.897729
2,2019-01-03,Almetyevsk,,-1.908676,0.742129,-8.037156,1002.912985,0.086032,3.436004
3,2019-01-04,Almetyevsk,,0.000000,0.964583,-10.152386,998.543529,-0.141057,3.752814
4,2019-01-05,Almetyevsk,,0.000000,0.962941,-8.717924,988.175337,-1.200693,4.094333
...,...,...,...,...,...,...,...,...,...
2187,2024-12-27,Almetyevsk,,0.000000,,-3.560827,998.842542,3.544792,1.122888
2188,2024-12-28,Almetyevsk,,0.000000,,-4.175131,998.900399,1.819041,0.353658
2189,2024-12-29,Almetyevsk,,-0.738798,0.687194,-6.799218,999.089368,1.147871,0.636525
2190,2024-12-30,Almetyevsk,0.000027,-0.259113,0.322594,-8.746794,993.574880,1.721866,3.809491
