In [None]:
import pandas as pd
import os

# Установить путь к папке data / # Set path to data folder
data_path = os.path.join(os.path.dirname(os.getcwd()), 'data')


# Get list of all Excel files in data folder / Получить список всех Excel файлов в папке data
excel_files = [f for f in os.listdir(data_path) if f.endswith(('.xlsx', '.xls')) and f.startswith('listings')]

# Create empty list for dataframes / Создать пустой список для датафреймов
dfs = []

# Process each file / Обработать каждый файл
for file in excel_files:
    file_path = os.path.join(data_path, file)
    print(f"\nProcessing file: {file}")
    
    try:
        # Read Excel file / Прочитать Excel файл
        df = pd.read_excel(file_path)
        
        # Select required columns / Выбрать нужные колонки
        required_columns = ['id', 'last_scraped', 'room_type', 'price', 'neighbourhood_cleansed']
        df = df[required_columns]
        
        # Add dataframe to list / Добавить датафрейм в список
        dfs.append(df)
        print(f"Successfully processed file:{file}")
        print(f"Dataframe size: {df.shape}")
        print("\nFirst rows:")
        print(df.head())
        
    except Exception as e:
        print(f"Error processing file {file}: {str(e)}")

# Combine all dataframes / Объединить все датафреймы
if dfs:
    combined_df = pd.concat(dfs, ignore_index=True)
    print(f"\nTotal size of combined dataframe:  {combined_df.shape}")
    print("\nFirst rows of combined dataframe:")
    print(combined_df.head())
else:
    print("\nNo dataframes were successfully processed")


Обработка файла: listings 03_2024.xlsx
Успешно обработан файл: listings 03_2024.xlsx
Размер датафрейма: (26024, 5)

Первые 5 строк:
       id last_scraped        room_type    price neighbourhood_cleansed
0   21853   2024-03-22     Private room   $31.00               Cármenes
1   24805   2024-03-22  Entire home/apt   $92.00            Universidad
2  204570   2024-03-22  Entire home/apt  $180.00                 Cortes
3   30320   2024-03-22  Entire home/apt      NaN                    Sol
4  205199   2024-03-22  Entire home/apt   $65.00            Universidad

Обработка файла: listings 03_2025.xlsx
Успешно обработан файл: listings 03_2025.xlsx
Размер датафрейма: (25288, 5)

Первые 5 строк:
      id last_scraped        room_type   price neighbourhood_cleansed
0  21853   2025-03-11     Private room  $29.00               Cármenes
1  30320   2025-03-10  Entire home/apt     NaN                    Sol
2  30959   2025-03-10  Entire home/apt     NaN            Embajadores
3  40916   2025-03-10 

In [None]:
 # Save combined dataframe / Сохранить объединенный датафрейм в Excel файл
output_path = os.path.join(data_path, 'combined_data.xlsx')
combined_df.to_excel(output_path, index=False)
print(f"\Combined dataframes were successfully saved: {output_path}")