In [4]:
import pandas as pd
import os
from tqdm import tqdm

# 📂 Папки
input_dir = "raw_data"
output_dir = "sample_data"

# 🛠 Создание папки для выходных данных, если не существует
os.makedirs(output_dir, exist_ok=True)

# 📄 Список всех .csv и .pkl файлов из raw_data
files = [f for f in os.listdir(input_dir) if f.endswith((".csv", ".pkl"))]

# 🚀 Основной цикл с прогрессбаром
for file in tqdm(files, desc="Обработка файлов", unit="файл"):
    try:
        ext = os.path.splitext(file)[1]   # ".pkl" или ".csv"
        base = os.path.splitext(file)[0]  # имя без расширения

        input_path = os.path.join(input_dir, file)
        output_path = os.path.join(output_dir, f"sample_{base}{ext}")

        # 📥 Загрузка
        if ext == ".pkl":
            df = pd.read_pickle(input_path)
        elif ext == ".csv":
            df = pd.read_csv(input_path)
        else:
            print(f"⚠️ Пропуск: неподдерживаемый формат {file}")
            continue

        # ✂️ Сэмпл
        sample_df = df.sample(n=min(50, len(df)), random_state=42)

        # 💾 Сохранение
        if ext == ".pkl":
            sample_df.to_pickle(output_path)
        elif ext == ".csv":
            sample_df.to_csv(output_path, index=False)

    except Exception as e:
        print(f"❌ Ошибка при обработке {file}: {e}")

# ✅ Финальное сообщение
print(f"\n🎉 Обработка завершена! Сэмплы сохранены в папку: {output_dir}/")


  df = pd.read_csv(input_path)
Обработка файлов: 100%|█████████████████████████| 4/4 [02:46<00:00, 41.61s/файл]


🎉 Обработка завершена! Сэмплы сохранены в папку: sample_data/



