In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
import os

In [6]:
DATA_DIR = "data"
TEST_SIZE = 0.2
RANDOM_STATE = 42

def split_csv(filename: str, label_col: str):
    path = os.path.join(DATA_DIR, filename)
    df = pd.read_csv(path)
    df = df.dropna(subset=[label_col])
    
    print(f"Файл: {filename}")
    print("Размер исходного датасета:", len(df))
    print("Распределение классов:")
    print(df[label_col].value_counts(), "\n")
    
    train_df, test_df = train_test_split(
        df,
        test_size=TEST_SIZE,
        stratify=df[label_col],
        random_state=RANDOM_STATE
    )

    train_path = os.path.join(DATA_DIR, filename.replace(".csv", "_train.csv"))
    test_path = os.path.join(DATA_DIR, filename.replace(".csv", "_test.csv"))

    train_df.to_csv(train_path, index=False)
    test_df.to_csv(test_path, index=False)

    print(f" - {train_path} ({len(train_df)} строк)")
    print(f" - {test_path} ({len(test_df)} строк)")

In [7]:
split_csv("parking_label.csv", label_col="parking")
split_csv("scooters_label.csv", label_col="scooter")

Файл: parking_label.csv
Размер исходного датасета: 44889
Распределение классов:
parking
inside         27481
hard_to_say    10625
outside         6783
Name: count, dtype: int64 

 - data\parking_label_train.csv (35911 строк)
 - data\parking_label_test.csv (8978 строк)
Файл: scooters_label.csv
Размер исходного датасета: 49004
Распределение классов:
scooter
present    35859
part        9011
absent      4134
Name: count, dtype: int64 

 - data\scooters_label_train.csv (39203 строк)
 - data\scooters_label_test.csv (9801 строк)
