In [2]:
import pandas as pd
import os

def convert_csv_to_tsv(csv_filepath, tsv_filepath):
    """
    Конвертирует CSV файл в TSV файл.

    Args:
        csv_filepath: Путь к CSV файлу.
        tsv_filepath: Путь к TSV файлу (куда сохранить).
    """
    try:
        df = pd.read_csv(csv_filepath) # Читаем CSV
        df.to_csv(tsv_filepath, sep='\t', index=False) # Сохраняем как TSV, sep='\t' указывает разделитель табуляцией, index=False убирает индекс
        print(f"Файл {csv_filepath} успешно конвертирован в {tsv_filepath}")
    except FileNotFoundError:
        print(f"Ошибка: Файл {csv_filepath} не найден.")
    except Exception as e:
        print(f"Ошибка при конвертации файла {csv_filepath}: {e}")


def main():
    csv_files = [
        "../data/processed/dataset.csv",
        "../data/processed/dataset_oversampled.csv"
    ]

    for csv_file in csv_files:
        tsv_file = os.path.splitext(csv_file)[0] + ".tsv" # Меняем расширение на .tsv
        convert_csv_to_tsv(csv_file, tsv_file)

if __name__ == "__main__":
    main()



Файл ../data/processed/dataset.csv успешно конвертирован в ../data/processed/dataset.tsv
Файл ../data/processed/dataset_oversampled.csv успешно конвертирован в ../data/processed/dataset_oversampled.tsv


In [3]:
from sklearn.model_selection import train_test_split
import pandas as pd

data = pd.read_csv("../data/processed/dataset.tsv", sep='\t', header=None, names=['description', 'category'])
train_data, val_data = train_test_split(data, test_size=0.2, stratify=data['category'], random_state=42)

val_data.to_csv("../data/processed/val_data_dataset.tsv", sep='\t', index=False)