In [1]:
import pandas as pd

def sample_parquet(input_file, output_file, sample_frac=0.1, random_state=42):
    """
    Читает файл Parquet, выбирает случайную подвыборку и сохраняет её.
    
    :param input_file: путь к исходному файлу Parquet
    :param output_file: путь для сохранения сэмпла
    :param sample_frac: доля строк для выборки (по умолчанию 0.1, то есть 10%)
    :param random_state: значение random_state для воспроизводимости выборки
    """
    # Чтение исходного файла
    df = pd.read_parquet(input_file)
    
    # Выборка случайных строк
    sample_df = df.sample(frac=sample_frac, random_state=random_state)
    
    # Сохранение сэмпла в новый файл Parquet
    sample_df.to_parquet(output_file)
    print(f"Сэмпл сохранён в {output_file}. Размер сэмпла: {len(sample_df)} строк.")

In [2]:
# Пример использования для каждого файла:
sample_parquet('tracks.parquet', 'tracks_sample.parquet', sample_frac=0.1)
sample_parquet('catalog_names.parquet', 'catalog_names_sample.parquet', sample_frac=0.1)
sample_parquet('interactions.parquet', 'interactions_sample.parquet', sample_frac=0.1)

Сэмпл сохранён в tracks_sample.parquet. Размер сэмпла: 100000 строк.
Сэмпл сохранён в catalog_names_sample.parquet. Размер сэмпла: 181247 строк.
Сэмпл сохранён в interactions_sample.parquet. Размер сэмпла: 22262990 строк.


In [None]:
# Чтобы не выбивало kernel на этапе приведения типов, напишем функцию
def convert_column_to_str_batches(df, col_name, batch_size=100000):
    """
    Преобразует столбец col_name в DataFrame df к строковому типу батчами.
    Сначала столбец приводится к типу object, чтобы избежать предупреждений.
    
    :param df: DataFrame, содержащий столбец
    :param col_name: имя столбца, который нужно привести к str
    :param batch_size: размер батча для обработки (по умолчанию 100000 строк)
    :return: DataFrame с преобразованным столбцом
    """
    # Сначала меняем тип столбца на object для избежания предупреждений
    df[col_name] = df[col_name].astype(object)
    
    total_rows = len(df)
    col_index = df.columns.get_loc(col_name)
    
    for start in range(0, total_rows, batch_size):
        end = min(start + batch_size, total_rows)
        df.iloc[start:end, col_index] = df.iloc[start:end, col_index].astype(str)
        print(f"Обработано строк с {start} до {end}")
        
    return df