In [45]:
import pandas as pd


# Функция для обработки файла с фиксированной шириной столбцов и сохранения в CSV
def convert_rpt_to_csv(input_file, output_file, chunk_size=100000):
    """
    Конвертирует файл .rpt в CSV, используя фиксированные ширины столбцов.
    
    Parameters:
    input_file (str): Путь к исходному файлу .rpt.
    output_file (str): Путь к выходному файлу .csv.
    chunk_size (int): Количество строк, которые обрабатываются за один раз.
    """
    
    # Определение ширин столбцов (примерные данные, которые нужно подстроить под структуру файла)
    colspecs = [
        (0, 20), # id_pool 
        (20, 32),  # id_courier
        (32, 55),  # courier_type
        (55, 76),  # id_job
        (76, 100),  # pool_date_start
        (100, 112),  # sort_order
        (112, 133),  # id_general
        (133, 147),  # distance
        (147, 198),  # status_str
        (198, 223),  # date_status
        (223, 234), # id_general.1
        (234, 275),  # total_order_weight
        (275, 288), # total_orders
        (288, 311), # first_date_order
        (311, 335), # last_date_order
        (335, 360),  # date_supply
        (360, 383),  # date_supply_untill
        (383, 408),  # date_collected
        (408, 431),  # date_delivery_start
        (431, 455),  # date_delivered
        (455, 467),  # id_courier.1
        (467, 479),  # id_service
        (479, 490),  # id_source
        (490, 530),  # latitude_order 
        (530, 570),  # longitude_order
        (570, 610),  # N
        (610, 650),  # shirota
        (650, 690),  # dolgota
        (690, 705)   # gen_distance
    ]

    # Итеративное чтение файла кусками для экономии памяти
    for chunk in pd.read_fwf(input_file, colspecs=colspecs, chunksize=chunk_size):
        # Сохраняем куски в CSV по мере обработки
        # chunk = chunk[~chunk['id_order'].str.contains("[-]+")]
        chunk.to_csv(output_file, mode='a', header=not pd.io.common.file_exists(output_file), index=False, encoding='utf-8')
    # df = pd.read_fwf(input_file, colspecs=colspecs, nrows=50)
    # # df = df[~df['id_order'].str.contains("[-]+")]
    # # Сохранение в CSV
    # df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"Файл {output_file} успешно создан.")

# Пример использования:
input_file = 'rpt/07-08.rpt'
# input_file = '../rpt_csv/rpt/заказы_12.2023-01.2024.rpt'
output_file = 'csv/07-08.csv'
# output_file = 'заказы_08-10.2024.csv'
convert_rpt_to_csv(input_file, output_file)


Файл csv/07-08.csv успешно создан.


### нахождение границ

In [43]:
import pandas as pd

# Чтение первых 10 строк из файла с разделителем табуляция ('\t') или пробел (' ')
# Попробуйте сначала '\t', если это не сработает, замените на ' ' (пробел)
df = pd.read_csv('rpt/07-08.rpt', sep='\t', engine='python', nrows=1000)

# Сохранение первых 10 строк в CSV
df.to_csv('output_first_10_rows.csv', index=False, encoding='utf-8')

print("Первые 10 строк успешно преобразованы в CSV.")


Файл csv/07-08.csv успешно создан.


In [6]:
strg = '-------------------- ----------- ---------------------- -------------------- ----------------------- ----------- -------------------- ------------- -------------------------------------------------- ----------------------- ----------- --------------------------------------- ------------ ----------------------- ----------------------- ----------------------- ----------------------- ----------------------- ----------------------- ----------------------- ----------- ---------- ----------- --------------------------------------- --------------------------------------- --------------------------------------- --------------------------------------- --------------------------------------- -------------'
lis_ = strg.split(' ')
s = 0
for _ in lis_:
    s = s + len(_)
    print(len(_), s)

20 20
11 31
22 53
20 73
23 96
11 107
20 127
13 140
50 190
23 213
11 224
39 263
12 275
23 298
23 321
23 344
23 367
23 390
23 413
23 436
11 447
10 457
11 468
39 507
39 546
39 585
39 624
39 663
13 676


In [37]:
print(len('---------------------------------------'))

39
