In [1]:
import pandas as pd
from pandas.api.types import CategoricalDtype
import pyarrow as pa
import pyarrow.parquet as pq
from tqdm import tqdm

# --- 0. Конфигурация ---

csv_file = 'Chicago_Traffic_Tracker_-_Historical_Congestion_Estimates_by_Segment_-_2024-Current.csv'
parquet_file = 'Chicago_Traffic_Tracker_-_Historical_Congestion_Estimates_by_Segment_-_2024-Current.parquet'
chunksize = 1_000_000
n_lines = 73_000_000

# Столбцы для удаления (COMMENTS часто бесполезны)
columns_to_drop = ['COMMENTS']

# Столбцы-кандидаты на преобразование в экономный тип 'category'
categorical_cols = ['DIRECTION', 'STREET_HEADING', 'STREET']

# Карта для оптимальных числовых типов
dtype_map = {
    # Маленькие целые числа -> uint8 (0-255)
    'HOUR': 'uint8',
    'DAY_OF_WEEK': 'uint8',
    'MONTH': 'uint8',
    # Стандартные целые числа -> int32
    'SEGMENT_ID': 'int32',
    'BUS_COUNT': 'int32',
    'MESSAGE_COUNT': 'int32',
    # Числа с плавающей точкой -> float32
    'SPEED': 'float32',
    'LENGTH': 'float32',
    'START_LATITUDE': 'float32',
    'START_LONGITUDE': 'float32',
    'END_LATITUDE': 'float32',
    'END_LONGITUDE': 'float32',
}

# Явно указываем столбец с датой и его формат
date_column = 'TIME'
date_format = '%m/%d/%Y %I:%M:%S %p'

In [2]:
tmp = pd.read_csv(csv_file, chunksize=100).__next__().head()
tmp

Unnamed: 0,TIME,SEGMENT_ID,SPEED,STREET,DIRECTION,FROM_STREET,TO_STREET,LENGTH,STREET_HEADING,COMMENTS,...,HOUR,DAY_OF_WEEK,MONTH,RECORD_ID,START_LATITUDE,START_LONGITUDE,END_LATITUDE,END_LONGITUDE,START_LOCATION,END_LOCATION
0,05/14/2025 12:30:49 PM,1,25,55th,EB,Pulaski,Central Park,0.5,W,,...,12,4,5,0001-202505141730,41.793067,-87.72316,41.793141,-87.713607,POINT (-87.7231602513 41.7930671862),POINT (-87.7136071496 41.793140551)
1,05/14/2025 12:30:49 PM,2,27,55th,EB,Central Park,Kedzie,0.5,W,,...,12,4,5,0002-202505141730,41.793141,-87.713607,41.793377,-87.703555,POINT (-87.7136071496 41.793140551),POINT (-87.7035554211 41.7933767009)
2,05/14/2025 12:30:49 PM,3,-1,55th,EB,Kedzie,California,0.5,W,,...,12,4,5,0003-202505141730,41.793377,-87.703555,41.793554,-87.693799,POINT (-87.7035554211 41.7933767009),POINT (-87.693799302 41.7935536023)
3,05/14/2025 12:30:49 PM,4,-1,55th,EB,California,Western,0.5,W,,...,12,4,5,0004-202505141730,41.793554,-87.693799,41.793739,-87.684043,POINT (-87.693799302 41.7935536023),POINT (-87.6840431555 41.7937393759)
4,05/14/2025 12:30:49 PM,5,23,Garfield,EB,Western,Damen,0.5,W,,...,12,4,5,0005-202505141730,41.793739,-87.684043,41.793779,-87.674302,POINT (-87.6840431555 41.7937393759),POINT (-87.6743019717 41.7937791103)


In [3]:
# Столбцы для удаления (COMMENTS часто бесполезны)
columns_to_drop = ['COMMENTS']

# Столбцы-кандидаты на преобразование в экономный тип 'category'
categorical_cols = ['DIRECTION', 'STREET_HEADING', 'STREET']

# Карта для оптимальных числовых типов
dtype_map = {
    # Маленькие целые числа -> uint8 (0-255)
    'HOUR': 'uint8',
    'DAY_OF_WEEK': 'uint8',
    'MONTH': 'uint8',
    # Стандартные целые числа -> int32
    'SEGMENT_ID': 'int32',
    'BUS_COUNT': 'int32',
    'MESSAGE_COUNT': 'int32',
    # Числа с плавающей точкой -> float32
    'SPEED': 'float32',
    'LENGTH': 'float32',
    'START_LATITUDE': 'float32',
    'START_LONGITUDE': 'float32',
    'END_LATITUDE': 'float32',
    'END_LONGITUDE': 'float32',
}

# Явно указываем столбец с датой и его формат
date_column = 'TIME'
date_format = '%m/%d/%Y %I:%M:%S %p'

In [4]:
# --- 1. Первый проход: Сбор всех уникальных категорий ---

print("--- Начало первого прохода: Сбор уникальных категорий ---")
unique_values = {col: set() for col in categorical_cols}
pass1_iterator = pd.read_csv(csv_file, usecols=categorical_cols, chunksize=chunksize, low_memory=True)
for chunk in tqdm(pass1_iterator, total=n_lines // chunksize + 1):
    for col in categorical_cols:
        unique_values[col].update(chunk[col].dropna().unique())
print("Сбор уникальных значений завершен.")
for col, values in unique_values.items():
    print(f"  Найдено {len(values)} уникальных значений в столбце '{col}'.")
    
category_dtypes = {
    col: CategoricalDtype(categories=sorted(list(values)), ordered=False)
    for col, values in unique_values.items()
}

# --- 2. Второй проход: Конвертация и запись в Parquet ---

print("\n--- Начало второго прохода: Конвертация и запись данных ---")

def process_chunk(chunk, dtypes_map, cat_dtypes, date_col, date_fmt):
    """Функция для полной обработки одного чанка данных."""
    chunk.drop(columns=columns_to_drop, inplace=True, errors='ignore')

    for col, dtype in dtypes_map.items():
        if col in chunk.columns:
            chunk[col] = pd.to_numeric(chunk[col], errors='coerce').astype(dtype)

    for col, dtype in cat_dtypes.items():
        if col in chunk.columns:
            chunk[col] = chunk[col].astype(dtype)
            
    if date_col in chunk.columns:
        chunk[date_col] = pd.to_datetime(chunk[date_col], format=date_fmt, errors='coerce')
            
    return chunk

# Создаем итератор БЕЗ parse_dates. Столбец TIME будет прочитан как текст.
pass2_iterator = pd.read_csv(csv_file, iterator=True, chunksize=chunksize, low_memory=True)

# Обработка первого чанка для получения схемы
first_chunk = next(pass2_iterator)
first_chunk = process_chunk(first_chunk, dtype_map, category_dtypes, date_column, date_format)

# Получаем схему из обработанного чанка
schema = pa.Table.from_pandas(first_chunk, preserve_index=False).schema

# Запись в Parquet с помощью ParquetWriter
with pq.ParquetWriter(parquet_file, schema, compression='snappy') as writer:
    print("Обработана и записана часть 1...")
    writer.write_table(pa.Table.from_pandas(first_chunk, schema=schema, preserve_index=False))

    # Обрабатываем и записываем оставшиеся чанки
    for i, chunk in tqdm(enumerate(pass2_iterator, start=2), total=n_lines // chunksize):
        processed_chunk = process_chunk(chunk, dtype_map, category_dtypes, date_column, date_format)
        
        table = pa.Table.from_pandas(processed_chunk, schema=schema, preserve_index=False)
        writer.write_table(table)
        
        print(f"Обработана и записана часть {i}...")

print(f"\nКонвертация завершена! Оптимизированный файл '{parquet_file}' готов.")


--- Начало первого прохода: Сбор уникальных категорий ---


100%|██████████| 74/74 [02:08<00:00,  1.74s/it]


Сбор уникальных значений завершен.
  Найдено 8 уникальных значений в столбце 'DIRECTION'.
  Найдено 4 уникальных значений в столбце 'STREET_HEADING'.
  Найдено 62 уникальных значений в столбце 'STREET'.

--- Начало второго прохода: Конвертация и запись данных ---


  first_chunk = next(pass2_iterator)


Обработана и записана часть 1...


  for obj in iterable:
  1%|▏         | 1/73 [00:07<08:57,  7.46s/it]

Обработана и записана часть 2...


  for obj in iterable:
  3%|▎         | 2/73 [00:15<08:54,  7.53s/it]

Обработана и записана часть 3...


  for obj in iterable:
  4%|▍         | 3/73 [00:22<08:51,  7.59s/it]

Обработана и записана часть 4...


  for obj in iterable:
  5%|▌         | 4/73 [00:30<08:40,  7.54s/it]

Обработана и записана часть 5...


  for obj in iterable:
  7%|▋         | 5/73 [00:37<08:36,  7.59s/it]

Обработана и записана часть 6...


  for obj in iterable:
  8%|▊         | 6/73 [00:45<08:24,  7.52s/it]

Обработана и записана часть 7...


  for obj in iterable:
 10%|▉         | 7/73 [00:52<08:17,  7.55s/it]

Обработана и записана часть 8...


  for obj in iterable:
 11%|█         | 8/73 [01:00<08:05,  7.48s/it]

Обработана и записана часть 9...


 12%|█▏        | 9/73 [01:07<08:00,  7.51s/it]

Обработана и записана часть 10...


 14%|█▎        | 10/73 [01:14<07:46,  7.40s/it]

Обработана и записана часть 11...


 15%|█▌        | 11/73 [01:22<07:35,  7.34s/it]

Обработана и записана часть 12...


  for obj in iterable:
 16%|█▋        | 12/73 [01:29<07:24,  7.29s/it]

Обработана и записана часть 13...


  for obj in iterable:
 18%|█▊        | 13/73 [01:36<07:16,  7.27s/it]

Обработана и записана часть 14...


  for obj in iterable:
 19%|█▉        | 14/73 [01:43<07:04,  7.19s/it]

Обработана и записана часть 15...


  for obj in iterable:
 21%|██        | 15/73 [01:50<06:57,  7.19s/it]

Обработана и записана часть 16...


  for obj in iterable:
 22%|██▏       | 16/73 [01:58<06:53,  7.26s/it]

Обработана и записана часть 17...


  for obj in iterable:
 23%|██▎       | 17/73 [02:05<06:52,  7.36s/it]

Обработана и записана часть 18...


  for obj in iterable:
 25%|██▍       | 18/73 [02:12<06:38,  7.24s/it]

Обработана и записана часть 19...


  for obj in iterable:
 26%|██▌       | 19/73 [02:20<06:36,  7.34s/it]

Обработана и записана часть 20...


  for obj in iterable:
 27%|██▋       | 20/73 [02:27<06:34,  7.44s/it]

Обработана и записана часть 21...


  for obj in iterable:
 29%|██▉       | 21/73 [02:35<06:33,  7.56s/it]

Обработана и записана часть 22...


 30%|███       | 22/73 [02:43<06:25,  7.55s/it]

Обработана и записана часть 23...


 32%|███▏      | 23/73 [02:50<06:18,  7.56s/it]

Обработана и записана часть 24...


  for obj in iterable:
 33%|███▎      | 24/73 [02:58<06:12,  7.60s/it]

Обработана и записана часть 25...


  for obj in iterable:
 34%|███▍      | 25/73 [03:06<06:07,  7.66s/it]

Обработана и записана часть 26...


  for obj in iterable:
 36%|███▌      | 26/73 [03:13<05:57,  7.60s/it]

Обработана и записана часть 27...


  for obj in iterable:
 37%|███▋      | 27/73 [03:21<05:50,  7.63s/it]

Обработана и записана часть 28...


  for obj in iterable:
 38%|███▊      | 28/73 [03:28<05:39,  7.54s/it]

Обработана и записана часть 29...


  for obj in iterable:
 40%|███▉      | 29/73 [03:36<05:32,  7.56s/it]

Обработана и записана часть 30...


  for obj in iterable:
 41%|████      | 30/73 [03:43<05:22,  7.51s/it]

Обработана и записана часть 31...


 42%|████▏     | 31/73 [03:51<05:13,  7.47s/it]

Обработана и записана часть 32...


 44%|████▍     | 32/73 [03:58<05:03,  7.39s/it]

Обработана и записана часть 33...


  for obj in iterable:
 45%|████▌     | 33/73 [04:05<04:56,  7.41s/it]

Обработана и записана часть 34...


 47%|████▋     | 34/73 [04:13<04:51,  7.48s/it]

Обработана и записана часть 35...


 48%|████▊     | 35/73 [04:21<04:46,  7.53s/it]

Обработана и записана часть 36...


 49%|████▉     | 36/73 [04:28<04:41,  7.60s/it]

Обработана и записана часть 37...


 51%|█████     | 37/73 [04:36<04:34,  7.62s/it]

Обработана и записана часть 38...


 52%|█████▏    | 38/73 [04:44<04:27,  7.63s/it]

Обработана и записана часть 39...


  for obj in iterable:
 53%|█████▎    | 39/73 [04:52<04:20,  7.67s/it]

Обработана и записана часть 40...


  for obj in iterable:
 55%|█████▍    | 40/73 [04:59<04:14,  7.73s/it]

Обработана и записана часть 41...


  for obj in iterable:
 56%|█████▌    | 41/73 [05:07<04:07,  7.74s/it]

Обработана и записана часть 42...


 58%|█████▊    | 42/73 [05:15<03:56,  7.63s/it]

Обработана и записана часть 43...


  for obj in iterable:
 59%|█████▉    | 43/73 [05:22<03:47,  7.58s/it]

Обработана и записана часть 44...


  for obj in iterable:
 60%|██████    | 44/73 [05:29<03:38,  7.54s/it]

Обработана и записана часть 45...


  for obj in iterable:
 62%|██████▏   | 45/73 [05:37<03:32,  7.59s/it]

Обработана и записана часть 46...


  for obj in iterable:
 63%|██████▎   | 46/73 [05:45<03:24,  7.59s/it]

Обработана и записана часть 47...


 64%|██████▍   | 47/73 [05:52<03:15,  7.51s/it]

Обработана и записана часть 48...


 66%|██████▌   | 48/73 [05:59<03:06,  7.48s/it]

Обработана и записана часть 49...


  for obj in iterable:
 67%|██████▋   | 49/73 [06:07<02:58,  7.46s/it]

Обработана и записана часть 50...


  for obj in iterable:
 68%|██████▊   | 50/73 [06:14<02:50,  7.39s/it]

Обработана и записана часть 51...


 70%|██████▉   | 51/73 [06:19<02:24,  6.57s/it]

Обработана и записана часть 52...


 71%|███████   | 52/73 [06:23<02:05,  6.00s/it]

Обработана и записана часть 53...


 73%|███████▎  | 53/73 [06:28<01:51,  5.57s/it]

Обработана и записана часть 54...


 74%|███████▍  | 54/73 [06:33<01:39,  5.25s/it]

Обработана и записана часть 55...


 75%|███████▌  | 55/73 [06:37<01:31,  5.06s/it]

Обработана и записана часть 56...


 77%|███████▋  | 56/73 [06:42<01:24,  4.95s/it]

Обработана и записана часть 57...


 78%|███████▊  | 57/73 [06:47<01:18,  4.89s/it]

Обработана и записана часть 58...


 79%|███████▉  | 58/73 [06:51<01:12,  4.81s/it]

Обработана и записана часть 59...


 81%|████████  | 59/73 [06:56<01:06,  4.73s/it]

Обработана и записана часть 60...


 82%|████████▏ | 60/73 [07:00<01:01,  4.71s/it]

Обработана и записана часть 61...


 84%|████████▎ | 61/73 [07:05<00:56,  4.74s/it]

Обработана и записана часть 62...


 85%|████████▍ | 62/73 [07:10<00:52,  4.77s/it]

Обработана и записана часть 63...


 86%|████████▋ | 63/73 [07:15<00:48,  4.82s/it]

Обработана и записана часть 64...


 88%|████████▊ | 64/73 [07:20<00:43,  4.80s/it]

Обработана и записана часть 65...


 89%|████████▉ | 65/73 [07:25<00:38,  4.80s/it]

Обработана и записана часть 66...


 90%|█████████ | 66/73 [07:29<00:33,  4.74s/it]

Обработана и записана часть 67...


 92%|█████████▏| 67/73 [07:34<00:28,  4.72s/it]

Обработана и записана часть 68...


 93%|█████████▎| 68/73 [07:38<00:23,  4.69s/it]

Обработана и записана часть 69...


 95%|█████████▍| 69/73 [07:43<00:18,  4.71s/it]

Обработана и записана часть 70...


 96%|█████████▌| 70/73 [07:48<00:13,  4.62s/it]

Обработана и записана часть 71...


 97%|█████████▋| 71/73 [07:52<00:09,  4.59s/it]

Обработана и записана часть 72...


 99%|█████████▊| 72/73 [07:57<00:04,  4.54s/it]

Обработана и записана часть 73...


100%|██████████| 73/73 [07:59<00:00,  6.57s/it]

Обработана и записана часть 74...

Конвертация завершена! Оптимизированный файл 'Chicago_Traffic_Tracker_-_Historical_Congestion_Estimates_by_Segment_-_2024-Current.parquet' готов.



