# JSON-tiedostot Parquet-muotoon
- Luetaan JSON-tiedostot hakemistosta
- Poistetaan tarpeettomat sarakkeet
- Normalisoidaan JSON
- Tallennetaan jokainen omaksi parquet-tiedostokseen

In [None]:
import pandas as pd
import pyarrow.dataset as ds
import pyarrow.parquet as pq
import datetime as dt
import os


file_path = r'Data\Temp'
output_dir = r'Data\Processed'
output_file = r'Data\vr_trains_2025.parquet'

folders = [f for f in os.listdir(file_path) if os.path.isdir(os.path.join(file_path, f))]


def create_modified_df(df):
    print(f'df shape: {df.shape}')
    columns = ['departureDate', 'trainNumber', 'trainCategory', 'trainType', 'commuterLineID', 'stationShortCode', 'type', 
           'scheduledTime', 'actualTime', 'differenceInMinutes', 'operatorUICCode', 'operatorShortCode', 'cancelled']
    
    df = df.drop(columns=['runningCurrently', 'version', 'timetableType', 'timetableAcceptanceDate', 'cancelled'], errors='ignore')
    trains = df.explode('timeTableRows', ignore_index=True)
    print(f'df shape exploden jälkeen: {trains.shape}')
    trains = trains.drop(columns=['cancelled'], errors='ignore')
    tt_rows_df = pd.json_normalize(trains['timeTableRows'])[['stationShortCode', 'type', 'scheduledTime',
                                                             'actualTime', 'differenceInMinutes', 'cancelled']]
    
    trains = trains.drop(columns=['timeTableRows'], errors='ignore')
    trains[tt_rows_df.columns] = tt_rows_df

    trains = trains.reindex(columns=columns)
    print(f'df shape yhdistämisen ja turhien sarakkeiden poiston jälkeen: {trains.shape}')

    return trains



for i, file in enumerate(os.listdir(file_path)):
    print(f'Käsitellään tiedostoa: {file}')
    temp_df = pd.read_json(os.path.join(file_path, file))
    trains = create_modified_df(temp_df) 

    out = os.path.join(output_dir, f'file{i}.parquet')

    print(f'Luodaan parquet-tiedosto)...')
    trains.to_parquet(
        out,
        index=False,
        engine='pyarrow',
        compression='snappy',
    )

print('Solun suoritus valmis.')

Käsitellään tiedostoa: 2025-01-01_trains.json
df shape: (1446, 13)
df shape exploden jälkeen: (60920, 8)
df shape yhdistämisen jälkeen: (60920, 13)
df shape sarakkeiden poiston jälkeen: (60920, 13)
Luodaan parquet-tiedosto)...
Käsitellään tiedostoa: 2025-01-02_trains.json
df shape: (1800, 13)
df shape exploden jälkeen: (70466, 8)
df shape yhdistämisen jälkeen: (70466, 13)
df shape sarakkeiden poiston jälkeen: (70466, 13)
Luodaan parquet-tiedosto)...
Käsitellään tiedostoa: 2025-01-03_trains.json
df shape: (1847, 13)
df shape exploden jälkeen: (72110, 8)
df shape yhdistämisen jälkeen: (72110, 13)
df shape sarakkeiden poiston jälkeen: (72110, 13)
Luodaan parquet-tiedosto)...
Käsitellään tiedostoa: 2025-01-04_trains.json
df shape: (1506, 13)
df shape exploden jälkeen: (60952, 8)
df shape yhdistämisen jälkeen: (60952, 13)
df shape sarakkeiden poiston jälkeen: (60952, 13)
Luodaan parquet-tiedosto)...
Käsitellään tiedostoa: 2025-01-05_trains.json
df shape: (1375, 13)
df shape exploden jälkeen

## Yhdistetään 365 parquet-tiedostoa yhdeksi tiedostoksi.

In [2]:
dataset = ds.dataset(output_dir, format="parquet")
table = dataset.to_table()
pq.write_table(table, output_file, compression='snappy')

print(f'trains df sisältää {table.num_rows} riviä ja {table.num_columns} saraketta.')

trains df sisältää 24012816 riviä ja 13 saraketta.
