# Convert To Feather

Vamos lidar com arquivos relativamente grandes. De forma a agilizar o processo de leitura dos dados na diversas iterações do projeto, vamos converter os arquivos atualmente em csv para feather.

<br><br>
<hr>
@author: [Pedro Correia](https://github.com/pfcor)

In [15]:
import pandas as pd
import feather as ft
import os

Para comparação, vamos primeiramente, apenas ler os arquivos csv e medir quanto tempo leva:

In [16]:
%%time

for csv_file in os.listdir("data/formatted/"):
    if not csv_file.endswith(".csv"):
        continue
    print(f"{f'reading {csv_file}...':<35}", end=" ", flush=True)
    df = pd.read_csv(os.path.join("data/formatted/", csv_file))
    print("ok")

reading artists.csv...              ok
reading playlists.csv...            ok
reading playlist_track.csv...       ok
reading tracks.csv...               ok
Wall time: 47 s


Vamos agora convertê-los para feather e salvar o novo arquivo na mesma pasta:

In [18]:
%%time

for csv_file in os.listdir("data/formatted/"):
    if not csv_file.endswith(".csv"):
        continue
    print(f"{f'converting {csv_file}...':<35}", end=" ", flush=True)
    df = pd.read_csv(os.path.join("data/formatted/", csv_file))
    df.to_feather(os.path.join("data/formatted/", csv_file.replace(".csv", ".fthr")))
    print("ok")

converting artists.csv...           ok
converting playlists.csv...         ok
converting playlist_track.csv...    ok
converting tracks.csv...            ok
Wall time: 1min 17s


Agora, vamos apenas ler os aruivos feather para medir o ganho de tempo em relação ao csv puro.

In [19]:
%%time

for fthr_file in os.listdir("data/formatted/"):
    if not fthr_file.endswith(".fthr"):
        continue
    print(f"{f'reading {fthr_file}...':<35}", end=" ", flush=True)
    df = ft.read_dataframe(os.path.join("data/formatted/", fthr_file))
    print("ok")

reading artists.fthr...             ok
reading playlists.fthr...           ok
reading playlist_track.fthr...      ok
reading tracks.fthr...              ok
Wall time: 4.52 s


Cerca de 10x mais rápida leitura.

<hr>