In [None]:
import pandas as pd
import numpy as np

In [None]:
def criar_df(tamanho):
    # Criar uma base de dados Fake
    df = pd.DataFrame()
    df['tamanho'] = np.random.choice(['grande','médio','pequeno'], tamanho)
    df['idade'] = np.random.randint(1, 50, tamanho)
    df['time'] = np.random.choice(['vermelho','azul','amarelo','verde'], tamanho)
    df['ganhou'] = np.random.choice(['sim','nao'], tamanho)
    data = pd.date_range('2021-01-01', '2023-12-31')
    df['data'] = np.random.choice(data, tamanho)
    df['pontos'] = np.random.uniform(0, 10, tamanho)
    return df

def definir_tipo(df):
    df['tamanho'] = df['tamanho'].astype('category')
    df['time'] = df['time'].astype('category')
    df['idade'] = df['idade'].astype('int16')
    df['ganhou'] = df['ganhou'].map({'sim':True, 'nao': False})
    df['pontos'] = df['pontos'].astype('float32')
    return df

In [None]:
df = criar_df(1_000_000)
df.info()

In [None]:
df.head()

In [None]:
df.to_csv('teste.csv')

In [15]:
import os

nome_arquivo = 'teste.csv'

# Obtendo o tamanho do arquivo em bytes
tamanho = os.path.getsize(nome_arquivo)

# Convertendo para megabytes
tamanho_em_megabytes = tamanho / (1024 * 1024)
print(f'O tamanho do arquivo {nome_arquivo} é {tamanho_em_megabytes:.2f} MB')

O tamanho do arquivo teste.csv é 55.61 MB


In [14]:
df = criar_df(1_000_000)
%timeit df.to_csv('teste.csv')
%timeit df = pd.read_csv('teste.csv')

2.17 s ± 61.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
472 ms ± 18 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   tamanho  1000000 non-null  object        
 1   idade    1000000 non-null  int32         
 2   time     1000000 non-null  object        
 3   ganhou   1000000 non-null  object        
 4   data     1000000 non-null  datetime64[ns]
 5   pontos   1000000 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int32(1), object(3)
memory usage: 42.0+ MB


In [17]:
df = definir_tipo(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   tamanho  1000000 non-null  category      
 1   idade    1000000 non-null  int16         
 2   time     1000000 non-null  category      
 3   ganhou   1000000 non-null  bool          
 4   data     1000000 non-null  datetime64[ns]
 5   pontos   1000000 non-null  float32       
dtypes: bool(1), category(2), datetime64[ns](1), float32(1), int16(1)
memory usage: 16.2 MB


In [18]:
df.to_csv('teste.csv',index=False)
df = pd.read_csv('teste.csv',)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype  
---  ------   --------------    -----  
 0   tamanho  1000000 non-null  object 
 1   idade    1000000 non-null  int64  
 2   time     1000000 non-null  object 
 3   ganhou   1000000 non-null  bool   
 4   data     1000000 non-null  object 
 5   pontos   1000000 non-null  float64
dtypes: bool(1), float64(1), int64(1), object(3)
memory usage: 39.1+ MB


# Pickle

In [21]:
df = criar_df(1_000_000)
%timeit df.to_pickle('teste.pickle')
%timeit df = pd.read_pickle('teste.pickle')

640 ms ± 14.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
213 ms ± 7.15 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [22]:
import os

nome_arquivo = 'teste.pickle'

# Obtendo o tamanho do arquivo em bytes
tamanho = os.path.getsize(nome_arquivo)

# Convertendo para megabytes
tamanho_em_megabytes = tamanho / (1024 * 1024)
print(f'O tamanho do arquivo {nome_arquivo} é {tamanho_em_megabytes:.2f} MB')

O tamanho do arquivo teste.pickle é 42.29 MB


In [23]:
df = criar_df(1_000_000)
df = definir_tipo(df)
df.to_pickle('teste.pickle')
df = pd.read_pickle('teste.pickle')

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   tamanho  1000000 non-null  category      
 1   idade    1000000 non-null  int16         
 2   time     1000000 non-null  category      
 3   ganhou   1000000 non-null  bool          
 4   data     1000000 non-null  datetime64[ns]
 5   pontos   1000000 non-null  float32       
dtypes: bool(1), category(2), datetime64[ns](1), float32(1), int16(1)
memory usage: 16.2 MB


# Parquet

In [25]:
!pip install pyarrow
!pip install fastparquet



In [26]:
df = criar_df(1_000_000)
%timeit df.to_parquet('teste.parquet')
%timeit df = pd.read_parquet('teste.parquet')

318 ms ± 6.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
113 ms ± 2.65 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [27]:
import os

nome_arquivo = 'teste.parquet'

# Obtendo o tamanho do arquivo em bytes
tamanho = os.path.getsize(nome_arquivo)

# Convertendo para megabytes
tamanho_em_megabytes = tamanho / (1024 * 1024)
print(f'O tamanho do arquivo {nome_arquivo} é {tamanho_em_megabytes:.2f} MB')

O tamanho do arquivo teste.parquet é 10.54 MB


In [28]:
df = criar_df(1_000_000)
df = definir_tipo(df)
df.to_parquet('teste.parquet')
df = pd.read_parquet('teste.parquet')

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   tamanho  1000000 non-null  category      
 1   idade    1000000 non-null  int16         
 2   time     1000000 non-null  category      
 3   ganhou   1000000 non-null  bool          
 4   data     1000000 non-null  datetime64[ns]
 5   pontos   1000000 non-null  float32       
dtypes: bool(1), category(2), datetime64[ns](1), float32(1), int16(1)
memory usage: 16.2 MB


# Feather

In [30]:
df = criar_df(1_000_000)
%timeit df.to_feather('teste.feather')
%timeit df = pd.read_feather('teste.feather')

144 ms ± 2.95 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
82 ms ± 1.87 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [31]:
import os

nome_arquivo = 'teste.feather'

# Obtendo o tamanho do arquivo em bytes
tamanho = os.path.getsize(nome_arquivo)

# Convertendo para megabytes
tamanho_em_megabytes = tamanho / (1024 * 1024)
print(f'O tamanho do arquivo {nome_arquivo} é {tamanho_em_megabytes:.2f} MB')

O tamanho do arquivo teste.feather é 28.54 MB


In [32]:
df = criar_df(1_000_000)
df = definir_tipo(df)
df.to_feather('teste.feather')
df = pd.read_feather('teste.feather')

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 6 columns):
 #   Column   Non-Null Count    Dtype         
---  ------   --------------    -----         
 0   tamanho  1000000 non-null  category      
 1   idade    1000000 non-null  int16         
 2   time     1000000 non-null  category      
 3   ganhou   1000000 non-null  bool          
 4   data     1000000 non-null  datetime64[ns]
 5   pontos   1000000 non-null  float32       
dtypes: bool(1), category(2), datetime64[ns](1), float32(1), int16(1)
memory usage: 16.2 MB


# Comparacao Final

In [34]:
print('Lendo e Salvando CSV')
df = criar_df(10_000_000)
df = definir_tipo(df)
%time df.to_csv('teste.csv')
%time df_csv = pd.read_csv('teste.csv')

Lendo e Salvando CSV
CPU times: total: 12.7 s
Wall time: 18.7 s
CPU times: total: 2.58 s
Wall time: 4.68 s


In [35]:
print('Lendo e Salvando Pickle')
df = criar_df(10_000_000)
df = definir_tipo(df)
%time df.to_pickle('teste.pickle')
%time df_pickle = pd.read_pickle('teste.pickle')

Lendo e Salvando Pickle
CPU times: total: 15.6 ms
Wall time: 93.7 ms
CPU times: total: 0 ns
Wall time: 34 ms


In [37]:
print('Lendo e Salvando Parquet')
df = criar_df(10_000_000)
df = definir_tipo(df)
%time df.to_parquet('teste.parquet')
%time df_parquet = pd.read_parquet('teste.parquet')

Lendo e Salvando Parquet
CPU times: total: 531 ms
Wall time: 580 ms
CPU times: total: 297 ms
Wall time: 172 ms


In [38]:
print('Lendo e Salvando Feather')
df = criar_df(10_000_000)
df = definir_tipo(df)
%time df.to_feather('teste.feather')
%time df_feather = pd.read_feather('teste.feather')

Lendo e Salvando Feather
CPU times: total: 0 ns
Wall time: 178 ms
CPU times: total: 93.8 ms
Wall time: 118 ms


In [39]:
import os

arquivos = {
    'teste.csv': 'CSV',
    'teste.pickle': 'Pickle',
    'teste.parquet': 'Parquet',
    'teste.feather': 'Feather'
}

for arquivo, tipo in arquivos.items():
    tamanho = os.path.getsize(arquivo)
    tamanho_mb = tamanho / (1024 * 1024)
    print(f'O tamanho do arquivo {tipo} é {tamanho_mb:.2f} MB')

O tamanho do arquivo CSV é 496.97 MB
O tamanho do arquivo Pickle é 162.13 MB
O tamanho do arquivo Parquet é 65.06 MB
O tamanho do arquivo Feather é 97.92 MB
