In [5]:
import pandas as pd
import fastparquet as fp

# Create a sample DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000, 60000, 70000]
})

# Write the Arrow Table to a Parquet file
fp.write('files/sample_fp.parquet', df)

In [None]:
# Read the Parquet file into a Pandas DataFrame
df = fp.ParquetFile('files/sample_fp.parquet').to_pandas()

print(df)

In [None]:
# Write partitioned Parquet files
fp.write('files/sample_fp.parquet', df, partition_on=['Age'])

# Read a partitioned dataset
df = fp.ParquetFile('files/sample_fp.parquet').to_pandas()

print(df)

In [None]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Crie um DataFrame de amostra
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000, 60000, 70000]
})

# Converta o DataFrame em uma Arrow Table
table = pa.Table.from_pandas(df)

# Escreva a Arrow Table em um arquivo Parquet
pq.write_table(table, 'sample.parquet')

# Leia o arquivo Parquet em uma Arrow Table
table = pq.read_table('sample.parquet')

# Converta a Arrow Table em um Pandas DataFrame
df = table.to_pandas()

print(df)

In [None]:
# Write partitioned Parquet files
pq.write_to_dataset(table, root_path='dataset/', partition_cols=['Age'])

# Read a partitioned dataset
table = pq.ParquetDataset('dataset/').read()
df = table.to_pandas()

print(df)

In [3]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

# Crie um DataFrame de amostra
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000, 60000, 70000]
})

# Converta o DataFrame em uma Arrow Table
table = pa.Table.from_pandas(df)

# Escreva a Arrow Table em um arquivo Parquet
pq.write_table(table, 'dataset/sample.parquet')

# Leia o arquivo Parquet em uma Arrow Table
table = pq.read_table('dataset/sample.parquet')

# Converta a Arrow Table em um Pandas DataFrame
df = table.to_pandas()

print(df)

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000


In [5]:
import pandas as pd

# Lendo um arquivo Parquet
try:
    df = pd.read_parquet('dataset/sample.parquet')
    print(df.head())
except FileNotFoundError:
    print("Arquivo 'dataset/sample.parquet' não encontrado. Certifique-se de que o arquivo existe no diretório atual.")
except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo Parquet: {e}")

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   35   70000


In [7]:
import pandas as pd
import numpy as np

data = {
    'Nome': ['Maria', 'John', 'Tonico', 'Mariane'],
    'Idade': [25, 30, 35, np.nan],  # Incluindo um valor nulo
    'Salário': [50000.50, 60000.75, 70000.00, 80000.25],
    'Data_Admissão': pd.to_datetime(['2020-01-15', '2019-05-20', '2018-11-01', '2021-03-10']),
    'Descrição': ['Desenvolvedora Python', 'Analista de Dados', 'Cientista de Dados', 'Gerente de Projetos com acentuação çãõ']
}
df = pd.DataFrame(data)

print("DataFrame Original:")
print(df)

DataFrame Original:
      Nome  Idade   Salário Data_Admissão  \
0    Maria   25.0  50000.50    2020-01-15   
1     John   30.0  60000.75    2019-05-20   
2   Tonico   35.0  70000.00    2018-11-01   
3  Mariane    NaN  80000.25    2021-03-10   

                                Descrição  
0                   Desenvolvedora Python  
1                       Analista de Dados  
2                      Cientista de Dados  
3  Gerente de Projetos com acentuação çãõ  


In [8]:
try:
    df.to_parquet('meu_arquivo.parquet', engine='pyarrow', compression='snappy')
    print("\nArquivo Parquet 'meu_arquivo.parquet' escrito com sucesso usando pyarrow e compressão snappy!")

    df.to_parquet('meu_arquivo_fastparquet.parquet', engine='fastparquet')
    print("\nArquivo Parquet 'meu_arquivo_fastparquet.parquet' escrito com sucesso usando fastparquet!")
except Exception as e:
    print(f"Erro ao escrever o arquivo Parquet: {e}")


Arquivo Parquet 'meu_arquivo.parquet' escrito com sucesso usando pyarrow e compressão snappy!

Arquivo Parquet 'meu_arquivo_fastparquet.parquet' escrito com sucesso usando fastparquet!


In [11]:
# Lendo o arquivo Parquet
try:
    # Lendo o arquivo completo com pyarrow (recomendado)
    df_lido_pyarrow = pd.read_parquet('meu_arquivo.parquet', engine='pyarrow')
    print("\nDataFrame lido completo com pyarrow:")
    print(df_lido_pyarrow)

    # Lendo o arquivo completo com fastparquet
    df_lido_fastparquet = pd.read_parquet('meu_arquivo_fastparquet.parquet', engine='fastparquet')
    print("\nDataFrame lido completo com fastparquet:")
    print(df_lido_fastparquet)

    # Lendo apenas as colunas 'Nome' e 'Salário' com pyarrow (column pruning)
    df_colunas_selecionadas = pd.read_parquet('meu_arquivo.parquet', columns=['Nome', 'Salário'], engine='pyarrow')
    print("\nDataFrame com colunas selecionadas (Nome e Salário) com pyarrow:")
    print(df_colunas_selecionadas)

except FileNotFoundError:
    print("\nErro: Arquivo Parquet não encontrado. Certifique-se de que o arquivo 'meu_arquivo.parquet' ou 'meu_arquivo_fastparquet.parquet' existe no diretório atual.")
except pd.errors.ParserError as pe:
    print(f"\nErro de parsing do Parquet: {pe}")
except Exception as e:
    print(f"\nOutro erro ao ler o arquivo Parquet: {e}")


DataFrame lido completo com pyarrow:
      Nome  Idade   Salário Data_Admissão  \
0    Maria   25.0  50000.50    2020-01-15   
1     John   30.0  60000.75    2019-05-20   
2   Tonico   35.0  70000.00    2018-11-01   
3  Mariane    NaN  80000.25    2021-03-10   

                                Descrição  
0                   Desenvolvedora Python  
1                       Analista de Dados  
2                      Cientista de Dados  
3  Gerente de Projetos com acentuação çãõ  

DataFrame lido completo com fastparquet:
      Nome  Idade   Salário Data_Admissão  \
0    Maria   25.0  50000.50    2020-01-15   
1     John   30.0  60000.75    2019-05-20   
2   Tonico   35.0  70000.00    2018-11-01   
3  Mariane    NaN  80000.25    2021-03-10   

                                Descrição  
0                   Desenvolvedora Python  
1                       Analista de Dados  
2                      Cientista de Dados  
3  Gerente de Projetos com acentuação çãõ  

DataFrame com colunas selec

In [12]:
# Lendo o arquivo Parquet
try:
    # Lendo o arquivo completo com pyarrow (recomendado)
    df_lido_pyarrow = pd.read_parquet('meu_arquivo.parquet', engine='pyarrow')
    print("\nDataFrame lido completo com pyarrow:")
    print(df_lido_pyarrow)

    # Lendo o arquivo completo com fastparquet
    df_lido_fastparquet = pd.read_parquet('meu_arquivo_fastparquet.parquet', engine='fastparquet')
    print("\nDataFrame lido completo com fastparquet:")
    print(df_lido_fastparquet)

    # Lendo apenas as colunas 'Nome' e 'Salário' com pyarrow (column pruning)
    df_colunas_selecionadas = pd.read_parquet('meu_arquivo.parquet', columns=['Nome', 'Salário'], engine='pyarrow')
    print("\nDataFrame com colunas selecionadas (Nome e Salário) com pyarrow:")
    print(df_colunas_selecionadas)

except FileNotFoundError:
    print("\nErro: Arquivo Parquet não encontrado. Certifique-se de que o arquivo 'meu_arquivo.parquet' ou 'meu_arquivo_fastparquet.parquet' existe no diretório atual.")
except pd.errors.ParserError as pe:
    print(f"\nErro de parsing do Parquet: {pe}")
except Exception as e:
    print(f"\nOutro erro ao ler o arquivo Parquet: {e}")


DataFrame lido completo com pyarrow:
      Nome  Idade   Salário Data_Admissão  \
0    Maria   25.0  50000.50    2020-01-15   
1     John   30.0  60000.75    2019-05-20   
2   Tonico   35.0  70000.00    2018-11-01   
3  Mariane    NaN  80000.25    2021-03-10   

                                Descrição  
0                   Desenvolvedora Python  
1                       Analista de Dados  
2                      Cientista de Dados  
3  Gerente de Projetos com acentuação çãõ  

DataFrame lido completo com fastparquet:
      Nome  Idade   Salário Data_Admissão  \
0    Maria   25.0  50000.50    2020-01-15   
1     John   30.0  60000.75    2019-05-20   
2   Tonico   35.0  70000.00    2018-11-01   
3  Mariane    NaN  80000.25    2021-03-10   

                                Descrição  
0                   Desenvolvedora Python  
1                       Analista de Dados  
2                      Cientista de Dados  
3  Gerente de Projetos com acentuação çãõ  

DataFrame com colunas selec