In [83]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import chardet

class CSVToParquetConverter:
    def __init__(self, csv_file, parquet_file, chunksize=100_000):
        self.csv_file = csv_file
        self.parquet_file = parquet_file
        self.chunksize = chunksize
        self.codificacao = self.detectar_codificacao()
        self.parquet_writer = None

    def detectar_codificacao(self):
        with open(self.csv_file, 'rb') as f:
            resultado = chardet.detect(f.read(100000))
        print(f"Codificação detectada: {resultado['encoding']}")
        return resultado['encoding']

    def converter(self):
        try:
            csv_stream = pd.read_csv(
                self.csv_file, sep=';', chunksize=self.chunksize, low_memory=False, encoding=self.codificacao, on_bad_lines='skip'
            )

            for i, chunk in enumerate(csv_stream):
                print(f"Processando chunk {i}")
                if i == 0:
                    self.inicializar_parquet_writer(chunk)
                
                self.escrever_chunk(chunk)

            self.finalizar()

        except UnicodeDecodeError as e:
            print(f"Erro ao decodificar o arquivo: {e}")

    def inicializar_parquet_writer(self, chunk):
        parquet_schema = pa.Table.from_pandas(df=chunk).schema
        self.parquet_writer = pq.ParquetWriter(self.parquet_file, parquet_schema, compression='gzip')

    def escrever_chunk(self, chunk):
        table = pa.Table.from_pandas(chunk, schema=self.parquet_writer.schema)
        self.parquet_writer.write_table(table)

    def finalizar(self):
        if self.parquet_writer:
            self.parquet_writer.close()


In [84]:
# Exemplo de uso:
file_name = 'nome_do_arquivo'
csv_file = f'./files/csv/{file_name}.csv'
parquet_file = f'./files/parquet/{file_name}.parquet'

converter = CSVToParquetConverter(csv_file, parquet_file)
converter.converter()

Codificação detectada: ISO-8859-1
Processando chunk 0


In [80]:
import pandas as pd

# Exemplo de uso:
parquet_file = f'./files/parquet/{file_name}.parquet'
df = pd.read_parquet(parquet_file)

df


Unnamed: 0,Atribuído a,Avaliação,Bloqueada,CEP,CEP do Endereço de Entrega,CNAE Atividade Secundária,CNAE Grupo,CNAE Subclasse,CNPJ,CPF,...,Status,Telefone Alternativo,Telefone do Escritório,Tem CBI?,Tipo,Tipo do Processo,UF de Endereço de Entrega,Website,qtd chamados flag,&#039;Proprietários 1:&#039; (ID &#039;Contato&#039; relacionado)
0,,,,02710-000,,32.50-7-01 - Fabricação de instrumentos não-el...,26.6 - Fabricação de aparelhos eletromédicos e...,"26 Fabricação De Equipamentos De Informática, ...",58.511.270/0001-47,,...,Bloqueada,,(11) 2591-6000,,Cliente,,,http://,1.0,
1,uvw,,,,,47.89-0-05 - Comércio varejista de produtos sa...,81.2 - Atividades de limpeza,81 Serviços Para Edifícios E Atividades Paisag...,54.148.523/0001-09,,...,Ativa,,(19) 3242-5947,,Fornecedor,,,http://www.dmpragas.com.br,0.0,
2,uvw,,,,,,,,,,...,Ativa,,(15) 3232-9211,,Fornecedor,,,http://mhmnotebooks.com.br,0.0,
3,M.PENHA,Prospect Sales - Gabi,,,,33.19-8-00 - Manutenção e reparação de equipam...,22.2 - Fabricação de produtos de material plás...,22 Fabricação De Produtos De Borracha E De Mat...,13.829.701/0001-80,,...,Ativa,,(11) 3326-1823,,Possível Cliente,,,http://,0.0,
4,M.PENHA,,,,,25.43-8-00 - Fabricação de ferramentas\n28.25-...,28.6 - Fabricação de máquinas e equipamentos d...,28 Fabricação De Máquinas E Equipamentos,56.995.681/0002-00,,...,Ativa,,(19) 3879-8725,,Possível Cliente,,,http://http://www.asvotec.com.br/br,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3794,Naara.Mota,,,,,,Pessoa Física,Pessoa Física,,x,...,Ativa,,,,Patrocínio,,,http://,0.0,
3795,Naara.Mota,,,,,,85.5 - Atividades de apoio à educação,85 Educação,49.607.336/0001-06,,...,Ativa,,(19) 3521-2777,,Cliente,,,http://,0.0,
3796,Naara.Mota,,,13347-680,13347-680,62.04-0-00 - Consultoria em tecnologia da info...,85.9 - Outras atividades de ensino,85 Educação,03.774.819/0075-30,,...,Ativa,,(19) 3825-3450 / (11) 3146-7480,,Possível Cliente,,SP,http://indaiatuba.sp.senai.br/,0.0,
3797,Naara.Mota,,,,,,85.3 - Educação superior,85 Educação,63.025.530/0001-04,,...,Ativa,,(11) 3091-3251/ (11) 3091-3070,,Possível Cliente,,,http://,0.0,
