In [None]:
import os
from dotenv import load_dotenv
import pandas as pd
import chardet
from unidecode import unidecode
from sqlalchemy import create_engine

# Carregar as variáveis de ambiente do arquivo .env
load_dotenv()

# Lendo as variáveis de ambiente
db_user = os.getenv('DB_USER')
db_password = os.getenv('DB_PASSWORD')
db_host = os.getenv('DB_HOST')
db_port = os.getenv('DB_PORT')
db_name = os.getenv('DB_NAME')

# Criando a string de conexão
connection_string = f'postgresql+psycopg2://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'

# Configurando a conexão com o PostgreSQL
engine = create_engine(connection_string)

In [None]:
# Definir qual o encoding do arquivo

# Lendo uma amostra do arquivo para detectar o encoding
with open('dados_csv/empresas1.csv', 'rb') as f:
    encoding_type = chardet.detect(f.read(1000000))  

print(encoding_type)

In [None]:
encoding_type = {'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
# Definindo os tipos de dados
dtypes = {
    'cnpj_basico': 'str',  # Assumindo que o CNPJ Básico é numérico
    'razao_social': 'str', 
    'natureza_juridica': 'str',  # Carregar como string inicialmente
    'qualificacao_dos_socios': 'str',  # Carregar como string inicialmente
    'capital_social': 'float',
    'porte_da_empresa': 'str',  # Carregar como string inicialmente
    'ente_federativo': 'str'  # Carregar como string inicialmente
}

# Função para converter valores de capital_social
def convert_capital_social(value):
    try:
        return float(value.replace('.', '').replace(',', '.'))
    except ValueError:
        return None


# Função para processar cada chunk
def process_chunk(chunk):    
    chunk.to_sql('empresas', engine, if_exists='append', index=False)




In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
chunksize = 100000  # Ajuste o tamanho do chunk conforme necessário
for chunk in pd.read_csv('../dados_csv/empresas0.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas0 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas1.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas1 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas2.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas2 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas3.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas3 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas4.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas4 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas5.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas5 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas6.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas6 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas7.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas7 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas8.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas8 carregado com sucesso!")

In [None]:
# Lendo o CSV 0 em chunks e processando cada chunk
for chunk in pd.read_csv('../dados_csv/empresas9.csv', sep=';', names=list(dtypes.keys()), dtype=dtypes, encoding=encoding_type["encoding"], chunksize=chunksize, converters={'capital_social': convert_capital_social}):
    process_chunk(chunk)

print("Empresas9 carregado com sucesso!")