In [None]:
import duckdb
import pyarrow as pa

silver_1_db_path = "D:\\GitHub\\projeto_Analytics_Engineering\\data_quality\\silver_1.duckdb"

silver_2_db_path = "D:\\GitHub\\projeto_Analytics_Engineering\\data_quality\\silver_2.duckdb"

## Insere os dados da tabela listings do banco silver_1 para a tabela listings_silver no banco silver_2 das colunas id, neighbourhood_cleansed, price, number_of_reviews, review_scores_rating aplicando os tratamentos nas colunas price e review_scores_rating


In [None]:
# Definir o tamanho do lote
BATCH_SIZE = 1000

try:
    # Conectar ao banco de dados silver_1 e extrair os dados como DataFrame
    bronze_conn = duckdb.connect(database=silver_1_db_path)
    query = "SELECT id, neighbourhood_cleansed, price, number_of_reviews, review_scores_rating FROM listings;"
    data = bronze_conn.execute(query).fetchdf()
    bronze_conn.close()
    print("Dados extraídos com sucesso do banco bronze.")

    # Tratamento de dados
    # Remover o símbolo '$' e substituir valores nulos em 'price' e 'review_scores_rating' por 0
    data['price'] = data['price'].str.replace('$', '', regex=False).str.replace(',', '', regex=False).astype(float)
    data['price'].fillna(0, inplace=True)
    data['review_scores_rating'].fillna(0, inplace=True)
    
    # Conectar ao banco de dados silver_2
    silver_conn = duckdb.connect(database=silver_2_db_path)
    silver_conn.execute("PRAGMA disable_object_cache")

    # Inserir os dados em lotes na tabela 'listings_silver'
    for i in range(0, len(data), BATCH_SIZE):
        batch = data.iloc[i:i + BATCH_SIZE]  # Seleciona o lote atual
        
        # Executar a inserção do lote atual na tabela listings_silver
        insert_query = """
        INSERT INTO listings_silver (id, neighbourhood_cleansed, price, number_of_reviews, review_scores_rating)
        VALUES (?, ?, ?, ?, ?);
        """
        silver_conn.executemany(insert_query, batch.values.tolist())
        
        print(f"Lote {i // BATCH_SIZE + 1} inserido com sucesso.")

    print("Todos os dados foram inseridos com sucesso na tabela 'listings_silver' do banco silver.")

except duckdb.Error as e:
    print("Ocorreu um erro ao acessar o banco de dados:", e)

except Exception as e:
    print("Ocorreu um erro inesperado:", e)

finally:
    # Fechar as conexões
    try:
        bronze_conn.close()
    except:
        pass
    try:
        silver_conn.close()
    except:
        pass

Dados extraídos com sucesso do banco bronze.
Lote 1 inserido com sucesso.
Lote 2 inserido com sucesso.
Lote 3 inserido com sucesso.
Lote 4 inserido com sucesso.
Lote 5 inserido com sucesso.
Lote 6 inserido com sucesso.
Lote 7 inserido com sucesso.
Lote 8 inserido com sucesso.
Lote 9 inserido com sucesso.
Lote 10 inserido com sucesso.
Lote 11 inserido com sucesso.
Lote 12 inserido com sucesso.
Lote 13 inserido com sucesso.
Lote 14 inserido com sucesso.
Lote 15 inserido com sucesso.
Lote 16 inserido com sucesso.
Lote 17 inserido com sucesso.
Lote 18 inserido com sucesso.
Lote 19 inserido com sucesso.
Lote 20 inserido com sucesso.
Lote 21 inserido com sucesso.
Lote 22 inserido com sucesso.
Lote 23 inserido com sucesso.
Lote 24 inserido com sucesso.
Lote 25 inserido com sucesso.
Lote 26 inserido com sucesso.
Lote 27 inserido com sucesso.
Lote 28 inserido com sucesso.
Lote 29 inserido com sucesso.
Lote 30 inserido com sucesso.
Lote 31 inserido com sucesso.
Lote 32 inserido com sucesso.
Lote