<div style="text-align: center;">
  <img src="assets/duckdb.png" width="300px" />
</div>

<h1><strong>O que é o DuckDB?</strong></h1>
<ul style="font-size:30px;">
    <li>DuckDB é um banco de dados relacional em memória, que é muito rápido e eficiente para consultas analíticas.</li>
    <li>Ele é muito utilizado para processamento de dados em batch, e é uma alternativa muito interessante para o Spark em alguns casos.</li>
    <li>Tem funcionamento semelhante ao SQLite, com cliente para diversas linguagens de programação.</li>
</ul>

<div style="text-align: center;">
  <img src="assets/duckdb_doc.png"/>
  <img src="assets/duckdb_doc2.png"/>
  <img src="assets/duckdb_csv.png"/>
</div>

---

# Mãos ao codigo 🙌

In [None]:
%pip install python-dotenv
%pip install duckdb
%pip install SQLAlchemy
%pip install psycopg2
%pip install pandas

In [None]:
from dotenv import load_dotenv
import os
load_dotenv()

DNE_URL = os.getenv('DNE_URL')
print(f"""DNE_URL: {DNE_URL}""")

In [None]:
%%bash -s "$DNE_URL"

#!/bin/bash

cd duckdb-correios-sync
rm -rf eDNE_Basico
curl -o eDNE_Basico.zip $1
unzip eDNE_Basico.zip -d eDNE_Basico
unzip eDNE_Basico/eDNE_Basico*.zip -d eDNE_Basico
rm eDNE_Basico.zip eDNE_Basico/eDNE*.zip

rm -rf converted_files/
mkdir converted_files

EDNE_BASICO_PATH=./eDNE_Basico/Delimitado
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_BAIRRO.TXT > ./converted_files/LOG_BAIRRO.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_GRANDE_USUARIO.TXT > ./converted_files/LOG_GRANDE_USUARIO.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_LOCALIDADE.TXT > ./converted_files/LOG_LOCALIDADE.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_UNID_OPER.TXT > ./converted_files/LOG_UNID_OPER.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_CPC.TXT > ./converted_files/LOG_CPC.TXT

for i in ${EDNE_BASICO_PATH}/LOG_LOGRADOURO_* ; do
  filename=$(echo "$i" | rev | cut -d / -f 1 | rev)
  iconv -f ISO-8859-1 -t UTF-8 "$i" > ./converted_files/"$filename"
done

rm -rf eDNE_Basico
echo "Done."

# Executando

In [8]:
%%bash

# para gerar o arquivo database/duckdb.db com as permissões corretas
export UID="$(id -u)"
export GID="$(id -g)"

cd duckdb-correios-sync
docker compose build -q
docker compose up -d postgres
docker compose up go-correios-sync

bash: linha 2: UID: a variável permite somente leitura
 Container postgres  Running
 Container go-correios-sync  Creating
 Container go-correios-sync  Created


Attaching to go-correios-sync


go-correios-sync  | 2025/01/31 17:10:47 running ETL...
go-correios-sync  | 2025/01/31 17:10:53 zipcodes table created
go-correios-sync  | 2025/01/31 17:10:53 inserting data into Postgres...
go-correios-sync  | 2025/01/31 17:12:37 inserting data into Postgres... done!
go-correios-sync  | 2025/01/31 17:12:37 running ETL... done
go-correios-sync  | 2025/01/31 17:12:37 elapsed time: 1m49.673922615s


processing row 1417054
[Kgo-correios-sync exited with code 0


![image.png](attachment:image.png)

# Resultado

In [21]:
import duckdb
print("Versão do DuckDB:", duckdb.__version__)

Versão do DuckDB: 1.1.3


In [13]:
con = duckdb.connect("duckdb-correios-sync/database/duck.db")

In [14]:
con.sql("""SELECT COUNT(*) FROM ZIPCODES;""").show()

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│      1424202 │
└──────────────┘



In [15]:
con.sql("""SELECT * FROM ZIPCODES ORDER BY RANDOM() LIMIT 1;""").show()

┌─────────┬──────────────────────┬─────────┬────────────┬──────────┬──────────────────┬─────────┬─────────┐
│   uf    │        cidade        │ bairro  │ logradouro │   cep    │   complemento    │  nome   │  kind   │
│ varchar │       varchar        │ varchar │  varchar   │ varchar  │     varchar      │ varchar │ varchar │
├─────────┼──────────────────────┼─────────┼────────────┼──────────┼──────────────────┼─────────┼─────────┤
│ BA      │ Vitória da Conquista │ Felícia │ Rua H      │ 45055495 │ (M Pássaros III) │         │ Rua     │
└─────────┴──────────────────────┴─────────┴────────────┴──────────┴──────────────────┴─────────┴─────────┘



## Exportar os dados do duckDB para arquivos

In [18]:
con.sql("EXPORT DATABASE 'duckdb-correios-sync/schema';")

<div style="display: flex; justify-content: space-between; align-items: flex-start;">
  <ul>
    <li style="margin-bottom:20px;"><strong>load.sql</strong>: Script SQL responsável por carregar os dados dos arquivos CSV para as tabelas correspondentes no banco de dados.</li>
    <li style="margin-bottom:20px;"><strong>schema.sql</strong>: Script SQL responsável por criar as tabelas e definir o esquema do banco de dados.</li>
    <li style="margin-bottom:20px;"><strong>Arquivos .csv</strong>: Contêm os dados das tabelas representadas pelos seus nomes.</li>
  </ul>
  <div>
    <img src="assets/exported.png"/>
  </div>
</div>


> ⚠️ Não se esqueça de fechar a conexão com o banco de dados após a execução do script, para liberar os recursos utilizados.

In [23]:
con.close()

In [22]:
import pandas as pd
from sqlalchemy import create_engine

DATABASE_URL = "postgresql://postgres:postgres@localhost:5432/development"
engine = create_engine(DATABASE_URL)
df = pd.read_sql("SELECT *, COUNT(*) OVER() FROM ZIPCODES ORDER BY RANDOM() LIMIT 100", con=engine)
df

Unnamed: 0,uf,cidade,bairro,logradouro,cep,complemento,nome,kind,count
0,PE,Jaboatão dos Guararapes,Dois Carneiros,Rua Rio Pirapama,54290410,,,Rua,1424202
1,GO,São Luís de Montes Belos,Vila Eduarda,Rua Piratininga,76050279,,,Rua,1424202
2,PE,Olinda,Tabajara,Rua Quaresmeira,53360640,,,Rua,1424202
3,SP,São Paulo,Sítio Represa,Avenida Doutora Nise da Silveira,04894020,,,Avenida,1424202
4,PA,Belém,São Francisco (Mosqueiro),Rua Newton Miranda,66920180,,,Rua,1424202
...,...,...,...,...,...,...,...,...,...
95,SC,São José,São Luiz,Servidão Querino Miguel Apelião,88106819,,,Servidão,1424202
96,PR,Curitiba,Cajuru,Acesso Doutor Paulo Tadeu Rathie de Andrade,82920327,,,Acesso,1424202
97,SP,São Paulo,Vila Isa,Rua Alberto de Luca,04689090,,,Rua,1424202
98,MG,Araguari,Milenium,Rua Santa Catarina,38447023,,,Rua,1424202


---

<h1 style="text-align: center;"><strong>Concluindo</strong></h1>

- **Instalação Simplificada**  
  - Roda no mesmo processo da aplicação (in-process)  
  - Não requer servidor dedicado  
  - **Limitação**: menos adequado para cenários distribuídos ou altamente escaláveis  

- **Facilidade de Importação/Exportação de Dados**  
  - Suporte nativo para formatos comuns (CSV, Parquet etc.)  
  - Rápido para ingestão de dados em ETL e análises  
  - **Limitação**: em volume muito grande, pode demandar pipelines e orquestração mais complexos  

- **Desempenho Analítico Focado**  
  - Armazenamento em coluna e processamento vetorizado  
  - Excelente para consultas complexas e análises exploratórias  
  - **Limitação**: não é otimizado para cargas de trabalho transacionais (OLTP)  

- **Suporte Limitado a Múltiplas Conexões**  
  - Bom para uso local ou em scripts de análise  
  - **Limitação**: não projetado para atender diversos usuários de forma simultânea  

- **Ecossistema em Crescimento**  
  - Projeto open source com comunidade ativa  
  - Documentação e suporte em expansão  
  - **Limitação**: maturidade e variedade de ferramentas inferiores a bancos estabelecidos  