<h1 style="text-align: center"><b>Correios Sync</b></h1>

<div style="display: flex; justify-content: center;">
  <img src="assets/flowchart.png" width="600px" />
</div>

<div style="text-align: center;">
  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f3/Apache_Spark_logo.svg/1200px-Apache_Spark_logo.svg.png" width="300px" />
</div>

# O que é o Spark?
<ul style="font-size:30px;">
  <li>Framework de processamento de dados distribuído.</li>
  <li>Permite a execução de tarefas em paralelo em um cluster de máquinas.</li>
  <li>Utilizado para processamento de grandes volumes de dados.</li>
  <li>Uma das ferramentas mais populares para processamento de big data.</li>
</ul>

---

# Vamos executar o código!

In [None]:
%pip install python-dotenv

In [None]:
from dotenv import load_dotenv
import os
load_dotenv()

DNE_URL = os.getenv('DNE_URL')
CORREIOS_SYNC_REPOSITORY = os.getenv('CORREIOS_SYNC_REPOSITORY')
MINDB_IMAGE = os.getenv('MINDB_IMAGE')
JAVA_IMAGE = os.getenv('JAVA_IMAGE')

print(f"""
  DNE_URL: {DNE_URL}
  Correios Sync Repository: {CORREIOS_SYNC_REPOSITORY}
  MinDB Image: {MINDB_IMAGE}
  Java Builder Image: {JAVA_IMAGE}"""
)

# Baixando o DNE do repositório dos Correios

In [None]:
%%bash -s "$DNE_URL"

#!/bin/bash

rm -rf eDNE_Basico
curl -o eDNE_Basico.zip $1
unzip eDNE_Basico.zip -d eDNE_Basico
unzip eDNE_Basico/eDNE_Basico*.zip -d eDNE_Basico
rm eDNE_Basico.zip eDNE_Basico/eDNE*.zip

rm -rf converted_files/
mkdir converted_files

EDNE_BASICO_PATH=./eDNE_Basico/Delimitado
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_BAIRRO.TXT > ./converted_files/LOG_BAIRRO.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_GRANDE_USUARIO.TXT > ./converted_files/LOG_GRANDE_USUARIO.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_LOCALIDADE.TXT > ./converted_files/LOG_LOCALIDADE.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_UNID_OPER.TXT > ./converted_files/LOG_UNID_OPER.TXT
iconv -f ISO-8859-1 -t UTF-8 ${EDNE_BASICO_PATH}/LOG_CPC.TXT > ./converted_files/LOG_CPC.TXT

for i in ${EDNE_BASICO_PATH}/LOG_LOGRADOURO_* ; do
  filename=$(echo "$i" | rev | cut -d / -f 1 | rev)
  iconv -f ISO-8859-1 -t UTF-8 "$i" > ./converted_files/"$filename"
done

rm -rf eDNE_Basico
echo "Done."

# Executando o correios sync

In [None]:
%%bash -s "$CORREIOS_SYNC_REPOSITORY"
git clone $1 correios-sync
mv converted_files correios-sync

In [None]:
%%bash -s "$MINDB_IMAGE"
cd correios-sync

cp src/main/resources/nightfall.properties.sample src/main/resources/nightfall.properties

mkdir -p sql
cat <<EOF > sql/ref_cep_info.sql
ALTER TABLE ref_cep_info ADD COLUMN created_at datetime NOT NULL DEFAULT CURRENT_TIMESTAMP;
ALTER TABLE ref_cep_info ADD COLUMN updated_at datetime NULL;
EOF

cat <<EOF > compose.yml
services:
  mindb:
    container_name: mindb
    image: $1
    ports:
      - "3306:3306"
    volumes:
      - ./sql/ref_cep_info.sql:/root/dml/marketplace/init.sql
      - elo7_mindb:/var/lib/mysql

volumes:
  elo7_mindb:

networks:
  default:
    name: development
EOF

docker compose up -d

Na sequencia iremos executar a importação no container com spark atraves do comando:

In [None]:
%%bash -s "$JAVA_IMAGE"
cd correios-sync

docker run --rm -i \
  --network=development \
  -v ${PWD}:/home/correios-sync \
  -w /home/correios-sync \
  --name correios-sync \
  $1 bash -c "mvn clean compile && mvn scala:run -DmainClass=com.elo7.postalCode.CorreiosApplication"

<div style="display: flex; justify-content: center;">
  <img src="assets/entities.png" width="300px" />
  <img src="assets/domain.png" width="300px" />
</div>

Execução concluida, vamos ver a versão

In [10]:
%%bash
docker compose -f correios-sync/compose.yml exec mindb \
  mysql -u root elo7 \
  -e "SELECT COUNT(cep) FROM ref_cep_info WHERE version = 2;"

COUNT(cep)
0


---

# <span style="font-size:30px">Por que não continuar usando Spark?</span>

- <span style="font-size:30px">**Complexidade Excessiva:**</span> Spark é uma ferramenta muito poderosa, mas para o nosso caso, é um canhão para matar uma formiga.
- <span style="font-size:30px">**Simplicidade do Processo:**</span> O processo de atualização do DNE é relativamente simples, e não precisamos de todas as features que o Spark oferece.
- <span style="font-size:30px">**Custos e Manutenção:**</span> Tem o custo de manutenção de um cluster e exige expertise especializada.

# [🦆 **DuckDB** ➡️](./duckdb-correios-sync.ipynb)