# Validação de processos necessários para criação da pipeline

## Instalação dependências

In [12]:
!pip install -q duckdb pandas boto3


[notice] A new release of pip is available: 23.2.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


## DuckDB
O DuckDB é eficiente e de alto desempenho. Ao trabalhar com arquivos CSV, por exemplo, ele não precisa carregar o arquivo CSV inteiro na memória antes de poder processá-lo. Em vez disso, o DuckDB pode ler e processar dados do arquivo em tempo real. Para ver isso em ação, vamos usar o conjunto de dados de Atrasos e Cancelamentos de Voos de 2015.

## Leitura de arquivo com o DuckDB

In [20]:
import duckdb
duckdb.sql('SELECT * FROM "data/sample.csv"').df()

Unnamed: 0,Status,Código da avaliação,Código da Unidade,Unidade,Cidade,Estado,Região/Grupo,Código,Nome do checklist,Autor,...,Resultado,Comentário do item,Imagens,Plataforma,Coordenadas Iniciais,Coordenadas Finais,Comentários Finais,Comentários do responsável da unidade,Planos de Ação,Ações
0,Concluído,152622447,2821694,Generic shop,,,,394104,Generic shop,Leidiane Marques,...,7956,,,iOS,,,Auditoria finalizada na unidade,,,
1,Concluído,152622447,2821694,Generic shop,,,,394104,Generic shop,Leidiane Marques,...,7956,Ar-condicionado e teto da cozinha com acúmulo ...,https://app.com.br/evaluations,iOS,,,Auditoria finalizada,,,


## Mecanismo de processamento incremental

In [10]:
import duckdb
duckdb.sql('SELECT * FROM "data/sample.csv"').df()

Unnamed: 0,Status,Código da avaliação,Código da Unidade,Unidade,Cidade,Estado,Região/Grupo,Código,Nome do checklist,Autor,...,Resultado,Comentário do item,Imagens,Plataforma,Coordenadas Iniciais,Coordenadas Finais,Comentários Finais,Comentários do responsável da unidade,Planos de Ação,Ações
0,Concluído,152622447,2821694,Generic shop,,,,394104,Generic shop,Leidiane Marques,...,7956,,,iOS,,,Auditoria finalizada na unidade,,,
1,Concluído,152622447,2821694,Generic shop,,,,394104,Generic shop,Leidiane Marques,...,7956,Ar-condicionado e teto da cozinha com acúmulo ...,https://app.com.br/evaluations,iOS,,,Auditoria finalizada,,,


In [11]:
import duckdb
duckdb.sql('SELECT * FROM "data/sample2.csv"').df()

Unnamed: 0,Status,Código da avaliação,Código da Unidade,Unidade,Cidade,Estado,Região/Grupo,Código,Nome do checklist,Autor,...,Resultado,Comentário do item,Imagens,Plataforma,Coordenadas Iniciais,Coordenadas Finais,Comentários Finais,Comentários do responsável da unidade,Planos de Ação,Ações
0,Concluído,152622448,2821695,Generic shop,,,,394104,Generic shop,Ruth Andrade,...,7956,Necessário realizar higienização,https://app.com.br/evaluations,iOS,,,Auditoria finalizada,,,


In [12]:
duckdb.sql('CREATE TABLE raw AS SELECT * FROM "data/sample.csv"')
duckdb.sql('SELECT * FROM raw')

duckdb.sql('''
SELECT * FROM "data/*.csv"
WHERE "Data de sincronização" > (SELECT MAX("Data de sincronização") FROM raw)
''').df()



Unnamed: 0,Status,Código da avaliação,Código da Unidade,Unidade,Cidade,Estado,Região/Grupo,Código,Nome do checklist,Autor,...,Resultado,Comentário do item,Imagens,Plataforma,Coordenadas Iniciais,Coordenadas Finais,Comentários Finais,Comentários do responsável da unidade,Planos de Ação,Ações
0,Concluído,152622448,2821695,Generic shop,,,,394104,Generic shop,Ruth Andrade,...,7956,Necessário realizar higienização,https://app.com.br/evaluations,iOS,,,Auditoria finalizada,,,


## Integração do MinIO e DuckDB

### Criação das credenciais

In [14]:
duckdb.sql("""
CREATE OR REPLACE PERSISTENT SECRET my_secret (
TYPE S3,
REGION 'us-east-1',
KEY_ID 'TESTE123',
SECRET 'TESTE123',
ENDPOINT 'localhost:9000',
USE_SSL 'false',
URL_STYLE 'path');
""")


┌─────────┐
│ Success │
│ boolean │
├─────────┤
│ true    │
└─────────┘

### Escrita para o MinIO

In [16]:
duckdb.sql("""
COPY (SELECT
"Código da avaliação" as id,
Unidade as unidade,
Cidade as cidade,
Autor as autor,
FROM 'data/*.csv') TO 's3://hawkeye/checklist.parquet' (FORMAT 'parquet');
""")

### Leitura arquivo do MinIO

In [18]:
duckdb.sql("""
SELECT
id,
unidade,
cidade,
autor,
FROM 's3://hawkeye/checklist.parquet';
""").df()

Unnamed: 0,id,unidade,cidade,autor
0,152622447,Generic shop,,Leidiane Marques
1,152622447,Generic shop,,Leidiane Marques
2,152622448,Generic shop,,Ruth Andrade


### Leitura e escrita entre arquivos no MinIO

In [19]:
duckdb.sql("""
COPY (SELECT
id as id2,
unidade as unidade2,
cidade as cidade2,
autor as autor2,
FROM 's3://hawkeye/checklist.parquet') TO 's3://hawkeye/checklist2.parquet' (FORMAT 'parquet');
""")

# Seleção de colunas

Conforme acordado com o cliente, para montar os gráficos de dashboards, será necessário utilizar as seguintes colunas:

- Codigo da avaliacao → id
- Unidade → unidade
- Cidade → cidade
- Regiao/Grupo → regiao
- Nome do checklist → nome_checklist
- Autor → autor
- Area → area
- Item → item
- Resposta → resposta
- Imagens → imagens
- Data inicial → data_inicial
- "Data final" → data_final
- "Data de sincronização" → data_sincronizacao
- Resultado → resultado
- Comentarios finais → comentarios_finais


In [7]:
import duckdb
duckdb.sql('''
 SELECT
    "Código da avaliação",
    Unidade,
    Cidade,
    "Região/Grupo",
    "Nome do checklist",
    Autor,
    "Área",
    Item,
    Resposta,
    Imagens,
    "Data inicial",
    "Data final",
    "Data de sincronização",
    Resultado,
    "Comentários finais"
FROM "data/sample.csv"''').df()



Unnamed: 0,Código da avaliação,Unidade,Cidade,Região/Grupo,Nome do checklist,Autor,Área,Item,Resposta,Imagens,Data inicial,Data final,Data de sincronização,Resultado,Comentários Finais
0,152622447,Generic shop,,,Generic shop,Leidiane Marques,COZINHA,Organização,Atingiu,,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,7956,Auditoria finalizada na unidade
1,152622447,Generic shop,,,Generic shop,Leidiane Marques,COZINHA,"Limpeza do ambiente (piso, parede, portas)",Não atingiu,https://app.com.br/evaluations,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,7956,Auditoria finalizada


# Transformações

Durante o processamento dos dados, serão aplicadas as seguintes transformações para padronizar e preparar as informações que alimentarão os dashboards:

- **Remoção de duplicados**: eliminar registros que possuam o mesmo `id`, garantindo consistência e unicidade dos dados, o critério para escolha vai ser o mais recente.
- **Ajuste do campo `resultado`**: converter valores textuais (ex.: `"75,6"`) para formato numérico (`75.6`), permitindo cálculos e comparações estatísticas.
- **Criação do campo `total_fotos`**: extrair automaticamente a quantidade de imagens associadas a cada registro a partir da coluna `imagens`.
- **Padronização de nomes de colunas**: aplicar convenção *snake_case* para todos os campos, assegurando consistência na manipulação e integração dos dados.
- **Remoção de valores nulos**: Troca de valores nulos para `Não definido`.


In [14]:
import duckdb
duckdb.sql('''
WITH raw AS (
     SELECT
    "Código da avaliação" as id,
    Unidade as unidade,
    Cidade as cidade,
    "Região/Grupo" as regiao,
    "Nome do checklist" as nome,
    Autor as autor,
    "Área" as area,
    Item as item,
    Resposta as reposta,
    Imagens as imagens,
    "Data inicial" as data_inicial,
    "Data final" as data_final,
    "Data de sincronização" as data_sincronizacao,
    Resultado AS result,
    "Comentários finais" as final_comments
   FROM  "data/sample.csv"
), cleaned as (
    SELECT
    id,
    unidade,
    COALESCE(cidade, 'Não definido') as cidade,
    COALESCE(regiao, 'Não definido') as regiao,
    nome,
    autor,
    area,
    item,
    reposta,
    COALESCE(len(string_split(imagens, ' ')), 0) as total_fotos,
    CAST(REPLACE(result, ',', '.') AS DOUBLE) AS result,
    data_inicial,
    data_final,
    data_sincronizacao,
    final_comments,
    ROW_NUMBER() OVER (PARTITION BY id ORDER BY data_sincronizacao DESC) as rn
    FROM raw
)
SELECT *
FROM cleaned
WHERE rn=1


    ''').df()



Unnamed: 0,id,unidade,cidade,regiao,nome,autor,area,item,reposta,total_fotos,result,data_inicial,data_final,data_sincronizacao,final_comments,rn
0,152622448,Generic shop,Não definido,Não definido,Generic shop,Leidiane Marques,COZINHA,"Limpeza do ambiente (piso, parede, portas)",Não atingiu,1,79.56,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,Auditoria finalizada,1
1,152622447,Generic shop,Não definido,Não definido,Generic shop,Leidiane Marques,COZINHA,Organização,Atingiu,0,79.56,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,Auditoria finalizada na unidade,1


# Pipeline final

## Criar credencial

In [10]:
import duckdb

In [11]:
duckdb.sql("""
CREATE OR REPLACE PERSISTENT SECRET my_secret (
TYPE S3,
REGION 'us-east-1',
KEY_ID 'TESTE123',
SECRET 'TESTE123',
ENDPOINT 'localhost:9000',
USE_SSL 'false',
URL_STYLE 'path');
""")

┌─────────┐
│ Success │
│ boolean │
├─────────┤
│ true    │
└─────────┘

## Subir arquivo CSV para o MinIO

In [13]:
import boto3

minio_endpoint = "http://localhost:9000"
access_key = "minioadmin"
secret_key = "minioadmin"
bucket_name = "hawkeye"
local_file = "./data/sample.csv"
object_name = "lm/landing/data.csv"

s3_client = boto3.client(
    "s3",
    endpoint_url=minio_endpoint,
    aws_access_key_id=access_key,
    aws_secret_access_key=secret_key,
    region_name="us-east-1"
)

s3_client.upload_file(local_file, bucket_name, object_name)



## Raw

In [15]:
import duckdb


duckdb.sql("""
COPY (
     SELECT
    "Código da avaliação",
    Unidade,
    Cidade,
    "Região/Grupo",
    "Nome do checklist",
    Autor,
    "Área",
    Item,
    Resposta,
    Imagens,
    "Data inicial",
    "Data final",
    "Data de sincronização",
    Resultado,
    "Comentários finais"
    FROM 's3://hawkeye/lm/landing/*.csv'
) TO 's3://hawkeye/lm/raw/checklist.parquet' (FORMAT 'parquet');
""")


## Cleaned

In [19]:
duckdb.sql("""
COPY (
WITH raw AS (
     SELECT
    "Código da avaliação" as id,
    Unidade as unidade,
    Cidade as cidade,
    "Região/Grupo" as regiao,
    "Nome do checklist" as nome,
    Autor as autor,
    "Área" as area,
    Item as item,
    Resposta as reposta,
    Imagens as imagens,
    "Data inicial" as data_inicial,
    "Data final" as data_final,
    "Data de sincronização" as data_sincronizacao,
    Resultado AS result,
    "Comentários finais" as final_comments
   FROM  "s3://hawkeye/lm/raw/checklist.parquet"
), cleaned as (
    SELECT
    id,
    unidade,
    COALESCE(cidade, 'Não definido') as cidade,
    COALESCE(regiao, 'Não definido') as regiao,
    nome,
    autor,
    area,
    item,
    reposta,
    COALESCE(len(string_split(imagens, ' ')), 0) as total_fotos,
    CAST(REPLACE(result, ',', '.') AS DOUBLE) AS result,
    data_inicial,
    data_final,
    data_sincronizacao,
    final_comments,
    ROW_NUMBER() OVER (PARTITION BY id ORDER BY data_sincronizacao DESC) as rn
    FROM raw
)
SELECT id, unidade, cidade, regiao, nome, autor, area, item, reposta, total_fotos, result, data_inicial, data_final, data_sincronizacao, final_comments
FROM cleaned
WHERE rn=1
) TO 's3://hawkeye/lm/cleaned/checklist.parquet' (FORMAT 'parquet');
""")


## Consulta

In [20]:
import duckdb


duckdb.sql("""
SELECT *
FROM 's3://hawkeye/lm/cleaned/checklist.parquet'
""").df()


Unnamed: 0,id,unidade,cidade,regiao,nome,autor,area,item,reposta,total_fotos,result,data_inicial,data_final,data_sincronizacao,final_comments
0,152622448,Generic shop,Não definido,Não definido,Generic shop,Leidiane Marques,COZINHA,"Limpeza do ambiente (piso, parede, portas)",Não atingiu,1,79.56,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,Auditoria finalizada
1,152622447,Generic shop,Não definido,Não definido,Generic shop,Leidiane Marques,COZINHA,Organização,Atingiu,0,79.56,2025-07-11 19:16:16,2025-07-11 20:24:17,2025-07-11 21:24:55,Auditoria finalizada na unidade
