<img src="https://duckdb.org/images/DuckDB-Footer.svg" alt="DuckDB" width="200"/>

# <h1 align='center'>[DuckDB](https://duckdb.org/)</h1>

### Instalação

In [None]:
### Instalação
!pip install duckdb==0.9.2

### Importando bibliotecas úteis

In [None]:
### Libs
import duckdb

### Processando os dados com `CSV`

- Lendo um arquivo `CSV`
    A função `duckdb.sql` será usada para executar a consulta SQL especificada dentro das aspas duplas. 
    A consulta seleciona todos os dados do arquivo __CSV__ ("campeonato-brasileiro-cartoes.csv") usando a função `read_csv_auto` e, em seguida, o método `show()` é chamado para exibir o resultado da consulta.

In [None]:
duckdb.sql("SELECT * FROM read_csv_auto('./Campeonato Brasileiro de futebol/campeonato-brasileiro-cartoes.csv');").show()

A __classe__ `duckdb.connect()` cria um contexto de banco de dados, o __método__ conexao.execute() realiza a criação da tabela e depois realiza uma consulta _SQL_ nesta tabela salvando o resultado como um DataFrame

In [None]:
# Cria a conexão com DuckDB
conexao = duckdb.connect()

# Carrega os dados do CSV para a tabela
conexao.execute("CREATE TABLE campeonato_brasileiro_cartoes AS (SELECT * FROM './Campeonato Brasileiro de futebol/campeonato-brasileiro-cartoes.csv')")

# Executa consulta SQL na tabela
resultado = conexao.execute("SELECT * FROM campeonato_brasileiro_cartoes")

# Transforma o resultado em um DataFrame
resultado.fetch_df()

In [None]:
# Executa consulta SQL na tabela
resultado = conexao.execute("SELECT * FROM campeonato_brasileiro_cartoes")

# Transforma o resultado em um DataFrame
dados = resultado.fetch_df()

# Salva o dataframe como um novo csv
dados.to_csv("exemplo_futebol.csv")

### `json`, `parquet`, `xlsx`, `xml`
Os mesmos processos de "conexão" ou "setup" servem para os demais tipos de arquivos suportados 

In [None]:
import glob

# Função Glob para encontrar nomes de arquivos
duckdb.sql("SELECT * FROM glob('./exemplo_arquivos/*')")

In [None]:
# CSV
duckdb.sql("SELECT * FROM ./exemplo_arquivos/exemplo_futebol.csv;").show()

In [None]:
# json
duckdb.sql("SELECT * FROM ./exemplo_arquivos/exemplo_futebol.json;").show()

In [None]:
# parquet
duckdb.sql("SELECT * FROM ./exemplo_arquivos/exemplo_futebol.parquet;").show()

### Spark, Polars e Pandas
DuckDB funciona muito bem também com `Spark`, `Polars` e `Pandas` é possível usar essas stacks para realizar alguma tarefa, como ler e pré-processar um dado, e após isso usar o DuckDB para conclusão, ou o inverso.

In [None]:
### Usando padnas
import pandas as pd

dado_lido = pd.read_excel('.exemplo_arquivos/exemplo_futebol.xlsx')

# pandas
duckdb.sql("SELECT * FROM dado_lido;").show()

O inverso também é possível

In [None]:
# pandas
dado_recebido = duckdb.sql("SELECT * FROM dado_lido;").to_df()

print(f"Tipo do dataframe: `dado_recebido` é {type(dado_recebido)}")
dado_recebido

### Cruzamento de dados
Quando falamos em pipeline de dados, transformação, muitas vezes estamos querendo enriquecer uma base com outra base, e para isso nada melhor que SQL para relacionar, mas imagina você quer cruzar os dados de um `json` com um `parquet`.
Isso é complicado fazer até mesmo com `Pyspark`, `Pandas`, `Polars`, mas com `DuckDB`, é muito simples, vamos ver.

In [None]:
# Salvando como `csv`
duckdb.sql("SELECT * FROM './Campeonato Brasileiro de futebol/campeonato-brasileiro-cartoes.csv'").to_csv("./uniao_tabelas/campeonato-brasileiro-cartoes.csv")
# Salvando como `parquet`
duckdb.sql("SELECT * FROM './Campeonato Brasileiro de futebol/campeonato-brasileiro-gols.csv'").to_parquet("./uniao_tabelas/campeonato-brasileiro-gols.parquet")

>__IMPORTANTE__
>
> _Observação_: Não estamos considerando boas práticas de SQL ou tratamento de dados aqui no momento.

In [None]:
# lendo `csv` e `parquet`
duckdb.sql("SELECT partida_cartoes.atleta, COUNT(DISTINCT(partida_cartoes.partida_id, partida_cartoes.atleta, partida_cartoes.minuto)) AS total_cartoes_recebidos, COUNT(DISTINCT(partida_gols.partida_id, partida_gols.atleta, partida_gols.minuto)) AS total_gols_Feitos FROM './uniao_tabelas/campeonato-brasileiro-cartoes.csv' AS partida_cartoes JOIN './uniao_tabelas/campeonato-brasileiro-gols.parquet' AS partida_gols ON partida_cartoes.partida_id = partida_gols.partida_id AND partida_cartoes.atleta = partida_gols.atleta AND partida_cartoes.clube = partida_gols.clube GROUP BY partida_cartoes.atleta ORDER BY COUNT(partida_gols.atleta) DESC, COUNT(partida_cartoes.atleta) DESC").show()

### Continua...
Você conseguiu ve até aqui quão poderosa essa ferramenta é? com uma única linha, conseguimos unir duas tabelas geradas de dois tipos de arquivos diferentes, e não para por ai.

### Contribuição

Se você tiver alguma sugestão ou quiser contribuir com materiais adicionais, sinta-se à vontade para abrir uma issue ou enviar um pull request neste repositório.

Divirta-se aprendendo!

### Autor

(Gustavo Lopes: [GitHub](https://github.com/Gustavo-H-Martins) | [LinkedIn](https://www.linkedin.com/in/gustavo-henrique-lopes-martins-361789192/))

![Gustavo Lopes](https://media.licdn.com/dms/image/D4D03AQHV5drm3wpahA/profile-displayphoto-shrink_100_100/0/1690910388427?e=1705536000&v=beta&t=aJWHFAWbByEHIyIBM1o6m3zfBB8arlyMEQIpP7ruRJk)

- Engenheiro de Dados com foco
  -
  - Big Data
  - Processamento Distribuído
  - Arquitetura e computação em nuvem
  - Performance e redução de custo
  - Repasse de conhecimento e democratização de acesso