<a href="https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/A05_SQL_NoSQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/mack_logo.png?raw=true" height="70" align="right"/></a>






<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_NoSQL_cover.png?raw=true" height="250" align="left"/></a>


# SQL & NoSQL Databases

Bancos de dados relacionais (SQL) e NoSQL desempenham um papel fundamental quando tratamos de dados.

# Bancos de Dados Relacionais

Apesar da evolução e de novos requerimentos no armazenamento de dados,  bancos de dados tradicionais (Relacionais / SQL) ainda são, por suas características, o meio mais empregado e preferencial de armazenamento para uma grande parte dos dados das empresas. Particularmente, dados associados a transações de negócio.   

## Pontos Revisão e Discussão

**DATABASE SYSTEMS: THE COMPLETE BOOK 2nd Edition** *( Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom)*

<br>

#### TABLE OF CONTENTS

1.1.2 Relational Database Systems

PART I: Relational Database Modeling
> $\times$ [The entity-relationship model—toward a unified view of data](https://dl.acm.org/doi/abs/10.1145/320434.320440), *Peter Pin-Shan Chen*,


PART IV: Database System Implementation

6.6 Transactions in SQL

13 Secondary Storage Management

> [MS SQL Server - Pages and Extents Architecture Guide](https://learn.microsoft.com/en-us/sql/relational-databases/pages-and-extents-architecture-guide?view=sql-server-ver16)


**SQL & NoSQL Databases**, *Meyer*

6 Postrelational Databases

* Federated Databases
* Temporal Databases
* Multidimensional Databases
* Data Warehouse
* **Object-Relational Databases**


# **CAP** - Consistência , Disponibilidade e Tolerância à Partição

The alternative to ACID is BASE:
* Basically Available
* Soft state
* Eventually consistent

In [None]:
from IPython.display import IFrame
IFrame('https://www.julianbrowne.com/article/brewers-cap-theorem/', width=1500, height=600)


<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_CAP.png?raw=true" height="250" align="left"/></a>

# Características do NoSQL

* Modelos não relacionais.

* Escalabilidade horizontal.

* Baixas restrições de esquema.

* Facilidade de replicação de dados.

* Fácil acesso por APIs

* A Consistência do Modelo é não ACID
> * **Orientado a Buscas, não a Transações** (~ not in the  book!)

# Tipos principais de Bancos de Dados NoSQL

* Armazenamento de chave-valor.

* Bancos de Dados colunares.

* Orientados a documentos.

* Bancos de dados de grafos.

* Vector Store (**not in the book!**)

# Bancos de Dados Chave-Valor (7.2)

Os bancos de dados chave-valor armazenam dados como pares de chave e valor, permitindo que um valor seja associado a uma chave única. Eles são schema-free, o que significa que não requerem uma estrutura de dados predefinida, facilitando a inserção de dados em formatos variados. A distribuição de dados é feita através de sharding e hashing, permitindo alta escalabilidade e desempenho.

> **Sharding** é o processo de dividir um banco de dados em partes menores, chamadas shards, que podem ser distribuídas para melhorar a escalabilidade e o desempenho.

> **Hashing** é uma técnica que gera um valor numérico (hash) a partir de uma chave, esse hash é geralmente empregado para determinar em qual shard o valor correspondente será armazenado.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_chave_valor.png?raw=true" height="250" align="left"/></a>


Um banco de dados é de armazenamento de chave-valor se tiver as seguintes propriedades (livro):

* Há um conjunto de objetos de dados de identificação, as chaves.

* Para cada chave, há exatamente um objeto de dados descritivo associado, o valor para
aquela chave.

* Especificar uma chave permite consultar o valor associado no banco de dados.

<br>
<br>

Vantagens:

* Flexibilidade na estrutura de dados.

* Alta performance em leitura e escrita.

* Escalabilidade fácil através de sharding.

Desvantagens:

* Falta de integridade referencial.

* Estrutura rudimentar pode levar a desorganização.

* Dificuldade em realizar consultas complexas.

Exemplos:

* [Amazon DynamoDB](https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf), 2007

* [Redis](https://redis.io/) (**in-memory database**)

* [Riak](https://riak.com/index.html)

# Bancos de Dados de Armazenamento em Colunas (7.3)

Os bancos de dados são bancos de dados key-value, onde os dados são organizados em famílias de colunas em vez de linhas. Essa estrutura permite otimizar operações de leitura, agrupando colunas que são frequentemente acessadas juntas, possibilitando **melhorar a eficiência das buscas**. Os dados são armazenados em tabelas multidimensionais, onde as colunas são agrupadas em famílias, e a flexibilidade é mantida ao permitir chaves de coluna arbitrárias dentro de cada família.

> **Como o armazenamento colunar pode permitir consultas mais eficientes?**

<br>
<br>

Vantagens:

* Alta escalabilidade e disponibilidade.

* Estrutura útil com controle de acesso e localização de dados.

* Flexibilidade na utilização de chaves de coluna.

Desvantagens:

* Complexidade na gestão de dados devido à falta de um esquema rígido.

* Pode ser menos intuitivo para usuários acostumados a bancos de dados relacionais.

* Desempenho pode ser afetado em operações que exigem acesso a múltiplas famílias de colunas.

Exemplos:

* [Google Bigtable](https://research.google/pubs/bigtable-a-distributed-storage-system-for-structured-data/), 2006

* [Apache Cassandra](https://cassandra.apache.org/_/index.html), origem no Bigtable, NetFlix

* [Apache HBase](https://hbase.apache.org/), origem no Bigtable, open source em **Java**, integração com Apache+HDFS+MapReduce



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_colunar.png?raw=true" height="250" align="left"/></a>

# Bancos de dados orientados a documentos (7.4)

Bancos de dados orientados a documentos armazenam dados em documentos estruturados, geralmente em formatos como JSON (ou ainda temos os bancos de dados XML), **sem a necessidade de um esquema predefinido**. Cada documento é identificado por uma chave única. São particularmente adequados para aplicações web, pois podem ser facilmente integrados com tecnologias como JavaScript e HTTP, além de suportarem escalabilidade horizontal através de sharding.

<br>
<br>

Vantagens:

* Flexibilidade na estrutura de dados, permitindo a inclusão de atributos variados.

* Facilidade de integração com aplicações web.

* Escalabilidade horizontal eficiente.

Desvantagens:

* Falta de integridade referencial e normalização.

* Consistência eventual pode levar a dados desatualizados temporariamente.

* Dificuldade em realizar consultas complexas.

Exemplos:

* [MongoDB](https://www.mongodb.com/), **TimeSeries!**

* [CouchDB](https://www.datadoghq.com/dg/monitor/couchdb/), **Datadog**

* [Amazon DocumentDB](https://aws.amazon.com/pt/documentdb/) "alguma" (kkk) compatibilidade com MongoDB versão > 3.6

* Tamino XML, *very old...*

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_documentos.png?raw=true" height="250" align="left"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_xml.png?raw=true" height="150" align="left"/></a>

# Bancos de dados orientados a grafos (7.5)

Armazenam dados na forma de grafos, nós e arestas, representando entidades e suas relações. São especialmente úteis em aplicações que envolvem redes sociais, análise de infraestrutura e roteamento na internet etc.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_graph.png?raw=true" height="250" align="left"/></a>

## Grafos

> **A propriedade de adjacência sem índice permite que a busca por vizinhos diretos de um nó seja constante, independentemente do volume de dados.**

<br>
<br>

## Listas de Adjacências

> Alice: [Bob, Carlos]

> Bob: [Alice, Dani]

> Carlos: [Alice]

> Dani: [Bob]

<br>

> *Alice é amiga de Bob e Carlos.
Bob é amigo de Alice e Dani.
Carlos é amigo apenas de Alice.
Dani é amiga apenas de Bob.*

## Matriz de Adjacências

|   | Alice | Bob | Carlos | Dani |
|---|---|---|---|---|
| Alice | 0 | 1 | 1 | 0 |
| Bob | 1 | 0 | 0 | 1 |
| Carlos | 1 | 0 | 0 | 0 |
| Dani | 0 | 1 | 0 | 0 |

> *Alice é amiga de Bob e Carlos.
Bob é amigo de Alice e Dani.
Carlos é amigo apenas de Alice.
Dani é amiga apenas de Bob.*

<br>

**Listas de adjacência** são mais eficientes em termos de espaço para grafos esparsos e são ideais para encontrar os vizinhos de um nó. Já as **Matrizes de adjacência** são mais simples de implementar e permitem verificar rapidamente se existe uma aresta entre dois nós, mas podem consumir muito espaço para grafos esparsos (**talvez...**).

## Grafo direcionado

> **Como seria um grafo direcionado**, tipo "Alice segue Bob" (mas não necessariamente "Bob segue Alice")...

Lista de Adjacência:

> Alice: [Bob]

> Bob: []

> Carlos: [Alice, Bob]

> Dani: [Alice, Carlos]

<br>

|   | Alice | Bob | Carlos | Dani |
|---|---|---|---|---|
| Alice | 0 | 1 | 0 | 0 |
| Bob | 0 | 0 | 0 | 0 |
| Carlos | 1 | 1 | 0 | 0 |
| Dani | 1 | 1 | 0 | 0 |



<br>
<br>

Vantagens:

*  Consultas rápidas e eficientes em dados altamente interconectados.

*  Estrutura natural para representar relacionamentos complexos.

*  Flexibilidade na adição de novos tipos de nós e arestas.

Desvantagens:

*  Fragmentação de dados pode ser complexa devido às relações entre registros.

*  Algoritmos para particionamento de grafos são computacionalmente intensivos.

*  Menos suporte para operações de consulta complexas em comparação com bancos de dados relacionais.

Exemplos:

* [Neo4j](https://neo4j.com/)

* [Amazon Neptune](https://aws.amazon.com/pt/neptune/)

* [ArangoDB](https://arangodb.com/)

* Not a database, but see also, [Pajek](https://pajek.software.informer.com/)

# Vector Stores: Bases de Dados de Busca Semântica (7.None)

Os **Vector Stores** são como bibliotecas altamente especializadas no armazenamento e manipulação de **vetores** ou **arrays** empregados em representações numéricas complexas de informações textuais, imagens, ou qualquer outro tipo de dado que possa ser convertido em um formato numérico. Essa conversão é em geral feita por modelos de linguagem natural ou, mais recentemente por modelos de aprendizado de máquina, como os grande modelos de linguagem, que transformam textos em vetores que capturam o significado semântico das palavras e frases.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/A5_vector_store.png?raw=true" height="250" align="left"/></a>

## Busca semântica

Ao invés de buscar por palavras-chave exatas, as Vector Stores permitem realizar buscas baseadas na similaridade semântica entre os vetores.

* **Recomendação:** Ao analisar os vetores de itens que um usuário já interagiu, é possível recomendar outros itens com vetores semelhantes, ou seja, itens que são semanticamente próximos.

* **Clustering:** Agrupar vetores semelhantes permite identificar temas ou tópicos em grandes conjuntos de dados.

* **Similaridade:** Textos, ou mesmo imagens, com similaridade semântica, isto é *semelhantes* podem ser buscados.



In [None]:
from IPython.display import IFrame
IFrame('https://python.langchain.com/v0.2/docs/integrations/vectorstores/', width=1500, height=600)


## Exemplos

O **FAISS** (Facebook AI Similarity Search) é uma biblioteca de código aberto desenvolvida pelo Facebook AI Research para realizar buscas de similaridade em grandes conjuntos de vetores. Ele é especialmente eficiente para lidar com bilhões de vetores, tornando-o uma escolha popular para aplicações em grande escala.

> * **Velocidade:** O FAISS é otimizado para realizar buscas de similaridade de forma rápida, mesmo em grandes conjuntos de dados.
> * **Flexibilidade:** Suporta diversos algoritmos de indexação e busca, permitindo escolher a melhor opção para cada caso de uso.
> * **Escalabilidade:** Pode ser facilmente escalado para lidar com grandes volumes de dados.

* **Milvus:** Um sistema de busca vetorial de alto desempenho, projetado para aplicações em grande escala.

<br>

---
<br>

* **Pinecone:** Uma plataforma de vetor database gerenciada na nuvem.

* **Weaviate:** Uma base de dados semântica de código aberto que combina a busca por vetores com mecanismos de grafo.

* **Chroma:** Mais uma biblioteca de Python para construir aplicações de busca semântica que exatamente um "banco".




