# Banco de dados não-relacional (NoSQL)

Este handout tem por objetivos

 - Identificar os elementos que compõe um banco de dados não-relacional
 - Experimentar o MongoDB e observar situações de uso em aplicações


## O que são e para que servem um banco de dados NoSQL?


Os bancos de dados NoSQL (Not Only SQL) são sistemas de gerenciamento de banco de dados que fornecem um mecanismo para armazenamento e recuperação de dados que é modelado de maneira diferente da abordagem tabular usada nos bancos de dados relacionais tradicionais. 

Esses bancos de dados são projetados para *lidar com grandes volumes de dados*, proporcionar *flexibilidade em termos de esquemas de dados*, e são *otimizados para operações em larga escala*.

São características principais dos banco de dados NoSQL:

 - **Flexibilidade de Esquema**: Diferentemente dos bancos de dados relacionais, que exigem um esquema fixo antes do armazenamento dos dados, os bancos de dados NoSQL são mais flexíveis, *permitindo a alteração dos esquemas sem interromper as aplicações existentes*.
 - **Escalabilidade**: São *altamente escaláveis*, oferecendo suporte tanto à *escalabilidade horizontal* (adicionando mais máquinas) quanto *vertical* (adicionando mais recursos a uma única máquina).
 - **Desempenho**: Projetados para oferecer um desempenho otimizado em operações específicas, como *grandes volumes de leituras e escritas rápidas*, geralmente em detrimento de outras funcionalidades, como transações complexas.
 - **Tipos de Dados Variados**: Suportam uma grande variedade de tipos de dados e estruturas, incluindo documentos (JSON, XML), pares chave-valor, grafos e dados colunares.

## Quais são os tipos de banco de dados NoSQL que existem?

- **Documentais**: Armazenam dados em documentos semelhantes a JSON. Exemplos incluem MongoDB e CouchDB.
- **Chave-Valor**: Armazenam dados como um conjunto de pares chave-valor. Exemplos são Redis e DynamoDB.
- **Colunares**: Otimizados para leituras e escritas rápidas em grandes datasets distribuídos. Exemplos incluem Cassandra e HBase.
- **Grafos**: Projetados para armazenar e manipular relacionamentos. Exemplos incluem Neo4j e ArangoDB.

## O que me leva a decidir pelo uso de um banco de dados NoSQL em detrimento de um banco de dados relacional?

A escolha entre usar um banco de dados NoSQL ou um banco de dados relacional depende de vários fatores, incluindo o tipo de dados que você precisa, o tipo de desempenho que você precisa, a escalabilidade e a complexidade das transações associadas. A seguir estão alguns fatores importantes que influenciam a escolha de um banco de dados NoSQL em vez de um relacional.

 - **Estrutura de dados**: No banco de dados NoSQL os dados são semi-estruturados ou não-estruturados, sendo representado, na sua maioria, por documentos JSON, aderente a grandes volumes de dados tal como logs e redes sociais. Já o banco de dados relacional é aderente a um formato tabular, facilitando consultas que sejam íntegras e complexas, com relações claramente definidas.
 - **Escalabilidade**: O banco de dados NoSQL é adequado para escalar horizontalmente, adicionando mais servidores proporcionalmente ao aumente de carga, voltado a manipulação de grandes volumes de dados tal como jogos online, aplicações em Internet das Coisas e outras aplicações que demandam grandes cargas de dados com melhor desempenho. O banco de dados relacional é tradicionalmente otimizado para escalabilidade vertical, reforçando a capacidade de servidores já existentes. A escalablidade horizontal para bancos de dados relacionais pode implicar e maior esforço e custo.
 - **Consistência nas transações**: Alguns bancos de dados NoSQL podem não garantir uma consistência imediata nas suas transações, valorizando a disponiblidade e a tolerância a falhas em relação a consistência estrita nas transações. Já o banco de dados relacional suporta transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade) com uma rigorosa integridade de dados, tal como sistemas financeiros e comerciais.
 - **Manutenção**: Bancos de dados NoSQL possuem facilidade de manutenção em ambientes ágeis no qual os modelos de dados mudam rapidamente. Todavia é um trabalho árduo manter a consistência. No banco de dados relacional, as bases de conhecimento são extensas e íntegras, ajudando na prevenção de inconsistências nos dados.
 - **Consultas e análises dos dados**: No NoSQL as consultas não são flexiveis tal como operações analíticas, agrupamentos ou junções como realizado em bancos de dados relacionais. Em contrapartida, o banco de dados SQL possui linguagem e recursos ricos para operações de extração refinada de dados.
 - **Custo e desempenho**: O NoSQL possui um custo de operação inferior ao banco de dados relacional, dado as questões de escalabilidade já mencionadas.

Em resumo, não podemos afirmar que o NoSQL é melhor que o relacional ou vice-versa: eles possuem vantagens e desvantagens que devem ser avaliadas para as necessides específicas de uma solução.

## Vamos para a prática!

Para este handout vamos utilzar o MongoDB, um SGBD NoSQL orientado a documentos (https://www.mongodb.com/).
Para trabalhar com nosso servidor Mongo DB, utilzaremos o PyMongo: uma biblioteca Python que facilita a operação com o MongoDB.

Neste handout já temos um servidor MongoDB criado para que você possa executar todos os exemplos disponíveis. No entanto, você também pode fazer a instalação de uma instância local, o MongoDB Community.

## Instalando o MongoDB Community (caso queira efetuar a instalação do MongoDB no seu computador)

O MongoDB Community Edition é uma distribuição aberta e projetada para desenvolvedores que queiram ter a experiência de uso sem os recursos avançados de uma versão paga.

O MongoDB Community Edtion tem suporte para as os sistemas operacionais Windows, MacOS, distrubuições Linux e como um container Docker. Acesse a URL abaixo para obter as instruções específicas.

[Clique aqui para baixar o MongoDB Community Edition](https://www.mongodb.com/docs/manual/administration/install-community/)

Depois de instalado, você terá um servidor MongoDB operando localmenta na porta 27017 (mongodb://localhost:27017) pronto para ser utilizado! Para testar você pode abrir o MongoDB Compass e tentar se conectar ao servidor.

## Instalação do MongoDB Compass

O MongoDB Compass é o gerenciador de bases de dados através de uma interface gráfica (similar ao uso do MySQL Workbench). Você poderá acompanhar a manipulação e alterações na base de dados 

[Clique aqui para baixar o MongoDB Compass](https://www.mongodb.com/try/download/compass)




## Preparando o ambiente Python para nossas interações com o MongoDB

Depois de instalarmos o servidor MongoDB localmente no computador, vamos preparar o ambiente Python para as interações com a biblioteca PyMongo (https://pymongo.readthedocs.io/en/stable/). Para instalar o PyMongo no seu ambiente basta executar.

In [None]:
!python -m pip install "pymongo[srv]"

Aguarde a instalação. Assim que comcluído, faremos a importação em nosso Notebook, como segue

In [None]:
import pymongo
import urllib.parse

O próximo passo é estabelecer uma conexão com o nosso servidor e listar as bases de dados existentes. Para isso, vamos invocar um objeto MongoClient passando como parâmetro a string de conexão do nosso SGBD.

Caso esteja usando o servidor local em seu computador, string de conexão será: *mongodb://localhost:27017/*, podendo usar também a mesma string no MongoDB Compass.

Caso esteja usando o servidor disponibilzado para o handout, basta usar a string de conexão no MongoDB Compass:
mongodb+srv://megadados:"senha"@megadados.omhzqxx.mongodb.net


Execute as linhas a seguir para se conectar e verificar as bases de dados existentes.

In [None]:
username = urllib.parse.quote_plus('megadados')
password = urllib.parse.quote_plus('Megad@d0s')

#este é o servidor disponiblizado pela disciplina. Caso queira usar seu servidor local, comente a linha abaixo
client = pymongo.MongoClient("mongodb+srv://%s:%s@megadados.omhzqxx.mongodb.net/?retryWrites=true&w=majority&appName=Megadados" % (username, password))

#descomente esta linha caso esteja usando seu servidor local
#client = pymongo.MongoClient("mongodb://localhost:27017/")

print(client.list_database_names())

Existem algumas bases por padrão em um servidor MongoDB: admin e local, por exemplo. Recomendamos não usar estas bases pois podem ser utilizadas para a própria gestão do MongoDB.  Ate aqui, garantimos que nosso cliente MongoDB se conectou ao servidor.

## Manipulando dados do MongoDB usando a biblioteca PyMongo

Vamos criar uma base para nosso handout sendo o nome seu usuário Insper (*vamos padronizar pois todos seus/suas colegas criarão bases de dados no mesmos servidor*) e dentro dela uma coleção chamanda *pessoas* e, dentro da coleção, um documento inicial para que base de dados, coleção e documento existam (pois não podemos ter bases de dados ou coleções vazias no MongoDB). Vamos executar os comandos a seguir.

In [None]:
import datetime

#cria a base de dados (use aqui o seu usuário Insper, cada aluno terá uma base de dados para trabalhar dentro do SGBD)
database = client['seu_usuario_insper']

#cria a coleção a partir do objeto da base de dados instanciado
pessoas = database['pessoas']

#cria um documento dentro da coleção pessoas através do comando insert_one (insere um único documento na coleção, sempre em formato JSON
documento = {
    "nome": "Maciel",
    "cpf": "010.333.332-20",
    "data_nascimento": datetime.datetime(1980, 4, 12),  # Ano, Mês, Dia
    "cidade": "São Paulo"
}
pessoas.insert_one(documento)

Observe que recebemos uma confirmação que o objeto foi inserido com sucesso com um elemento chamado ObjectId. Apesar de bancos noSQL não possuirem a mesma organização de banco relacionais (como relação, tupla e outros), o MongoDB persiste o documento garantindo sua unicidade criando o elemento ObjectID, valor de 96 bits que não é arbitrário, mas criado por diferentes parâmetros do servidor (você pode verificar em detalhes em https://www.mongodb.com/docs/manual/reference/method/ObjectId/).

Vamos realizar as confirmações que nosso objeto foi inserido com sucesso, listando a base de dados, coleção e documento (neste caso, ainda estamos com somente um documento na coleção).

In [None]:
import pprint

#listam as bases de dados
print(client.list_database_names())

#listam as coleções da base de dados selecionada
print(database.list_collection_names())

#listando todos os documentos de uma collection
for documento in pessoas.find():
    pprint.pprint(documento)



Além da criação de um único documento, podemos criar vários documentos de uma vez através da função insert_many(), como segue o exemplo a seguir.

In [None]:
#lista de documentos a serem inseridos
documentos = [
    {"nome": "Alice", "cpf": "903.969.017-93", "data_nascimento": datetime.datetime(1998, 4, 12), "cidade": "São Paulo"},
    {"nome": "Bob", "cpf": "123.456.789-10","data_nascimento": datetime.datetime(1993, 8, 25), "cidade": "Rio de Janeiro"},
    {"nome": "Clara", "cpf": "321.999.123-45","data_nascimento": datetime.datetime(1995, 1, 15), "cidade": "Belo Horizonte"}
]

#inserindo os documentos na coleção
pessoas.insert_many(documentos)


#listando todos os documentos para confirmar
for documento in pessoas.find():
    pprint.pprint(documento)

Até que criamos nossa coleção com alguns documentos. Entrentanto, nem sempre é conveniente listar todos os documentos de uma coleção quando estamos interessados em uma busca mais específica. Para isso, podemos informar parâmetros que otimizam nossa busca. Por exemplo, se desejamos buscar um documento por um CPF específico, podemos espeficar o campo do documento na função find, como apresentado a seguir.

A função *find* é uma das mais utilizadas no MongoDB, dado seu potecial de respostas e possibiliades de expressões. Vamos explorar alguns possibilidades neste handout, mas você pode também observar a documentação do MongoDB sobre os diferentes parâmetros em https://www.mongodb.com/docs/manual/reference/method/db.collection.find/

In [None]:
for documento in pessoas.find({'cpf':'010.333.332-20'}):
    pprint.pprint(documento)

Mas nem sempre desejamos todos os campos de um documento no resultado de uma busca. Para isso, devemos incluir na função find o parâmetro de projeção. Por exemplo, temos por interesse somente a cidade e o nome da pessoa no resultado. Veja como deve ser escrita a busca.

In [None]:
# Vamos aqui separar um objeto referente ao filtro
filter={
    'cpf': '010.333.332-20'
}

# Este objeto se refere a projeção, no qual selecionamos a exibição de nome e cidade na busca
projection={
    'nome': 1, 
    'cidade': 1
}

for documento in pessoas.find(filter=filter,projection=projection):
    pprint.pprint(documento)

Além do filtro e da projeção, podemos também ordenar os resultados com o parâmetro sort, como apresentado abaixo

In [None]:
# Vamos aqui separar um objeto referente ao filtro
filter={}

# Este objeto se refere a projeção, no qual selecionamos a exibição de nome e cidade na busca
projection={
    'nome': 1, 
    'cidade': 1
}

# A ordenação é uma lista dos campos que desejamos ordenar (1 para ordem crescente e -1 para ordem decrescente )
sort = list({'nome': 1, 'cidade': -1}.items())

for documento in pessoas.find(filter=filter,projection=projection,sort=sort):
    pprint.pprint(documento)

Até aqui já observamos como criar bases de dados, coleções e documentos, além de aplicar filtros com diferentes parâmetros. Também podemos editar um documento específico e apagar um ou mais documentos.

Para editar um documento específico, temos a função **update_one()**, no qual recebe qual filtro deve ser aplicado para as alcançar os objetos desejados e o segundo parâmetro especifica quais campos devem ser alterados. Veja o exemplo a seguir efetuando a atualização de um nome de um objeto com CPF específico.

In [None]:
#parâmetros especificados para a alteração
cpf = '010.333.332-20'
filtro = {'cpf':cpf}
alteracao = {'$set': {'nome': 'Gustavo'}} 

#comando para proceder com a alteração
pessoas.update_one(filtro,alteracao)

for documento in pessoas.find(filtro):
    pprint.pprint(documento)

Para completar nosso CRUD com o MongoDB, resta experimentarmos a função de remoção. O PyMongo possui a função **delete_one()**, o qual também deve ser especificado a expressão de filtro para apontar quais devem ser os documentos que devem ser removidos.

In [None]:
cpf = '010.333.332-20'
filtro = {'cpf':cpf}

resultado = pessoas.delete_one(filtro)

print("Documentos deletados:", resultado.deleted_count)

Na coleção **pessoas**, observe que podemos criar documentos com o mesmo número de CPF, *o que viola a consistência deste conjunto de dados*. Podemos nas coleções do MongoDB criar **índices** para campos específicos os quais desejamos que não se repitam. Observe que podemos criar um índice utilizando a função **create_index()**, especificando o campo desejado e se o mesmo precisa ter unicidade na coleção (parâmetro *unique*).

É recomendado a criação do índice com a coleção vazia, para isso vamos remover todos os documentos com o comando **delete_many()**

Ao tentar inserir um CPF mais de uma vez, perceba que é gerada um exceção que precisa ser tratada para uma resposta amigável.

In [None]:
# removendo todos os registros da coleção. A expressão {} é semelhante ao * no SQL, ou seja, serão selecionados todos os elementos
pessoas.delete_many({})

# Criar índice único para o campo 'cpf'
resultado = pessoas.create_index([("cpf", 1)], unique=True)
print("Índice criado:", resultado)

try:
    pessoas.insert_one({"nome": "Alice", "cpf": "903.969.017-93", "data_nascimento": datetime.datetime(1998, 4, 12, 0, 0), "cidade": "São Paulo"})
    pessoas.insert_one({"nome": "Aline", "cpf": "903.969.017-93", "data_nascimento": datetime.datetime(2000, 12, 10, 0, 0), "cidade": "Salvador"})
except Exception as e:
    print("Erro ao inserir documento:", e)

    




## Trabalhando com grandes volumes de dados no MongoDB

Até aqui aprendemos como criar bancos de dados e coleções, além de manipular estes dados utilzando a biblioteca PyMongo. Todavia, podemos se deparar com a necessidade de atuar com grandes volumes de dados que podemos importar como uma coleção do MongoDB.

O servidor criado para esta aula contém um banco de dados chamado **sample_mflix**, no qual possui dados fictícios sobre uma plataforma de streaming, contendo coleções com cerca de 40.000 documentos (saiba mais em https://www.mongodb.com/docs/atlas/sample-data/sample-mflix/)

**Se está seguindo o handout pelo servidor local, peço que se conecte no servidor disponibilizado para o handout para acessar a base já disponível.**

Vamos acessar este banco de dados atualizando nosso objeto de acesso como segue
   

In [None]:
client = pymongo.MongoClient("mongodb+srv://%s:%s@megadados.omhzqxx.mongodb.net/?retryWrites=true&w=majority&appName=Megadados" % (username, password))

#altera o acesso para a base de dados 'sample_mflix'.
database = client['sample_mflix']
print(database.list_collection_names())

Vamos acessar a coleção movies e saber quantos documetos estão armazendos, como segue abaixo

In [None]:
movies = database['movies']

# mostra o número de documentos da coleção
movies.count_documents({})


Para sabermos quais são os campos existenes nos documentos, vamos observar o primeiro documento da coleção através do comando *find_one()*

In [None]:
# mostra o primeiro elemento da coleção
movies.find_one()

Observe no documento extraído o campo *languages* no qual possui um array com línguas disponíveis no filme. Podemos, por exemplo, pesquisar todos os filmes que suportam inglês e português especificando nossa necessidade nos parâmetro do filtro, como segue. Experimente observar as diferenças entre as expressões in e all para filtrar os elementos desejados do array.

In [None]:
# Busca documentos informando os itens desejados na coleção.
# A expressão "in" busca por qualquer documento que tenha pelo menos um dos itens
# A expressão "all" busca por qualquer documento que tenham todos os elementos elencados no filtro
filter={
            "languages": {'$all': ["English","Portuguese"]}
        }

#vamos restringir para que apareça somente o título do filme e a língua
projection={'title': 1,'languages': 1}

print(movies.count_documents(filter))
documentos = movies.find(filter,projection)


for documento in documentos:
    pprint.pprint(documento)

Estamos interessados em refinar nossa busca na coleção **movies**. Somos exigentes nos filmes que desejamos listar e queremos os que pelo menos ganharam um prêmio, obtido atraves do campo *awards*, possuindo um objeto com os campos *wins, nominations e text*. Podemos incrementar nosso filtro com expressões tal como *gt* (*greater than*), *lt* (*lower than*), *gte* (*graeater than and equal*) e *lte* (*lower than and equal*). Vamos testar o uso no trecho a seguir.

In [None]:
filter={
            "languages": {'$all': ["English","Portuguese"]},
            'awards.wins':{'$gt': 1}
}

#vamos restringir para que apareça somente o título do filme e a língua
projection={'title': 1,'languages': 1, 'awards': 1}


print(movies.count_documents(filter))
documentos = movies.find(filter,projection)



for documento in documentos:
    pprint.pprint(documento)

No entanto não estamos satisfeitos somente com prêmios mas também com indicações! Vamos utilizar expressões lógicas tal como *and* e *or* para combinar expressões de busca para atingir os resultados que precisamos. Por exemplo, vamos entender como buscar filmes com pelo menos um prêmio e pelo menos duas indicações (*nominations*). Vamos também incluir o parâmetro sort para listar em ordem crescente de prêmios.

In [None]:
#experimente tanto o uso do and quando o uso do or para observar a diferença

filter={
        '$and':[{"languages": {'$all': ["English","Portuguese"]}},
                {'awards.wins':{'$gt': 1}},
                {'awards.nominations':{'$gte': 2}}
               ]      
}

#vamos restringir para que apareça somente o título do filme e a língua
projection={'title': 1,'languages': 1, 'awards': 1}

#listar em ordem crescente de número de prêmios.
sort = list({'awards.wins': 1}.items())

print(movies.count_documents(filter))
documentos = movies.find(filter=filter,projection=projection,sort=sort)


for documento in documentos:
    pprint.pprint(documento)

Para finalizar, vamos buscar nosso filme por uma palavra-chave no campo título, complementando o filtro que já montamos anteriormente. A expressão *regex* permite a buscar por expressões regulares, como mostra o exemplo a seguir. Você pode explorar variações do uso do $regex em (https://www.mongodb.com/docs/manual/reference/operator/query/regex/)

In [None]:
#dicas do uso do regex
#'$regex': '^Safe Haven' -> Uso do circunflexo ao início para palavras que começam por tal expressão
#'$regex': 'Safe Haven$' -> Uso do cifrão ao fim para palavras que terminam por tal expressão
#'$regex': 'Safe Haven' -> Sem circunflexo ou cifrão para busca da expressão que contenha a palavra/frase especificada

filter={
        '$and':[{"languages": {'$all': ["English","Portuguese"]}},
                {'awards.wins':{'$gt': 1}},
                {'awards.nominations':{'$gte': 2}},
                {'title': {'$regex': 'Safe Haven', '$options': 'i'}} # '$options': 'i' torna a busca insensível a maiúsculas e minúsculas
               ]      
}


projection={'title': 1,'languages': 1, 'awards': 1}

sort = list({'awards.wins': 1}.items())

print(movies.count_documents(filter))
documentos = movies.find(filter=filter,projection=projection,sort=sort)


for documento in documentos:
    pprint.pprint(documento)

## Agora é com você!

Agora que você fez a leitura do handout até aqui e executou todos os exemplos apresentados, segue uma proposta de um exercício para praticar o uso de MongoDB

Para cada campo a seguir, deve ser desenvolvida o trecho de código fonte correspondente ao que será solicitado.

1) Crie uma coleção chamada **veiculos** na base de dados que como nome possui seu usuário do Insper. Nesta coleção deve ser inserido um documento contendo a marca, modelo, placa, ano_modelo (somente o número inteiro referente ao ano), ano_fabricacao (somente o número inteiro referente ao ano) e codigo_registro.

In [None]:
# Seu código aqui


2. Para o campo "codigo_registro", crie um índice de maneira que o valor não se repita dentro da coleção.

In [None]:
# Seu código aqui



3. Agora que você tem a coleção com um documento e o índice criado, vamos criar 10 documentos com os mesmos campos que o criado anteriormente.

In [None]:
#Seu código aqui

4. Com os documentos criados na coleção, elabore um trecho de código que altere a placa de um veículo buscando o mesmo pelo campo codigo_registro

In [None]:
#Seu código aqui







5. Elabore uma busca que tenha como chave uma marca específica, retornando documentos com campos de modelo, placa e ano_modelo em ordem crescente de ano_modelo.

In [None]:
#Seu código aqui







6. Baseado no Exercício 5, altere a busca para que busque por uma marca e modelo específico.

In [None]:
#Seu código aqui







7. Elabore uma busca que tenha como resultado os veículos entre uma período estabelecido pelo valor ano_fabricacao. Por exemplo, retornar todos os veículos com ano entre 1990 e 2001 (incluindo também os anos mencionados nas extremidades).

In [None]:
#Seu código aqui








8. Elabore uma busca que tenha como resultado os veículos os quais o ano_fabricacao é igual ao ano_modelo. Você pode utilizar o operador $expr (https://www.mongodb.com/docs/manual/reference/operator/query/expr) e $eq para a montagem do filtro (https://www.mongodb.com/pt-br/docs/manual/reference/operator/query/eq/)

In [None]:
#Seu código aqui








## Quero aprofundar meus estudos sobre banco de dados NoSQL

Uma funcionalidade interessante de ser explorada para estudos futuros é a possibilidade de realizar operações sequeciaos no MongoDB, tal como sessões casualmente consistentes e operações transacionais (envolvendo mais de uma coleção). O PyMongo fornece suporte para acessar estas funcionalidades no Mongo DB. Veja o link https://pymongo.readthedocs.io/en/stable/api/pymongo/client_session.html para maiores informações.

Um outro banco de dados NoSQL que pode ser explorado é o Redis: um banco de dados baseado em chave-valor com alta disponiblidade para armazenamento de dados de sessões online e variáveis de ambiente. Você pode ter mais informações sobre o Redis em https://redis.io/. Você pode testar o Redis online pelo link https://try.redis.io/



