<a href="https://colab.research.google.com/github/Marthyna/sorting-algorithms/blob/master/atividade_mongoDB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Aula prática Banco de dados NoSQL</h1>

Professor: Leandro Krug Wives <br/>

<p>O objetivo desta aula consiste em explorar um SGBD (Sistema de Gerenciamento de Bancos de Dados) não relacional (NoSQL), usando a Linguagem Python. Como estudado em aula, existem várias abordagens NoSQL (chave-valor, família de colunas, documentos, grafos, etc). Para esta aula, será utilizada a abordagem baseada em documentos, através do <a href="https://www.mongodb.com/" target="_blank">MongoDB</a>, buscando compreender o seguinte:</p>

<ul>
    <li>Como criar uma base de dados;
    <li>Como inserir, alterar, remover e excluir dados;
    <li>Como consultar dados;
</ul>

<p>Este notebook serve como um guia para o desenvolvimento da atividade que exigirá de você os conhecimentos trabalhados adquiridos na aula de NoSQL. Você poderá acessá-los no Moodle para consulta. Está disponível <a href="https://docs.mongodb.com/manual/introduction/" target="_blank">neste link</a>, também, a documentação oficial do MongoDB para aprofundamento.</p>

<h2>Parte 1: MongoDB cloud</h2>

<p>Acesse <a href="https://www.mongodb.com/download-center" target="_blank">este link</a> e crie uma conta grátis no MongoDB Atlas. É através dele que faremos nossos exercícios sem a necessidade de instalar e configurar localmente. </p>

Para tanto, siga os seguintes passos:

<ol>
    <li>Escolha o plano grátis (shared cluster) para a Linguagem Python (você pode escolher em C, C++ ou outra linguagem, mas os exemplos apresentados aqui serão em Python;
    <li>Escolha a plataforma Google Cloud, em São Paulo, como provedora (antes de seguir adiante, confirme que o plano é do tipo M0 Sandbox (shared RAM, 512MB storage encrypted) ou similar;        
    <li>Clique em "Create Cluster" e aguarde... A criação do cluster custa entre 1 e 10 minutos. Enquanto isso, faça uma leitura rápida da documentação do MongoDB indicada abaixo).
</ol>
Link para a documentação MongoDB Atlas (serviço cloud): <a href="https://docs.atlas.mongodb.com/getting-started/">https://docs.atlas.mongodb.com/getting-started/</a><br/>
Link para a documentação de uso MongoDB:  <a href="https://docs.mongodb.com/manual/introduction/">https://docs.mongodb.com/manual/introduction/</a>

<h2>Parte 2: Configuração e Conexão</h2>

<p>Antes de trabalharmos diretamente com o banco, precisamos confingurar algumas coisas como usuário e senha do banco de dados.

<ol>
    <li>No Cluster criado (Cluster0), clique em "Connect";
    <li>Clique em "Allow Access From Anywhere" para possibilitar o acesso ao banco de qualquer lugar, no nosso caso a partir do Google Colab. Perceba que o IP 0.0.0.0/0 será adicionado - confirme com o Add; 
    <li>Crie um usuário e defina uma senha (anote-os);
    <li>Clique em "Choose a connection method" e escolha a opção "Connect Your Application";
    <li>Escolha o Driver Python versão "3.6 or later";
    <li>Marque a opção "Include full driver code example", copie o texto e clique em fechar, mas mantenha a página do MongoDB aberta;        
</ol>

A seguir você encontra uma célula que instala uma biblioteca importante e atualiza o comando pip. 

Após ela há um local para você colar a string copiada no passo 6, acima. Ele criará uma conexão com o servidor cloud.

In [None]:
import sys

!{sys.executable} -m pip install dnspython # este comando serve para instalar a dependencia de resolução de DNS para a conexão com o BD.

!pip install --upgrade pip

In [None]:
# caso ocorra erro ao rodar o comando de conexão abaixo, reinicie o kernel indo na aba "Kernel > Restart" para que o módulo dnspython seja reconhecido.
# o pymongo é a biblioteca que implementa as funções de conexão e "conversa" com o DBMS MongoDB.
# Por trás, ele executa os comandos que o usuário comandaria caso estivesse utilizando um shell, por exemplo.
import pymongo 

# cole abaixo o código copiado na página do mongo DB
# não esqueça de substituir <password> pela senha que você criou ao criar o banco no cloud.
# >>>>>>>>>>>>>>>>>>>>>> Cole abaixo a string de conexão copiada anteriormente (passo 6)


# <<<<<<<<<<<<<<<<<<<<<<<<<<<

<h2>Parte 3: Manipulação de Bases de Dados</h2>

Vamos criar uma base de dados... 

O comando seguinte cria uma base. A partir dele, ela será manipulada a partir da variável 'db_1'.

In [None]:
db_1 = client['db_1'] # o objeto client cria uma nova base de dados


No site do MongoDB, vá até a página inicial da sua SandBox e clique no botão "Collections". Lá você pode visualizar, de forma fácil, quais são as bases de dados existentes.

Veja se a base de dados "db_1" foi criada (Clique no botão "refresh"). 

Você verá que não. Isso porque o MongoDB só cria e seleciona uma base de dados, de fato, se algum documento for inserido. 

Logo, vamos criar uma coleção de pessoas, para a base de dados "db_1", contendo um documento simples (uma pessoa).

In [None]:
db_1.pessoas.insert_one({
        "nome": "Fulano de tal",
        "idade": 30,
        "salario": 2000000,
        "emprego": "Programador Python + MongoDB"
    })

<pymongo.results.InsertOneResult at 0x7f910d096af0>

Volte novamente à página Collections e confira o resultado (Clique no botão "refresh").

Agora ela deve aparecer e mostrar 1 registro (o que foi incluido acima).

Vamos consultar todas as coleções da base "db_1":



In [None]:
db_1.list_collection_names()

['pessoas']

<ol start=6>
    <li>Exclua todas as coleções da base de dados "db_1" e, em seguida, ela em si. Note que o último comando pode ser utilizado diretamente. 
</ol>

In [None]:
db_1.pessoas.drop()                          # exclui a coleção inteira
client.drop_database('db_1')                 # exclui a base de dados e todas as suas coleções

<h2>Parte 4: Inserção de dados </h2>

<ol>
        <li>Já vimos o comando insert_one() de uma coleção. Vamos dizer que desejamos guardar dados sobre produtos diversos de um e-commerce. Vamos considerar um notebook vendido no site. Rode o comando abaixo e confira a página "Collections" do dashboard MongoDB Atlas. Note que, para cada documento inserido, é criado um identificador automático, chamado de "_id".
</ol>

In [None]:
ecommerce = client['ecommerce']
ecommerce.produtos.insert_one({
    "nome": "Acer notebook Gamer G242",
    "tipo": ["eletronico", "informatica"], #lista de tipos
    "preco": 5000,
    "disponibilidade": 381,
    "ram": "16GB",
    "processador": "Intel Core i9",
    "tela": "IPS 17",
    "disco": {"tipo": "SSD", "capacidade": "500GB"} #um dicionario com informacoes especificas do disco
})

<pymongo.results.InsertOneResult at 0x7f9109665280>

<ol start=2>
    <li>Podemos ter acesso a esse ID atribuindo a saída da inserção a uma variável, vejamos:
        </ol>


In [None]:
noteDell = ecommerce.produtos.insert_one({
    "nome": "Dell Insiron 5000",
    "tipo": ["eletronico", "informatica"], #lista de tipos
    "preco": 2000,
    "disponibilidade": 32,
    "ram": "4GB",
    "processador": "Intel Core i3",
    "tela": "14 LCD",
    "disco": {"tipo": "HD", "capacidade": "500GB"} #um dicionario com informacoes especificas do disco
})

noteDell.inserted_id

ObjectId('6087fb0abbd7e86a0440f06f')

<ol start=3>
    <li>Outra forma de inserir um documento é através de um dicionário Python:
        </ol>

In [None]:
geladeira_dict = {
    "nome": "Geladeira Bosch 1234",
    "tipo": ["eletrodomestico", "refrigeracao"],
    "preco": 3500,
    "disponibilidade": 121,
    "potencia": "1000BTU",
    "capacidade": "600L",
    "tensao": 220
} #note aqui a diferença de dados deste documento para o do produto notebook. Essa é a grande virtude NoSQL, não existe um schema que fixe a forma dos dados.

ecommerce.produtos.insert_one(geladeira_dict)

<pymongo.results.InsertOneResult at 0x7f9112c00af0>

<ol start=4>
<li>Muitas vezes precisamos inserir vários documentos de uma vez. Isso pode ser feito utilizando uma lista de dicionários Python, em que cada um é um documento a ser inserido.
</ol>

In [None]:
ecommerce.produtos.insert_many([
    {
        "nome": "TV Samsung",
        "tipo": ["eletrodomestico", "refrigeracao"],
        "preco": 2500,
        "disponibilidade": 50,
        "tamanho": "50 pol"
    },
    {
        "nome": "Furadeira Blaster power",
        "tipo": ["ferramentas", "oficina"],
        "preco": 500,
        "disponibilidade": 134,
        "potencia": "1000W"
    }
])

<pymongo.results.InsertManyResult at 0x7fc52b61faa0>

<h2>Parte 5: Consultas </h2>

<ol>
        <li>Vamos ver agora algumas consultas simples, começando por recuperar todos os itens da coleção "produtos".
</ol>

In [None]:
import pprint #biblioteca para identar a saída da consulta.

todos_produtos = ecommerce.produtos.find() #o comando find, sem parâmetros, é equivalente ao SELECT * FROM do SQL.

for produto in todos_produtos:
    pprint.pprint(produto)    

{'_id': ObjectId('6087688a17f27462897d8455'),
 'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}
{'_id': ObjectId('608768c517f27462897d8456'),
 'disco': {'capacidade': '500GB', 'tipo': 'HD'},
 'disponibilidade': 32,
 'nome': 'Dell Insiron 5000',
 'preco': 2000,
 'processador': 'Intel Core i3',
 'ram': '4GB',
 'tela': '14 LCD',
 'tipo': ['eletronico', 'informatica']}
{'_id': ObjectId('608768e817f27462897d8457'),
 'capacidade': '600L',
 'disponibilidade': 121,
 'nome': 'Geladeira Bosch 1234',
 'potencia': '1000BTU',
 'preco': 3500,
 'tensao': 220,
 'tipo': ['eletrodomestico', 'refrigeracao']}
{'_id': ObjectId('6087693017f27462897d8458'),
 'disponibilidade': 50,
 'nome': 'TV Samsung',
 'preco': 2500,
 'tamanho': '50 pol',
 'tipo': ['eletrodomestico', 'refrigeracao']}
{'_id': ObjectId('6087693017f27462897d84

In [None]:
# vamos criar um dataframe (tabela local)
import pandas as pd

todos_produtos = ecommerce.produtos.find() #o comando find, sem parâmetros, é equivalente ao SELECT * FROM do SQL.

df = pd.DataFrame(list(todos_produtos))
df

Unnamed: 0,_id,nome,tipo,preco,disponibilidade,ram,processador,tela,disco,potencia,capacidade,tensao,tamanho
0,6087688a17f27462897d8455,Acer notebook Gamer G242,"[eletronico, informatica]",5000,381,16GB,Intel Core i9,IPS 17,"{'tipo': 'SSD', 'capacidade': '500GB'}",,,,
1,608768c517f27462897d8456,Dell Insiron 5000,"[eletronico, informatica]",2000,32,4GB,Intel Core i3,14 LCD,"{'tipo': 'HD', 'capacidade': '500GB'}",,,,
2,608768e817f27462897d8457,Geladeira Bosch 1234,"[eletrodomestico, refrigeracao]",3500,121,,,,,1000BTU,600L,220.0,
3,6087693017f27462897d8458,TV Samsung,"[eletrodomestico, refrigeracao]",2500,50,,,,,,,,50 pol
4,6087693017f27462897d8459,Furadeira Blaster power,"[ferramentas, oficina]",500,134,,,,,1000W,,,


<ol start=2>
        <li>Vamos mostrar agora só 3 produtos.
</ol>

In [None]:
todos_produtos = ecommerce.produtos.find().limit(3)

for produto in todos_produtos:
    pprint.pprint(produto)

{'_id': ObjectId('6087688a17f27462897d8455'),
 'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}
{'_id': ObjectId('608768c517f27462897d8456'),
 'disco': {'capacidade': '500GB', 'tipo': 'HD'},
 'disponibilidade': 32,
 'nome': 'Dell Insiron 5000',
 'preco': 2000,
 'processador': 'Intel Core i3',
 'ram': '4GB',
 'tela': '14 LCD',
 'tipo': ['eletronico', 'informatica']}
{'_id': ObjectId('608768e817f27462897d8457'),
 'capacidade': '600L',
 'disponibilidade': 121,
 'nome': 'Geladeira Bosch 1234',
 'potencia': '1000BTU',
 'preco': 3500,
 'tensao': 220,
 'tipo': ['eletrodomestico', 'refrigeracao']}


<ol start=3>
        <li>O comando find() possui dois parâmetros. O segundo permite indicar quais são os atributos que devem aparecer no resultado. Vamos especificar que apareça apenas o nome e o preço, sem o identificador do produto.
</ol>

In [None]:
todos_produtos = ecommerce.produtos.find({}, {"_id": 0, "nome": 1, "preco": 1})

for produto in todos_produtos:
    pprint.pprint(produto)

{'nome': 'Acer notebook Gamer G242', 'preco': 5000}
{'nome': 'Dell Insiron 5000', 'preco': 2000}
{'nome': 'Geladeira Bosch 1234', 'preco': 3500}
{'nome': 'TV Samsung', 'preco': 2500}
{'nome': 'Furadeira Blaster power', 'preco': 500}


<ol start=4>
        <li>É possível recuperar apenas um documento. No caso abaixo é retornada a primeira ocorrência encontrada.
</ol>

In [None]:
produto = ecommerce.produtos.find_one()
pprint.pprint(produto)

{'_id': ObjectId('6087688a17f27462897d8455'),
 'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}


<ol start=5>
        <li>Vamos filtrar os resultados agora utilizando o primeiro parâmetro da função find(). Vamos supor que desejamos recuperar todos os produtos que são do tipo informática. Além disso, não queremos recuperar o atributo _id e queremos ordenar os resultados por ordem descrescente de preço.            
</ol>

In [None]:
todos_produtos_inf = ecommerce.produtos.find({"tipo": "informatica"},{"_id":0}).sort("preco", -1) # -1 especifica que desejamos em ordem decrescente.

for produto in todos_produtos_inf:
    pprint.pprint(produto)

{'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}
{'disco': {'capacidade': '500GB', 'tipo': 'HD'},
 'disponibilidade': 32,
 'nome': 'Dell Insiron 5000',
 'preco': 2000,
 'processador': 'Intel Core i3',
 'ram': '4GB',
 'tela': '14 LCD',
 'tipo': ['eletronico', 'informatica']}


<ol start=6>
        <li>Existem vários operadores como **>**, **<**, **>=**, **AND**, **OR**, etc, que podem ser utilizados nas consultas. No comando seguinte vamos consultar todos os produtos que são do tipo informatica **OU** que possuem um preço acima de R$ 2.000,00. <a href="https://docs.mongodb.com/manual/reference/operator/query/" target="_blank">Acesse aqui</a> a lista completa de operadores de consulta (comparação, lógicos, etc.)
            
</ol>

In [None]:
todos_produtos_inf = ecommerce.produtos.find(
    {"$or": [
        {"tipo": "informatica"}, 
        {"preco": {"$gt" : 2000}}
    ]},
    {"_id":0}) # -1 especifica que desejamos em ordem decrescente.

for produto in todos_produtos_inf:
    pprint.pprint(produto)

{'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}
{'disco': {'capacidade': '500GB', 'tipo': 'HD'},
 'disponibilidade': 32,
 'nome': 'Dell Insiron 5000',
 'preco': 2000,
 'processador': 'Intel Core i3',
 'ram': '4GB',
 'tela': '14 LCD',
 'tipo': ['eletronico', 'informatica']}
{'capacidade': '600L',
 'disponibilidade': 121,
 'nome': 'Geladeira Bosch 1234',
 'potencia': '1000BTU',
 'preco': 3500,
 'tensao': 220,
 'tipo': ['eletrodomestico', 'refrigeracao']}
{'disponibilidade': 50,
 'nome': 'TV Samsung',
 'preco': 2500,
 'tamanho': '50 pol',
 'tipo': ['eletrodomestico', 'refrigeracao']}


<h2>Parte 6: Atualizações </h2>

<ol>
        <li>Vamos verificar agora como atualizar registros de um documento. Como exemplo, vamos atualizar o preço do notebook Acer, buscando-o pelo seu nome.
</ol>

In [None]:
print("ANTES")
pprint.pprint(ecommerce.produtos.find_one({"nome": "Acer notebook Gamer G242"}))

ecommerce.produtos.update_one({"nome": "Acer notebook Gamer G242"},
                              {"$set": {"preco": "4000"}}) #observe o uso do operador de atribuição $set

print("\n\n DEPOIS")
pprint.pprint(ecommerce.produtos.find_one({"nome": "Acer notebook Gamer G242"}))

ANTES
{'_id': ObjectId('6087688a17f27462897d8455'),
 'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': 5000,
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}


 DEPOIS
{'_id': ObjectId('6087688a17f27462897d8455'),
 'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': '4000',
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica']}


<ol start=2>
        <li>Suponha que agora precisamos adicionar um novo tipo (fabricante processador) a todos os produtos de informatica que possuam processador Intel. Para isso, usamos uma expressão regular no atributo processador. O operador \$push é usado ao invés de $set porque precisamos adicionar o novo tipo e não substituir o anterior, já que não é um dado único, mas sim um array. Usamos aqui o comando update_many() porque atualizaremos todos os documentos que se encaixarem na consulta.
</ol>

In [None]:
ecommerce.produtos.update_many({"processador": {"$regex": r"Intel"}}, 
                               {"$push": {"tipo": "Intel"}})



<pymongo.results.UpdateResult at 0x7fc521d746e0>

<ol start=3>
        <li>Observe que o novo tipo "Intel" foi adicionado aos tipos de cada produto enquadrado na consulta pela expressão regular.
</ol>

In [None]:
todos_produtos_inf = ecommerce.produtos.find({"tipo": "informatica"},{"_id":0})

for produto in todos_produtos_inf:
    pprint.pprint(produto)

{'disco': {'capacidade': '500GB', 'tipo': 'SSD'},
 'disponibilidade': 381,
 'nome': 'Acer notebook Gamer G242',
 'preco': '4000',
 'processador': 'Intel Core i9',
 'ram': '16GB',
 'tela': 'IPS 17',
 'tipo': ['eletronico', 'informatica', 'Intel']}
{'disco': {'capacidade': '500GB', 'tipo': 'HD'},
 'disponibilidade': 32,
 'nome': 'Dell Insiron 5000',
 'preco': 2000,
 'processador': 'Intel Core i3',
 'ram': '4GB',
 'tela': '14 LCD',
 'tipo': ['eletronico', 'informatica', 'Intel']}


<h2>Parte 6: Exclusões </h2>

<ol>
        <li>Vamos ver agora como excluir um determinado produto. Para tanto, vamos utilizar o comando delete_one() para excluir o documento (produto) "furadeira". O funcionamento acontece de forma bastante similiar às atualizações que acabamos de ver.
</ol>

In [None]:
print("ANTES")
pprint.pprint(ecommerce.produtos.find_one({"nome": "Furadeira Blaster power"}))

ecommerce.produtos.delete_one({"nome": "Furadeira Blaster power"})

print("\n\n DEPOIS")
pprint.pprint(ecommerce.produtos.find_one({"nome": "Furadeira Blaster power"}))

ANTES
{'_id': ObjectId('6087693017f27462897d8459'),
 'disponibilidade': 134,
 'nome': 'Furadeira Blaster power',
 'potencia': '1000W',
 'preco': 500,
 'tipo': ['ferramentas', 'oficina']}


 DEPOIS
None


A remoção de vários documento de uma só vez também acontece de forma similar ao exemplo das atualizações. Entretanto, sem o segundo parâmetro.

<h2>Desafio: Venda de Produtos E-Commerce MyBric </h2>

Até este ponto você aprendeu o básico de MongoDB: coleções, documentos, consultas, inserções, atualizações e exclusões. Isso em apenas uma coleção (produtos). Um e-commerce é uma das muitas aplicações de MongoDB, afinal, nesse contexto temos vários tipos de produtos sendo vendidos com diferentes atributos, tornando difícil manter um esquema estático de dados tal como com SQL. Sendo assim, vamos supor, agora, que você tem um rol de produtos que deseja vender e está considerando construir um e-commerce bastante simples. Para tanto, você verá a seguir uma descrição das coleções necessárias na sua aplicação para guardar os documentos de vendas e de clientes. 

<h4>Coleção vendas:</h4>
<ul>
        <li>data da venda.
        <li>cliente para o qual vendeu.
        <li>quais itens vendidos.
        <li>preço total da venda.
        <li>metodo de pagamento (cartão ou dinheiro).
</ul>

<h4>Coleção clientes:</h4>
<ul>
        <li>nome
        <li>endereço
</ul>

Você deverá criar essas duas coleções e, em seguida, fazer algumas vendas o que implicará em encadear os dados, i.e., para quais clientes foram vendidos determinados produtos. Você conseguirá fazer isso utilizando as operações vistas anteriormente e, também, consultando a seção de modelagem de dados presente na documentação do MongoDB indicada <a href="https://docs.mongodb.com/manual/core/data-modeling-introduction/" target="_blank">neste link</a>. 

<h5>Observações</h5>
<ul>
    <li>Faça pelo menos UMA venda com dois produtos. Observe que você precisa somar o valor dos dois produtos para o atributo "preço total venda" na coleção "vendas";
    <li>Para cada venda efetuada você precisa decrementar a quantidade de produtos em estoque posta no atributo "disponibilidade" da coleção "produtos". Dica: para decrementar, utilize a função update_one().   
</ul>