# Bootcamp: Analista de Banco de Dados  - Trabalho Prático do Módulo 03

<img src="./xpe.png" align='left' alt="drawing" width="150" heigth="150"/>

<img src="./mongobd.png" align='center' alt="drawing" width="800" heigth="800"/>

# Objetivos de Ensino


### Exercitar os conceitos vistos em aulas em relação ao banco de dados NoSQL
 * **MongoDB.**
 * **Importar algumas informações no MongoDB para executar análises.**

# Enunciado


 * **Vamos utilizar um arquivo de entrada para ser carregado no MongoDB. Esse
arquivo tem informações de livros diversos. O objetivo é carregar esse arquivo e
exercitar alguns comandos no MongoDB.**

# Objetivos

* **Basicamente, vamos carregar o conteúdo de um arquivo json em uma collection e,
após isso, iremos praticar alguns comandos no MongoDB.**

# Atividades

* **O primeiro passo é baixar o arquivo “books.json” do link: inserir o link**
* **Você precisará criar um database chamado “aula”.**
* **Você precisará criar uma collection chamada “livros”.**
* **Vamos carregar o arquivo books.json na collection “livros”.**
* **Você pode fazer essa carga pelo MongoDBCompass ou pelo prompt de comando do MongoDB.**

# Resolução das atividades:

* **Necessário possuir o mongodb instalado**
* **Necessário possuir o mongosh instalado**
* **Necessário possuir o mongodb tools instalado**
* **[link para instalação](https://www.mongodb.com/try/download/tools)**
* **obs**: Caso desejado, instale o MongoDBCompass conforme o enunciado, nesse exemplo estarei utilizando o mongo-express via docker.

## Criando o database 'aulas' e a collection livros pelo mongo-express

* *Criando o database 'aulas'*.

<img src="./db_aulas.png" align='center' alt="drawing" width="800" heigth="800"/>

* *Criando a collection 'livros'.*

<img src="./colect_livros.png" align='center' alt="drawing" width="800" heigth="800"/>

## Carregando o arquivo books.json na collection livros do db aulas.

* **Para o load do arquivo é necessário abrir o mongo.sh via prompt de comando no modo administrativo**.
* **O arquivo deve ser aberto no diretório onde ele foi descompactado, no prompt digite mongo e o shell será iniciado**.

<img src="./mongo_sh.png" align='center' alt="drawing" width="1000" heigth="800"/>

* **Será necessário manter essa janela aberta**.
* **Agora basta abrir um novo prompt em modo administrador com o caminho da pasta bin onde descompactou o arquivo mongoDB Tools.**
* **Digite o comando conforme o seu db, collection e local do aquivo:** *mongoimport --db=<database> --collection=<collection> --file=<path/to/file.json>*


<img src="./load_books.png" align='center' alt="drawing" width="1000" heigth="800"/>

* **Foram carregados 431 documentos sem nenhum erro.**
* **O Carregamento poderia ser realizado via script python com pymongo, porém por questão de problemas com a formatação do arquivo, acabei optando pelo 'mongoimport'. Segue um exemplo de código python abaixo:**

In [None]:
'''
import pymongo
import json

# cria a conexão com o MongoDB
client = pymongo.MongoClient("mongodb://localhost:27017/")

# cria o database "aula"
db = client["aulas"]

# cria a collection "livros" dentro do database "aula"
collection = db["livros"]

# abre o arquivo "books.json"
with open("./books.json", "r") as f:
    # carrega o conteúdo do arquivo em uma lista de dicionários
    data = json.load(f)

# insere os documentos na collection "livros"
collection.insert_many(data)

print("Carga concluída!")
'''

### Realizando as consultas conforme o enunciado:

* **Primeiro irei realizar a conexão com o mongo de usando a biblioteca pymongo**
* **Caso não possua, será necessário realizar a instalação usando o comando:** *!pip install pymongo*


In [12]:
# importando a lib para conexão
import pymongo

# importando a lib json para lidar com o formato de arquivo.
import json

# Realizando a conexão com o servidor local do MongoDB
client = pymongo.MongoClient("mongodb://localhost:27017/")

* **1) Acesso ao database aulas:** *similar ao comando: **use aulas** do mongo shell*

In [5]:
# acesso ao db aulas
db = client["aulas"]
print(db)

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'aulas')


* **2) Checagem se há collections no database aula:**

In [7]:
# exibe as collections do db aulas criado
print(db.list_collection_names())

['delete_me', 'livros']


* **obs: por padrão o mongo-express criar uma collection 'delete_me'**

In [8]:
# conexão com a collection livros
colect = db['livros']
print(colect)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'aulas'), 'livros')


* **3) Checagem se a collections livros foi carregada:**.

In [10]:
#3 Checagem se a collections livros foi carregada:
num_docs = colect.count_documents({}) #similar ao comando dp.livros.find().count() do mongosh.

print("Número de documentos na coleção 'livros':", num_docs)

Número de documentos na coleção 'livros': 431


* **4 - Você precisa consultar os livros com a tag isbn menor ou igual a “1000000000”.
Repare que essa tag tem um conteúdo string e não numérico. O comando abaixo
vai retornar a lista de livros. Para facilitar você pode usar .pretty(). Para facilitar
mais ainda você pode usar .count()**

In [15]:
# Consultar os livros com o "isbn" menor ou igual a "1000000000"
resultado = colect.find({ "isbn": { "$lte": "1000000000" } })
total = 0
# Exibir a lista de livros encontrados.
for livro in resultado:
    print(livro)  
    total = total + 1

# Contar o número de livros encontrados
print("="*50)
print("Total de livros: ", total)
print("="*50)


{'_id': 211, 'title': 'Comprehensive Networking Glossary and Acronym Guide', 'isbn': '013319955X', 'pageCount': 208, 'publishedDate': datetime.datetime(1995, 1, 1, 8, 0), 'thumbnailUrl': 'https://s3.amazonaws.com/AKIAJC5RLADLUMVRPFDQ.book-thumb-images/malkin.jpg', 'shortDescription': 'This glossary offers a complete collection of technical terms and acronyms used in the networking industry.', 'longDescription': 'This glossary offers a complete collection of technical terms and acronyms used in the networking industry. It covers general networking terminology, the specific terminology used in the Internet, and terms and acronyms specific to AppleTalk, IP, IPX, SNA, and OSI. It also covers national and international networking organizations and several major networks.    Organized in case-insensitive, alphabetic order, entries present well written definitions, understandable to novice readers and useful to experts. The glossary and the glossary entries are:    verified  cross-referenced 

* **5) Agora vamos consultar os livros com a tag isbn menor ou igual a "1617200000".**

In [18]:
# 5) Agora vamos consultar os livros com a tag isbn menor ou igual a "1617200000".

filtro = {"isbn": {"$lte": "1617200000"}} # condição query
resultado = db.livros.find(filtro)
total = 0 
# Exibir a lista de livros encontrados.
for livro in resultado:
    print(livro)  
    total = total + 1
    
# Contar o número de livros encontrados
print("="*50)
print("Total de livros: ", total)
print("="*50)

{'_id': 27, 'title': 'Designing Hard Software', 'isbn': '133046192', 'pageCount': 350, 'publishedDate': datetime.datetime(1997, 2, 1, 8, 0), 'shortDescription': '"This book is well written ... The author does not fear to be controversial. In doing so, he writes a coherent book." --Dr. Frank J. van der Linden, Phillips Research Laboratories', 'longDescription': 'Have you ever heard, "I can\'t define a good design but I know one when I see it"  Designing Hard Software discusses ways to develop software system designs that have the same tangibility and visibility as designs for hard objects like buildings or computer hardware. It emphasizes steps called "essential tasks" which result in software specifications that show how each requirement, including robustness and extensibility, will be satisfied. All software developers and managers seeking to develop "hard" software will benefit from these ideas.    There are six essential tasks necessary for a good design:    User (run-time) requirem

**6) Ainda na consulta dos livros com a tag isbn menor ou igual a "1617200000".
Recupere apenas os nomes dos livros.
Para facilitar, você pode usar o comando pretty() ou, para facilitar ainda mais,
use algo similar ao comando db.customers.find({ }, {"name":1, "age":1}) e nesse
caso tire o pretty().
Nessa lista retornada anote o título do livro começado com a letra G.**

In [19]:
filtro = {"isbn": {"$lte": "1617200000"}}
projecao = {"title": 1, "_id": 0}

resultados = db.livros.find(filtro, projecao)

for resultado in resultados.distinct("title"):
    print(resultado)


Client/Server Applications on ATM Networks
Comprehensive Networking Glossary and Acronym Guide
Designing Hard Software
Doing IT Right
Graphics File Formats
Illustrated Guide to HTTP
Implementing PeopleSoft Financials
Implementing SAP R/3, Second Edition
Internet BBSs
Making Sense of Java
Microsoft Office Essentials
Multimedia Computing
Multiprotocol over ATM
Object Technology Centers of Excellence
Personal Videoconferencing
Planning and Managing ATM Networks
Power-3D
Remote LAN Access
SNA and TCP/IP Enterprise Networking
TCP/IP Programming for OS/2
Visual Object Oriented Programming
Working with Objects


* **Explicando o script acima:**

    * Na primeira linha, definimos o filtro para a tag ISBN menor ou igual a "1617200000".
    * Na segunda linha, definimos a projeção para incluir apenas o campo "title" e excluir o campo "_id".
    * Na terceira linha, realizamos a consulta no banco de dados com o filtro e projeção definidos.
    * Na quarta linha, utilizamos a função distinct() para retornar apenas os valores únicos do campo "title".
    * Por fim, iteramos sobre os resultados e imprimimos os nomes dos livros.

* **Agora vamos localizar apenas os livros com a tag isbn menor ou igual a "1617200000", cujo título começam com a letra "G".**

In [20]:
resultado = db.livros.find({"isbn": {"$lte": "1617200000"}, "title": {"$regex": "^G"}})
for livro in resultado:
    print(livro["title"])


Graphics File Formats


* **7) Execute o comando abaixo para inserir mais 4 livros.**

In [21]:
db.livros.insert_many([    {"title" : "Saci Pererê", "isbn" : "100", "pageCount" : 0, "publishedDate": ("2000-10-01T07:00:00Z"), "status" : "PUBLISH", "authors" : [ ], "categories" : [ ]},
    {"title" : "A Cuca", "isbn" : "99", "pageCount" : 0, "publishedDate": ("2000-10-01T07:00:00Z"), "status" : "PUBLISH", "authors" : [ ], "categories" : [ ]},
    {"title" : "Curupira", "isbn" : "98", "pageCount" : 0, "publishedDate": ("2000-10-01T07:00:00Z"), "status" : "PUBLISH", "authors" : [ ], "categories" : [ ]},
    {"title" : "Jeca Tatu", "isbn" : "97", "pageCount" : 0, "publishedDate": ("2000-10-01T07:00:00Z"), "status" : "PUBLISH", "authors" : [ ], "categories" : [ ]}
])


<pymongo.results.InsertManyResult at 0x1da10d347f0>

* **8) Execute o comando para saber quantos livros tem a chave isbn menor ou iguala "100000" ($lte: "100000").**

In [22]:
resultado = db.livros.find({"isbn": {"$lte": "100000"}})
total = 0
# Exibir a lista de livros encontrados.
for livro in resultado:
    # print(livro)  
    total = total + 1
    
# Contar o número de livros encontrados
print("Total de livros: ", total)

Total de livros:  5


* **9) Ainda utilizando o comando do passo anterior (8), o comando feito para saber quantos livros tem a chave isbn menor ou igual a "100000" ($lte: "100000").Quais são os 2 primeiros livros da lista? Dica, use o comando pretty() e limit().**

In [25]:
resultado = db.livros.find({"isbn": {"$lte": "100000"}}).limit(2)
for livro in resultado:
    print(livro["title"])


Comprehensive Networking Glossary and Acronym Guide
Personal Videoconferencing


* **10) O que faz o comando abaixo? Ele mostra quantos livros e por que isso?
db.livros.find({isbn:{$lte: "100000"}}).pretty().skip(2)**

In [26]:
resultado = db.livros.find({"isbn": {"$lte": "100000"}}).skip(2)
for livro in resultado:
    print(livro["title"]) # para facilitar vamos imprimir apenas os nomes dos títulos.

Multimedia Computing
Implementing SAP R/3, Second Edition
Saci Pererê


R. O comando db.livros.find({isbn:{$lte: "100000"}}).pretty().skip(2) retorna uma lista de livros com a chave isbn menor ou igual a "100000", porém com dois primeiros resultados ignorados devido ao comando skip(2).

O método pretty() formata a saída em um formato legível para humanos, enquanto skip(2) é usado para pular os dois primeiros resultados da lista.

* **11) O que faz o comando abaixo? Ele mostra quantos livros e porque isso?
Observe o que há de comum nos títulos dos livros.
db.livros.find({title: /Windows/}).count()**

R. O comando db.livros.find({title: /Windows/}).count() faz uma busca no banco de dados de todos os livros que possuem a palavra "Windows" no título e retorna a contagem total de livros que foram encontrados.

A razão para isso é que a função count() retorna o número de documentos que correspondem a uma consulta no MongoDB. Já o operador /Windows/ é uma expressão regular que procura por documentos que tenham a palavra "Windows" em qualquer posição no título.

Portanto, a contagem resultante indica quantos livros existem no banco de dados que têm a palavra "Windows" em seu título.

* **Script python para realizar a mesma consulta**:

In [27]:
# Script como pymongo para realizar a tarefa 11
# executa a consulta utilizando a expressão regular
resultado = db.livros.find({'title': {'$regex': 'Windows'}})
total = 0

# itera sobre o resultado
for livro in resultado:
    # print(livro)  
    total = total + 1
    
# Contar o número de livros encontrados
print("="*50)
print("Total de livros: ", total)
print("="*50)


Total de livros:  11


* **12) No comando find, vamos acrescentar o comando sort descendente (-1)
para a chave pageCount.
Utilize o comando limit = 2, pois o que quero saber é quais são os dois menores
valores para a chave pageCount.
A dica é usar o find({ }, {"pageCount":1, "_id":0}) para trazer apenas a chave
pageCount desejada.**

In [28]:
result = db.livros.find({}, {"pageCount": 1, "_id": 0}).sort([("pageCount", -1)]).limit(2)

for r in result:
    print(r)



{'pageCount': 1101}
{'pageCount': 1096}


* **Explicação**

    Esse script vai retornar os dois documentos com os menores valores na chave pageCount em ordem ascendente. A função find retorna apenas a chave pageCount e o _id é excluído do resultado. O resultado é ordenado em ordem ascendente pela chave pageCount com o comando sort([("pageCount", 1)]) e, em seguida, é limitado a 2 documentos com o comando limit(2). O resultado é impresso com um loop for que itera sobre cada documento retornado pelo cursor.
    
obs: enuciado está errado, neste caso é o maior e não o menor valor