<a href="https://colab.research.google.com/github/janiosl/python.ds/blob/master/arangoDB/BD_g01_ArangoDB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**CEFET-RJ**

**Programa de Pós-Gradução em Ciência da Computação - PPCIC**

**Mestrado em Ciência da Computação**

**Disciplina: Banco de Dados - 2021/1**

* **Trabalho Final**: Implementação e Análise Análise Crítica do Banco de Dados ArangoDB
* **Professor**: Jorge de Abreu Soares
* **Alunos**: Cristiane Géa, Janio de Souza Lima e Tácito Braga Araripe





**OBSERVAÇÃO**:

Este notebook, sobretudo nas seções 1 e 2, é uma adaptação com tradução para português e algumas adaptações de código feitas a partir dos tutoriais oficiais do ArangoDB disponíveis na área de aprendizagem cujo link está listado na seção de Referências. Seu objetivo é apresentar uma visão inicial básica tanto do ArangoDB quanto de sua forma de integração com Python através de uma API. Detalhes sobre outras formas de uso do ArangoDB, inclusive sua instalação e configuração através da interface web, bem como execução do benchmark de avaliação estão registrados na apresentação e relatório técnico da disciplina Banco de Dados.

#1 Preparação do ambiente

In [1]:
import platform
print('Plataforma usada no experimento')
print('='*40)

print('Google Colab')
print(f'Processador: {platform.processor()}')
print(f'SO: {platform.system()}')

#Consulta simplificada da plataforma
p = platform.platform()
print('\nVersão do SO:')
for item in p.split('-'):
  print(item, end=' ')

Plataforma usada no experimento
Google Colab
Processador: x86_64
SO: Linux

Versão do SO:
Linux 5.4.109+ x86_64 with Ubuntu 18.04 bionic 

* Instalações e importações

In [2]:
%%capture
!git clone https://github.com/joerg84/ArangoDBUniversity.git
!rsync -av ArangoDBUniversity/ ./ --exclude=.git
!pip3 install pyarango
!pip3 install "python-arango>=5.0"

In [3]:
import json
import requests
import sys
import oasis
import time

from pyArango.connection import *
from arango import ArangoClient



* **Banco de Dados e Credenciais Temporárias**

Note que nessa etapa estão sendo criadas credenciais temporárias da plataforma de tutoriais do ArangoDB. Em uma situação de uso real, deveria ser criada a variável login com as credenciais reais para conexão ao banco de dados desejado.

In [4]:
#Banco de Dados Temporário
# Retrieve tmp credentials from ArangoDB Tutorial Service
login = oasis.getTempCredentials(tutorialName="AQLCrudTutorial",
                                 credentialProvider='https://tutorials.arangodb.cloud:8529/_db/_system/tutorialDB/tutorialDB')

# Connect to the temp database
conn = oasis.connect(login)
db = conn[login["dbName"]] 

Requesting new temp credentials.
Temp database ready to use.


* **Exibição das credenciais criadas**

Complementando as observações anteriores, veja que a variável login é um dicionário Python no qual são armazenados os valores para as chaves nome do usuário, senha e banco de dados (username, password e dbName).

In [5]:
print("https://{}:{}".format(login["hostname"], login["port"]))
print("Usuário: " + login["username"])
print("Senha: " + login["password"])
print("Database: " + login["dbName"])

https://tutorials.arangodb.cloud:8529
Usuário: TUTe7cmxz80gtdgi9g32p5hyt
Senha: TUTzp9xwrnb6pe0drcf5aegsx
Database: TUT5oh3eu69bda8mudlctd9pj


In [6]:
print(type(login), login, sep='\n')

<class 'dict'>
{'dbName': 'TUT5oh3eu69bda8mudlctd9pj', 'username': 'TUTe7cmxz80gtdgi9g32p5hyt', 'password': 'TUTzp9xwrnb6pe0drcf5aegsx', 'hostname': 'tutorials.arangodb.cloud', 'port': 8529}


#2 Criando e analisando dados com AQL

* **Criando a "Collection" no banco de dados**

Coleções é a forma de armazenamento dos dados em uma base de dados ArangoDB. Elas são manipuladas através da linguagens NoSQL Arango Query Language (AQL). A instrução abaixo cria uma coleção e é possível relacionar com as instruções DDL das linguagens SQL.

In [7]:
#Criação de uma Collection na base de dados "dbName"
db.createCollection(name="Characters")

ArangoDB collection name: Characters, id: 3723273681, type: document, status: loaded

* **Inserção de registros na coleção**

A instrução `INSERT` permite a inserção de registros individuais na coleção criada na etapa anterior. Para isso é usada uma sintaxe de chave-valor - similar aos dicionários de dados do Python - em que a primeira string é a chave que dá nome ao atributo na base de dados, em seguida é usado o caractere ":" e passo o valor daquele atributo que pode ter os tipos a seguir:

* null => Valores Nulos
* boolean (true, false) => Valores lógico (verdadeiro ou falso)
* number (integer and floating point) => Números (tanto inteiros quanto de pontos flutuante)
* string => Cadeia de caracteres em texto
* array => Matrizes
* object => Objetos

Por exemplo para inserir um atributo para o nome de um cliente e seu CPF em uma coleção denominada Clientes, poderia ser usada a seguinte instrução:

```
INSERT {
  "nome": "João Ninguém",
  "CPF": 00000000012
  } INTO Clientes
```

In [8]:
#Uso da instrução INSERT para criar um registro na coleção Characters
insert_query = """
INSERT {
    "name": "Ned",
    "surname": "Stark",
    "alive": true,
    "age": 41,
    "traits": ["A","H","C","N","P"]
} INTO Characters
"""

db.AQLQuery(insert_query)

<pyArango.query.AQLQuery at 0x7f49e3b56950>

* Realização de uma consulta simples (todos os registros da coleção)

In [9]:
all_characters = """
FOR c IN Characters
    RETURN c
"""

query_result = db.AQLQuery(all_characters, rawResults=True)
for doc in  query_result:
    print(doc)
    print()

{'_key': '3723273683', '_id': 'Characters/3723273683', '_rev': '_cV8-Svm---', 'age': 41, 'alive': True, 'name': 'Ned', 'surname': 'Stark', 'traits': ['A', 'H', 'C', 'N', 'P']}



* **Inserção manual de múltiplos registros**

A linguagem AQL não permite a inserção direta de múltiplos registros, por isso está sendo realizada a inserção em duas etapas na célula de código a seguir. A primeira `LET data = [...]` cria os dados como uma variável e a segunda usa um loop `FOR` para iterar inserções individuais para cada registro na variável `data`.
OBSERVAÇÃO: Note que estas instruções são todas em AQL uma vez que o Python está apenas encapsulando a query na variável `insert_query` que é passada para API do ArangoDB através do método `AQLQuery`.

In [10]:
insert_query = """
LET data = [
    { "name": "Robert", "surname": "Baratheon", "alive": false, "traits": ["A","H","C"] },
    { "name": "Jaime", "surname": "Lannister", "alive": true, "age": 36, "traits": ["A","F","B"] },
    { "name": "Catelyn", "surname": "Stark", "alive": false, "age": 40, "traits": ["D","H","C"] },
    { "name": "Cersei", "surname": "Lannister", "alive": true, "age": 36, "traits": ["H","E","F"] },
    { "name": "Daenerys", "surname": "Targaryen", "alive": true, "age": 16, "traits": ["D","H","C"] },
    { "name": "Jorah", "surname": "Mormont", "alive": false, "traits": ["A","B","C","F"] },
    { "name": "Petyr", "surname": "Baelish", "alive": false, "traits": ["E","G","F"] },
    { "name": "Viserys", "surname": "Targaryen", "alive": false, "traits": ["O","L","N"] },
    { "name": "Jon", "surname": "Snow", "alive": true, "age": 16, "traits": ["A","B","C","F"] },
    { "name": "Sansa", "surname": "Stark", "alive": true, "age": 13, "traits": ["D","I","J"] },
    { "name": "Arya", "surname": "Stark", "alive": true, "age": 11, "traits": ["C","K","L"] },
    { "name": "Robb", "surname": "Stark", "alive": false, "traits": ["A","B","C","K"] },
    { "name": "Theon", "surname": "Greyjoy", "alive": true, "age": 16, "traits": ["E","R","K"] },
    { "name": "Bran", "surname": "Stark", "alive": true, "age": 10, "traits": ["L","J"] },
    { "name": "Joffrey", "surname": "Baratheon", "alive": false, "age": 19, "traits": ["I","L","O"] },
    { "name": "Sandor", "surname": "Clegane", "alive": true, "traits": ["A","P","K","F"] },
    { "name": "Tyrion", "surname": "Lannister", "alive": true, "age": 32, "traits": ["F","K","M","N"] },
    { "name": "Khal", "surname": "Drogo", "alive": false, "traits": ["A","C","O","P"] },
    { "name": "Tywin", "surname": "Lannister", "alive": false, "traits": ["O","M","H","F"] },
    { "name": "Davos", "surname": "Seaworth", "alive": true, "age": 49, "traits": ["C","K","P","F"] },
    { "name": "Samwell", "surname": "Tarly", "alive": true, "age": 17, "traits": ["C","L","I"] },
    { "name": "Stannis", "surname": "Baratheon", "alive": false, "traits": ["H","O","P","M"] },
    { "name": "Melisandre", "alive": true, "traits": ["G","E","H"] },
    { "name": "Margaery", "surname": "Tyrell", "alive": false, "traits": ["M","D","B"] },
    { "name": "Jeor", "surname": "Mormont", "alive": false, "traits": ["C","H","M","P"] },
    { "name": "Bronn", "alive": true, "traits": ["K","E","C"] },
    { "name": "Varys", "alive": true, "traits": ["M","F","N","E"] },
    { "name": "Shae", "alive": false, "traits": ["M","D","G"] },
    { "name": "Talisa", "surname": "Maegyr", "alive": false, "traits": ["D","C","B"] },
    { "name": "Gendry", "alive": false, "traits": ["K","C","A"] },
    { "name": "Ygritte", "alive": false, "traits": ["A","P","K"] },
    { "name": "Tormund", "surname": "Giantsbane", "alive": true, "traits": ["C","P","A","I"] },
    { "name": "Gilly", "alive": true, "traits": ["L","J"] },
    { "name": "Brienne", "surname": "Tarth", "alive": true, "age": 32, "traits": ["P","C","A","K"] },
    { "name": "Ramsay", "surname": "Bolton", "alive": true, "traits": ["E","O","G","A"] },
    { "name": "Ellaria", "surname": "Sand", "alive": true, "traits": ["P","O","A","E"] },
    { "name": "Daario", "surname": "Naharis", "alive": true, "traits": ["K","P","A"] },
    { "name": "Missandei", "alive": true, "traits": ["D","L","C","M"] },
    { "name": "Tommen", "surname": "Baratheon", "alive": true, "traits": ["I","L","B"] },
    { "name": "Jaqen", "surname": "H'ghar", "alive": true, "traits": ["H","F","K"] },
    { "name": "Roose", "surname": "Bolton", "alive": true, "traits": ["H","E","F","A"] },
    { "name": "The High Sparrow", "alive": true, "traits": ["H","M","F","O"] }
]

FOR d IN data
    INSERT d INTO Characters
"""

db.AQLQuery(insert_query)

<pyArango.query.AQLQuery at 0x7f49e36a2110>

* Conferência do novo estado da coleção

In [11]:
#Consultando o novo estado da coleção e retornando apenas o atributo name
all_characters_names = """
FOR c IN Characters
    RETURN c.name
"""

query_result = db.AQLQuery(all_characters_names, rawResults=True)

"""
#Exibição da query completa
for doc in  query_result:
    print(doc, sep='\n')
"""

#Exibição dos primeiros 10 registros da query
for i in range(10):
  print(query_result[i])

Ned
Robert
Jaime
Catelyn
Cersei
Daenerys
Jorah
Petyr
Viserys
Jon


* Removendo todos os dados

In [12]:
remove_all = """
FOR c IN Characters
    REMOVE c IN Characters
"""
db.AQLQuery(remove_all, rawResults=False)

<pyArango.query.AQLQuery at 0x7f49e36900d0>

In [13]:
#Verificando o resultado da remoção
all_characters_names = """
FOR c IN Characters
    RETURN c
"""

query_result = db.AQLQuery(all_characters_names, rawResults=True)
if len(query_result) == 0 :
    print("No characters left.")

No characters left.


#Referências e Links

**Referências**

Weinberger, Claudius (2018). **NoSQL Performance Benchmark 2018 – MongoDB, PostgreSQL, OrientDB, Neo4j and ArangoDB**. Disponível em <https://www.arangodb.com/2018/02/nosql-performance-benchmark-2018-mongodb-postgresql-orientdb-neo4j-arangodb/>. ArangoDB.

Amazon (2021). **O que é NoSQL**. Disponível em <https://aws.amazon.com/pt/nosql/>. Aws.

L. Takac, M. Zabovsky (2012). **Data Analysis in Public Social Networks**. International Scientific Conference & International Workshop Present Day Trends of Innovations, Lomza, Poland.

---

**Links e leituras complementares**
* Instalação ArangoDB: https://www.arangodb.com/download-major/ 
* Tutorial ArangoDB: https://www.arangodb.com/docs/stable/aql/tutorial.html
* Tutoriais ArangoDB no Python: https://github.com/arangodb/interactive_tutorials 
* Scripts de Configuração do Benchmark: https://github.com/weinberger/nosql-tests/blob/master/setupAll.sh 
* Scripts de Execução do Benchmark: https://github.com/weinberger/nosql-tests/blob/master/runAll.sh
* Pokec social network: https://snap.stanford.edu/data/soc-pokec.html 