# MongoDB

O MongoDB é um sistema de gerenciamento de banco de dados (DBMS) NoSQL de código aberto que utiliza documentos flexíveis em vez de tabelas e linhas para processar e armazenar diversos formatos de dados. Por ser uma solução NoSQL, o MongoDB não requer um sistema de gerenciamento de banco de dados relacional (RDBMS), fornecendo um modelo elástico de armazenamento de dados que facilita o armazenamento e a consulta de tipos de dados multivariados. Isso não só simplifica o gerenciamento da base de dados para desenvolvedores, mas também cria um ambiente altamente escalável para aplicações e serviços em toda a plataforma.

Os documentos ou coleções de documentos do MongoDB são as unidades básicas de dados. Esses documentos, formatados como JSON (JavaScript Object Notation) binário ou BSON, podem armazenar vários tipos de dados e ser distribuídos por diversos sistemas. Como o MongoDB utiliza um projeto dinâmico de esquemas, os usuários podem criar registros de dados, consultar coleções de documentos com a agregação do MongoDB e analisar grandes quantidades de informações com absoluta flexibilidade.

## Configuração do ambiente

Neste tutorial iremos escrever e ler dados no MongoDB utilizando a linguagem Python. A biblioteca pymongo será responsável pela comunicação com o banco de dados.

In [None]:
!pip install "pymongo[srv]"

Iremos escrever dados do censo do IBGE dos Estados do Brasil. Para tal, carregaremos os dados (em formato CSV) em um DataFrame Pandas antes de escrever no banco de dados. O arquivo está disponível no github em [https://github.com/savioteles/big_data/blob/master/etl/datasets/censo_estado.csv](https://github.com/savioteles/big_data/blob/master/etl/datasets/censo_estado.csv).

In [None]:
import pandas as pd

url="https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/censo_estado.csv"
df=pd.read_csv(url)

## Conectando no banco de dados

No código abaixo iremos conectar no banco de dados que esta no host *'mongo'*. O usuário é *root* e a senha *root*. O banco de dados de autenticação é o admin.

In [None]:
from pymongo import MongoClient

# URL de conexão no MongoDB
CONNECTION_STRING = "mongodb://root:root@mongo/admin"

# Cria um cliente do MongoDB
client = MongoClient(CONNECTION_STRING)

# Criação do banco de dados e da coleção

O banco de dados é um recipiente físico para coleções. Cada banco de dados tem o seu próprio conjunto de arquivos no sistema de arquivos. Um único servidor MongoDB normalmente tem vários bancos de dados. Collection é um grupo de documentos no MongoDB. É o equivalente de uma tabela de RDBMS. Uma coleção existe dentro de um único banco de dados. Coleções não tem um esquema definido. Documentos dentro de uma coleção pode ter diferentes campos e esquemas. Normalmente, todos os documentos em uma coleção são propositalmente semelhantes ou afins.

Aqui iremos criar o banco de dados **aula_db** e a coleção **censo_ibge**.

In [None]:
# Cria o banco de dados do nosso exemplo
mongodb = client['aula_db']

In [None]:
# Cria a coleção censo_ibge
collection = mongodb["censo_ibge"]

## Inserção de dados no MongoDB

Agora você irá inserir os dados na coleção *censo_ibge* do banco de dados *aula_db*. Mas, antes de inserir você deve converter o DataFrame em um dicionário, já que o MongoDB espera os dados no formato JSON. Você deve especificar *orient='records'* para que a saída seja uma lista de dicionários, que é o que o método `insert_many` espera.


In [None]:
dict_to_insert = df.to_dict(orient='records')

Agora a lista de objetos JSON serão inseridos no MongoDB usando o método `insert_many`.

In [None]:
collection.insert_many(dict_to_insert)

## Recuperando dados do MongoDB

Você pode recuperar dados do MongoDB e armazenar diretamente em um DataFrame Pandas.

Primeiro você deve invocar o método `find` para recuperar os documentos do banco de dados.

In [None]:
# Obtém os dados da coleção `censo_ibge`
cursor = collection.find()

In [None]:
# Expande o cursor e carrega no Pandas DataFrame
result_df =  pd.DataFrame(list(cursor))

In [None]:
result_df

# Tarefa

Nesta tarefa você deve inserir e carregar os dados da URL [https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv](https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv)

Você deve nesta tarefa:

- Criar a coleção *rouanet* no MongoDB.
- Carregar em um Pandas DataFrame os dados da URL [https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv](https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv)
- Inserir os dados do Pandas DataFrame na coleção *rouanet*.
- Recuperar os dados da coleção *rouanet* em um Pandas DataFrame.

In [None]:
# Cria a coleção rouanet
collection = mongodb["rouanet"]

In [None]:
import pandas as pd

# Carrega os dados em um Pandas DataFrame
url="https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv"
df=pd.read_csv(url)

In [None]:
# Insere os dados na coleção *rouanet*
dict_to_insert = df.to_dict(orient='records')
collection.insert_many(dict_to_insert)

In [None]:
# Obtém os dados da coleção `rouanet`
cursor = collection.find()
# Expande o cursor e carrega no Pandas DataFrame
result_df =  pd.DataFrame(list(cursor))
result_df