# <font color='blue'>Data Science Academy - Python Fundamentos - Capítulo 6 - Mongo DB</font>

## Download: http://github.com/dsacademybr

# Bancos de Dados NoSQL

Bancos de dados relacionais não foram projetados para tratar grandes quantidades de dados, Big Data, PetaBites, não possuem funcionalidades para atender os requisitos do Big Data, dados gerados em grande volume, alta velocidade e alta variedade.

Essa lacuna é preenchida por bancos de dados NoSQL que são distibuidos, e projetados para atender ao Big Data, eles oference uma arquitetura muito mais escalavel que bancos de dados tradicionais, foram preparados para trabalhar com dados semiestruturados ou não-estruturados.

Bancos de dados NoSQL, são bancos de dados distribuídos e não-relacionais, que foram projetados para atender os requerimentos do Big Data. Oferecendo uma arquitetura muito mais escalável e eficiente que os bancos relacionais e facilitam consultas no-sql de dados semi-estruturados ou não-estruturados.

A este repeito, NoSQL surgiu como um paradigma não tradicional para lidar com grandes volumes de dados e para resolver os desafios colocados pela chegada de implementações de Big Data.

Bancos de Dados NoSQL oferencem 4 categorias principais de bancos de dados:

- Graph databases : Neo4J, FlockDB, GraphDB, ArangoDB

- Document databases : MongoDB, CouchDB, RavenDB, Terrastore

- Key-values stores : Oracle NoSQL DB, MemcacheDB, Redis, AWS DynamoDB

- Column family stores : HBase, Cassandra (Banco de dados hibrido), Hypertable, Accumulo

Lista completa de bancos de dados podem ser consultados em:

https://hostingdata.co.uk/nosql-database/

Use RDBMS quando...

- Suas aplicações forem centralizadas (ERP, CRM)
- Alta disponibilidade moderada for necessária
- Dados gerados em velocidade moderada
- Dados forem gerados a partir de poucas fontes
- Dados forem estruturados
- Transações complexas
- For necessário manter moderado volume de dados

Use NoSQL quando...

- Suas aplicações forem descentralizadas (Web, Mobile, Big Data, IoT)
- Quando a disponibilidade tiver que ser contínua, sem interrupção
- Dados gerados em alta velocidade (sensores)
- Dados foram gerados a partir de múltiplas fontes
- Dados forem semi ou não-estruturados
- Transações simples
- For necessário manter alto volume de dados


## Mongo DB

MongoDB é um banco de dados orientado a documento, uma das categorias de bancos de dados NoSQL.
Um banco de dados NoSQL orientado a documento, substitui o conceito de "linha" como em banco de dados relacionais, por um modelo mais flexível, o "documento".
O MongoDB é open-source e um dos líderes no seguimento de bancos de dados NoSQL. ELe foi desenvolvido em linguagem C++.

Algumas das pricipais características do MongoDB:

- Indexação
- Agregação
- Tipos de dados especiais
- Armazenamento

Algumas caracteristicas presentes em bancos de dados relacionais, não estão no MongoDB, como alguns tipos de joins e transações multi-linha.

Comparação da nomenclatura entre o MongoDB e os RDBMS:

MongoDB
- Database
- Collection
- Document
- Field
- Embedded Documents
- Primary Key

RDBMS
- Database
- Tabela
- Linha/Tupla
- Coluna
- Join de Tabelas
- Primary Key

Onde usar o MongoDB?

- Big Data
- Gestão de Conteúdo
- Infraestrutura Social e Mobile
- Gestão de Dados de Usuários
- Data Hub
- Capturar Stream de Dados para Análise


# Mongo DB instalação e prática

Para utilizar o mongo DB é necessário realizar a instalação do software, para isso iremos realizar o download do executável e realizar o passo a passo da instalação e configuração.

## Download: https://www.mongodb.com/

Após efetuar o download da community version, execute como administrador e siga as orientações do wizard.

Assim que concluida a instalação abrira o Mongo DB Compass Community, pode fechar e abrir o prompt de comando do windows.

### Configurando a Variável de Ambiente

Para inicializar o Mongo DB é necessário, primeiro configurar as variáveis de ambiente, isso permite que o SO identifique seu executável.

Copie o endereço da pasta bin da instalação do Mongo DB.

**C:\Program Files\MongoDB\Server\4.4\bin**

Abra o painel de controle e procura por variáveis de ambiente. Procure por **"Path"** em variáves de sistema e clique em editar, após abrir a janela de edição da Path, clique em Novo e adicione o caminho copiado da pasta bin do Mongo DB. Confirme em todas a janelas abertas.

### Adicionando o Diretório de dados do Mongo DB

Crie o seguinte diretório C:\data\db

### Inicializando o Mongo DB

Abra o prompt de comando execute o comando mongod (Mongo Daemon), a seguinte mensagem informará que a instalação está pronta:
"Waiting for connections","attr":{"port":27017,"ssl":"off"

Durante o trabalho com o banco Mongo DB não feche a janela do prompt de comando utilizada para a inicialização.

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.8.3


### Gravando Dados no MongoDB com PyMongo

Para começar a trabalhar com o Mongo DB é necessário realizar a instalação do pacote pymongo

O comonado abaixo deve ser utilizado no prompt de comando para realizar a instalação, porém dentro do jupyter notebook podemos executar de outra forma.

In [5]:
pip install pymongo

Note: you may need to restart the kernel to use updated packages.


Observe que antes do comando **pip** foi incluido o **!**, com essa esclamação podemos realizar a instalação diretamente dentro do jupyter notebook.

In [6]:
# Baixar e instalar o pacote pymongo
!pip install pymongo

Defaulting to user installation because normal site-packages is not writeable


Please see https://github.com/pypa/pip/issues/5599 for advice on fixing the underlying issue.
To avoid this problem you can invoke Python with '-m pip' instead of running pip directly.


In [7]:
# Importamos o MongoClient para conectar nossa aplicação ao MongoDB
from pymongo import MongoClient

Caso o PyMongo não esteja instalado, abra um prompt de comando e execute: pip install pymongo

In [8]:
# Estabelecemos a conexão ao Banco de Dados
conn = MongoClient('localhost', 27017)
# Por padrão não precisamos informar localhost e porta 27017,
# pois, estes são os valores padão deste objeto.

In [9]:
type(conn)

pymongo.mongo_client.MongoClient

In [10]:
# Uma única instancia do MongoDB pode suportar diversos bancos de dados.
# Vamos criar o banco de dados cadastrodb
db = conn. cadastrodb

In [11]:
type(db)

pymongo.database.Database

In [12]:
# Uma coleção é um grupo de docuemntos armazenados no MongoDB
# (relativamente parecido com o conceito de tabelas em bancos relacionais)
collection = db.cadastrodb

In [13]:
type(collection)

pymongo.collection.Collection

Uma nota importante sobre coleções (e bancos de dados) no MongoDB é que eles são criados posteriormente - nenhum dos comandos acima executou efetivamente qualquer operação no servidor MongoDB. Coleções e bancos de dados são criados quando o primeiro documento é inserido.

In [14]:
import datetime

Dados no MongoDB são representados (e armazenados) usando documentos JSON (Java Script Object Notation). Com o PyMongo usamos dicionários para representar documentos.

In [15]:
post1 = {"codigo": "ID-9987725",
        "prod_name": "Geladeira",
        "marcas": ["brastemp", "consul", "elecrolux"],
        "data_cadastro": datetime.datetime.utcnow()}

In [16]:
type(post1)

dict

In [17]:
collection = db.posts

In [18]:
post_id = collection.insert_one(post1)

In [19]:
post_id.inserted_id

ObjectId('5fbc6940fbf2c5a15b474113')

In [20]:
# Quando um documento é inserido uma chave especial, "_id", é adicionada 
# automaticamente se o documento ainda não contém uma chave "_id".
post_id

<pymongo.results.InsertOneResult at 0x1d845bc0e40>

In [21]:
post2 = {"codigo": "ID-2209876",
        "prod_name": "Televisor",
        "marcas": ["samsung", "panasonic", "lg"],
        "data_cadastro": datetime.datetime.utcnow()}

In [22]:
collection = db.posts

In [23]:
post_id = collection.insert_one(post2).inserted_id

In [24]:
post_id

ObjectId('5fbc69c2fbf2c5a15b474114')

In [25]:
collection.find_one({"prod_name": "Televisor"})

{'_id': ObjectId('5fbc69c2fbf2c5a15b474114'),
 'codigo': 'ID-2209876',
 'prod_name': 'Televisor',
 'marcas': ['samsung', 'panasonic', 'lg'],
 'data_cadastro': datetime.datetime(2020, 11, 24, 2, 1, 13, 355000)}

In [26]:
# A função find() retorna um cursor e podemos então navegar pelos dados
for post in collection.find():
    print(post)

{'_id': ObjectId('5fbc6940fbf2c5a15b474113'), 'codigo': 'ID-9987725', 'prod_name': 'Geladeira', 'marcas': ['brastemp', 'consul', 'elecrolux'], 'data_cadastro': datetime.datetime(2020, 11, 24, 1, 59, 52, 655000)}
{'_id': ObjectId('5fbc69c2fbf2c5a15b474114'), 'codigo': 'ID-2209876', 'prod_name': 'Televisor', 'marcas': ['samsung', 'panasonic', 'lg'], 'data_cadastro': datetime.datetime(2020, 11, 24, 2, 1, 13, 355000)}


In [27]:
# Verificando o nome do banco de dados
db.name

'cadastrodb'

In [29]:
# Listando as coleções disponíveis
db.list_collection_names()

['posts']

### Retornando dados no MongoDB com PyMongo

In [1]:
# Importamos o Módulo PyMongo
import pymongo

In [2]:
# Criando a conexão com o MongoDB (neste caso, conexão padrão)
client_con = pymongo.MongoClient()

In [4]:
# Listando os bancos de dados disponíveis
client_con.list_database_names()

['admin', 'cadastrodb', 'config', 'local']

In [5]:
# Definindo o objeto db
db = client_con.cadastrodb

In [7]:
# listando as coleções disponíveis
db.list_collection_names()

['posts']

In [8]:
# Criando uma coleção
db.create_collection('mycollection')

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'cadastrodb'), 'mycollection')

In [9]:
# listando as coleções disponíveis
db.list_collection_names()

['posts', 'mycollection']

In [10]:
# Inserindo um documento na coleção criada
db.mycollection.insert_one({
    'titulo': 'MongoDB com Python',
    'descricao': 'MongoDB é um banco de dados NoSQL',
    'by': 'Data Science Academy',
    'url': 'http://www.datascienceacademy.com.br',
    'tags': ['mongodb', 'database', 'NoSQL'],
    'likes': 100
})

<pymongo.results.InsertOneResult at 0x20e9c8e5980>

In [11]:
# Retornando o documetno criado
db.mycollection.find_one()

{'_id': ObjectId('5fbda5d5641a0f1d6ea66033'),
 'titulo': 'MongoDB com Python',
 'descricao': 'MongoDB é um banco de dados NoSQL',
 'by': 'Data Science Academy',
 'url': 'http://www.datascienceacademy.com.br',
 'tags': ['mongodb', 'database', 'NoSQL'],
 'likes': 100}

In [12]:
# Preparando um documento
doc1 = {'Nome': 'Donald', 'sobrenome':'Trump', 'twitter':'@POTUS'}

In [13]:
# Inserindo um documento
db.mycollection.insert_one(doc1)

<pymongo.results.InsertOneResult at 0x20e9c938fc0>

In [14]:
# Preparando um documento
doc2 = {'Site': 'http://www.datascienceacademy.com.br',
       'facebook':'facebook.com/dsaacademybr'}

In [15]:
# Inserindo um documento
db.mycollection.insert_one(doc2)

<pymongo.results.InsertOneResult at 0x20e9c654080>

In [16]:
# Retornando os documentos na coleção
for rec in db.mycollection.find():
    print(rec)

{'_id': ObjectId('5fbda5d5641a0f1d6ea66033'), 'titulo': 'MongoDB com Python', 'descricao': 'MongoDB é um banco de dados NoSQL', 'by': 'Data Science Academy', 'url': 'http://www.datascienceacademy.com.br', 'tags': ['mongodb', 'database', 'NoSQL'], 'likes': 100}
{'_id': ObjectId('5fbda684641a0f1d6ea66034'), 'Nome': 'Donald', 'sobrenome': 'Trump', 'twitter': '@POTUS'}
{'_id': ObjectId('5fbda6e7641a0f1d6ea66035'), 'Site': 'http://www.datascienceacademy.com.br', 'facebook': 'facebook.com/dsaacademybr'}


In [17]:
# Conectando a uma coleção
col = db['mycollection']

In [18]:
type(col)

pymongo.collection.Collection

In [22]:
# Contando os documentos em uma coleção
col.estimated_document_count()

3

In [24]:
# Encontrando um único documento
redoc = col.find_one()

In [25]:
redoc

{'_id': ObjectId('5fbda5d5641a0f1d6ea66033'),
 'titulo': 'MongoDB com Python',
 'descricao': 'MongoDB é um banco de dados NoSQL',
 'by': 'Data Science Academy',
 'url': 'http://www.datascienceacademy.com.br',
 'tags': ['mongodb', 'database', 'NoSQL'],
 'likes': 100}

# Mini-Projeto1
## Stream de Dados do Twitter com MongoDB, Pandas e Sckit Learn

Realizar um Text Mining nessa base de dados:
Text Mining é uma das aplicações de técnicas de processamento de linguagem natural NLP e métodos analíticos para extrair informações relevantes de dados de textos.

O Text Mining tem atraído cada vez mais atenção, pela possibilidade de análise de dados em páginas web, projetos no Google e redes sociais como o Twitter.

O Twitter é uma fonte rica de informações sobre os mais variados assuntos.

Podemos usar dados do Twitter para analisar tendências relacionadas a uma palavra chave, analisar o sentimento relacionado a uma determinada marca ou obter feedback sobre produtos e serviços.

O MongoDB, como vimos, é um banco NoSQL orientado a documento, que permite a integração entre certos tipos de aplicação, de forma mais fácil e rápida.

Para obter dados do Twitter, é necessário usar uma API.

API (Application Programming Interface) é um software que permite a interação entre programas de computador e serviços web (Web Services) de forma fácil.

Diversos web services disponibilizam API's para que os desenvolvedores possam interagir com suas aplicações e acessar dados de forma programática.

Neste caso, usaremos a Twitter Streaming API, para fazer downloads do Twitter.

## Como obter as API's Keys:

1- Crie uma conta no Twitter, caso já não possua uma;

2- Siga a Data Science Academy no Twitter (@dsacademybr);

3- Acesse http://apps.twitter.com com seu login e senha do Twitter;

4- Clique em "CREATE A NEW APP";

5- Preencha as informações e clique em "CRIAR TWITTER APPLICATION";

6- Clique em Keys e Access Tokens e copie API Keys e API Secret;

7- Clique em "CREATE MY ACCESS TOKEN" e copie seu Access Token e Access Token secret.

## Stream de Dados do Twitter com MongoDB, Pandas e Scikit Learn

## Preparando a Conexão com o Twitter

In [24]:
# Instala o pacote tweepy
!pip install tweepy



In [25]:
import tweepy

In [26]:
# Importando os módulos Tweepy, Datetime e Json
from tweepy.streaming import StreamListener
from tweepy import OAuthHandler
from tweepy import Stream
from datetime import datetime
import json

Veja no manual em pdf como criar sua API no Twitter e configure as suas chaves abaixo.

In [27]:
# Adicione aqui sua Consumer Key
consumer_key = "dQGfqnDZYdX3iiTmyj4YFh4lx"

In [28]:
# Adicione aqui sua Consumer Secret 
consumer_secret = "NQLlBzyisEN6cfJokzhPKWKprYT1m4DmrMqRXB5rCMBA2VwfzH"

In [29]:
# Adicione aqui seu Access Token
access_token = "762994400851070977-2pwQ1vEPEDbihquYGTrmP7uuDpMEaGO"

In [30]:
# Adicione aqui seu Access Token Secret
access_token_secret = "3xySrsftk2xABjkI21OjZbfTfwvIJKmuqkwROVZ9pmD2i"

In [31]:
# Criando as chaves de autenticação
auth = OAuthHandler(consumer_key, consumer_secret)

In [32]:
auth.set_access_token(access_token, access_token_secret)

In [33]:
# Criando uma classe para capturar os stream de dados do Twitter e 
# armazenar no MongoDB
class MyListener(StreamListener):
    def on_data(self, dados):
        tweet = json.loads(dados)
        created_at = tweet["created_at"]
        id_str = tweet["id_str"]
        text = tweet["text"]
        obj = {"created_at":created_at,"id_str":id_str,"text":text,}
        tweetind = col.insert_one(obj).inserted_id
        print (obj)
        return True

In [34]:
# Criando o objeto mylistener
mylistener = MyListener()

In [35]:
# Criando o objeto mystream
mystream = Stream(auth, listener = mylistener)

## Preparando a Conexão com o MongoDB

In [36]:
# Importando do PyMongo o módulo MongoClient
from pymongo import MongoClient

In [37]:
# Criando a conexão ao MongoDB
client = MongoClient('localhost', 27017)

In [38]:
# Criando o banco de dados twitterdb
db = client.twitterdb

In [39]:
# Criando a collection "col"
col = db.tweets

In [40]:
# Criando uma lista de palavras chave para buscar nos Tweets
keywords = ['Big Data', 'Business Intelligence']

## Coletando os Tweets

In [41]:
# Iniciando o filtro e gravando os tweets no MongoDB
mystream.filter(track=keywords)

{'created_at': 'Wed Mar 31 00:55:36 +0000 2021', 'id_str': '1377061986266152960', 'text': "@Reuters Here is the big picture about the source of Covid-19.  China's blame would be about equal if it came accid… https://t.co/WlZaMIRmdC", '_id': ObjectId('6063c88d359c50ac5a11f996')}
{'created_at': 'Wed Mar 31 00:55:39 +0000 2021', 'id_str': '1377061999847243776', 'text': 'RT @RichardGrenell: Speak out against big government now. Dear God.', '_id': ObjectId('6063c890359c50ac5a11f997')}
{'created_at': 'Wed Mar 31 00:55:44 +0000 2021', 'id_str': '1377062017744297986', 'text': '@Reidsomethings @PrestonPysh @nic__carter @elonmusk @michael_saylor @Melt_Dem This is why I won’t bother to pick it… https://t.co/STN3Y7K6i3', '_id': ObjectId('6063c894359c50ac5a11f998')}
{'created_at': 'Wed Mar 31 00:55:58 +0000 2021', 'id_str': '1377062075948732422', 'text': "@60Minutes Here is the big picture about the source of Covid-19.  China's blame would be about equal if it came acc… https://t.co/pRxer7iOc5", '_

KeyboardInterrupt: 

## --> Pressione o botão Stop na barra de ferramentas para encerrar a captura dos Tweets

## Consultando os Dados no MongoDB

In [42]:
mystream.disconnect()

In [43]:
# Verificando um documento no collection
col.find_one()

{'_id': ObjectId('5fc02754681110c3597f66b4'),
 'created_at': 'Thu Nov 26 22:08:14 +0000 2020',
 'id_str': '1332083771705843712',
 'text': 'RT @Udemy_Coupons1: The Complete Mindfulness Course – Enjoy Life In the Present | 100%OFF https://t.co/EL70c1apsp\n\n#MachineLearning #BigDat…'}

## Análise de Dados com Pandas e Scikit-Learn

In [44]:
# criando um dataset com dados retornados do MongoDB
dataset = [{"created_at": item["created_at"], "text": item["text"],} for item in col.find()]

In [45]:
# Importando o módulo Pandas para trabalhar com datasets em Python
import pandas as pd
pd.__version__

'1.0.5'

In [46]:
# Criando um dataframe a partir do dataset 
df = pd.DataFrame(dataset)

In [47]:
# Imprimindo o dataframe
df

Unnamed: 0,created_at,text
0,Thu Nov 26 22:08:14 +0000 2020,RT @Udemy_Coupons1: The Complete Mindfulness C...
1,Thu Nov 26 22:08:14 +0000 2020,RT @Udemy_Coupons1: The Complete Mindfulness C...
2,Thu Nov 26 22:08:15 +0000 2020,@VictorJamesO @Tegadeyforyou Python
3,Thu Nov 26 22:08:16 +0000 2020,@chirag_shah \nYou should also specify which l...
4,Thu Nov 26 22:08:17 +0000 2020,Don't miss your deadline!! \n#onlineclass\n#fa...
...,...,...
123,Wed Mar 31 00:56:22 +0000 2021,RT @RichardGrenell: Speak out against big gove...
124,Wed Mar 31 00:56:27 +0000 2021,RT @RichardGrenell: Speak out against big gove...
125,Wed Mar 31 00:56:27 +0000 2021,RT @RichardGrenell: Speak out against big gove...
126,Wed Mar 31 00:56:29 +0000 2021,RT @RichardGrenell: Speak out against big gove...


In [48]:
# Importando o módulo Scikit Learn
from sklearn.feature_extraction.text import CountVectorizer

In [49]:
import sklearn
sklearn.__version__

'0.23.1'

In [50]:
# Usando o método CountVectorizer para criar uma matriz de documentos
cv = CountVectorizer()
count_matrix = cv.fit_transform(df.text)

In [51]:
# Contando o número de ocorrências das principais palavras em nosso dataset
word_count = pd.DataFrame(cv.get_feature_names(), columns=["word"])
word_count["count"] = count_matrix.sum(axis=0).tolist()[0]
word_count = word_count.sort_values("count", ascending=False).reset_index(drop=True)
word_count[:50]

Unnamed: 0,word,count
0,co,77
1,https,77
2,rt,76
3,the,65
4,to,42
5,python,41
6,of,27
7,complete,25
8,100,23
9,in,21


# Fim

### Obrigado - Data Science Academy - <a href="http://facebook.com/dsacademybr">facebook.com/dsacademybr</a>