# Consultas a um banco Mongo DB com o PyMongo

Utilizaremos os dados do arquivo 'twitter.json'.
Os dados foram inseridos no Mongo DB através do shell do Mongo. Utilizou-se o seguinte comando:

```shell
mongoimport --host localhost --port 27017 --collection twitter --db examples --file twitter.json
```

O arquivo consiste numa coleção de documentos em json, cada um com informações sobre um tweet coletado através da API do twitter. 

In [2]:
from pprint import pprint
from pymongo import MongoClient

client = MongoClient('localhost:27017') ## 27017 é a porta padrão para a instalação do Mongo DB
db = client.examples

O primeiro documento do arquivo possui a seguinte estrutura:

In [3]:
db.twitter.find_one()

{'_id': ObjectId('59aa384e4e9a63377035612c'),
 'contributors': None,
 'coordinates': None,
 'created_at': 'Thu Sep 02 18:11:23 +0000 2010',
 'entities': {'hashtags': [], 'urls': [], 'user_mentions': []},
 'favorited': False,
 'geo': None,
 'id': 22819396900,
 'in_reply_to_screen_name': None,
 'in_reply_to_status_id': None,
 'in_reply_to_user_id': None,
 'place': None,
 'retweet_count': None,
 'retweeted': False,
 'source': 'web',
 'text': 'eu preciso de terminar de fazer a minha tabela, está muito foda **',
 'truncated': False,
 'user': {'contributors_enabled': False,
  'created_at': 'Fri Jul 03 21:44:05 +0000 2009',
  'description': 'só os loucos sabem (:',
  'favourites_count': 1,
  'follow_request_sent': None,
  'followers_count': 102,
  'following': None,
  'friends_count': 73,
  'geo_enabled': False,
  'id': 53507833,
  'lang': 'en',
  'listed_count': 0,
  'location': '',
  'name': 'Beatriz Helena Cunha',
  'notifications': None,
  'profile_background_color': '081114',
  'profile_

Documentos em JSON podem conter campos de múltiplos tipos. Um campo pode, inclusive, armazenar um outro documento, como é o caso do campo <i>user</i> acima. 

### Consultas Simples

O comando <b>find_one()</b> nos retorna o primeiro documento que atende aos critérios especificados entre parênteses (quando nenhum critério é especificado, estamos nos referindo a todos os documentos da coleção). 
<p>
Especificamos um critério de busca informando o campo que deve ser pesquisado e o resultado esperado na forma de um documento em JSON. Quando o campo que desejamos buscar é parte de um documento inserido em outro campo, usamos a notação de ponto (<b>.</b>) para que o Mongo interprete a hierarquia.
<p>
Se quisermos encontrar o primeiro documento cujo campo <i>time_zone</i> (que está dentro do campo <i>user</i>) está preenchido com "Buenos Aires", podemos usar a seguinte notação:

In [20]:
db.twitter.find_one({"user.time_zone": "Buenos Aires"})

{'_id': ObjectId('59aa384e4e9a63377035619a'),
 'contributors': None,
 'coordinates': None,
 'created_at': 'Thu Sep 02 18:11:35 +0000 2010',
 'entities': {'hashtags': [],
  'urls': [{'expanded_url': None,
    'indices': [112, 132],
    'url': 'http://4ms.me/9qKO6O'}],
  'user_mentions': [{'id': 30059216,
    'indices': [3, 14],
    'name': 'Sol ',
    'screen_name': 'SolTBieber'}]},
 'favorited': False,
 'geo': None,
 'id': 22819409400,
 'in_reply_to_screen_name': None,
 'in_reply_to_status_id': None,
 'in_reply_to_user_id': None,
 'place': None,
 'retweet_count': None,
 'retweeted': False,
 'retweeted_status': {'contributors': None,
  'coordinates': None,
  'created_at': 'Thu Sep 02 18:10:51 +0000 2010',
  'entities': {'hashtags': [],
   'urls': [{'expanded_url': None,
     'indices': [96, 116],
     'url': 'http://4ms.me/9qKO6O'}],
   'user_mentions': []},
  'favorited': False,
  'geo': None,
  'id': 22819362741,
  'in_reply_to_screen_name': None,
  'in_reply_to_status_id': None,
  'i

### Consultas de Múltiplos Campos

Quando queremos consultar todos os documentos que obedecem aos nosso critérios de busca utilizamos o comando <b>find()</b>.
<p>
É possível adicionar mútiplos critérios de busca nos comandos find_one() e find().
<p>
Por vezes, ao invés de visualizar o conteúdo dos documentos, queremos apenas saber quantos deles respondem à nossa consulta. O comando <b>count()</b> é útil nessas situações.
<p>
Ao invés de buscar apenas por valores exatos, nossas consultas podem utilizar <b>operadores</b> para avaliar a correspondência de resultados. Operadores são precedidos pela notação <b>\$</b>. Exemplos de operadores:
<p>
<b>\$gt</b>: greater than  
<b>\$gte</b>: greater than or equal to  
<b>\$lt</b>: less than  
<b>\$lte</b>: less than or equal to  
<b>\$ne</b>: not equal to
<p>

Se quisermos encontrar o número de tweets com time_zone "Buenos Aires" e cujo usuário tem mais de 1000 seguidores, podemos usar a seguinte notação:

In [24]:
db.twitter.find({"user.time_zone": "Buenos Aires","user.followers_count": {"$gt": 1000}}).count()

73

### Consultas com Projeções

Também é comum que queiramos exibir, ao invés do documento completo, o conteúdo de apenas alguns campos dos documentos que respodem às nossas consultas.
<p>
Além da <i>query</i>, o comando find() pode receber um argumento que indique a forma como os documentos devem ser exibidos, o <i><b>projection</b></i>. 
```
find(query, projection)
```

O projection deve indicar o campo seguido de 1, caso queiramos que ele seja exibido, ou de 0, caso queiramos que ele não seja exibido.
<p>

```
{"field_1": 1, "field_2": 0}
```
<p>
Quando especificamos um <i>projection</i>, o id do documento (em Mongo DB todos os documentos possuem um id) é tido 1 (true) e todos os outros campos como 0 (false) por padrão. Se quisermos que o id não seja exibido, precisamos setá-lo para 0. Quanto aos demais campos, precisaremos listar apenas aqueles que queremos que apareçam em nossos resultados.
<p>
Se quisermos encontrar os nomes dos autores dos tweets com time_zone "Buenos Aires" com mais de 10000 seguidores, podemos usar a seguinte notação:

In [31]:
consult = db.twitter.find({"user.time_zone": "Buenos Aires","user.followers_count": {"$gt": 10000}},{"_id": 0, "user.name": 1})

for doc in consult:
    print(doc)

{'user': {'name': 'Stanley ✔'}}
{'user': {'name': 'Fabio Oliveira'}}
{'user': {'name': 'Soledad Fandiño'}}


Precisamos iterar sobre o resultado do comando find() para exibir todos os documentos.

### Outros Operadores

Outros operadores úteis à elaboração de <i>queries</i>:

#### \$exists:  
Como vimos, o Mongo DB é livre de <i>schema</i>, isto é, os documentos armazenados no banco podem ter estruturas distintas e nem todos os campos precisam estar presentes em todos os documentos. Utilizamos o operador \$exists quando queremos consultar os documentos que possuem ou não um determinado campo. Ao utilizarmos "\$exists: 1" em um campo, receberemos todos os documentos em que esse campo possui algum valor. Ao utilizarmos "\$exists: 0", receberemos todos os documentos que não possuem esse campo ou em que esse campo não possui valor. 

```
{"field_1": {$exists: 1}, "field_2": {$exists: 0}}
```

#### \$in e \$all: 
\$in e \$all são operadores úteis às consultas em campos cujos valores são preenchidos por <i>arrays</i>, como o campo "entities.hashtags" em nossos tweets.
Ao utilizarmos \$in, receberemos todos os documentos que possuam algum dos valores que passarmos. Ao utilizarmos \$all, receberemos apenas os documentos que possuam todos os valores que passarmos.
```
{"field_1": {$in: []}, "field_2": {$all: []}}
```

#### \$regex: 
As consultas aos bancos Mongo DB também suportam o operador \$regex, que permite a combinação de caracteres especiais para produzir uma série possível de resultados que atendem a busca, segundo uma [sintaxe própria](https://github.com/zeeshanu/learn-regex).
```
{"field_1": {$regex: [regular_expression]}}
```