# Analizando dados de um banco Mongo DB com o PyMongo

Utilizaremos os dados do arquivo 'twitter.json'.
Os dados foram inseridos no Mongo DB através do shell do Mongo. Utilizou-se o seguinte comando:

```shell
mongoimport --host localhost --port 27017 --collection twitter --db examples --file twitter.json
```

O arquivo consiste numa coleção de documentos em json, cada um com informações sobre um tweet coletado através da API do twitter. 

In [2]:
from pprint import pprint
from pymongo import MongoClient

client = MongoClient('localhost:27017') ## 27017 é a porta padrão para a instalação do Mongo DB
db = client.examples

O primeiro documento do arquivo possui a seguinte estrutura:

In [3]:
db.twitter.find_one()

{'_id': ObjectId('59aa384e4e9a63377035612c'),
 'contributors': None,
 'coordinates': None,
 'created_at': 'Thu Sep 02 18:11:23 +0000 2010',
 'entities': {'hashtags': [], 'urls': [], 'user_mentions': []},
 'favorited': False,
 'geo': None,
 'id': 22819396900,
 'in_reply_to_screen_name': None,
 'in_reply_to_status_id': None,
 'in_reply_to_user_id': None,
 'place': None,
 'retweet_count': None,
 'retweeted': False,
 'source': 'web',
 'text': 'eu preciso de terminar de fazer a minha tabela, está muito foda **',
 'truncated': False,
 'user': {'contributors_enabled': False,
  'created_at': 'Fri Jul 03 21:44:05 +0000 2009',
  'description': 'só os loucos sabem (:',
  'favourites_count': 1,
  'follow_request_sent': None,
  'followers_count': 102,
  'following': None,
  'friends_count': 73,
  'geo_enabled': False,
  'id': 53507833,
  'lang': 'en',
  'listed_count': 0,
  'location': '',
  'name': 'Beatriz Helena Cunha',
  'notifications': None,
  'profile_background_color': '081114',
  'profile_

### Construindo um <i>pipeline</i> com o agregation()

O <b>agregation()</b> recebe como parâmetros uma série de operações de consulta e outros tipos sobre os documentos de uma coleção, de modo que o resultado de uma forneça a entrada da seguinte (formando um <i>pipeline</i>), nos permitindo responder perguntas mais complexas a respeito dos nossos conjuntos de dados.

### \$project

In [9]:
pipeline=[{"$project":{"name":"$user.name"}}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)
    break

{'_id': ObjectId('59aa384e4e9a63377035612c'), 'name': 'Beatriz Helena Cunha'}


### \$match

In [10]:
pipeline=[{"$project":{"name":"$user.name", "followers":"$user.followers_count"}},
          {"$match": {"followers": {"$gt":10000}}}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)
    break

{'_id': ObjectId('59aa384e4e9a6337703561a3'), 'name': 'Portal Guiame', 'followers': 15159}


### \$group

In [21]:
pipeline=[{"$project":{"name":"$user.name", "followers":"$user.followers_count"}},
          {"$match": {"followers": {"$gt":10000}}},
          {"$group": {"_id":"$name", "tweets": {"$sum":1}}}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)
    break

{'_id': 'Faze ™', 'tweets': 1}


### \$sort

In [15]:
pipeline=[{"$project":{"name":"$user.name", "followers":"$user.followers_count"}},
          {"$match": {"followers": {"$gt":10000}}},
          {"$group": {"_id":"$name", "tweets": {"$sum":1}}},
          {"$sort": {"tweets": -1}}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)
    break

{'_id': 'gilliarde_1993', 'tweets': 5}


### \$limit

In [18]:
pipeline=[{"$project":{"name":"$user.name", "followers":"$user.followers_count"}},
          {"$match": {"followers": {"$gt":10000}}},
          {"$group": {"_id":"$name", "tweets": {"$sum":1}}},
          {"$sort": {"tweets": -1}},
          {"$limit": 1}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)

{'_id': 'gilliarde_1993', 'tweets': 5}


### \$limit

In [20]:
pipeline=[{"$project":{"name":"$user.name", "followers":"$user.followers_count"}},
          {"$match": {"followers": {"$gt":10000}}},
          {"$group": {"_id":"$name", "tweets": {"$sum":1}}},
          {"$sort": {"tweets": -1}},
          {"$limit": 3},
          {"$skip": 1}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)

{'_id': 'gilliarde_1993', 'tweets': 5}
{'_id': '♥ C V ι X х X e N™ ', 'tweets': 4}


### \$unwind

In [34]:
pipeline=[{"$unwind": "$entities.hashtags"},
          {"$group": {"_id":"$entities.hashtags", "count": {"$sum":1}}},
          {"$sort": {"count": -1}},
          {"$limit": 10}]
agg = db.twitter.aggregate(pipeline)
for doc in agg:
    print(doc)

{'_id': {'text': '4ji', 'indices': [12, 16]}, 'count': 89}
{'_id': {'text': 'nowplaying', 'indices': [0, 11]}, 'count': 57}
{'_id': {'text': 'liesguystell', 'indices': [0, 13]}, 'count': 41}
{'_id': {'text': 'np', 'indices': [0, 3]}, 'count': 35}
{'_id': {'text': 'VouConfessarQue', 'indices': [21, 37]}, 'count': 31}
{'_id': {'text': 'NowPlaying', 'indices': [0, 11]}, 'count': 19}
{'_id': {'text': 'NP', 'indices': [0, 3]}, 'count': 13}
{'_id': {'text': 'lastfm', 'indices': [16, 23]}, 'count': 13}
{'_id': {'text': 'CoachPoppy', 'indices': [22, 33]}, 'count': 13}
{'_id': {'text': 'ok', 'indices': [69, 72]}, 'count': 13}
