<a href="https://colab.research.google.com/github/Shibata18/DataSciencePandas/blob/master/5_10_Dados_MongoDB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **5.10 Dados MongoDB**

Nesta etapa, trabalharemos com armazenamento, a quarta etapa do pipeline dos dados.
Terminamos a preparação dos dados referentes ao período de 1997 até 2017, e podemos providenciar o mecanismo de persistência. Utilizaremos uma ferramenta mais adequada, no caso, um gerenciador de banco de dados.

Armazenar em arquivos de texto nem sempre é recomendável, não apenas pela questão da segurança dos dados, mas pensando nas qualidades de acesso. Com os dados armazenados em um gerenciador, teremos mais facilidade para verificar e consultá-los.

O gerenciador que utilizaremos será o MongoDB. 

Para interagir com o MongoDB, e com os dados armazenados será utilizado o [MongoDB Atlas](https://www.mongodb.com/cloud/atlas.) .

1. Criar uma conta no [mLab]((https://www.mongodb.com/atlas-signup-from-mlab?utm_source=mlab.com&utm_medium=referral&utm_campaign=mlab%20signup&utm_content=blue%20sign%20up%20button)):
2. Fazer o login no MongoDB Atlas;
3. Criar e configurar um novo cluster (com as opções gratuitas);
  1. Configurar as configurações de conexão;
  2. Escolher o método de conexão: "Connect your application";
  3. Acessar e salvar a sua string para conexão;
  4. Configurar no menu security o acesso via rede.
4. Executar o seguinte [tutorial](https://www.w3schools.com/python/python_mongodb_getstarted.asp)(11 páginas) para familiarização com o funcionamento do pymongo e do mongodb.
5. A parte de instalação pode ser ignorada;
6. A parte de conexão deve ser adaptada para que a conexão seja feita com a conta criada no passo 1 (no MongoDB Atlas).
7. Usar o módulo [PyMongo](https://api.mongodb.com/python/current/index.html) (instalar antes !pip install dnspython e reiniciar o colab - restart runtime) para estabelecer conexão com o banco de dados.
8. Criar um banco de dados chamado ovni.
9. Criar uma coleção com o nome ovnis.
10. Inserir na coleção criada todos os registros do df_OVNI_preparado.

11. Utilizando as funções do pymongo:
  1. Contar e mostrar quantos documentos há na coleção ovnis.
  2. Resgatar todos os documentos (registros) da coleção ovnis e ordenar por tipo (shape).
  3. Verificar quantas ocorrências existem por estado.
  4. Buscar todas as ocorrências da cidade Phoenix.
  5. Buscar as ocorrências do estado da Califórnia e ocultar o id de cada documento (registro)


In [None]:
#Instalando o dnspython e reiniciar o servidor do colab
!pip install dnspython 
!curl ipecho.net/plain 

34.73.174.230

In [None]:
!pip install pymongo



In [None]:
#Importando o pymongo
import pymongo
#importando o pandas
import pandas as pd 

In [None]:
#Conectado ao MongoDB Atlas
client = pymongo.MongoClient("mongodb+srv://icdia:<password>@cluster0.u5bvh.mongodb.net/OVNI?retryWrites=true&w=majority")
#criando um Banco de dados chamado ovni 
db = client.ovni 
#Criando uma coleção chamada ovnis.  
ovnis = db.ovnis 
print(db.name)
print(client.list_database_names())

ovni
['ovni', 'admin', 'local']


In [None]:
# Inserir na coleção criada todos os registros do df_OVNI_preparado 
OVNI_preparado = pd.read_csv('df_OVNI_preparado.csv') 
ovnis.insert_many(OVNI_preparado.to_dict('records'))

<pymongo.results.InsertManyResult at 0x7f8438852788>

In [None]:
#Contar e mostrar quantos documentos há na coleção ovnis.
print(OVNI_preparado.count())

City             54943
State            54943
Shape            54943
Sight_day        54943
Sight_month      54943
Sight_time       54943
Sight_date       54943
Sight_weekday    54943
dtype: int64


In [None]:
#Resgatar todos os documentos (registros) da coleção ovnis e ordenar por tipo (shape).
sort_shape = ovnis.find().sort('Shape',1)
for x in sort_shape:
  print(x)

OperationFailure: ignored

In [None]:
groupby_views = ovnis.aggregate([
... {"$group":{'_id':"$State",'Views':{'$sum':1}}}]);
for x in groupby_views:
  print(x)

{'_id': 'UT', 'Views': 8151}
{'_id': 'IL', 'Views': 23621}
{'_id': 'MN', 'Views': 11960}
{'_id': 'FL', 'Views': 48022}
{'_id': 'NV', 'Views': 8437}
{'_id': 'IN', 'Views': 13611}
{'_id': 'SC', 'Views': 15054}
{'_id': 'OH', 'Views': 24453}
{'_id': 'VA', 'Views': 15522}
{'_id': 'MS', 'Views': 4147}
{'_id': 'ND', 'Views': 1287}
{'_id': 'AL', 'Views': 7488}
{'_id': 'WI', 'Views': 13624}
{'_id': 'NH', 'Views': 6331}
{'_id': 'TN', 'Views': 12389}
{'_id': 'IA', 'Views': 6903}
{'_id': 'MT', 'Views': 5317}
{'_id': 'AK', 'Views': 3848}
{'_id': 'KS', 'Views': 6227}
{'_id': 'MO', 'Views': 15145}
{'_id': 'DE', 'Views': 2483}
{'_id': 'CO', 'Views': 16627}
{'_id': 'GA', 'Views': 15639}
{'_id': 'MD', 'Views': 10829}
{'_id': 'WA', 'Views': 35191}
{'_id': 'RI', 'Views': 3549}
{'_id': 'AR', 'Views': 5174}
{'_id': 'HI', 'Views': 3900}
{'_id': 'NE', 'Views': 3601}
{'_id': 'VT', 'Views': 3848}
{'_id': 'DC', 'Views': 780}
{'_id': 'KY', 'Views': 9178}
{'_id': 'NY', 'Views': 31083}
{'_id': 'MA', 'Views': 14872}

In [None]:
find_phoenix = ovnis.find({'City':"Phoenix"},{ "_id": 1, "City": 1, "Shape": 1,
                                              "State":1,"Sight_day":1,"Sight_month":1,"Sight_time":1,"Sight_date":1, "Sight_weekday":1 })
for x in find_phoenix:
  print(x)

{'_id': ObjectId('5f80d5aaabe59c82c1e1b253'), 'City': 'Phoenix', 'State': 'NY', 'Shape': 'Light', 'Sight_day': 13, 'Sight_month': 11, 'Sight_time': '17:00:00', 'Sight_date': '2009-11-13', 'Sight_weekday': 'Sexta-feira'}
{'_id': ObjectId('5f80d5aaabe59c82c1e1b5a0'), 'City': 'Phoenix', 'State': 'NY', 'Shape': 'Circle', 'Sight_day': 31, 'Sight_month': 8, 'Sight_time': '22:20:00', 'Sight_date': '2013-08-31', 'Sight_weekday': 'Sábado'}
{'_id': ObjectId('5f80d5aaabe59c82c1e1be2e'), 'City': 'Phoenix', 'State': 'AZ', 'Shape': 'Light', 'Sight_day': 8, 'Sight_month': 6, 'Sight_time': '22:00:00', 'Sight_date': '2005-06-08', 'Sight_weekday': 'Quarta-feira'}
{'_id': ObjectId('5f80d5aaabe59c82c1e1be75'), 'City': 'Phoenix', 'State': 'AZ', 'Shape': 'Other', 'Sight_day': 6, 'Sight_month': 10, 'Sight_time': '17:00:00', 'Sight_date': '2006-10-06', 'Sight_weekday': 'Sexta-feira'}
{'_id': ObjectId('5f80d5aaabe59c82c1e1bf5d'), 'City': 'Phoenix', 'State': 'AZ', 'Shape': 'Sphere', 'Sight_day': 13, 'Sight_mont

In [None]:
find_ca = ovnis.find({'State':"CA"},{ "_id": 0, "City": 1, "Shape": 1, "State":1,
                                     "Sight_day":1,"Sight_month":1,"Sight_time":1,"Sight_date":1, "Sight_weekday":1 })
for x in find_ca:
  print(x)

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
{'City': 'Antioch', 'State': 'CA', 'Shape': 'Light', 'Sight_day': 9, 'Sight_month': 10, 'Sight_time': '08:10:00', 'Sight_date': '2012-10-09', 'Sight_weekday': 'Terça-feira'}
{'City': 'Long Beach', 'State': 'CA', 'Shape': 'Light', 'Sight_day': 8, 'Sight_month': 10, 'Sight_time': '22:00:00', 'Sight_date': '2012-10-08', 'Sight_weekday': 'Segunda-feira'}
{'City': 'Madera', 'State': 'CA', 'Shape': 'Sphere', 'Sight_day': 8, 'Sight_month': 10, 'Sight_time': '21:00:00', 'Sight_date': '2012-10-08', 'Sight_weekday': 'Segunda-feira'}
{'City': 'Santa Barbara', 'State': 'CA', 'Shape': 'Oval', 'Sight_day': 8, 'Sight_month': 10, 'Sight_time': '21:00:00', 'Sight_date': '2012-10-08', 'Sight_weekday': 'Segunda-feira'}
{'City': 'Susanville', 'State': 'CA', 'Shape': 'Flash', 'Sight_day': 8, 'Sight_month': 10, 'Sight_time': '04:50:00', 'Sight_date': '2012-10-08', 'Sight_weekday': 'Segunda-feira'}
{'City': 'Vista', 'State': 'CA', 'Shap

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
{'City': 'Malibu', 'State': 'CA', 'Shape': 'Disk', 'Sight_day': 26, 'Sight_month': 10, 'Sight_time': '12:00:00', 'Sight_date': '2011-10-26', 'Sight_weekday': 'Quarta-feira'}
{'City': 'Vacaville', 'State': 'CA', 'Shape': 'Triangle', 'Sight_day': 25, 'Sight_month': 10, 'Sight_time': '22:20:00', 'Sight_date': '2011-10-25', 'Sight_weekday': 'Terça-feira'}
{'City': 'Roseville', 'State': 'CA', 'Shape': 'Light', 'Sight_day': 25, 'Sight_month': 10, 'Sight_time': '20:25:00', 'Sight_date': '2011-10-25', 'Sight_weekday': 'Terça-feira'}
{'City': 'San Francisco', 'State': 'CA', 'Shape': 'Other', 'Sight_day': 23, 'Sight_month': 10, 'Sight_time': '10:00:00', 'Sight_date': '2011-10-23', 'Sight_weekday': 'Domingo'}
{'City': 'Oakland', 'State': 'CA', 'Shape': 'Triangle', 'Sight_day': 22, 'Sight_month': 10, 'Sight_time': '19:30:00', 'Sight_date': '2011-10-22', 'Sight_weekday': 'Sábado'}
{'City': 'Ventura County', 'State': 'CA', 'Sha

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
{'City': 'La Mesa', 'State': 'CA', 'Shape': 'Formation', 'Sight_day': 24, 'Sight_month': 2, 'Sight_time': '01:20:00', 'Sight_date': '2009-02-24', 'Sight_weekday': 'Terça-feira'}
{'City': 'El Cajon', 'State': 'CA', 'Shape': 'Triangle', 'Sight_day': 24, 'Sight_month': 2, 'Sight_time': '01:15:00', 'Sight_date': '2009-02-24', 'Sight_weekday': 'Terça-feira'}
{'City': 'San Fernando', 'State': 'CA', 'Shape': 'Other', 'Sight_day': 24, 'Sight_month': 2, 'Sight_time': '00:00:00', 'Sight_date': '2009-02-24', 'Sight_weekday': 'Terça-feira'}
{'City': 'San Bernardino', 'State': 'CA', 'Shape': 'Triangle', 'Sight_day': 23, 'Sight_month': 2, 'Sight_time': '05:10:00', 'Sight_date': '2009-02-23', 'Sight_weekday': 'Segunda-feira'}
{'City': 'San Diego', 'State': 'CA', 'Shape': 'Triangle', 'Sight_day': 23, 'Sight_month': 2, 'Sight_time': '01:10:00', 'Sight_date': '2009-02-23', 'Sight_weekday': 'Segunda-feira'}
{'City': 'Redondo Beach',

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)

