### Trabalho 3 - MongoDB via Python
-----
O objetivo deste trabalho é exercitar a utilização de banco de dados noSQL. O dataset que será utilizado é o dataset de Comunicação de Acidentes do Trabalho, disponível no portal de dados aberto do Brasil: [http://dados.gov.br](http://dados.gov.br) e já disponibilizado para vocês na conta DUNCANBDA no ORACLE.

Cada aluno, em sua área Oracle, tem acesso a 2 recortes deste dataset, um com até 50.000 instâncias, aproximadamente, referentes a acidentes de trabalho do Brasil, e um segundo, com 13.000~13.400 instâncias, referentes a acidentes de trabalho de empresas da região SUL (Paraná, Santa Catarina e Rio Grande do Sul).
Importante: por limitações do serviço em nuvem do MongoDB utilizado ([mLab](https://mlab.com)), o dataset para o T3 é DIFERENTE do utilizado para o T2 (padrão de nome: `ACID_TRAB_2019_S_x`, onde `x` é o número do grupo.

Também será utilizado o dataset de Municípios com Populações (`municipiospopulacoes`), para capturar a população atual estimada pelo IBGE. Esta coleção JÁ ESTÁ DISPONÍVEL no MongoDB. Vocês NÃO precisam carregá-la.

Abaixo, você encontra o passo a passo que deve ser seguido para realização do trabalho.


## 1 - Exportar os dados do Oracle
Você deve exportar o resultados para `csv`. Ao exportar, definir delimitadores para não numéricos (`"`, por exemplo) e a codificação adequada (`cp1252` é adequada).


## 2 - Ler o dataset e inserir no MongoDB

Você deve ler o dataset exportado no passo anterior, transformar os dados em formato de documento e fazer upload para a sua coleção no MongoDB. O nome da coleção é `<sua matricula>_collection`. O seu usuário e senha do MongoDB é `<sua matricula>`. Lembrem que `<sua matricula>` é igual a que usam no ORACLE. 

Para conectar no MongoDB a partir do python, você pode utilizar o código abaixo:

```python
from pymongo import MongoClient
import pandas as pd
from IPython.display import display
user = '<sua matricula>' # coloque a <sua matricula> aqui!
pwd = '<sua matricula>' # coloque a sua senha!
client = MongoClient('mongodb://{}:{}@ds243441.mlab.com:43441/implem_sbd'.format(user, pwd))
db = client.implem_sbd

# exemplo de consulta a coleção
# lista 5 municípios

cursor = db.municipiospopulacoes.find()
df = pd.DataFrame(list(cursor))
display(df.head())

# exemplo de carga de dados

df = pd.read_csv('arquivoCSVexportadopeloGrupo.csv', encoding='cp1252')
json_data = df.to_dict(orient='records')
collection = <sua matricula>_collection  # coloque o número do seu grupo aqui!
result = collection.insert_many(json_data, ordered=False)
```

O espaço alocado no MongoDB (MLAB), para cada grupo, é suficiente para a carga do `csv`. 


## 2 - Responder as seguintes perguntas utilizando consultas ao MongoDB

Cada aluno deve responder as seguintes perguntas, utilizando apenas consultas ao banco de dados.

### Consultas utilizando `find()`:

1. Listar ESTADO, MUNICÍPIO e POPULAÇÃO, para municípios com mais de 25.000 habitantes.
2. Ordenados em ordem decrescente de POPULAÇÃO, listar MUNICÍPIO, ESTADO, e POPULAÇÃO.
3. Para acidentes de trabalho com óbito (INDICA_OBITO_ACIDENTE = Sim), listar UF_MUNIC_ACIDENTE, AGENTE_CAUSADOR_ACIDENTE, DATA_ACIDENTE e SEXO, ordenados por UF_MUNIC_ACIDENTE, SEXO, DATA_ACIDENTE e AGENTE_CAUSADOR_ACIDENTE.
4. Listar acidentes de trabalho cujo estado onde ocorreu o acidente (UF_MUNIC_ACIDENTE) é diferente do estado do empregador (UF_MUNIC_EMPREGADOR). Ordenar por NATUREZA_DA_LESAO e por DATA_ACIDENTE.

Descrição de `find()`, da API do MongoDB, em: 
 - [https://docs.mongodb.com/manual/reference/method/db.collection.find](https://docs.mongodb.com/manual/reference/method/db.collection.find)
 - [https://docs.mongodb.com/manual/reference/operator/query](https://docs.mongodb.com/manual/reference/operator/query)
 - [https://docs.mongodb.com/manual/reference/method/js-cursor](https://docs.mongodb.com/manual/reference/method/js-cursor)
 
### Consultas utilizando `aggregate()`:

1. Quais os estados com maior número de acidentes de trabalho, dos estados de fora da região sul?
2. Quais as Naturezas das lesões, e correspondentes números de acidentes de trabalho, para naturezas de lesões cujo número de acidentes de trabalho é > 50?
3. Quais os agentes causadores de acidentes, e correspondentes números de acidentes, por mês-ano e para acidentes com óbitos, onde o número de óbitos por agente causador é > 2?
4. Quais os 10 municípios com maior taxa de acidentes por 100 mil habitantes?

Descrição de aggregate, da API do MongoDB, em: 
 - [https://docs.mongodb.com/manual/reference/method/db.collection.aggregate](https://docs.mongodb.com/manual/reference/method/db.collection.aggregate)
 - [https://docs.mongodb.com/manual/reference/operator/aggregation-pipeline](https://docs.mongodb.com/manual/reference/operator/aggregation-pipeline)
 


## Entrega

Cada aluno deve entregar no moodle um **arquivo zip** com o seguinte nome: `Gx.zip`, onde **x** é o seu número. 

O arquivo `zip` deve conter os seguintes arquivos:
* Um relatório em `pdf` contendo os resultados obtidos nas consultas sobre o MongoDB via MLAB.
* Este jupyter notebook contendo o código desenvolvido pela dupla.
* O dataset em `csv` exportado do Oracle.


<h3 style='color:red'>IMPORTANTE: A data de entrega do trabalho é 20/11.</h3>


## Critérios de avaliação

- Arquivo `csv` exportado, com o conteúdo adequado: 10%
- carga dos dados no MongoDB: 10%
- Resolução das consultas propostas: 80% (10% para cada uma)



### O seu código deve ser escrito nas células abaixo. Crie novas células conforme a necesidade de abstração. Evite escrever o código inteiro em uma única célula.

In [5]:
import numpy as np
import pandas as pd
from pprint import pprint
from pymongo import MongoClient
from IPython.display import display

In [6]:
# Comece a escrever seu código aqui
user = 'bh104100' # coloque a <sua matricula> aqui!
pwd = 'bh104100' # coloque a sua senha!
client = MongoClient('mongodb://{}:{}@ds243441.mlab.com:43441/implem_sbd?connect=false'.format(user, pwd))
db = client.implem_sbd


In [15]:
df = pd.read_csv('data.csv', encoding='cp1252') # coloque aqui o nome do arquivo exportado
json_data = df.to_dict(orient='records')
collection = db.bh104100_collection  # coloque <sua matrícula> aqui
result = collection.insert_many(json_data, ordered=False)

In [11]:
cursor = db.municipiospopulacoes.find()
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,CODMUNICIPIO,COD_MUNIC,COD_UF,ESTADO,MUNICÍPIO,POPULAÇÃO,_id
0,4073,210407,21,MA,Feira Nova do Maranhão,8481,5ce71243225568651daecae7
1,4081,210408,21,MA,Fernando Falcão,10258,5ce71243225568651daecae8
2,4099,210409,21,MA,Formosa da Serra Negra,18917,5ce71243225568651daecae9
3,4107,210410,21,MA,Fortaleza dos Nogueiras,12615,5ce71243225568651daecaea
4,4206,210420,21,MA,Fortuna,15536,5ce71243225568651daecaeb
5,4305,210430,21,MA,Godofredo Viana,11672,5ce71243225568651daecaec
6,4404,210440,21,MA,Gonçalves Dias,17924,5ce71243225568651daecaed
7,4503,210450,21,MA,Governador Archer,10793,5ce71243225568651daecaee
8,4552,210455,21,MA,Governador Edison Lobão,18068,5ce71243225568651daecaef
9,4602,210460,21,MA,Governador Eugênio Barros,16772,5ce71243225568651daecaf0


In [22]:
cursor = db.municipiospopulacoes.find({'POPULAÇÃO': { '$gt' : 25000 } }, {'ESTADO':1, 'MUNICÍPIO':1, 'POPULAÇÃO':1, '_id':0})
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,ESTADO,MUNICÍPIO,POPULAÇÃO
0,MA,Governador Nunes Freire,25616
1,MA,Grajaú,68876
2,MA,Humberto de Campos,28498
3,MA,Icatu,26953
4,MA,Imperatriz,258016
5,MA,Itapecuru Mirim,67673
6,MA,Itinga do Maranhão,25932
7,MA,Lago da Pedra,49911
8,MA,Matões,33615
9,MA,Miranda do Norte,28001


In [38]:
cursor = db.municipiospopulacoes.find({ }, {'ESTADO':1, 'MUNICÍPIO':1, 'POPULAÇÃO':1, '_id':0}).sort('POPULAÇÃO', -1)
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,ESTADO,MUNICÍPIO,POPULAÇÃO
0,SP,São Paulo,12176866
1,RJ,Rio de Janeiro,6688927
2,DF,Brasília,2974703
3,BA,Salvador,2857329
4,CE,Fortaleza,2643247
5,MG,Belo Horizonte,2501576
6,AM,Manaus,2145444
7,PR,Curitiba,1917185
8,PE,Recife,1637834
9,GO,Goiânia,1495705


In [67]:
cursor = db.bh104100_collection.find({'INDICA_OBITO_ACIDENTE':'Sim'},
                    {'UF_MUNIC_ACIDENTE' : 1, 'AGENTE_CAUSADOR_ACIDENTE' : 1 , 'DATA_ACIDENTE':1, 'SEXO':1, '_id':0}).sort(
                    [("UF_MUNIC_ACIDENTE", 1), ("SEXO", 1),
                    ("DATA_ACIDENTE", 1), ("AGENTE_CAUSADOR_ACIDENTE", 1)])
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,AGENTE_CAUSADOR_ACIDENTE,DATA_ACIDENTE,SEXO,UF_MUNIC_ACIDENTE
0,Motor (Combustao Int,01-MAY-19,Feminino,
1,Gas e Vapor,02-APR-19,Feminino,
2,"Motocicleta, Motonet",01-MAY-19,Masculino,
3,Deposito Fixo (Tanqu,02-AUG-18,Masculino,
4,Arco Eletrico,04-APR-19,Masculino,
5,"Motocicleta, Motonet",05-JUN-19,Masculino,
6,"Asfalto, Alcatrao, P",05-SEP-18,Masculino,
7,Veiculo Rodoviario M,06-AUG-18,Masculino,
8,Veiculo Rodoviario M,09-APR-19,Masculino,
9,Produtos Alimenticio,09-NOV-18,Masculino,


In [36]:
cursor = db.bh104100_collection.find({'UF_MUNIC_ACIDENTE': {'$ne': float('NaN') }},
                    {'_id':0}).sort(
                    [("NATUREZA_DA_LESAO", 1), ("DATA_ACIDENTE", 1)])
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,AGENTE_CAUSADOR_ACIDENTE,CBO,CID_10,CNAE20_EMPREGADOR,DATA_ACIDENTE,DATA_EMISSAO_CAT,DATA_NASCIMENTO,EMITENTE_CAT,ESPECIE_DO_BENEFICIO,FILIACAO_SEGURADO,...,MES_ANO_AFASTAMENTO,MES_ANO_DESPACHO_BENEFICIO,MUNIC_EMPREGADOR,NATUREZA_DA_LESAO,ORIGEM_DE_CADASTRAMENTO_CAT,PARTE_CORPO_ATINGIDA,SEXO,TIPO_DO_ACIDENTE,UF_MUNIC_ACIDENTE,UF_MUNIC_EMPREGADOR
0,Veiculo Rodoviario M,,X599,4789.0,01-MAR-19,01-MAR-19,31-AUG-79,Empregador,Pa,Empregado,...,01-MAR-19,,421010,,Internet,"Cabeca, Partes Multi",Masculino,Trajeto,Roraima,Santa Catarina
1,"Furadeira, Broqueade",821405.0,S626,2941.0,02-APR-19,04-APR-19,19-APR-70,Empregador,Pa,Empregado,...,01-APR-19,,410980,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
2,"Ferramenta, Maquina,",828110.0,S682,2342.0,02-SEP-18,03-SEP-18,01-MAY-74,Empregador,Pa,Empregado,...,01-SEP-18,,412660,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
3,"Politriz, Lixadora,",715315.0,S683,2330.0,03-AUG-18,05-SEP-18,27-AUG-66,Empregador,Pa,Empregado,...,01-AUG-18,,410230,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
4,"Maquina, Nic",782220.0,S681,4930.0,03-AUG-18,10-AUG-18,01-DEC-87,Empregador,Pa,Empregado,...,01-AUG-18,,410690,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
5,Trator,641015.0,S681,,03-MAY-19,10-MAY-19,28-APR-87,Empregador,Pa,Empregado,...,01-MAY-19,,411840,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
6,"Furadeira, Broqueade",784205.0,S681,1621.0,05-APR-19,09-APR-19,06-JAN-88,Empregador,Pa,Empregado,...,01-APR-19,,410440,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
7,"Maquina, Nic",841505.0,S681,1052.0,05-FEB-19,06-FEB-19,10-JAN-90,Empregador,Pa,Empregado,...,01-FEB-19,,412785,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
8,Metal - Inclui Liga,521125.0,S681,4711.0,05-JAN-19,09-JAN-19,28-OCT-97,Empregador,Pa,Empregado,...,01-JAN-19,,410640,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná
9,Transportador com Fo,862150.0,S682,1063.0,06-FEB-19,08-FEB-19,20-NOV-74,Empregador,Pa,Empregado,...,01-FEB-19,,410050,Amputacao ou Enuclea,Internet,Dedo,Masculino,Típico,Roraima,Paraná


In [21]:
pipeline = [{'$match' : {'UF_MUNIC_ACIDENTE' : { '$ne' : 'Rio Grande do Sul',
                                               '$ne' : 'Santa Cantarina',
                                               '$ne' : 'Paraná',
                                               '$ne' : float('NaN')
                                               }}},
            {'$sortByCount': '$UF_MUNIC_ACIDENTE'},
            {'$project' : {'ESTADO':'$_id', 'count' : 1, '_id':0 }}
            ]
cursor = db.bh104100_collection.aggregate(pipeline)
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,ESTADO,count
0,Roraima,4497
1,Maranhão,92
2,Rondônia,25
3,Tocantins,12
4,Pará,5
5,Acre,4
6,Ceará,3
7,Sergipe,3
8,Pernambuco,3
9,Amapá,2


In [42]:
pipeline = [{'$group' : {'_id' :'$NATUREZA_DA_LESAO', 'total': {'$sum': 1}}},
            {'$match' : {'total': {'$gt': 50}}},
            {'$project' : {'Natureza Lesao':'$_id', 'total' : 1, '_id':0 }},
            {'$sort': {'total':-1}}
            ]
cursor = db.bh104100_collection.aggregate(pipeline)
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,Natureza Lesao,total
0,"Corte, Laceracao, Fe",2912
1,Fratura,2228
2,"Contusao, Esmagament",2183
3,"Distensao, Torcao",1099
4,"Lesao Imediata, Nic",1074
5,"Escoriacao, Abrasao",1038
6,Luxacao,511
7,Queimadura ou Escald,337
8,Lesao Imediata,320
9,Lesoes Multiplas,286


In [74]:
pipeline = [
            {'$match' : {'INDICA_OBITO_ACIDENTE': 'Sim'}},
            {'$group' : {'_id': {'Agente':'$AGENTE_CAUSADOR_ACIDENTE', 'mes_ano':'$MES_ANO_ACIDENTE'},'total': {'$sum': 1}}},
            {'$project' : {'Agente':'$_id.Agente', 'Mes Ano':'$_id.mes_ano', 'total' : 1, 'INDICA_OBITO_ACIDENTE' : 1 ,'_id':0 }},
            {'$match' : {'total': {'$gte':2}}}
            ]
cursor = db.bh104100_collection.aggregate(pipeline)
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,Agente,Mes Ano,total
0,"Motocicleta, Motonet",01-SEP-18,2
1,Veiculo Rodoviario M,01-NOV-18,2


In [86]:
# Quais os 10 municípios com maior taxa de acidentes por 100 mil habitantes?
pipeline = [
            {'$lookup':{'from': 'municipiospopulacoes',
                       'localField': "MUNIC_EMPREGADOR",  
                       'foreignField': "COD_MUNIC",
                       'as': "munic" } },
            {'$unwind': '$munic'},
            {'$group' : {'_id': '$MUNICÍPIO','total': {'$sum': 1}}},
            ]
cursor = db.bh104100_collection.aggregate(pipeline)
df1 = pd.DataFrame(list(cursor))
numero = df1.size
display(df1.head(numero))

Unnamed: 0,_id,total
0,,13014
