# Comandos

In [1]:
!pip install pymongo[srv]



# Funções
- **connectDB()**
    - Argumentos:
        - **url_connection**: String de conexão para um banco "mongodb".
    - Retorno:
        - **pymongo.mongo_client.MongoClient**.
 
- **getDatabase()**
    - Argumentos:
        - **client**: MongoClient.
        - **database_name**: String com o nome da banco de dados.
    - Retorno:
        - **Database** (Já configurado para a banco de dados "database_name").
    
- **getCollection()**
    - Argumentos:
        - **database**: MongoClient já configurado para uma banco de dados.
        - **collection_name**: String com o nome da coleção.
    - Retorno:
        - **pymongo.collection.Collection** (Já configurado para a coleção "collection_name" no banco de dados "database").

- **getJson()**
    - Argumentos:
        - **url**: String com URL para um arquivo json.
    - Retorno:
        - **List** | **Dict**: Objeto python (Lista ou Dicionário) que melhor represente o json.
    

In [2]:
def connectDB(url_connection):
    from pymongo import MongoClient
    client = MongoClient(url_connection)

    return client

def getDatabase(client, database_name='myFirstDatabase'):
    return client[database_name]

def getCollection(database, collection_name='dataset-0'):
    return database[collection_name]


In [3]:
def getJson(url):
    import requests

    response = requests.get(url)
    my_json = response.json()
    
    return my_json

# Parâmetros
- **url_connection**: String de conexão para um banco "mongodb".
- **url_jsons**: Lista com das URLs dos jsons disponibilizados no github do teste.
- **url_json**: URL do json que será submetido ao teste.

In [4]:
url_connection = "mongodb://localhost:27017/mydb"
url_jsons = [
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-0.json",
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-1.json",
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-2.json",
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-3.json",
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-4.json",
             "https://s3.amazonaws.com/intelivix-datasets/testes_praticos/dataset-5.json"
]
url_json = url_jsons[0]

# Instâncias

Instanciando o **MongoClient -> Database -> Collection** nas três primeiras células abaixo.

O **json_list** da quarta célula recebe o objeto python que representa o json a partir da url, **url_json**. Uma lista de dicionários para este caso.

In [5]:
client = connectDB(url_connection)
client

MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True)

In [6]:
database = getDatabase(client=client)
database

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'myFirstDatabase')

In [7]:
collection = getCollection(database=database)
collection

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'myFirstDatabase'), 'dataset-0')

In [8]:
json_list = getJson(url_json)
len(json_list)

1000

# 1\. Carregar uma das bases de dados listadas acima em um banco de dados MongoDB.

- A primeira célula **apaga** todos os dados na coleção, **collection**, e depois faz um contagem do total de documentos na coleção para confirmar a exclusão.

- A segunda célula modifica o "id" dos processos para "_id", conforme o padrão do MongoDB.
- A terceira célula insere os dados do **json_list** na coleção, **collection**.

In [9]:
collection.drop()
collection.count_documents({})

0

In [10]:
for my_dict in json_list:
    my_dict['_id'] = my_dict.pop('id')

In [11]:
try:
    result = collection.insert_many(json_list)
    type(result)
except NameError:
    print("Error: ", NameError)

# 2\. Responder as seguintes consultas:

1. Contagem total dos processos.
1. Contagem total dos andamentos.
1. Contagem de processos por estado.
1. Contagem de juízes que começam com 'S'.
1. Contagem de etiquetas mais comuns.

## 1 Contagem total dos processos.

Contando todos com documentos (processos) na coleção com **count_documents()**.

In [12]:
total_documents = collection.count_documents({})
print("Total de processos:", total_documents)

Total de processos: 1000


## 2 Contagem total dos andamentos.

- A primeira célula conta os documentos fazendo uma busca por todos com **find({},{'andamentos':1})**, que retorna uma coleção com os andamentos de cada processo. O total de andamentos de cada processo é armazenado na variável **count_andamentos** por meio de um laço.

- A segunda célula faz uma agregação dos andamentos com **aggregate()**, que, neste caso, vai retornar uma coleção com o total de andamentos de cada processo. Esses valores são somados na variável **count_andamentos** em um laço.

As duas células exibem o mesmo resultado.

In [13]:
count_andamentos = 0
for document in collection.find({},{'andamentos':1}):
    count_andamentos += len(document['andamentos'])

print("total dos andamentos:", count_andamentos)

total dos andamentos: 42285


In [14]:
count_andamentos = 0
pipeline = [{
    "$project":{
        "length_array":{
            "$size":"$andamentos"
            }
        }
    }]

agg_cursor = collection.aggregate(pipeline)

for line in agg_cursor:
    count_andamentos += line['length_array']

print("total dos andamentos:", count_andamentos)

total dos andamentos: 42285


## 3 Contagem de processos por estado.

Para essa contagem foi usada uma agregação, **aggregate()**, pela soma de ocorrências do atributo "estado".

In [15]:
pipeline = [
    { "$group": {'_id': '$estado', "total": {'$sum':1} } },
    { "$sort": {'_id': 1} }
]

cursor = collection.aggregate(pipeline)

for line in cursor:
    print('Estado: {}, Total: ({})'.format(line['_id'], line['total']))

Estado: AC, Total: (41)
Estado: AL, Total: (28)
Estado: AM, Total: (26)
Estado: AP, Total: (48)
Estado: BA, Total: (37)
Estado: CE, Total: (48)
Estado: DF, Total: (36)
Estado: ES, Total: (44)
Estado: GO, Total: (40)
Estado: MA, Total: (37)
Estado: MG, Total: (34)
Estado: MS, Total: (40)
Estado: MT, Total: (24)
Estado: PA, Total: (29)
Estado: PB, Total: (29)
Estado: PE, Total: (40)
Estado: PI, Total: (30)
Estado: PR, Total: (40)
Estado: RJ, Total: (31)
Estado: RN, Total: (49)
Estado: RO, Total: (42)
Estado: RR, Total: (44)
Estado: RS, Total: (37)
Estado: SC, Total: (36)
Estado: SE, Total: (33)
Estado: SP, Total: (29)
Estado: TO, Total: (48)


## 4 Contagem de juízes que começam com 'S'.

A contagem dos juízes foi feita usando um **regex** como parâmetro na função **count_documents** para filtrar somente os nomes dos juízes que iniciam com a letra 'S' (somente maiúsculo).

In [16]:
total_judge_start_s = collection.count_documents( {'juiz':{"$regex": "^S"}} )
print("Juízes que começam com a letra 'S':", total_judge_start_s)

Juízes que começam com a letra 'S': 67


## 5 Contagem de etiquetas mais comuns.

Para a contagem do total de ocorrências de cada etiqueta foi usada uma agregação, **aggregate()**, somando a ocorrência de cada etiqueta. Como as etiquetas são listas, assim como os andamentos, e elas são atributos de andamento foi necessário o argumento **"$unwind"**, em cada, para realizar a contagem corretamente.

In [17]:
pipeline = [
    { "$unwind": "$andamentos" },
    { "$unwind": "$andamentos.etiquetas" },
    { "$group": {"_id": "$andamentos.etiquetas", "total": {"$sum": 1} } },
    { "$sort": {'total': -1} }
]

cursor = collection.aggregate(pipeline)

for line in cursor:
    print('Etiqueta: {}, Total: ({})'.format(line['_id'], line['total']))
    # print("Etiqueta:", line['_id'], "- Total:", line["total"])

Etiqueta: Brown, Total: (9924)
Etiqueta: Yellow, Total: (9922)
Etiqueta: Pink, Total: (9919)
Etiqueta: Green, Total: (9908)
Etiqueta: Black, Total: (9845)
Etiqueta: Red, Total: (9831)
Etiqueta: Magenta, Total: (9776)
Etiqueta: Blue, Total: (9772)
Etiqueta: Beige, Total: (9767)
Etiqueta: Orange, Total: (9759)
Etiqueta: White, Total: (9729)
Etiqueta: Purple, Total: (9711)
Etiqueta: Cyan, Total: (9613)


# SQLAlchemy

In [18]:
!pip install psycopg2



In [19]:
from sqlalchemy import Column, Integer, String, Date, ForeignKey, Boolean
from sqlalchemy import create_engine, Table
from sqlalchemy import and_, or_
from sqlalchemy import asc, desc
from sqlalchemy import extract
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker, relationship
from sqlalchemy.sql.expression import func

import re
import csv

A função **recreate_database** apaga e recria todas as tabelas incluidas no sqlalchemy.orm.decl_api.Base. Relevante para quando o código for re-executado.

In [20]:
def recreate_database():
    Base.metadata.drop_all(engine) # Para destruir esta tabela (e todas as tabelas) no banco de dados
    Base.metadata.create_all(engine) # Cria a tabela

- **DATABASE_URI**: URL de conexão com o banco Postgre.
- **engine**: Objeto do tipo **Engine** usando para criar o objeto do tipo **sessionmaker**
- **Session**: Objeto do tipo **sessionmaker** usando para criar sessões com o Postgre.

In [21]:
DATABASE_URI = 'postgresql+psycopg2://postgres:senha123@localhost:5432/teste_pratico_engenharia'
engine = create_engine(DATABASE_URI)
Session = sessionmaker(bind=engine)

**session_scope()** gerencia a criação, o envio e o fechamento usando a biblioteca **contextlib**. Caso ocorra algum erro, ele também faz o **rollback** (defaz) das alterações executadas dentro de seu escopo.

In [22]:
from contextlib import contextmanager

@contextmanager
def session_scope():
    from time import time
    start = time()
    session = Session()
    try:
        yield session
        session.commit()
    except Exception:
        session.rollback()
        raise
    finally:
        session.close()
        end = time()
        print('\nTempo total da operação: {0:.2f} segundos'.format(end - start))

## Models

- A primeira célula instancia um objeto do tipo **Base** que vai gerenciar as tabelas com base nas classes que o herdam.

- A segunda célula define as classes **Processo** e **Andamento** que representam as tabelas "processos" e "andamentos", respectivamente.

- A terceira célula chama a função **recreate_database** para recriar as tabelas do banco de dados.

*As novas colunas "total_andamento_tratado" e "texto_contem_cinema" já foram incluídas nas tabelas para não precisar usar biblioteca Alembic, com o intuito de facilitar o uso do notebook*

In [23]:
Base = declarative_base()

In [24]:
class Processo(Base):
    __tablename__ = 'processos'
    _id = Column(String, primary_key=True)
    npu = Column(String)
    estado = Column(String)
    spider = Column(String)
    juiz = Column(String)
    data_distribuicao = Column(Date)
    data_captura = Column(Date)
    andamentos = relationship('Andamento', back_populates='processo')
    total_andamento_tratado = Column(Integer, default=0)
    
    def __repr__(self):
        return "<Processo(id={}, npu={}, estado={}, spider={}, juiz={}, data_distribuicao={}, data_captura={}, total_andamento_tratado={})>"\
                .format(self._id, self.npu, self.estado, self.spider, self.juiz, self.data_distribuicao, self.data_captura, self.total_andamento_tratado)

class Andamento(Base):
    __tablename__ = 'andamentos'
    _id = Column(Integer, primary_key=True)
    texto = Column(String)
    data = Column(Date)
    etiquetas = Column(String)
    processo_id = Column(String, ForeignKey('processos._id'))
    processo = relationship("Processo", back_populates="andamentos")
    texto_contem_cinema = Column(Boolean, default=False)
    
    def __repr__(self):
        return "<Andamento(id={}, data={}, etiquetas={}, processo_id={}, texto_contem_cinema={}, texto={})>"\
                .format(self._id, self.data, self.etiquetas, self.processo_id, self.texto_contem_cinema, self.texto)

In [25]:
recreate_database()

## 3\. Lendo os dados a partir do MongoDB transformando-os e carregar o resultado em uma tabela do PostgreSQL.

- Gerar 2 modelos (Processo e Andamento) usando SQLAlchemy. Inferir os campos através do esquema apresentado acima. O candidato tem liberdade para criar novos campos para lhe ajudar nas tarefas.
    
```
{
    "id": "263c9996-5f74-6412-e01f-cbecdca71c5e",
    "npu": "1517345-36.2016.8.01.0560",
    "estado": "PB",
    "spider": "projudi-rn",
    "juiz": "Saulo Braga Santana Falcão",
    "data_distribuicao": "1990-09-06T14:08:01Z",
    "data_captura": "2017-12-27T17:04:29Z",
    "andamentos": [
        {
            "texto": "denmark quest strip upgrade rocky ... opportunity",
            "data": "1993-12-02T15:40:49Z",
            "etiquetas": [
                "Yellow",
                "Pink",
                "Magenta"
            ]
        },
    ]
}
```

Usando o **session_scope()** para abrir uma "sessão", é feito um laço baseado na consulta de todos os documentos no **MongoDB** para instanciar um objeto "processo" e todos os objetos "andamentos" que pertencem ao "processo" a cada iteração do laço. Após isso, o "processo" é adicionado a "sessão" que insere os dados nas tabelas do **Postgre** quando o laço for concluído.

*Todas as interações com o banco de dados Postgre serão feitas usando o **session_scope()**, então esse passo será omitido*.

In [26]:
with session_scope() as session:
    for line in collection.find({}):
        andamentos = line.pop('andamentos')
        processo = Processo(**line)

        for andamento in andamentos:
            andamento['processo_id'] = line['_id']
            andamento['etiquetas'] = ', '.join(andamento['etiquetas'])
            andamento = Andamento(**andamento)

            processo.andamentos.append(andamento)

        session.add(processo)


Tempo total da operação: 21.08 segundos


## Realizar as transformações abaixo:
1. Deixar somente o primeiro e último nome dos Juízes.
1. Remover todos os andamentos cuja data for anterior a data de distribuição.
1. Modificar os npus que não possuam um ano entre 1980 e 2018 para o ano 2000. (Ex: 1517345-36.6416.8.01.0560 vira 1517345-36.2000.8.01.0560)
1. Remover todas as palavras que comecem com a letra 'r' dos textos dos andamentos.
1. Adicionar um campo inteiro no modelo de Processo com a quantidade de andamentos (somente os válidos que já foram transformados).
1. Adicionar um campo booleano no modelo de Andamento que verifique se a palavra cinema esta no texto.

### 1\. Deixar somente o primeiro e último nome dos Juízes.

É feito um laço em uma consulta na tabela processos que faz alguns tratamentos no campo "juiz" dentro do objeto "processo".
1. Remove todos os espaços em excesso (espaços duplos, triplos...) e espaços no início e final do campo.
1. Transforma a **String** em uma lista, onde cada elemento da lista é um nome do juiz.
1. Cria uma nova **String** usando o primeiro e último elemento da lista (primeiro e último nome).
1. Insere a nova **String** no objeto processo

In [27]:
with session_scope() as session:
    for processo in session.query(Processo).all():
        juiz = re.sub(' +', ' ', processo.juiz).strip()
        juiz = juiz.split()
        juiz = f'{juiz[0]} {juiz[-1]}'
        processo.juiz = juiz


Tempo total da operação: 0.13 segundos


### 2\. Remover todos os andamentos cuja data for anterior a data de distribuição.

Uma "query" é feita usando o atributo **.\_\_table\_\_.** da classe **Andamento** para chamar seus métodos **delete** e **where**.
Como argumento do **where** é passado a função **and_** do SQLAlchemy com as seguinte comparações:
- **Andamento.processo_id == Processo._id**
- **Andamento.data < Processo.data_distribuicao**

Após isso, a "query" é executada por meio do método **execute** do objeto "session" que retorna um objeto do tipo **cursor** que contém o resultado da consulta. Por fim, o total de linhas afetadas (excluídas) é impressa.

*O código comentado da segunda célula é uma outra maneira de fazer a remoção com o método **delete** do objeto "session"*.

In [28]:
with session_scope() as session:
    delete_query = Andamento.__table__.delete().where(
        and_(
                Andamento.processo_id == Processo._id,
                Andamento.data < Processo.data_distribuicao
        )
    )
    cursor_result = session.execute(delete_query)
    
    print('Total de Andamentos excluídos:', cursor_result.rowcount)

Total de Andamentos excluídos: 21453

Tempo total da operação: 0.19 segundos


In [29]:
# with session_scope() as session:
#     andamentos = session.query(Andamento).filter(
#         and_(
#             Andamento.processo_id == Processo._id,
#             Andamento.data < Processo.data_distribuicao
#         )
#     ).all()
#     count = len(andamentos)
#     for andamento in andamentos:
#         session.delete(andamento)
#     print('Total de Andamentos excluídos:', count)

### 3\. Modificar os npus que não possuam um ano entre 1980 e 2018 para o ano 2000. (Ex: 1517345-36.6416.8.01.0560 vira 1517345-36.2000.8.01.0560)

Em um laço feito na tabela "processos" é feita as seguintes alterações no campo "NPU":
- A **String** NPU é convertida em uma lista, onde os "cortes" são feitos nos pontos ".".
- O segundo valor da lista, que equivale ao ano, é convertido em inteiro e armazenado na variável **npu_year**.
- Caso o **npu_year** seja menor que 1980 ou maior que 2018, segundo valor da lista será substituído pela **String** "2000".
- Por fim, a lista é transformada novamente em **String**, onde cada elemento dela é separado por ponto ".". Após isso, a **String** é atribuída ao objeto "processo" que irá atualizar a tabela "processos".

In [30]:
with session_scope() as session:
    count = 0
    for processo in session.query(Processo).all():
        npu = processo.npu
        npu = npu.split('.')
        npu_year = int(npu[1])

        if(npu_year < 1980 or npu_year > 2018):
            count += 1
            npu[1] = '2000'
            
        npu = '.'.join(npu)
        processo.npu = npu
        
    print('Total de NPUs alteradas:', count)

Total de NPUs alteradas: 995

Tempo total da operação: 0.36 segundos


### 4\. Remover todas as palavras que comecem com a letra 'r' dos textos dos andamentos.

### 5\. Adicionar um campo inteiro no modelo de Processo com a quantidade de andamentos (somente os válidos que já foram transformados).

Antes do laço na tabela "andamentos" uma expressão regular é definida para retirar todas as palavras iniciadas com "r" (minúsculo ou maiúsculo). Já no laço, caso o texto de um "andamento" contenha uma palavra iniciada com "r", ele será substituído pelo mesmo texto (sem as palavras iniciadas em "r") e o campo "total_andamento_tratado" do processo que possui o andamento em questão é incrementado em 1.

In [31]:
with session_scope() as session:
    regex = re.compile(r'(\s)[rR]\w+')
    for andamento in session.query(Andamento).all():
        if regex.search(andamento.texto):
            andamento.texto = regex.sub('', andamento.texto)
            processo = session.query(Processo).filter(Processo._id == andamento.processo_id).first()
            processo.total_andamento_tratado += 1


Tempo total da operação: 54.44 segundos


### 6\. Adicionar um campo booleano no modelo de Andamento que verifique se a palavra cinema esta no texto.

Em um laço pela tabela "andamentos" uma expressão regular verifica se há ao menos uma ocorrência da palavra cinema no campo "texto". Caso haja, o campo "texto_contem_cinema" do andamento em questão é atualizado para "True".

In [32]:
with session_scope() as session:
    for andamento in session.query(Andamento).all():
        if re.search(r'\bcinema\b', andamento.texto.lower()):
            andamento.texto_contem_cinema = True


Tempo total da operação: 2.34 segundos


## 4\. Responder as seguintes consultas pós-processamento:
1. Qual o total de processos? Qual o total de andamentos?
1. Qual processo possui mais andamentos?
1. Quais andamentos possuem mais caracteres? Quais são os seus processos?
1. Qual andamento mais antigo com o termo "cinema"?
1. Qual processo possui o maior número formado pelos seus 6 primeiros números do seu npu?
1. Qual mês/ano foram capturados mais processos para cada "spider"?

### 1\. Qual o total de processos? Qual o total de andamentos?

Foi feita duas contagem pelo total de elementos na tabela "processos" e "andamentos". Em seguida esses valores são "printados".

In [33]:
with session_scope() as session:
    total_processo = session.query(Processo).count()
    total_andamento = session.query(Andamento).count()

    print(f'Total de Processos: {total_processo}')
    print(f'Total de Andamentos: {total_andamento}')

Total de Processos: 1000
Total de Andamentos: 20832

Tempo total da operação: 0.04 segundos


### 2\. Qual processo possui mais andamentos?

Foi realizada uma contagem na tabela "andamentos" agrupado pelo campo "processo_id", que contém o "_id" do processo que o andamento pertence, e ordenado de forma decrescente. Após isso, o primeiro valor da contagem é impresso.

*A segunda célula faz a mesma contagem recebendo uma lista com todos os processos (objetos) e ordenando-os (decrescente) pelo número de andamentos que eles possuem. Após isso, o número de andamentos do primeiro processo da lista e seu "_id" são impressos*.

In [34]:
with session_scope() as session:
    count_andamentos_per_processo = session.query(
                                                func.count(Andamento.processo_id).label('total_processo_id'),
                                                Andamento.processo_id)\
                                    .group_by(Andamento.processo_id)\
                                    .order_by(desc('total_processo_id')).first()
    
    print(f'Processo._id: {count_andamentos_per_processo[1]}, Número de Andamentos: {count_andamentos_per_processo[0]}')

Processo._id: 3f6beb82-3d4f-c2b0-2d84-7e249cffea9c, Número de Andamentos: 76

Tempo total da operação: 0.02 segundos


In [35]:
with session_scope() as session:
    processos = session.query(Processo).all()
    processos.sort(key=lambda x:len(x.andamentos), reverse=True)
    processo = processos[0]
    print(f'Processo._id: {processo._id}, Número de Andamentos: {len(processo.andamentos)}')
    

Processo._id: 3f6beb82-3d4f-c2b0-2d84-7e249cffea9c, Número de Andamentos: 76

Tempo total da operação: 11.38 segundos


### 3\. Quais andamentos possuem mais caracteres? Quais são os seus processos?

Uma consulta é feita na tabela "andamentos" ordenando-os pelo número de caracteres do campo "texto". Após isso, é feito um laço para imprimir as informações dos 5 primeiros resultados.

In [36]:
with session_scope() as session:
    andamentos = session.query(Andamento).order_by(desc(func.char_length(Andamento.texto))).all()
    for index, andamento in enumerate(andamentos[:5]):
        print(f'Andamento._id:{andamento._id}, Tamanho do Texto: {len(andamento.texto)}, Processo._id:{andamento.processo_id}')
        

Andamento._id:18856, Tamanho do Texto: 2619, Processo._id:6f4284a6-d39a-378f-52b5-59020f4b2850
Andamento._id:3586, Tamanho do Texto: 2582, Processo._id:56acfa9e-bb11-c239-b6e4-ee9dd7d54c57
Andamento._id:19859, Tamanho do Texto: 2580, Processo._id:22f66a82-5f7b-f0ce-ea4c-72ccff99c3c7
Andamento._id:37802, Tamanho do Texto: 2578, Processo._id:e79dff29-ccd2-30ab-7e39-0a8640ad6f55
Andamento._id:30556, Tamanho do Texto: 2572, Processo._id:1dcc0995-e804-b95d-c15b-b7539c02ffd3

Tempo total da operação: 1.35 segundos


### 4\. Qual andamento mais antigo com o termo "cinema"?

Uma consulta foi realizada na tabela "andamentos" para buscar somente o primeiro resultado, "ordenado" pela data do andamento (crescente), mas somente dos andamentos com o campo "texto_contem_cinema" igual a "True". Após isso, o objeto "andamento", equivalente ao primeiro resultado da consulta, é impresso.

In [37]:
with session_scope() as session:
    andamento = session.query(Andamento).filter(Andamento.texto_contem_cinema == True).order_by(Andamento.data.asc()).first()
    print(andamento)


Tempo total da operação: 0.01 segundos


### 5\. Qual processo possui o maior número formado pelos seus 6 primeiros números do seu npu?

Uma consulta na tabela "processos" é feita para receber uma lista com todos os "processos" (objetos). Essa lista é ordenada com base nos 6 primeiros dígitos do campo "npu", definido pela função **order_by_npu**. Após a ordenação, o "_id" e o "npu" do primeiro processo da lista ordenada é impresso.

In [38]:
def order_by_npu(processo):
    npu = processo.npu
    npu = int(npu[:6])
    return npu

with session_scope() as session:
    processos = session.query(Processo).all()
    processos.sort(key=order_by_npu, reverse=True)
    processo = processos[0]
    print(f'Processo._id: {processo._id}, NPU: {processo.npu}')

Processo._id: f43c8aa0-0dae-3009-302b-f1be29ccb6df, NPU: 9982224-13.2000.5.84.0457

Tempo total da operação: 0.04 segundos


### 6\. Qual mês/ano foram capturados mais processos para cada "spider"?

Neste caso, foi feita uma contagem do campo "spider" na tabela "processos" agrupando pelo campo "data_captura" dividindo-o em ano e mês. Após obter o resultado, ele foi ordenado (crescente) pelo valor da contagem e pelo campo "spider". Com o resultado ordenado, foi usado o método **filterUniqueSpiders** para deixar somente o maior valor (primeira ocorrência na lista ordenada) para cada "spider". Por fim, os valores que permaneceram na lista são impressos.

In [39]:
def filterUniqueSpiders(my_list):
    found_list = list()
    new_list = list()
    for line in my_list:
        if(not line[1] in found_list):
            found_list.append(line[1])
            new_list.append(line)
    
    return new_list

with session_scope() as session:
    spiders = session.query(func.count(Processo.spider),\
                            Processo.spider,\
                            extract('year', Processo.data_captura),\
                            extract('month', Processo.data_captura))\
    .group_by(Processo.spider,\
              extract('year', Processo.data_captura),\
              extract('month', Processo.data_captura))\
    .all()
                    
    spiders.sort(key=lambda x:(x[0],x[1]), reverse=True)
    spiders = filterUniqueSpiders(spiders)
    for spider in spiders:
        print(f'Data: {int(spider[3])}/{int(spider[2])}, Spider: {spider[1]} ({spider[0]})')

Data: 8/2016, Spider: esaj-es (4)
Data: 10/2017, Spider: projudi-sp (3)
Data: 12/2016, Spider: projudi-se (3)
Data: 8/2017, Spider: projudi-pa (3)
Data: 1/2018, Spider: projudi-al (3)
Data: 10/2017, Spider: projudi-ac (3)
Data: 4/2018, Spider: pje-rr (3)
Data: 5/2016, Spider: pje-pr (3)
Data: 10/2016, Spider: pje-ma (3)
Data: 9/2018, Spider: pje-df (3)
Data: 3/2016, Spider: pje-am (3)
Data: 6/2016, Spider: esaj-sp (3)
Data: 7/2016, Spider: esaj-sc (3)
Data: 11/2016, Spider: esaj-ms (3)
Data: 1/2018, Spider: esaj-ba (3)
Data: 1/2017, Spider: projudi-to (2)
Data: 6/2018, Spider: projudi-sc (2)
Data: 11/2017, Spider: projudi-rs (2)
Data: 12/2018, Spider: projudi-rr (2)
Data: 9/2016, Spider: projudi-ro (2)
Data: 12/2017, Spider: projudi-rn (2)
Data: 4/2018, Spider: projudi-rj (2)
Data: 2/2016, Spider: projudi-pr (2)
Data: 7/2017, Spider: projudi-pi (2)
Data: 2/2018, Spider: projudi-pe (2)
Data: 4/2016, Spider: projudi-mt (2)
Data: 4/2018, Spider: projudi-ms (2)
Data: 8/2017, Spider: projud

## 4\. Ao final exportar as tabelas do banco de dados PostgreSQL para um arquivo chamado report.csv (delimitador de texto ' " ', separador ' | ').

Para transformar as tabelas em CSV foi usado a biblioteca CSV do python com o módulo **DictWriter** que recebe cada linha em forma de dicionário. O argumento **fieldnames** recebe uma lista com as chaves do dicionário que usaremos para escrever no CSV.

Para criar essa lista usei a função **getFieldNames** que transforma os nomes dos atributos de um objeto em uma lista com base no atributo **\_\_dict\_\_** do próprio objeto. O método também tira a chave "\_sa\_instance\_state", desnecessária para a operação. O método foi usado em uma instância das classes **Processo** e **Andamento**, gerando duas listas que foram unidas e usadas no argumento **fieldnames**.

Em seguida, um laço pela tabela "andamentos" transforma os objetos "andamento" em dicionários usando a função **sqaObjToDict**, da mesma maneira o objeto "processo" que o "andamento" pertence também é transformado em dicionário. Esses dois dicionários (andamento e processo) são unidos e escritos no CSV.

Cada linha do CSV representa um andamento e o seu respectivo processo.

In [40]:
def getFieldNames(my_sqa_obj):
    my_dict = dict(my_sqa_obj.__dict__)
    my_field_names = my_dict.keys()
    my_field_names = list(my_field_names)
    my_field_names.remove('_sa_instance_state')
    
    return my_field_names

def sqaObjToDict(my_sqa_obj):
    my_dict = dict(my_sqa_obj.__dict__)
    my_dict.pop('_sa_instance_state')
    
    return my_dict
    
with session_scope() as session:
    processo = session.query(Processo).first()
    andamento = session.query(Andamento).first()
    
    processo_keys_list = getFieldNames(processo)
    processo_keys_list.sort()
    andamento_keys_list = getFieldNames(andamento)
    andamento_keys_list.sort()
    
    andamento_keys_list.remove('processo_id')
    andamento_keys_list.remove('_id')
    
    processo_andamento_keys_list = processo_keys_list + andamento_keys_list
      
    file = open('report.csv', 'w', newline='')
    writer = csv.DictWriter(file, fieldnames=processo_andamento_keys_list, delimiter='|', quotechar='"', quoting=csv.QUOTE_NONNUMERIC)
    writer.writeheader()
    
    for andamento in session.query(Andamento).all():
        andamento_dict = sqaObjToDict(andamento)
        andamento_dict.pop('processo_id')
        andamento_dict.pop('_id')
        processo = session.query(Processo).filter(Processo._id == andamento.processo_id).first()
        
        processo_dict = sqaObjToDict(processo)
        processo_dict.update(andamento_dict)
        
        writer.writerow(processo_dict)
        
    file.close()


Tempo total da operação: 22.11 segundos


# Sobre a execução do teste

Antes de começar a escrever código, tanto da parte de MongoDB quanto de PostgreSQL, eu precisei ler a documentação introdutória e executar um tutorial básico, pois eu não tinha conhecimento de nenhuma das duas bibliotecas, PyMongo e SQLAlchemy. Também houveram dúvidas para executar alguns dos testes, o que exigiu uma pesquisa adicional sobre as ferramentas.

Também perdi algum tempo para preparar o ambiente. A princípio usei o Google Colab para fazer a parte do MongoDB, pois era só conectar a um banco gratuito no Mongo Atlas, ou qualquer outro, e começar a escrever o código.

Após terminar essa primeira parte, tentei usar o docker (também não tenho familiaridade com ele) no próprio Google Colab, pois a máquina dele e a internet são melhores que a minha — com isso eu conseguiria executar os códigos bem mais rápido com os json maiores. Depois de um tempo, eu descobri que o serviço não oferece suporte ao docker. Então eu usei o docker na minha máquina, mas tive problemas com a imagem do Postgre que não estava executando corretamente. Passei um tempo tentando fazer a imagem do Postgre funcionar, como não consegui, eu decidi baixar o SGBD deles.

O tempo que usei para realizar as atividades foi pela parte da noite, de terça a sexta. E hoje eu usei para escrever as notas no notebook e modificar duas células de código dele.
