# Intelivix Teste Prático

Este notebook contem as etapas realizadas para o Teste Prático de Engenharia, que é destinado aos candidatos a desenvolvedor no time de "Engenharia de Dados" da Intelivix.

## Etapa 1

Carregamento da base de dados no MongoDB

In [1]:
import os
import json
from urllib import request

# Função responsável por carregar o dataset
def load_dataset(dataset):
    datasets = ['dataset-0', 'dataset-1', 'dataset-2',
                'dataset-3', 'dataset-4', 'dataset-5']
    
    if dataset not in datasets:
        raise Exception("Dataset não encontrado.")
    
    try:
        with open('./datasets/'+ dataset +'.json', 'r') as f:
            return json.load(f)

    except IOError:
        if not os.path.exists('./datasets'):
            os.mkdir('datasets')
        
        print("Baixando o %s..." % dataset)
        
        request.urlretrieve('https://s3.amazonaws.com/intelivix-datasets/testes_praticos/'+ dataset +'.json',
                            './datasets/'+ dataset +'.json')
        
        return load_dataset(dataset)

In [2]:
from pymongo import MongoClient

client = MongoClient('localhost', 27017)

In [3]:
db = client.intelivix_teste_pratico

In [4]:
dataset = load_dataset('dataset-2')

In [5]:
db.processos.insert_many(dataset)

<pymongo.results.InsertManyResult at 0x7f49595af108>

## Etapa 2

Respostas das consultas no MongoDB

#### Quantidade total de processos:

In [6]:
db.processos.count_documents(filter={})

5000

#### Quantidade total de andamentos:

In [7]:
sum([len(processo['andamentos']) for processo in db.processos.find()])

215633

#### Quantidade de processos por estado:

In [8]:
qntd_processos_estados = db.processos.aggregate([{'$group': {'_id': '$estado', 'qntd': {'$sum': 1}}}])

for estado in qntd_processos_estados:
    print("%s: %s" % (estado['_id'], estado['qntd']))

RJ: 186
AL: 181
AP: 182
MG: 193
SE: 169
AM: 168
RS: 162
BA: 202
PR: 169
SC: 175
ES: 207
PI: 183
RO: 192
MA: 203
SP: 189
CE: 186
PA: 178
RN: 198
PE: 188
AC: 172
PB: 208
DF: 196
RR: 187
TO: 194
MS: 166
MT: 182
GO: 184


#### Quantidade de juízes cujo nome começa com 'S':

In [9]:
import re

db.processos.count_documents(filter={'juiz': {'$regex': re.compile(r'^S')}})

354

#### Quantidade de ocorrências de cada etiqueta (da mais popular para a menos popular):

In [10]:
qntd_etiquetas = {}

for processo in db.processos.find():
    for andamento in processo['andamentos']:
        for etiqueta in set(andamento['etiquetas']):
            if etiqueta in qntd_etiquetas.keys():
                qntd_etiquetas[etiqueta] += 1
                
            else:
                qntd_etiquetas[etiqueta] = 1

qntd_etiquetas = sorted(qntd_etiquetas.items(), key=lambda etiqueta: etiqueta[1], reverse=True)

for etiqueta, qntd in qntd_etiquetas:
    print("%s: %s" % (etiqueta, qntd))

White: 45238
Yellow: 45094
Orange: 45083
Blue: 45079
Pink: 45069
Cyan: 45048
Red: 44981
Brown: 44978
Green: 44967
Purple: 44897
Magenta: 44891
Beige: 44860
Black: 44752


## Etapa 3

Configuração da conexão do SQLAlchemy com o Postgres:

In [11]:
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

engine = create_engine('postgres://postgres:postgres@localhost:5432/intelivix_teste_pratico')

Session = sessionmaker()
Session.configure(bind=engine)

session = Session()

#### Criação dos modelos Processo e Andamento com o SQLAlchemy:

In [12]:
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import relationship
from sqlalchemy import Column, Integer, String, DateTime, Sequence, ForeignKey

Base = declarative_base()


class Processo(Base):
    __tablename__ = 'processos'
    
    id = Column(String, primary_key=True)
    npu = Column(String, nullable=True)
    estado = Column(String, nullable=True)
    spider = Column(String, nullable=True)
    juiz = Column(String, nullable=True)
    data_distribuicao = Column(DateTime, nullable=True)
    data_captura = Column(DateTime, nullable=True)
    
    def __repr__(self):        
        return "<Processo(id='%s', npu='%s', estado='%s', spider='%s', juiz='%s', " \
               "data_distribuicao='%s', data_captura='%s')>" % (
                self.id, self.npu, self.estado, self.spider, self.juiz,
                self.data_distribuicao.isoformat(), self.data_captura.isoformat())


class Andamento(Base):
    __tablename__ = 'andamentos'
    
    id = Column(Integer, Sequence('andamento_id_seq'), primary_key=True)
    processo_id = Column(String, ForeignKey(Processo.id))
    texto = Column(String, nullable=True)
    data = Column(DateTime, nullable=True)
    etiquetas = Column(String, nullable=True)
    processo = relationship(Processo)
    
    def __repr__(self):
        return "<Andamento(id='%s', processo_id='%s', texto='%s', data='%s', etiquetas='%s')>" % (
                self.id, self.processo_id, self.texto, self.data.isoformat(), self.etiquetas)


Base.metadata.create_all(engine)

Helpers para a inserção dos processos e andamentos no banco de dados:

In [13]:
from datetime import datetime

# Função responsável por converter uma string em DateTime
def to_datetime(datetime_str):
    return datetime.strptime(datetime_str, '%Y-%m-%dT%H:%M:%SZ')

# Função reponsável por transformar uma lista de etiquetas em uma string com as etiquetas separadas por vírgulas
def format_etiquetas(etiquetas):
    return ','.join(etiquetas)

#### Inserção dos processos e andamentos no Postgres:

In [14]:
for processo in db.processos.find():
    session.add(
        Processo(
            id=processo['id'],
            npu=processo['npu'],
            estado=processo['estado'],
            spider=processo['spider'],
            juiz=processo['juiz'],
            data_distribuicao=to_datetime(processo['data_distribuicao']),
            data_captura=to_datetime(processo['data_captura'])
        )
    )
    
    session.commit()
    
    for andamento in processo['andamentos']:
        session.add(
            Andamento(
                processo_id=processo['id'],
                texto=andamento['texto'],
                data=to_datetime(andamento['data']),
                etiquetas=format_etiquetas(andamento['etiquetas'])
            )
        )
        
    session.commit()

### Transformações

Helpers para as transformações:

In [15]:
# Função reponsável pela contagem dos nomes dos juízes
def count_names(full_name):
    name_splited = full_name.split(' ')
    
    return len(name_splited)

# Função responsável por retornar apenas o primeiro e o último nome do juiz
def first_and_last_name(full_name):
    name_splited = full_name.split(' ')
    
    return "%s %s" % (name_splited[0], name_splited[-1])

# Função responsável por verificar se um determinado NPU é inválido
def is_invalid_npu(npu):
    ano = int(npu.split('.')[1])
    
    if ano < 1980 or ano > 2018:
        return True
    
    return False

# Função responsável por tornar um NPU válido
def transform_npu(npu):
    npu_splited = npu.split('.')
    npu_head = npu_splited[0]
    npu_tail = '.'.join(npu_splited[2:])
    
    return "%s.2000.%s" % (npu_head, npu_tail)

# Função responsável por contar quantas palavras começam com um determinado caractere
def count_words_with_ch(text, ch, case_sensitive=False):
    if case_sensitive:
        return sum(word.startswith(ch) for word in text.split())
    
    return sum(word.startswith(ch.lower()) for word in text.lower().split())

# Função responsável por remover as palavras que começam com um determinado caractere
def remove_words_with_ch(text, ch, case_sensitive=False):
    if case_sensitive:
        return ' '.join(word for word in text.split() if not word.startswith(ch))
    
    return ' '.join(word for word in text.lower().split() if not word.startswith(ch.lower()))

# Função responsável por verificar se uma determinada palavra está contida em um texto
def word_in_text(word, text, case_sensitive=False):
    if case_sensitive:
        return word in text
    
    return word.lower() in text.lower()

#### Alteração no nome dos juízes para deixar apenas o primeiro e último nome:

In [16]:
for processo in session.query(Processo).all():
    if count_names(processo.juiz) > 2:
        processo.juiz = first_and_last_name(processo.juiz) 

session.commit()

#### Remoção dos andamentos cuja data é anterior a data de distribuição:

In [17]:
session.query(Andamento).filter(Andamento.processo_id == Processo.id,
                                Andamento.data < Processo.data_distribuicao
                               ).delete(synchronize_session=False)
session.commit()

#### Modifição dos npus que não possuem um ano entre 1980 e 2018:

In [18]:
for processo in session.query(Processo).all():
    if is_invalid_npu(processo.npu):
        processo.npu = transform_npu(processo.npu)

session.commit()

#### Remoção das palavras que começam com a letra 'r' nos textos dos andamentos:

In [19]:
for andamento in session.query(Andamento).all():
    if count_words_with_ch(andamento.texto, 's') > 0:
        andamento.texto = remove_words_with_ch(andamento.texto, 's')

session.commit()

#### Criação da coluna 'qntd_andamentos' na tabela 'processos' e 'cinema_no_texto' na tabela 'andamentos' e inserção dos seus respectivos valores:

Migração feita pelo Alembic para criar a coluna 'qntd_andamentos' na tabela 'processos' e 'cinema_no_texto' na tabela 'andamentos':

In [20]:
!alembic upgrade head

INFO  [alembic.runtime.migration] Context impl PostgresqlImpl.
INFO  [alembic.runtime.migration] Will assume transactional DDL.
INFO  [alembic.runtime.migration] Running upgrade  -> 391fcb150ba2, add qntd_andamentos
INFO  [alembic.runtime.migration] Running upgrade 391fcb150ba2 -> 75633146d7e9, add cinema_no_texto


Atualização dos modelos após a migração feita pelo Alembic:

In [21]:
from sqlalchemy import Boolean

Base = declarative_base()


class Processo(Base):
    __tablename__ = 'processos'
    
    id = Column(String, primary_key=True)
    npu = Column(String, nullable=True)
    estado = Column(String, nullable=True)
    spider = Column(String, nullable=True)
    juiz = Column(String, nullable=True)
    data_distribuicao = Column(DateTime, nullable=True)
    data_captura = Column(DateTime, nullable=True)
    qntd_andamentos = Column(Integer, nullable=True)
    
    def __repr__(self):        
        return "<Processo(id='%s', npu='%s', estado='%s', spider='%s', juiz='%s', " \
               "data_distribuicao='%s', data_captura='%s', qntd_andamentos='%s')>" % (
                self.id, self.npu, self.estado, self.spider, self.juiz,
                self.data_distribuicao.isoformat(), self.data_captura.isoformat(), self.qntd_andamentos)


class Andamento(Base):
    __tablename__ = 'andamentos'
    
    id = Column(Integer, Sequence('andamento_id_seq'), primary_key=True)
    processo_id = Column(String, ForeignKey(Processo.id))
    texto = Column(String, nullable=True)
    data = Column(DateTime, nullable=True)
    etiquetas = Column(String, nullable=True)
    cinema_no_texto = Column(Boolean, nullable=True)
    processo = relationship(Processo)
    
    def __repr__(self):
        return "<Andamento(id='%s', processo_id='%s', texto='%s', data='%s', " \
               "etiquetas='%s', cinema_no_texto='%s')>" % (
                self.id, self.processo_id, self.texto, self.data.isoformat(),
                self.etiquetas, self.cinema_no_texto)


Base.metadata.create_all(engine)

Inserção da quantidade de andamentos de cada processo:

In [22]:
for processo in session.query(Processo).all():
    processo.qntd_andamentos = session.query(Andamento).filter(Andamento.processo_id == processo.id).count()

session.commit()

Verificação dos andamentos cujo texto contem a palavra 'cinema' para a inserção no banco de dados:

In [23]:
for andamento in session.query(Andamento).all():
    if word_in_text('cinema', andamento.texto):
        andamento.cinema_no_texto = True
    
    else:
        andamento.cinema_no_texto = False

session.commit()

### Respostas das consultas pós-processamento

#### Quantidade total de processos:

In [24]:
session.query(Processo).count()

5000

#### Quantidade total de andamentos:

In [25]:
session.query(Andamento).count()

107054

#### Processo que possui a maior quantidade de andamentos:

In [26]:
from sqlalchemy import desc

session.query(Processo).order_by(desc(Processo.qntd_andamentos)).first()

<Processo(id='fb15c3f4-2dcd-d021-0acc-ef13576f45ee', npu='5985515-82.2000.5.57.9825', estado='GO', spider='esaj-ce', juiz='Randee David', data_distribuicao='1993-07-09T19:32:45', data_captura='2017-05-13T12:30:36', qntd_andamentos='80')>

#### Andamentos cujos textos possuem as maiores quantidades de caracteres:

In [27]:
from sqlalchemy import func

andamentos = session.query(Andamento).order_by(desc(func.char_length(Andamento.texto))).all()[:3]

for n, andamento in enumerate(andamentos):
    print("%sº lugar:\n" % (n + 1))
    print(andamento)
    print()
    print(andamento.processo)
    print()

1º lugar:

<Andamento(id='54172', processo_id='21e4a282-1541-f27f-e75c-4976b8422547', texto='encoding icon findings delivered files aside language cad back entities amber les row bodies jun noted consult german faqs eggs massage environments impossible featuring outline availability high blonde con he line require oracle receiver returns engineering then rt ones pot templates grid quality debate expense theoretical trees phones talks granted licence methodology pubmed outdoors river awarded themselves fail parents white charlotte realized cooper included apply keeps despite jesus thou jelsoft apart ireland marked editors factory waves fonts championship cutting printable pan investor prevention organic accounting combination cricket founded priorities playing limits union ethernet interesting rv wings corner baskets deadline disorders residential regulation position baseball relatively beads talking institutions palace voting reality oriented empire feelings wheels enter provide frankl

#### Andamento mais antigo com o termo 'cinema':

In [28]:
from sqlalchemy import asc

session.query(Andamento).filter(Andamento.cinema_no_texto == True).order_by(asc(Andamento.data)).first()

<Andamento(id='42201', processo_id='dcc3d0eb-7a96-eab0-af82-27e70c5c8436', texto='compliance inclusive venture activity modem litigation plant pizza notice euro wi contributions mitchell mp holes jewellery ir grey carl highlight poor trademark departments feed verify gen messaging archive cancer bath arrangement css lawn battery organizational arms camcorders kingdom tramadol generally ja contemporary basic mg bestiality flexibility benefits von commerce filing alert furthermore km cinema practice checking bar generic beta contest que moment dr ordered robin trunk counts vista taxes watching fund wing over newsletter lease northeast growth balance lebanon temple martin chemicals liability amazon begin pulled generic uk informational cool limits dimension aluminum ruby preliminary adopt later jackson votes fail north register radar reporting disabilities nh merchant ng cloud only loss edition usa era occasion communities heads administrators continuing catalogue party php jay obviously 

#### Processo que possui o maior número formado pelos 6 primeiros números do seu npu:

In [29]:
highest_number_found = 0

for processo in session.query(Processo):
    first_6_numbers = int(processo.npu[:6])
    
    if first_6_numbers > highest_number_found:
        highest_number_found = first_6_numbers
        processo_id = processo.id

session.query(Processo).filter(Processo.id == processo_id).first()

<Processo(id='5adf3f05-ba82-d011-dcfd-014193e9b559', npu='9996389-06.2000.2.16.2519', estado='MA', spider='projudi-rj', juiz='Ayanna Aguilar', data_distribuicao='2011-07-20T09:53:28', data_captura='2017-07-12T23:47:39', qntd_andamentos='15')>

#### Mês/ano que foram capturados mais processos para cada "spider":

Contagem da quantidade de processos capturados em cada mês/ano para cada "spider":

In [30]:
spiders = {}

for processo in session.query(Processo).all():
    if processo.spider not in spiders:
        spiders[processo.spider] = {}
        
    if processo.data_captura.strftime('%m/%Y') not in spiders[processo.spider]:
        spiders[processo.spider][processo.data_captura.strftime('%m/%Y')] = 1
    
    else:
        spiders[processo.spider][processo.data_captura.strftime('%m/%Y')] += 1

Funções que filtram, ordenam e, por fim, retornam a data com maior o número de processos:

In [31]:
# Função responsável por retornar o total de anos de uma data no formato mês/ano
def date_to_years(date):
    date_splited = date.split('/')
    month = int(date_splited[0])
    year = int(date_splited[1])
    
    return year + month / 12

# Função responsável por retornar a data com o maior número de processos
def most_popular_date(qntd_por_data):
    
    # Retira todos os meses/anos cuja quantidade de processos é diferente da quantidade máxima    
    qntd_por_data = [(data, qntd_por_data[data]) for data in qntd_por_data
                     if qntd_por_data[data] == max(qntd_por_data.values())]

    # Ordena da data mais recente para a menos recente    
    qntd_por_data = sorted(qntd_por_data, key=lambda x: date_to_years(x[0]), reverse=True)

    return qntd_por_data[0][0]

Mês/ano com maior número de processos capturados para cada "spider":

In [32]:
for spider, qntd_por_data in spiders.items():
    print("%s: %s" % (spider, most_popular_date(qntd_por_data)))

pje-pi: 10/2018
projudi-rr: 05/2018
esaj-pe: 07/2018
pje-pr: 10/2018
projudi-pr: 08/2018
esaj-df: 11/2018
esaj-es: 04/2016
projudi-pa: 06/2018
esaj-mt: 07/2018
pje-mt: 02/2018
projudi-rj: 12/2017
projudi-ac: 04/2018
esaj-am: 12/2017
esaj-ma: 04/2018
esaj-to: 12/2018
pje-se: 03/2018
projudi-al: 06/2017
esaj-pr: 02/2018
projudi-ms: 05/2018
projudi-mg: 11/2018
esaj-se: 03/2018
projudi-rn: 02/2018
projudi-sp: 02/2016
pje-sp: 12/2018
esaj-ce: 01/2016
projudi-ba: 03/2018
pje-pb: 09/2018
esaj-sc: 10/2018
esaj-sp: 08/2018
pje-rr: 03/2018
pje-to: 01/2016
pje-sc: 12/2016
projudi-am: 01/2016
projudi-se: 08/2016
pje-ac: 07/2018
projudi-go: 12/2018
esaj-ms: 07/2016
esaj-rs: 10/2016
esaj-go: 06/2018
pje-ma: 11/2016
projudi-ro: 04/2017
esaj-rn: 03/2018
esaj-pi: 04/2018
projudi-to: 10/2018
pje-es: 12/2016
pje-ba: 09/2018
projudi-sc: 11/2017
esaj-pa: 08/2018
projudi-ce: 12/2018
esaj-pb: 03/2018
pje-mg: 06/2018
pje-rs: 08/2018
projudi-rs: 08/2016
projudi-df: 06/2017
pje-df: 01/2018
projudi-mt: 03/2016
e

## Etapa 4

Exportação das tabelas do Postgres para arquivos csv

In [33]:
import csv

# Função responsável por criar criar um arquivo csv contendo os dados da tabela
def create_csv(filename, header, content, delimiter='|'):
    with open(filename, 'w') as f:
        csvfile = csv.writer(f, delimiter=delimiter)
        
        csvfile.writerow(header)
        csvfile.writerows(content)
        
        f.close()

Exportação da tabela 'processos' para o arquivo processos.csv:

In [34]:
processos_header = ['id', 'npu', 'estado', 'spider', 'juiz',
                    'data_distribuicao', 'data_captura', 'qntd_andamentos']
processos_content = [[processo.id, processo.npu, processo.estado, processo.spider, processo.juiz,
                      processo.data_distribuicao.isoformat(), processo.data_captura.isoformat(),
                      processo.qntd_andamentos] for processo in session.query(Processo).all()]

create_csv('processos.csv', processos_header, processos_content)

Exportação da tabela 'andamentos' para o arquivo andamentos.csv:

In [35]:
andamentos_header = ['id', 'processo_id', 'texto', 'data', 'etiquetas', 'cinema_no_texto']
andamentos_content = [[andamento.id, andamento.processo_id, andamento.texto,
                       andamento.data.isoformat(), andamento.etiquetas,
                       andamento.cinema_no_texto] for andamento in session.query(Andamento).all()]

create_csv('andamentos.csv', andamentos_header, andamentos_content)