# Instação dos pacotes

In [None]:
!pip install pymongo

In [None]:
!pip install SQLAlchemy

In [None]:
!pip install PyMySQL

# Variáveis

In [None]:
# Configurar a conexão do MongoDB aqui.
mongo_string = "mongodb://127.0.0.1:27017/"

In [None]:
# Configurar a conexão do MySQL aqui.
mysql_string = "mysql+pymysql://root:123@127.0.0.1/HACKATHON_CNJ"

In [None]:
# Configurar o caminho do download dos dados aqui.
data_path = "../base_hackathon/"

# Setup

In [None]:
import pandas as pd

from pandas.io import sql
from pymongo import MongoClient
from sqlalchemy import create_engine

In [None]:
import os
import json
import numpy as np

## Importação MongoDB

Neste passo os dados são importados para a estrutura do MongoDB

In [None]:
client_mongo = MongoClient(mongo_string)

In [None]:
def find_filenames( path_to_dir, suffix=".csv" ):
    filenames = os.listdir(path_to_dir)
    return [ os.path.join(path_to_dir, filename) for filename in filenames if filename.endswith( suffix ) ]

### Importação Dados Processuais

In [None]:
collection = client_mongo["justica_estadual_teste"]

In [None]:
for folder in os.listdir(os.path.join(data_path, "justica_estadual")):
    database = collection["justica_estadual"]
    for subfolder in os.listdir(os.path.join(data_path, "justica_estadual", folder)):
        json_file = json.load(open(os.path.join(data_path, "justica_estadual", folder, subfolder)))
        database.insert_many(json_file)    

### Importação CSVs

In [None]:
db = client_mongo["dados_diversos"]

In [None]:
for _file in find_filenames(data_path):
    coll_name = _file.split("/")[-1].replace(".csv", "")
    coll_conn = db[coll_name]
    
    df_temp = pd.read_csv(_file, sep=';')
    
    if "cod_filhos" in df_temp.columns:
        df_temp["cod_filhos"] = df_temp["cod_filhos"].apply(lambda x: str(x).split(","))
    
    data_temp = [
        json.loads(line.to_json(force_ascii=True)) for line in df_temp.iloc
    ]
    
    coll_conn.insert_many(data_temp)
    
    del coll_name
    del coll_conn
    del df_temp

# Atualização Classe, Assunto e Movimento

In [None]:
database_name = "justica_estadual"

collection_name = "processos-tjsp"

processos = client_mongo[database_name][collection_name].find().count()

print(f"Total de processos {processos}")

In [None]:
class Base:
    def __init__(self, filename):
        self.df = pd.read_csv(filename, sep=';')
    
    @property
    def shape(self):
        return self.df.shape
    
    def head(self, n=5):
        return self.df.head(n)
    
    def _buscar(self, codigo):
        df_f = self.df[self.df["codigo"] == codigo]

        if len(df_f) != 1:
            print(f"Código {codigo} não encontrado")
            return ""

        return df_f["descricao"].values[0]

## Classes

In [None]:
class Classe(Base):
    def __init__(self):
        Base.__init__(self, "sgt_classes.csv")

    def processar(self, documentos):
        for documento in documentos:
            classe_processual = documento["dadosBasicos"]["classeProcessual"]
            descricao = self._buscar(classe_processual)
            self._salvar(documento, descricao)

    def _salvar(self, documento, descricao):
        collection = client_mongo[database_name][collection_name]

        _id = documento["_id"]

        collection.update_one(
            {
                "_id": _id 
            },
            {
                '$set': { 'dadosBasicos.descricaoClasseProcessual': descricao }
            }
        )
        print(_id)

In [None]:
classe = Classe()
classe.shape

In [None]:
classe.head()

In [None]:
cursor = client_mongo[database_name][collection_name].find({})

In [None]:
classe.processar(cursor)

## Movimentações

In [None]:
class Movimentacoes(Base):
    def __init__(self):
        Base.__init__(self, "sgt_movimentos.csv")

    def processar(self, documentos):
        for documento in documentos:
            movimentos = documento["movimento"]
            for indice, movimento in enumerate(movimentos):
                if "movimentoNacional" in movimento.keys():
                    codigo = movimento["movimentoNacional"]["codigoNacional"]
                    descricao = self._buscar(codigo)
                    self._salvar(documento, indice, descricao)
                else:
                    print("Código do movimento nacional não encontrado", movimento.keys())                
    
    def _salvar(self, documento, index, descricao):
        collection = client[database_name][collection_name]

        _id = documento["_id"]

        collection.update_one(
            {
                "_id": _id 
            },
            {
                "$set": { f"movimento.{index}.movimentoNacional.descricao": descricao }
            }
        )

In [None]:
movimentacoes = Movimentacoes()
movimentacoes.shape

In [None]:
movimentacoes.head()

In [None]:
cursor = client_mongo[database_name][collection_name].find({})

In [None]:
movimentacoes.processar(cursor)

# Indicadores Serventias

In [None]:
!pip install slugify

In [None]:
from slugify import slugify

In [None]:
DATABASE_NAME = "dados_diversos"

COLLECTION_NAME = "mpm_serventias"

serventias = client_mongo[DATABASE_NAME][COLLECTION_NAME].find()

In [None]:
class Base:
    def __init__(self, filename, csv=False):
        if csv:
            self.df = pd.read_csv(filename, sep=";")
        else:
            self.df = pd.read_excel(filename, sep=";")

    @property
    def shape(self):
        return self.df.shape
    
    def head(self, n=5):
        return self.df.head(n)

## Entrância

In [None]:
class Entrancia(Base):
    def __init__(self):
        Base.__init__(self, "mpm_serventias.csv", True)
    
    def processar(self, documents):
        for documento in documents:
            seq_orgao = int(documento["SEQ_ORGAO"])

            entrancia = self._calcular(seq_orgao)

            self._salvar(documento, entrancia)
    
    def _calcular(self, seq_orgao): 
        df_f_orgao = self.df[self.df["SEQ_ORGAO"] == seq_orgao]

        if len(df_f_orgao) == 0:
            print(f"Orgão {seq_orgao} não encontrado!")
            return None

        seq_orgao_pai = df_f_orgao['SEQ_ORGAO_PAI'].values[0]

        """
        Filtra as varas que tem o mesmo orgão pai
        """
        df_f_orgao_pai = self.df[self.df["SEQ_ORGAO_PAI"] == seq_orgao_pai]

        if len(df_f_orgao_pai) == 0:
            print(f"Orgão pai {seq_orgao_pai} não encontrado para o orgão {seq_orgao}!")
            return None

        total = df_f_orgao_pai["SEQ_ORGAO_PAI"].notnull().count()

        if total == None:
            print(f"Orgao {seq_orgao} não possui orgão pai!")
            return None

        if total == 1:
            return 1
        elif total in [2, 3, 4]:
            return 2
        else:
            return 3
    
    def _salvar(self, documento, entrancia):

        collection = client_mongo[DATABASE_NAME][COLLECTION_NAME]

        _id =  documento["_id"]

        collection.update_one(
            {
                "_id": _id 
            }, 
            {
                '$set': { 'TIP_ENTRANCIA': entrancia }
            }
        )

In [None]:
et = Entrancia()
et.shape

In [None]:
et.head()

In [None]:
et.processar(serventias)

## Força de Trabalho

In [None]:
!pip install xlrd

In [None]:
class ForcaDeTrabalho(Base):
    def __init__(self):
        Base.__init__(self, "dados-pessoal-TJSP.xlsx")
        
    def processar(self, documentos):
        for documento in documentos:
            seq_orgao = int(documento["SEQ_ORGAO"])
            
            forca_trabalho = self._buscar(seq_orgao)
            self._inseir(documento, forca_trabalho)

    def _inseir(self, documento, forca_trabalho):
        collection = client_mongo[DATABASE_NAME][COLLECTION_NAME]
    
        _id = documento["_id"]

        collection.update_one(
            {
                "_id": _id 
            },
            {
                "$set": { 
                    "QTD_ESTAGIARIOS": forca_trabalho["qtd_estagiarios"],
                    "QTD_TERCERIADOS": forca_trabalho["qtd_terceriados"],
                    "QTD_CEDIDOS": forca_trabalho["qtd_cedidos"],
                    "QTD_COMISSIONADO": forca_trabalho["qtd_comissionado"],
                    "QTD_EFETIVOS": forca_trabalho["qtd_efetivos"],
                    
                }
            }
        )

    def _buscar(self, seq_orgao):
        forca_trabalho = {
            "qtd_estagiarios": None,
            "qtd_terceriados": None,
            "qtd_cedidos": None,
            "qtd_comissionado": None,
            "qtd_efetivos": None,
        }

        df_f = self.df[self.df["seq_orgao"] == seq_orgao]

        if len(df_f) == 0:
            return forca_trabalho

        for _, row in df_f.iterrows():
            
            descricao = slugify(row["Descrição da variável"])
            quantidade = int(row["Qtd"])
            
            if descricao == "tfauxe-total-da-forca-de-trabalho-auxiliar-estagiarios":
                forca_trabalho["qtd_estagiarios"] = quantidade 
                
            if descricao == "tfauxt-total-da-forca-de-trabalho-auxiliar-terceirizados":
                forca_trabalho["qtd_terceriados"] = quantidade
                
            if descricao == "tpefet-total-de-pessoal-do-quadro-efetivo":
                forca_trabalho["qtd_efetivos"] = quantidade
                
            if descricao == "tpi-total-de-pessoal-que-ingressou-por-cessao-ou-requisicao":
                forca_trabalho["qtd_cedidos"] = quantidade
                
            if descricao == "tpsv-total-de-pessoal-comissionado-sem-vinculo":
                forca_trabalho["qtd_comissionado"] = quantidade
            
        return forca_trabalho

In [None]:
ft = ForcaDeTrabalho()
ft.shape

In [None]:
ft.head()

In [None]:
ft.processar(serventias)

## Processos Pendentes

In [None]:
class ProcessosPendentes(Base):
    def __init__(self):
        Base.__init__(self, "casos-pendentes-TJSP.xlsx")
    
    def processar(self, documentos):
        for documento in documentos:
            seq_orgao = int(documento["SEQ_ORGAO"])

            processos_pendentes = self._buscar(seq_orgao)
            self._inseir(documento, processos_pendentes)
        
    def _inseir(self, documento, processos_pendentes):
        collection = client_mongo[DATABASE_NAME][COLLECTION_NAME]

        _id = documento["_id"]

        collection.update_one(
            {
                "_id": _id 
            },
            {
                '$set': { 'QTD_PROC_PENDENTES': processos_pendentes }
            }
        )

    def _buscar(self, seq_orgao):
        df_f = self.df[self.df["seq_orgao"] == seq_orgao]

        if len(df_f) != 1:
            return None
        
        processos_pendentes = int(df_f['Qtd'].values[0])
        
        return processos_pendentes

In [None]:
pp = ProcessosPendentes()
pp.shape

In [None]:
pp.head()

In [None]:
pp.processar(serventias)

# Indicadores Movimentações

In [None]:
from collections import Counter

import datetime
import statistics

In [None]:
engine = create_engine(mysql_string)

## Cria tabela de indicadores (MySQL)

In [None]:
tabela_indicadores = [(1, "Tempo médio entre a distribuição e o primeiro impulso do processo", "26 - Distribuição",	"11010 - Mero Expediente, 3 - Decisão, 11009 - Despacho, 1 - Magistrado, 1013 - Determinação, 12164 - Outras Decisões, 11383 - Ato Ordinatório, 12265 - Expedida/certificada", 	"1 vez", ""),
(2, "Tempo médio entre a distribuição e o envio para concluso",	"26 - Distribuição",	"51 - Conclusão",	"1 vez",	"Considera a primeira movimentação de distribuição e a movimentação de conclusão subsequente."),
(3, "Tempo médio entre a distribuição e a primeira audiência",	"26 - Distribuição",	"970 - Audiência",	"1 vez", ""),
(4, "Tempo médio entre a distribuição e a primeira ação do magistrado",	"26 - Distribuição",	"11010 - Mero Expediente, 3 - Decisão, 11009 - Despacho, 1 - Magistrado, 1013 - Determinação, 12164 - Outras Decisões",	"1 vez", ""),
(5, "Tempo médio entre a distribuição e o primeiro julgamento.", "26 - Distribuição", "218,385,228,230,235,236,244,456,853,10953,10961,11373,11394,11396,12184,12319,12458,12459,12709,472,473,454,457,458,459,460,461,462,463,464,465,11374,11375,11376,11377,11378,11379,11380,11381,12256,12298,12325,12617,12710,12711,12712,12713,12714,12715,12716,12717,12718,12719,12720,12721,12722,12723,12724,196,198,200,202,208,210,212,214,219,220,221,237,238,239,240,241,242,455,466,471,871,884,900,901,972,973,10964,11401,11402,11403,11404,11405,11406,11407,11408,11409,11795,11796,11876,11877,12187,12252,12253,12254,12257,12258,12321,12326,12329,12330,12331,12433,12450,12615,12649,12650,12651,12652,12653,12654,12660,12661,12662,12663,12664,12665,12678,12738,442,443,444,445,10965,12032,12041,12475,446,447,448,449,450,451,452,453,1042,1043,1044,1045,1046,1047,1048,1049,1050,11411,11801,11878,11879,12028,12616,12735,12322,12323,12324,12327,12328,12434,12435,12436,12437,12438,12439,12440,12441,12442,12443,12451,12452,12453,12666,12667,12668,12669,12670,12672,12673,12674,12675,12676,12677,12792,12671,12679,12680,12681,12682,12683,12684,12685,12686,12687,12688,12689,12690,12691,12692,12693,12694,12695,12696,12697,12698,12699,12700,12701,12702,12703,12704,12705,12706,12707,12708", "1 vez", ""),
(6, "Tempo médio entre a distribuição e o transito em julgado.", "26 - Distribuição", "848 - Trânsito em julgado", "1 vez", "")
]

In [None]:
df_indicadores = pd.DataFrame(tabela_indicadores, columns=["codindicadores", "indicador", "condicao_1", "condicao_2", "unico_iterativo", "observacao"])

In [None]:
df_indicadores.head()

In [None]:
# EXPORTA O DATAFRAME PARA UMA TABELA NO MYSQL

df_indicadores.to_sql(con=engine, name='dIndicadores', if_exists='replace')

## Conexão Mongo

In [None]:
db = client_mongo["justica_estadual"]

In [None]:
coll = "processos-tjsp"

## Processo de Agrupamento

In [None]:
def get_process(db, collection, query={}):
    return list(db[collection].find(query))

In [None]:
def split_process(data):
    """
    Recebe uma lista de processos e retorna uma nova lista
    agrupando processos por Classe Processual e por Orgão julgador

    {
      classe_processual: {
        orgao_julgador: [
          processo
        ]
      }
    }

    """
    process_list = {}

    for process in data:
        classe_processual = process["dadosBasicos"]["classeProcessual"]
        orgao_julgador = process["dadosBasicos"]["orgaoJulgador"]["codigoOrgao"]

        # caso não exista a classe processual na lista
        if not process_list.get(classe_processual):
          # cria um novo dict com a classe processual como chave
          process_list[classe_processual] = {}

        # caso não exista o orgao julgador dentro do dict da classe processual
        if not process_list[classe_processual].get(orgao_julgador):
          # aqui cria uma lista para adicionar o processo
          process_list[classe_processual][orgao_julgador] = []

        process_list[classe_processual][orgao_julgador].append(process)

    return process_list

In [None]:
def get_range_dates(data, condition_1, condition_2):
    """
    data: Lista de processos agrupados por classe_processual e orgao_julgador
    condition_1: lista de inteiros -> DE
    condition_2: lista de inteiros -> Até

    Captura datas dos movimentos da condition_1 até a condition_2
    """
    group_range_dates = {}

    # for nos processos agrupados por Classe Processual e por Orgão julgador
    for classe_processual in data:
        group_range_dates[classe_processual] = {}

        # for nos orgaos
        for orgao_processual in data[classe_processual]:
            group_range_dates[classe_processual][orgao_processual] = []

            # for nos processos
            for processo in data[classe_processual][orgao_processual]:

                res_condition_1 = None
                res_condition_2 = None

                # se existir movimentos no processo
                if processo.get("movimento"):
                    for mov in processo["movimento"]:

                        # condições de nomenclatura no codigo do movimento
                        if mov.get("movimentoNacional"):
                            cod_mov = mov["movimentoNacional"]["codigoNacional"]
                        elif mov.get("movimentoLocal"):
                            cod_mov = mov["movimentoLocal"]["codigoPaiNacional"]
                        else:
                            cod_mov = 0

                        if (cod_mov in condition_1) and (res_condition_1 is None):
                            res_condition_1 = mov["dataHora"]
                        elif (cod_mov in condition_2) and (res_condition_2 is None):
                            res_condition_2 = mov["dataHora"]

                        if (res_condition_1 is not None) and (res_condition_2 is not None):
                            group_range_dates[classe_processual][orgao_processual].append(
                                  (res_condition_1, res_condition_2)
                              )
                            break

    return group_range_dates

In [None]:
def calc_median_df(range_dates):
    cals_medians = []

    for classe_processual in range_dates:
        for orgao_julgador in range_dates[classe_processual]:
            calc_median = []

            for cond_ranges in range_dates[classe_processual][orgao_julgador]:
                condition_1 = datetime.datetime.strptime(cond_ranges[0], '%Y%m%d%H%M%S')
                condition_2 = datetime.datetime.strptime(cond_ranges[1], '%Y%m%d%H%M%S')

                result = condition_2 - condition_1

                calc_median.append(int(result.days))

            if calc_median:
                cals_medians.append(
                    (
                        classe_processual,
                        orgao_julgador,
                        int(statistics.median(calc_median)),
                        len(calc_median)
                    )
                )

    return pd.DataFrame(cals_medians, columns=["cdclasse", "ORGAO", "vlindicador", "QTDADE_PROCESSOS"])

## Extração de Indicadores

### Resgata todos os processos da collection

In [None]:
process_data = get_process(db, coll)

### Agrupa por orgão e classe

In [None]:
group_process = split_process(process_data)

In [None]:
group_process.keys()

### Tempo médio entre a distribuição e o primeiro julgamento. COD 5

In [None]:
cond_1 = [26]
cond_2 = [
          218,385,228,230,235,236,244,456,853,10953,10961,11373,11394,11396,12184,12319,12458,12459,12709,472,473,454,457,458,459,460,461,462,463,464,465,11374,11375,11376,11377,11378,11379,11380,11381,12256,12298,12325,12617,12710,12711,12712,12713,12714,12715,12716,12717,12718,12719,12720,12721,12722,12723,12724,196,198,200,202,208,210,212,214,219,220,221,237,238,239,240,241,242,455,466,471,871,884,900,901,972,973,10964,11401,11402,11403,11404,11405,11406,11407,11408,11409,11795,11796,11876,11877,12187,12252,12253,12254,12257,12258,12321,12326,12329,12330,12331,12433,12450,12615,12649,12650,12651,12652,12653,12654,12660,12661,12662,12663,12664,12665,12678,12738,442,443,444,445,10965,12032,12041,12475,446,447,448,449,450,451,452,453,1042,1043,1044,1045,1046,1047,1048,1049,1050,11411,11801,11878,11879,12028,12616,12735,12322,12323,12324,12327,12328,12434,12435,12436,12437,12438,12439,12440,12441,12442,12443,12451,12452,12453,12666,12667,12668,12669,12670,12672,12673,12674,12675,12676,12677,12792,12671,12679,12680,12681,12682,12683,12684,12685,12686,12687,12688,12689,12690,12691,12692,12693,12694,12695,12696,12697,12698,12699,12700,12701,12702,12703,12704,12705,12706,12707,12708
]

In [None]:
range_dates_26_ns = get_range_dates(group_process, cond_1, cond_2)

In [None]:
df_5 = calc_median_df(range_dates_26_ns)

In [None]:
df_5["codindicadores"] = 5

In [None]:
df_5.head()

### 26 - Distribuição e Primeiro impulso do processo COD 1

In [None]:
cond_1 = [26]
cond_2 = [
          11010, # - Mero Expediente
          3, # - Decisão
          11009, # - Despacho
          1, # - Magistrado
          1013, # - Determinação
          12164, # - Outras Decisões
          11383, # - Ato Ordinatório
          12265 # - Expedida/certificada
]

In [None]:
range_dates_26_ns = get_range_dates(group_process, cond_1, cond_2)

In [None]:
df_1 = calc_median_df(range_dates_26_ns)

In [None]:
df_1["codindicadores"] = 1

In [None]:
df_1.head()

### Tempo médio entre a distribuição e o envio para concluso COD 2

In [None]:
cond_1 = [26]
cond_2 = [
          51 # Conclusão
]

In [None]:
range_dates_26_ns = get_range_dates(group_process, cond_1, cond_2)

In [None]:
df_2 = calc_median_df(range_dates_26_ns)

In [None]:
df_2["codindicadores"] = 2

In [None]:
df_2.head()

### Tempo médio entre a distribuição e a primeira audiência - COD 3

In [None]:
cond_1 = [26]
cond_2 = [
          970 # Conclusão
]

In [None]:
range_dates_26_ns = get_range_dates(group_process, cond_1, cond_2)

In [None]:
df_3 = calc_median_df(range_dates_26_ns)

In [None]:
df_3["codindicadores"] = 3

In [None]:
df_3.head()

### Tempo médio entre a distribuição e a primeira ação do magistrado COD 4

In [None]:
cond_1 = [26]
cond_2 = [
          11010, # - Mero Expediente
          3, # - Decisão
          11009, # - Despacho
          1, # - Magistrado
          1013, # - Determinação
          12164 # - Outras Decisões
]

In [None]:
range_dates_26_ns = get_range_dates(group_process, cond_1, cond_2)

In [None]:
df_4 = calc_median_df(range_dates_26_ns)

In [None]:
df_4["codindicadores"] = 4

In [None]:
df_4.head()

## MERGE DFS

In [None]:
fDesempenho = pd.concat([df_1, df_2, df_3, df_4, df_5], axis=0)

In [None]:
fDesempenho.head()

In [None]:
fDesempenho.tail()

In [None]:
fDesempenho.shape

In [None]:
# EXPORTA O DATAFRAME PARA UMA TABELA NO MYSQL

fDesempenho.to_sql(con=engine, name='fDesempenho', if_exists='replace')

# Exportação tabelas complementares (Mongo2MySQL)

## Serventias

In [None]:
db = client_mongo["dados_diversos"]
coll = db["mpm_serventias"]

In [None]:
df = pd.DataFrame(list(coll.find({}, {"_id":0})))

In [None]:
# subistitui todos Nan/Null para 0
df = df.fillna(0)

In [None]:
# colunas para converter float to int
columns_convert = ["SEQ_ORGAO", "SEQ_ORGAO_PAI", 
                   "SEQ_CIDADE", "COD_IBGE", "INT_ORDEM_ORGAO", 
                   "QTD_CEDIDOS", "QTD_COMISSIONADO", 
                   "QTD_EFETIVOS", "QTD_ESTAGIARIOS", "QTD_TERCERIADOS", 
                   "QTD_PROC_PENDENTES", "TIP_ENTRANCIA"]

In [None]:
df[columns_convert] = df[columns_convert].astype(int)

In [None]:
df.head()

In [None]:
df.to_sql(con=engine, name='dServentias', if_exists='replace')

## dClasses


In [None]:
coll = db["sgt_classes"]

In [None]:
df = pd.DataFrame(list(coll.find({}, {"_id":0})))

In [None]:
df.head()

In [None]:
# subistitui todos Nan/Null para 0
df = df.fillna(0)

In [None]:
# colunas para converter float to int
columns_convert = ["cod_pai"]

In [None]:
df[columns_convert] = df[columns_convert].astype(int)

In [None]:
df["cod_filhos"] = df["cod_filhos"].apply(lambda x : ",".join(x))

In [None]:
df.head()

In [None]:
df.columns = ['cdclasse', 'descricao', 'sigla', 'cod_pai', 'cod_filhos']

In [None]:
df.to_sql(con=engine, name='dClasses', if_exists='replace', index=False)