<a href="https://colab.research.google.com/github/ijusplab/implantacao-automatica/blob/master/Implantacao_LOAS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Criação de Planilha de Execução Semi-Automática para B-87 e B-88**

## **Visão Geral**

Este notebook utiliza dados do SisJEF, de súmulas de julgamento e do IBGE para gerar dados estruturados para implantação de benefícios assistenciais.

A tabela a seguir ilustra parcialmente a correspondência dos dados.

| SisJEF                       | Forma Final             |
| ---------------------------- | ----------------------- |
|`1_PROCESSO`                  | `PROCESSO`              |
|`2_POLO ATIVO`                | `TITULAR`               |
|`CIDADE DO POLO ATIVO`        | `MUNICIPIO_TITULAR`     |
|-                             | `CODIGO_IBGE`(**)       |
|`CPF CURADOR`                 | `CPF_TUTOR_CURADOR`     |
|`CPF REPRESENTANTE`           | `CPF_REPRESENTANTE`     |
|`CPF/CNPJ POLO ATIVO`         | `CPF_TITULAR`           |
|`DATA DO TRÂNSITO`            | `DATA_DO_TRANSITO`      |
|`ENDEREÇO DO POLO ATIVO`      | `ENDERECO_TITULAR`      |
|-                             | `CEP_TITULAR`           |
|`FÓRUM ATUAL DO PROCESSO`     | `FORUM`                 |
|`RESULTADO DA SENTENÇA`       | `RESULTADO_DA_SENTENCA` |
|`TUTOR/CURADOR DO POLO ATIVO` | `NOME_TUTOR_CURADOR`    |
|`VARA-GABINETE ATUAL`         | `VARA`                  |
|-                             | `ESPECIE`(*)            |
|-                             | `DIB`(*)                |
|-                             | `DIP`(*)                |
|-                             | `RMI`(*)                |
|-                             | `IMPLANTACAO_PADRAO`(*) |
|-                             | `RESTABELECIMENTO`(*)   |
|-                             | `NB`(*)                 |
**<small>(\*)</small> Informações extraídas da súmula do julgado.**
**<small>(\*\*)</small> Informações obtidas por meio do SIDRA/IBGE.**


## **Instruções**

**INSTRUÇÕES**

1) Execute a célula `CARREGAR OFÍCIO GENÉRICO EM LOTE`. 

2) Assim que o código for inicializado e aparecer o botão de `upload`, carregue o arquivo `txt` do ofício genérico em lote. Você verá uma prévia do conteúdo extraído logo abaixo da célula, em forma de tabela.

3) Execute a célula `CARREGAR SENTENÇAS`. 

4) Quando aparecer o botão de `upload`, carregue os arquivos `pdf` das sentenças proferidas no lote. Novamente uma prévia do conteúdo extraído aparecerá numa tabela logo abaixo da célula.

5) Execute a célula `MESCLAR DADOS` para reunir os dados do ofício genérico em lote com os dados extraídos das sentenças. 

6) Execute a célula `BAIXAR ARQUIVO CSV` para baixar os dados extraídos, já devidamente mesclados, em formato `csv`.

## **Ferramentas de Extração**

In [0]:
#@title **CARREGAR OFÍCIO GENÉRICO EM LOTE** { vertical-output: true }

!pip install tika

from google.colab import files
from tika import parser
import pandas as pd
import re, os, requests, json
from IPython.display import display, HTML

##
## Para normalização dos nomes de colunas
##
class Utils:
  _instance = None

  def __init__(self):  
    self.__acentos = {
      'a': re.compile('[áàäãâÁÀÄÃÂ]'), 
      'e': re.compile('[éèëêÉÈËÊ]'), 
      'i': re.compile('[íìïîÍÌÏÎ]'),
      'o': re.compile('[óòöõôÓÒÖÕÔ]'),
      'u': re.compile('[úùüûÚÙÜÛ]'),
      'c': re.compile('[çÇ]')
    }

  @classmethod
  def instance(cls):
      if cls._instance is None:
          cls._instance = cls()
      return cls._instance

  def remover_acentuacao(self, s):
    for letra, padrao in self.__acentos.items():
      s = re.sub(padrao, letra, s)
    return s

  def normalizar(self, s):
    s = self.remover_acentuacao(s).upper().strip()
    s = re.sub(r'\d+_+', '', s)
    s = re.sub(r'\s+', '_', s)
    return s

  def ler_pdf(self, nome_arquivo):
    dados = parser.from_file(nome_arquivo)
    texto = dados['content']
    return str(texto)

##
## Instanciação
##
utils = Utils.instance()

##
## Extração do código IBGE dos municípios
##
class IBGE:
  _instance = None

  def __init__(self):  
    endpoint = 'https://servicodados.ibge.gov.br/api/v1/localidades/municipios'
    response = requests.get(endpoint)
    if response.status_code != 200:
      raise Exception(f'Erro ao tentar obter os dados do IBGE\sStatus Code: {response.status_code}')
    self.__dados_IBGE = response.json()

  @classmethod
  def instance(cls):
      if cls._instance is None:
          cls._instance = cls()
      return cls._instance

  def codigo_municipio(self, nome_municipio):
    for municipio in self.__dados_IBGE:
      if utils.normalizar(municipio['nome']) == utils.normalizar(nome_municipio):
        return municipio['id']
    return ''   

##
## Instanciação
##
ibge = IBGE.instance()

##
## Extração de dados de ofício genérico em lote
##
class OFGL:
  _instance = None

  def __init__(self):
    self.lote = ''
    self.data_frame = None
    self._cols = {
      "PROCESSO": "PROCESSO",
      "POLO_ATIVO": "TITULAR",
      "CIDADE_DO_POLO_ATIVO": "MUNICIPIO_TITULAR",
      "CODIGO_IBGE": "CODIGO_IBGE",
      "CPF_CURADOR": "CPF_TUTOR_CURADOR",
      "CPF_REPRESENTANTE": "CPF_REPRESENTANTE",
      "CPF/CNPJ_POLO_ATIVO": "CPF_TITULAR",
      "DATA_DO_TRANSITO": "DATA_DO_TRANSITO",
      "ENDERECO_DO_POLO_ATIVO": "ENDERECO_TITULAR",
      "FORUM_ATUAL_DO_PROCESSO": "FORUM",
      "RESULTADO_DA_SENTENCA": "RESULTADO_DA_SENTENCA",
      "TUTOR/CURADOR_DO_POLO_ATIVO": "NOME_TUTOR_CURADOR",
      "VARA-GABINETE_ATUAL": "VARA"
    }

  @classmethod
  def instance(cls):
      if cls._instance is None:
          cls._instance = cls()
      return cls._instance

  def __transformar_nome_coluna(self, s):
    if s in self._cols:
      return self._cols[s]
    return s

  def __transformar_cpf(self, val):
    s = str(val).replace('.', '').replace('-', '')
    return f'{s[:3]}.{s[3:6]}.{s[6:9]}-{s[9:11]}'

  def __transformar_data(self, val):
    pattern = re.compile('\d{1,2}[\/.\-]\d{1,2}[\/.\-]\d{2,4}')
    match = pattern.search(val)
    if match:
      return match.group(0).replace('.', '/').replace('-', '/')
    return val
  
  def __extrair_cep(self, val):
    pattern = re.compile('\s+CEP:\s*(\d{5}\-\d{0,3})')
    match = pattern.search(val)
    if match:
      return match.group(1)
    return ''

  def __transformar_endereco(self, val):
    pattern = re.compile('\s+CEP:\s*(\d{5}\-\d{0,3})')
    return re.sub(pattern, '', val)

  def __transformar_resultado(self, val):
    pattern = re.compile('PROCEDENTE EM PARTE|PROCEDENTE|ACORDO')
    match = pattern.search(val)
    if match:
      return match.group(0)
    return val
  
  def __transformar_nome_curador(self, val):
    return '\n'.join(val.split(' / ')).strip()

  def load(self):
    arquivos = files.upload()
    if len(arquivos) > 0:
      for nome, conteudo in arquivos.items():
        if re.match('^.+\.(txt)$', nome):
          df = pd.read_csv(nome, sep=';', encoding='latin1')
          df = df.fillna('')
          df.columns = map(utils.normalizar, df.columns)
          df.columns = map(self.__transformar_nome_coluna, df.columns)
          codigo_ibge = df['MUNICIPIO_TITULAR'].apply(ibge.codigo_municipio)
          df.insert(3, 'CODIGO_IBGE', codigo_ibge, True)
          df['CPF_TITULAR'] = df['CPF_TITULAR'].apply(self.__transformar_cpf)
          df['DATA_DO_TRANSITO'] = df['DATA_DO_TRANSITO'].apply(self.__transformar_data)
          cep = df['ENDERECO_TITULAR'].apply(self.__extrair_cep)
          df['ENDERECO_TITULAR'] = df['ENDERECO_TITULAR'].apply(self.__transformar_endereco)
          df.insert(9, 'CEP_TITULAR', cep, True)
          df['RESULTADO_DA_SENTENCA'] = df['RESULTADO_DA_SENTENCA'].apply(self.__transformar_resultado)
          df['NOME_TUTOR_CURADOR'] = df['NOME_TUTOR_CURADOR'].apply(self.__transformar_nome_curador)
          self.__lote = nome
          self.__data_frame = df
        else:
          print('>>>> ATENÇÃO')
          print('>>>> O arquivo ' + nome + ' não é um txt')

  def has_data_frame(self):
    return not self.__data_frame is None

  def get_name(self):
    if not self.has_data_frame():
      print('>>>> NÃO HÁ LOTE CARREGADO')
      return
    return self.__lote

  def get_data_frame(self):
    if not self.has_data_frame():
      print('>>>> NÃO HÁ LOTE CARREGADO')
      return
    return self.__data_frame

  def show_data_frame(self):
    if not self.has_data_frame():
      print('>>>> NÃO HÁ LOTE CARREGADO')
      return
    print('LOTE:')
    display(HTML(self.__data_frame.to_html()))

##
## Instanciação
##
ofgl = OFGL.instance()
ofgl.load()
ofgl.show_data_frame()

In [0]:
#@title **CARREGAR SENTENÇAS** { vertical-output: true }

##
## Extração de dados de sentenças
##
class Sentencas:
  def __init__(self):
    self.__padroes = {
        'PROCESSO': re.compile('PROCESSO:\s*?(\d{7}\-\d{2}\.\d{4}\.\d\.\d{2}\.\d{4})', re.DOTALL),
        'ESPECIE': re.compile('ESP[ÉE]CIE DO NB:\s([À-ü]?.*)RMI', re.DOTALL),
        'RESTABELECIMENTO': re.compile('ESP[ÉE]CIE DO NB:\s*[À-ü]?.*(RESTABELECIMENTO)', re.DOTALL | re.IGNORECASE),
        'DIB': re.compile('DIB:\s*?(\d{1,2}[/\-.]\d{1,2}[/\-.]\d{2,4})', re.DOTALL),
        'DIP': re.compile('DIP:\s*?(\d{1,2}[/\-.]\d{1,2}[/\-.]\d{2,4})', re.DOTALL),
        'DCB': re.compile('DCB:\s*?(\d{1,2}[/\-.]\d{1,2}[/\-.]\d{2,4})', re.DOTALL),
        'NB': re.compile('NB:\s*(\d{10})', re.DOTALL),
        'RMI': re.compile('RMI:\s*R\$\s*([\d.,]+)', re.DOTALL),
        'CURADOR_PROVISORIO': re.compile('CURADOR PROVISÓRIO:\s*[À-ü]?.*(SIM)', re.DOTALL | re.IGNORECASE),
        'IMPLANTACAO_PADRAO': re.compile('IMPLANTAÇÃO-PADRÃO:\s*[À-ü]?.*(SIM)', re.DOTALL | re.IGNORECASE)
    }
    self.__re_sumula = re.compile('\*{40,}([^*]+)\*{40,}', re.DOTALL)
    self.__sentencas = []
    self.__data_frame = None

  def __extrair_sumula(self, texto):
    match = self.__re_sumula.search(texto)
    if match:
      return match.group(1)
    return ''

  def __transformar_especie(self, val):
    return 88 if re.compile('IDOS[AO]|88').search(val.upper()) else 87

  def __transformar_data(self, val):
    val = val.replace('.', '/').replace('-', '/')
    if (val == '00/00/0000'):
      return ''
    return val

  def __transformar_rmi(self, val):
    return ''

  def __transformar_booleano(self, val):
    return len(val) > 0

  def create_data_frame(self):
    if len(self.__sentencas) > 0:
      colunas = self.__padroes.keys()
      dados = {}
      for rotulo, padrao in self.__padroes.items():
        coluna = []
        for sentenca in self.__sentencas:
          match = padrao.search(sentenca['conteudo'])
          if match:
            coluna.append(match.group(1))
          else:
            coluna.append('')
            print('>>>> Atributo "' + rotulo + '" não encontrado em ' + sentenca['nome'])
        dados[rotulo] = coluna
      df = pd.DataFrame(dados, columns=colunas)
      df = df.fillna('')
      df['ESPECIE'] = df['ESPECIE'].apply(self.__transformar_especie)
      df['RESTABELECIMENTO'] = df['RESTABELECIMENTO'].apply(self.__transformar_booleano)
      df['DIB'] = df['DIB'].apply(self.__transformar_data)
      df['DIP'] = df['DIP'].apply(self.__transformar_data)
      df['DCB'] = df['DCB'].apply(self.__transformar_data)
      df['RMI'] = df['RMI'].apply(self.__transformar_rmi)
      df['CURADOR_PROVISORIO'] = df['CURADOR_PROVISORIO'].apply(self.__transformar_booleano)
      df['IMPLANTACAO_PADRAO'] = df['IMPLANTACAO_PADRAO'].apply(self.__transformar_booleano)
      self.__data_frame = df

  def load(self):
    arquivos = files.upload()
    if len(arquivos) > 0:
      for nome, conteudo in arquivos.items():
        if re.match('^.+\.(pdf)$', nome):
          conteudo = utils.ler_pdf(nome)
          self.__sentencas.append({
              'nome': nome,
              'conteudo': conteudo
          })
        else:
          print('>>>> ATENÇÃO')
          print('>>>> O arquivo ' + nome + ' não é um pdf')

  def has_data_frame(self):
    return not self.__data_frame is None

  def get_data_frame(self):
    if not self.has_data_frame():
      print('>>>> NÃO HÁ SENTENÇAS CARREGADAS')
      return
    return self.__data_frame

  def show_data_frame(self):
    if not self.has_data_frame():
      print('>>>> NÃO HÁ SENTENÇAS CARREGADAS')
      return
    print('SENTENÇAS:')
    display(HTML(self.__data_frame.to_html()))

##
## Instanciação
##
sentencas = Sentencas()
sentencas.load()
sentencas.create_data_frame()
sentencas.show_data_frame()

In [0]:
#@title **MESCLAR DADOS** { vertical-output: true }

##
## Para criar e baixar csv único
##
class CsvBuilder:
  def __init__(self):
    self.__data_frame = None
    self.__name = ''

  def load_data_frame(self, df, column):
    if self.__data_frame is None:
      self.__data_frame = df
    else:
      self.__data_frame = self.__data_frame.merge(df, on=column) 

  def set_name(self, name):
    self.__name = name

  def show_data_frame(self):
    if self.__data_frame is None:
      print('>>>> NÃO HÁ DADOS CARREGADOS')
      return
    if len(self.__name) == 0:
      print('>>>> NOME DO ARQUIVO NÃO FORNECIDO')
      return
    print(f'DADOS MESCLADOS ({self.__name}):')
    display(HTML(self.__data_frame.to_html()))

  def download(self):
    if self.__data_frame is None:
      print('>>>> NÃO HÁ DADOS CARREGADOS')
      return
    with open(f'{self.__name}.csv', 'w', encoding='latin1') as file:
      file.write(self.__data_frame.to_csv())
    files.download(f'{self.__name}.csv')

##
## Instanciação
##
builder = CsvBuilder()
builder.load_data_frame(ofgl.get_data_frame(), 'PROCESSO')
builder.load_data_frame(sentencas.get_data_frame(), 'PROCESSO')
builder.set_name(ofgl.get_name())
builder.show_data_frame()


In [0]:
#@title **BAIXAR ARQUIVO `CSV`**

builder.download()