### Transformação do pdf em uma unica string gigante

In [14]:
%load_ext autoreload
%autoreload 2
from tika import parser
import re
import pandas as pd
raw = parser.from_file('cadernos/2018_08_07.pdf')
print('Documento lido')

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
Documento lido


### Armazenamento dos processos em uma lista de strings

In [15]:
#remove quebras de páginas
reg_quebra_pagina = re.compile('(\\n){4}Publicação Oficial do Tribunal de Justiça do Estado de São Paulo - Lei Federal nº 11.419/06, art. 4º(\\n){2}Disponibilização:.*?(\\n){2}')
conteudo_pdf = reg_quebra_pagina.sub(' ', raw['content'])
#quebra o documento pdf em uma lista de processos onde cada elemento é o conteúdo de um processo
regex_processos = re.compile('(?<=Nº )\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}.*?(?=\n{2})', re.DOTALL)
lista_processos = regex_processos.findall(conteudo_pdf)

### Extração das entidades dos processos

In [16]:
regex_processo = re.compile(r'\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}', re.DOTALL)
regex_parte_ativa = re.compile(r'(?<=Apelante:).*?(?=-)|(?<=Requerente:).*?(?=-)|(?<=Agravante:).*?(?=-)', re.DOTALL)
regex_parte_passiva = re.compile(r'(?<=Apelad[o|a]:).*?(?=-)|(?<=Requeri[o|a]:).*?(?=-)|(?<=Agravad[o|a]:).*?(?=-)', re.DOTALL)
regex_parte_neutra = re.compile(r'(?<=Apd[o|a]\/Apte:).*?(?=-)|(?<=Apte\/Apd[o|a]:).*?(?=-)')
regex_advogados = re.compile(r'(?<=Advs:).*|(?<=Advogad[o|a]:).*', re.DOTALL)

lista_apelacoes_danos_morais = []

for i, processo in enumerate(lista_processos, 0):
    if re.search('- Apelação -', processo, 
                 re.MULTILINE) != None and re.search('danos morais', 
                                                     processo.lower(),
                                                     re.MULTILINE) != None:        
        try:            
            codigo_processo = regex_processo.search(processo).group(0)
            lista_ativos = regex_parte_ativa.findall(processo)
            lista_passivos = regex_parte_passiva.findall(processo)
            lista_advogados = regex_advogados.findall(processo)
            lista_neutros = regex_parte_neutra.findall(processo)

            conteudo = re.sub('\n', '', processo, re.MULTILINE)
            conteudo = re.sub(';', ' - ', conteudo, re.MULTILINE)
            conteudo = re.sub(r'\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}', '', conteudo, re.DOTALL)
            conteudo = re.sub(r'(Apelante:.*?- |Requerente:.*?- )', '', conteudo, re.DOTALL)
            conteudo = re.sub(r'(Apelad[o|a]:.*?- |Requeri[o|a]:.*?- )', '', conteudo, re.DOTALL)
            conteudo = re.sub(r'(Advs:.*|Advogad(o|a):.*)', '', conteudo, re.DOTALL)
            conteudo = re.sub(r'(Apd(o|a)\/Apte:).*?-|(Apte\/Apd(o|a):).*?-', '', conteudo, re.DOTALL)

            lista_hifen = conteudo.split(' - ')
            meio_processo = lista_hifen[1]
            natureza_processo = lista_hifen[2]
            comarca = lista_hifen[3]

            conteudo = re.sub('- ' + lista_hifen[1] + ' - ', '', conteudo, re.DOTALL)
            conteudo = re.sub(lista_hifen[2] + ' - ', '', conteudo, re.DOTALL)
            conteudo = re.sub(lista_hifen[3] + ' - ', '', conteudo, re.DOTALL)
            
            tupla = (codigo_processo, 
                     meio_processo, 
                     natureza_processo, 
                     comarca,
                     ' '.join(lista_ativos),
                     ' '.join(lista_passivos),                     
                     ' '.join(lista_neutros),
                     ' '.join(lista_advogados),
                     conteudo,
                     processo)
            lista_apelacoes_danos_morais.append(tupla)
        except:            
            import pdb; pdb.set_trace()
            print('erro na extração de entidades do processo {}'.format(e))
len(lista_apelacoes_danos_morais)

109

### Transformação dos dados em DataFrame

In [17]:
import pandas as pd
df = pd.DataFrame.from_records(lista_apelacoes_danos_morais)
df.columns = ['codigo_processo', 'meio_processo', 'natureza_processo', 'comarca','lista_ativos','lista_passivos', 'lista_neutros', 'lista_advogados','conteudo', 'texto_original']
df.to_excel('apelacoes_danos_morais_mvp_0.1.xls')
df

Unnamed: 0,codigo_processo,meio_processo,natureza_processo,comarca,lista_ativos,lista_passivos,lista_neutros,lista_advogados,conteudo,texto_original
0,1017652-30.2017.8.26.0224,Processo Digital. Petições para juntada devem ...,Apelação,Guarulhos,Ana Paula Vieira dos Santos \n,Internacional Shopping de Guarulhos,,Gabriel Augusto de Melo Souza (OAB: 333944/SP...,"Trata-se de Apelação Cível, vituperando a R. ...",1017652-30.2017.8.26.0224 - Processo Digital. ...
1,1021447-91.2018.8.26.0100,Processo Digital. Petições para juntada devem ...,Apelação,São Paulo,A. A. M. I. S.A.,J. I. \nK.,,Carlos Maximiano \nMafra de Laet (OAB: 104061...,Vistos. 1. Insuficiente o preparo recolhido p...,1021447-91.2018.8.26.0100 - Processo Digital. ...
2,0000876-31.2011.8.26.0240,Processo Físico,Apelação,Iepê,Caixa Seguradora S/A,Luiz Carlos \nda Silva Lucilene Pereira do ...,,,Ação de responsabilidade obrigacional securit...,0000876-31.2011.8.26.0240 - Processo Físico - ...
3,1036296-76.2015.8.26.0002,Processo Digital. Petições para juntada devem ...,Apelação,São Paulo,Brassica Empreendimentos S/A \n Bétula Empre...,Oswaldo Pereira Negrao Junior Antonia Masal...,,Luciana Nazima (OAB: 169451/SP) - \nJose Mari...,Apelação interposta contra a sentença de fls....,1036296-76.2015.8.26.0002 - Processo Digital. ...
4,1008894-85.2016.8.26.0066,Processo Digital. Petições para juntada devem ...,Apelação,Barretos,Joao Paulo Gabriel (Justiça \nGratuita),Renova Companhia Securitizadora de Créditos F...,ANECY SUMARA CENCIL TONHEIRO ROBIN TONHEIRO,Lucas Del Bianco de Menezes Carvalho (OAB: 33...,Voto nº 1116. Vistos. 1) Apelação interposta ...,1008894-85.2016.8.26.0066 - Processo Digital. ...
5,1010932-84.2015.8.26.0008,Processo Digital. Petições para juntada devem ...,Apelação,São Paulo,,Vip Transportes \nUrbanos Ltda,Companhia Mutual de Seguros,Marcelo Rodrigues Barreto Júnior (OAB: 213448...,Em Liquidação Extrajudicial - Voto nº 1119....,1010932-84.2015.8.26.0008 - Processo Digital. ...
6,1014218-69.2016.8.26.0482,Processo Digital. Petições para juntada devem ...,Apelação,Presidente Prudente,,,Viação Motta Ltda.,Leandro Martins Alves (OAB: 250151/SP) - Antô...,Voto nº 1117. Vistos. 1) A r. sentença de f...,1014218-69.2016.8.26.0482 - Processo Digital. ...
7,1001544-32.2016.8.26.0394,Processo Digital. Petições para juntada devem ...,Apelação,Nova Odessa,,Moto Snob Comercio e Representações Ltda,,Marcio Procopio Teixeira (OAB: 326520/SP) - J...,Vistos. A r. sentença de fls.107/111 julgou...,1001544-32.2016.8.26.0394 - Processo Digital. ...
8,1024324-04.2018.8.26.0100,Processo Digital. Petições para juntada devem ...,Apelação,São Paulo,,,Maria Stella Dias Bodra Itaú Unibanco S/A,Luciano Terreri Mendonça Junior (OAB: 246321/...,Vistos. Considerando que a autora ora apela...,1024324-04.2018.8.26.0100 - Processo Digital. ...
9,1115926-13.2017.8.26.0100,Processo Digital. Petições para juntada devem ...,Apelação,São Paulo,Yara Cristina da Rocha Silva \nGimenez Sorvet...,Bradesco AUTO/RE Cia de SEGUROS Banco Brade...,,Stella Sydow Cerny (OAB: 177527/SP) - Darcio ...,Vistos. Considerando que a autora ora apelant...,1115926-13.2017.8.26.0100 - Processo Digital. ...


In [None]:
def parsear_caderno_segunda(caderno):
    raw = parser.from_file(caderno)
    #remove quebras de páginas
    reg_quebra_pagina = re.compile('(\\n){4}Publicação Oficial do Tribunal de Justiça do Estado de São Paulo - Lei Federal nº 11.419/06, art. 4º(\\n){2}Disponibilização:.*?(\\n){2}')
    conteudo_pdf = reg_quebra_pagina.sub(' ', raw['content'])
    #quebra o documento pdf em uma lista de processos onde cada elemento é o conteúdo de um processo
    regex_processos = re.compile('(?<=Nº )\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}.*?(?=\n{2})', re.DOTALL)
    lista_processos = regex_processos.findall(conteudo_pdf)
    
    ##EXTRACAO DE ENTIDADES DOS PROCESSOS###
    
    regex_processo = re.compile(r'\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}', re.DOTALL)
    regex_parte_ativa = re.compile(r'(?<=Apelante:).*?(?=-)|(?<=Requerente:).*?(?=-)|(?<=Agravante:).*?(?=-)', re.DOTALL)
    regex_parte_passiva = re.compile(r'(?<=Apelad[o|a]:).*?(?=-)|(?<=Requeri[o|a]:).*?(?=-)|(?<=Agravad[o|a]:).*?(?=-)', re.DOTALL)
    regex_parte_neutra = re.compile(r'(?<=Apd[o|a]\/Apte:).*?(?=-)|(?<=Apte\/Apd[o|a]:).*?(?=-)')
    regex_advogados = re.compile(r'(?<=Advs:).*|(?<=Advogad[o|a]:).*', re.DOTALL)

    lista_apelacoes_danos_morais = []

    for i, processo in enumerate(lista_processos, 0):
        if re.search('- Apelação -', processo, 
                     re.MULTILINE) != None and re.search('danos morais', 
                                                         processo.lower(),
                                                         re.MULTILINE) != None:        
            try:            
                codigo_processo = regex_processo.search(processo).group(0)
                lista_ativos = regex_parte_ativa.findall(processo)
                lista_passivos = regex_parte_passiva.findall(processo)
                lista_advogados = regex_advogados.findall(processo)
                lista_neutros = regex_parte_neutra.findall(processo)

                conteudo = re.sub('\n', '', processo, re.MULTILINE)
                conteudo = re.sub(';', ' - ', conteudo, re.MULTILINE)
                conteudo = re.sub(r'\d{7}-\d{2}.\d{4}.\d.\d{2}.\d{4}', '', conteudo, re.DOTALL)
                conteudo = re.sub(r'(Apelante:.*?- |Requerente:.*?- )', '', conteudo, re.DOTALL)
                conteudo = re.sub(r'(Apelad[o|a]:.*?- |Requeri[o|a]:.*?- )', '', conteudo, re.DOTALL)
                conteudo = re.sub(r'(Advs:.*|Advogad(o|a):.*)', '', conteudo, re.DOTALL)
                conteudo = re.sub(r'(Apd(o|a)\/Apte:).*?-|(Apte\/Apd(o|a):).*?-', '', conteudo, re.DOTALL)

                lista_hifen = conteudo.split(' - ')
                meio_processo = lista_hifen[1]
                natureza_processo = lista_hifen[2]
                comarca = lista_hifen[3]

                conteudo = re.sub('- ' + lista_hifen[1] + ' - ', '', conteudo, re.DOTALL)
                conteudo = re.sub(lista_hifen[2] + ' - ', '', conteudo, re.DOTALL)
                conteudo = re.sub(lista_hifen[3] + ' - ', '', conteudo, re.DOTALL)

                tupla = (codigo_processo, 
                         meio_processo, 
                         natureza_processo, 
                         comarca,
                         ' '.join(lista_ativos),
                         ' '.join(lista_passivos),                     
                         ' '.join(lista_neutros),
                         ' '.join(lista_advogados),
                         conteudo,
                         processo)
                lista_apelacoes_danos_morais.append(tupla)
            except:            
                print('erro na extração de entidades do processo {}'.format(codigo_processo))
    
    df = pd.DataFrame.from_records(lista_apelacoes_danos_morais)
    df.columns = ['codigo_processo', 'meio_processo', 'natureza_processo', 'comarca','lista_ativos','lista_passivos', 'lista_neutros', 'lista_advogados','conteudo', 'texto_original']
    return df