# TJCE Classifier

In this example we will classify processes from the TJCE that are saved in the data directory.

# Loading data

In [13]:
import os


class DataLoader:
    
    def __init__(self, path):
        self.path = path
        self.data = []
        
    def get_subdirs(self):
        for dir_name in os.listdir(self.path):
            try:
                int(dir_name)
                sub_dir_path = os.path.join(self.path, dir_name)
                yield sub_dir_path
            except ValueError:
                pass
            
    def get_sentenca(self, dir_path, andamento_id):
        resultados_path = os.path.join(dir_path, 'classificacoes_resultados.txt')
        with open(resultados_path) as resultados_file:
            andamento_row = filter(
                lambda row: andamento_id in row, [row for row in resultados_file]
            )
        andamento_class = list(andamento_row)[0].split(' - ')[1]
        return andamento_class
            
    def get_data(self, dir_path, row):
        andamento_id, is_sentenca = row.rstrip().split(' - ')
        andamento_path = os.path.join(dir_path, '{}.txt'.format(andamento_id))
        andamento_text = ''
        
        with open(andamento_path) as andamento_file:
            andamento_text = andamento_file.read()
        
        if eval(is_sentenca):
            andamento_class = self.get_sentenca(dir_path, andamento_id).rstrip()
        else:
            andamento_class = 'Sem sentença'
            
        return {'data': andamento_text, 'target': andamento_class}
        
    def load(self):
        for sub_dir_path in self.get_subdirs():
            class_file_path = os.path.join(sub_dir_path, 'classificacoes_sentenca.txt')
            with open(class_file_path) as class_file:
                for row in class_file:
                    data = self.get_data(sub_dir_path, row)
                    self.data.append(data)

In [14]:
loader = DataLoader(path='data')
loader.load()

In [15]:
loader.data

[{'data': '  Concluso para Sentença', 'target': 'Sem sentença'},
 {'data': '  Certidão emitida', 'target': 'Sem sentença'},
 {'data': '  Processo Reativado', 'target': 'Sem sentença'},
 {'data': '  Juntada de Aviso de Recebimento (AR)', 'target': 'Sem sentença'},
 {'data': '  Expedição de Carta', 'target': 'Sem sentença'},
 {'data': '  Despacho/Decisão disponibilizado no Diário de Justiça Eletrônico\n\t\t\t\n\t\t \n\t\t \n\t\t \n\t\t\n\t\t\tRelação :0126/2016\nData da Publicação: 10/06/2016\nData da Disponibilização: 09/06/2016\nNúmero do Diário: 1456\nPágina: 239-245',
  'target': 'Sem sentença'},
 {'data': '  Encaminhado edital/relação para publicação\n\t\t\t\n\t\t \n\t\t \n\t\t \n\t\t\n\t\t\tRelação: 0126/2016\nTeor do ato: R.H.Cuidam os presentes autos de ação de cobrança de diferença de indenização relativa ao seguro DPVAT. Processo em ordem. Partes legitimas e devidamente representadas. A inicial apresentada pelo autor contém todos os requisitos previstos no art. 319 do novo Códi