In [None]:
import os
import json
import re

In [None]:
function_names = {
    'GEPLAT': r'GEPLAT',
    'COPROD': r'COPROD',
    'COMAN': r'((COMAN)|(COMANDANTE))( RESP((\.)|(ONS(A|.)VEL)?))?',
    'COEMB': r'COEMB',
    'EMB': r' (^O)EMB',
    'SUPROD': r'(SUPROD)|(SUP\.?(( ?)|( ?DE ))PROD((\.?)|(U(CA)|(..))O))',
    'SUFAC': r'SUFAC',
    'SUAP': r'SUAP',
    'TO-FAC': r'TO-?FAC',
    'TO-PROD': r'TO-?PROD',
    'COFAC': r'COFAC',
    'SUMEC': r'SUMEC',
    'SUMAN': r'SUMAN',
    'SUEIN': r'SUEIN',
    'GIOP': r'GIOP',
    'BARCO DE APOIO': r'BARCO( DE APOIO)?',
    'FISCAL': r'(FISCA((L)|(IS))( ?\(?BR\)?)?)',
    'FISCAL LIDER': r'(FISCA((L)|(IS)) )?LIDER(ES)?',
    'FISCAL GDS': r'(FISCA((L)|(IS)) )?G\.?D\.?S\.?',
    'OIM': r'O\.?I\.?M\.?',
    'TCOPERA': r'TCOPERA',
    'OP PROD': r'(OP(\.? )PROD)|(OP((\.?)|(ERADOR))(( ?)|( ?DE ))PRODU((CA)|(..))O)',
    'OPERADOR SCR': r'OP((\.)|(ERADOR(A)?)) ?S\.?C\.?R\.?',
    'OP FAC': r'OP((ERADOR(ES)?)|(\.?))( ?| ?DE )FAC((ILIDADES)|(\.?))',
    'OPERADOR': r'(OPERADOR((\(?A\)?)|(ES))?)|(( |^)OP\.?(( ?:)|( )))|(( |^)T\.?O\.?P?\.?( ?:| ))|(( |^)OPERA((CA)|(..))O)',
    'COFAC': r'COFAC',
    'COTUR': r'COTUR',
    'TEC OPERACAO': r'(T(\.?|EC(\.|NICO)?)(( ?)|( ?DE ))OP(ERA((CA)|(..))O|\.?))|(TO)',
    'TEC OPERACAO PPER': r'((T(\.?|EC(\.|NICO)?)(( ?)|( ?DE ))OP((ERACAO)|(\.?)))|(OPERACAO)) ( EM)? ?PPER-?1?',
    'TEC OPERACAO EDIVIT': r'((T(\.?|EC(\.|NICO)?)(( ?)|( ?DE ))OP((ERACAO)|(\.?)))|(OPERACAO)) EDIVIT',
    'TEC OPERACAO UTGC': r'((T(\.?|EC(\.|NICO)?)(( ?)|( ?DE ))OP((ERACAO)|(\.?)))|(OPERACAO)) U\.?T\.?G\.?C\.?',
    'TBM': r'((TBM)|(T\.B\.M\.)) ?(O&M)?',
    'SUP TBM': r'SUP\.? ?T\.?B\.?M\.?',
    'SUP PMNT-1': r'SUP((\.?)|(ERVISOR))(( ?)|( ?EM ))PMNT-?1',
    'TEC ENFERMAGEM': r'TEC((.?)|(NICO))(( ?)|( ?DE ))ENFERMAGEM',
    'TEC SEGURANCA': r'TEC((.?)|(NICO))(( ?)|( ?DE ))SEG((\.?)|(URANCA))',
    'COPERF': r'COPERF',
    'OIL RECOVERY BOAT': r'OIL RECOVERY BOAT',
    'ASSINATURA': r'ASSINATURA',
    'APOIO OPERACIONAL': r'APOIO OPERACIONAL',
    'COPLAT': r'COPLAT',
    'SCR': r'S\.?C\.?R\.?',
    'COOP': r'COOP',
    'RESPONSIBLE': r'RESPONSIBLE',
    'SITOP': r'SITOP',
    'OFICIAL DE NAUTICA': r'OFICIAL DE N(A|.)UTICA',
    'SUP DE OPERACAO': r'(SUOP)|(SUP((\.?)|(ERVISOR))(( ?)|( ?DE ))OP(\.|ERA((CA)|(..))O))',
    'COMAM': r'COMAM',
    'CHEFE DE MAQUINAS': r'CHEFE DE M(A|.)QUINAS',
    'CHEFE DE SEGURANCA': r'CHEFE DE SEGURAN(C|.)A',
    'IMEDIATO': r'IMEDIATO',
    'GERENTE OP-N': r'GER((\.)|(ENTE)) ?OP-?N',
    'SUPERVISORES EFAL': r'SUP(\.|ERVISOR(ES)?) EFAL( E EFC)?',
    'SUPERVISORES SM': r'SUP(\.|ERVISOR(ES)?) SM-?[0-9]*( E IBU)?',
    'SUPERVISOR EM PPER-1': r'SUP(((\.)|(ERVISOR(ES)?)))?( EM)? PPER-?1?',
    'SUPERVISOR': r'SUP((\.)|(ERVIS((OR(ES)?)|(AO))))'
}

In [None]:
def normalize_value(text):
    # subtitui "-"s por "-"
    text = re.sub('-+', '-', text)
    # subtitui "="s por "="
    text = re.sub('=+', '=', text)
    # subtitui "_"s por espaço
    text = re.sub('_+', ' ', text)
    # subtitui "="s por espaço
    text = re.sub('=+', ' ', text)
    # subtitui "."s por "."
    text = re.sub('(\.)+', '.', text)
    # remove multiplos \r
    text = re.sub('\r+', '\r', text)
    # remove multiplos \t
    text = re.sub('\t+', '\t', text)
    # \t por espaço
    text = re.sub('\t', ' ', text)
    # \r por espaço
    text = re.sub('\r', ' ', text)
    # subtitui " "s por " "
    text = re.sub(' +', ' ', text)
    # subtitui ".:"s por ":"
    text = re.sub('\.:', ':', text)
    # subtitui "( *):( *)"s por ":"
    text = re.sub('( *):( *)', ':', text)
    # subtitui "( *)=>( *)"s por ":"
    text = re.sub('( *)=>( *)', ':', text)
    # subtitui ( *)/( *) por "/"
    text = re.sub('( *)/( *)', '/', text)
    # subtitui ". "por "."
    text = re.sub('( *)\.( *)', '.', text)
    # substirui " - " por ":"
    text = re.sub('( +)-( +)', ':', text)
    # substitui " | " por espaço
    text = re.sub('( *)\|+( *)', ' ', text)
    # substitui "-" por espaço
    # text = re.sub('-', ' ', text)
    # upper case
    text = text.upper()
    # substitui acentuação de vogais
    text = re.sub('[ÁÀÂÃÄ]', 'A', text)
    text = re.sub('[ÉÈÊẼË]', 'E', text)
    text = re.sub('[ÍÌÎĨÏ]', 'I', text)
    text = re.sub('[ÓÒÔÕÖ]', 'O', text)
    text = re.sub('[ÚÙÛŨÜ]', 'U', text)
    text = re.sub('Ç', 'C', text)

    return text.strip().strip('.')

def normalize_keys(json_obj):
    global function_names
    new_json_obj = {}
    #print(json_obj)
    for json_key in json_obj:
        #print(json_key)
        #print(normalize_value(json_key))
        for regex_key in function_names:
            key_match = re.fullmatch(function_names[regex_key], normalize_value(json_key.upper()))
            if key_match is not None:
                #print(regex_key)
                new_json_obj[regex_key] = [normalize_value(value.upper()) for value in json_obj[json_key]]
    return new_json_obj

In [None]:
def compare_list_values(manual, automatic):
    #print(manual)
    diff_man_auto = {}
    diff_auto_man = {}
    for key in manual:
        #print('>>',key)
        if manual[key] != []:
            diff_man_auto[key] = set(manual[key]).difference(set(automatic[key]))
            diff_auto_man[key] = set(automatic[key]).difference(set(manual[key]))
    return (diff_man_auto, diff_auto_man)            

In [None]:
extracted_files = os.listdir('../SITOP/SITOP_EXTRACTED_FILES')

In [None]:
f_errors = 0
s_errors = 0
for file_name in extracted_files:
    print('[i] FILE: {}'.format(file_name))
    ext_json_obj = json.load(open('../SITOP/SITOP_EXTRACTED_FILES/{}'.format(file_name), 'r'))
    manual_ext_json_obj = json.load(open('../SITOP/SITOP_MANUAL_EXTRACTED_FILES/{}'.format(file_name), 'r'))
    #print(manual_ext_json_obj)
    new_man_ext_json_obj = normalize_keys(manual_ext_json_obj)
    #print(new_man_ext_json_obj)
    (diff_man_auto, diff_auto_man) = compare_list_values(new_man_ext_json_obj, ext_json_obj['staff'])
    for key in diff_man_auto:
        if len(diff_man_auto[key]) > 0:
            print('\t[F]', key, '=>', diff_man_auto[key])
            f_errors += 1
    for key in diff_auto_man:
        if len(diff_auto_man[key]) > 0:
            print('\t[S]', key, '=>', diff_auto_man[key])
            s_errors += 1
print('Erros de falta = {}'.format(f_errors))
print('Erros de sobra = {}'.format(s_errors))