# Script para ler o Diário Oficial do Município de São Paulo

## Script BASE

### Importando as bibliotecas

In [1]:
from datetime import date, datetime, timedelta
from PyPDF2 import PdfFileReader, PdfFileMerger
from collections import OrderedDict
import os
import fitz as fz
import tabula
import pandas as pd
import scripts

### Obter data atual

In [2]:
def get_date_today():
    '''Obtém a data atual e retorna uma string: (YYYY-mm-dd)'''
    dt_now = date.today()
    if dt_now.weekday() == 0:
            dt_now = dt_now + timedelta(-2)
            dt_now = dt_now.strftime("%Y-%m-%d")
    else:
            dt_now = dt_now.strftime("%Y-%m-%d")
    
    return dt_now

dt_now = get_date_today()

### Criando o diretório SAVE_DIR

In [3]:
BASE_DIR = os.getcwd()
os.chdir(BASE_DIR)
try:
    os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
    print(f'### MAKEDIRS CONCLUÍDO - Verifique a pasta: {BASE_DIR}\\outputs_files\\{dt_now}')
except:
    print(f'### MAKEDIRS PASTA EXISTENTE - Verifique a pasta: {BASE_DIR}\\outputs_files\\{dt_now}')
    pass

### MAKEDIRS CONCLUÍDO - Verifique a pasta: c:\Projetos\scrapy_dom\outputs_files\2022-06-21


### Obter diretórios

In [4]:
def get_directories():
        '''Obtém  os diretórios de trabalho.
                return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES
        '''
        dt_now = get_date_today()
        BASE_DIR = os.getcwd()
        os.chdir(BASE_DIR)
        try:
                os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
        except:
                pass

        DATA_DIR = f'{BASE_DIR}\\querido-diario\\data_collection\\data\\3550308\\{str(dt_now)}'
        SAVE_DIR = f'{BASE_DIR}\\outputs_files\\{dt_now}'
        # DATA_FILE = SAVE_DIR + '\\' + [f for f in os.listdir(SAVE_DIR) if f.endswith("tsv")][0]
        DATA_FILES = os.listdir(DATA_DIR)
        DATA_FILES.sort()
        
        print(f'###   INFO:  DIRS   ###')
        print(f'  BASE_DIR:  {BASE_DIR}')
        print(f'  DATA_DIR:  {DATA_DIR}')
        print(f'  SAVE_DIR:  {SAVE_DIR}')
        #print(f' DATA_FILE:  {DATA_FILE}')
        print(f'DATA_FILES:  {DATA_FILES}')
        
        return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES

BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES = get_directories()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-21
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-21
DATA_FILES:  ['04c5f59f5d74c5662a7637d73d8c31b14aeb703c.pdf', '04f43a221f45a73e5a7c02cece0cac4c26f98be0.pdf', '060a907e10980493f930246ea6fc4c6cc0a54858.pdf', '0b1e60648bc9eb0ca361f2b04a13555a89dc8ed1.pdf', '0da4d782aac81c423822ca729317cde45444da27.pdf', '0ea788dd206da44abc2deb2bcce66f30cfab9c68.pdf', '10e3ff5f982ee0e8a51aebf399cec32855dc2b52.pdf', '1676d3f844da6faa225908e0340a51966529a12a.pdf', '16b0dc0f6207a639b9e2b7243c73abec045a4368.pdf', '19db38f4b99e730047df79ecd2fe39f43e48cce6.pdf', '1ac2ba5ac83cdeb5fce9d07447283d90cd588a66.pdf', '1ba869e81c08044a4542d2ad5e43e8b68084c2d0.pdf', '1d3543df81b64a8bc02342695ec71f0e2f4245fd.pdf', '236e0bb6f3d316d5fc995f8b70913f686e7e3960.pdf', '2602873a4168518fad7bb36160452a7eed80bfeb.pdf', '264f0cabae30f1de5fed6e4709c41829606c4099.pdf', '297f8

### Obtendo Informações do DOM

In [5]:
def get_info_dom():
        '''Obtém as informações do DOM.
                return YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM        
        '''
        dt_now = get_date_today()
        BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES = get_directories()
        YEAR_DOM = date.today().year - 1955
        HEAD_DOM ='São Paulo, ' + str(YEAR_DOM) + ' ('

        with fz.open(DATA_DIR +'\\'+ DATA_FILES[3]) as file:
                search_edition = ''
                for page in file:
                        search_edition += page.get_text()

        search_edition = search_edition[search_edition.find(HEAD_DOM):]
        EDITION_DOM = search_edition[search_edition.find('(')+1:search_edition.find(')')]
        HEAD_DOM ='São Paulo, ' + str(YEAR_DOM) + ' (' + EDITION_DOM + ')'
        PAGS_DOM = str(len(DATA_FILES))
        DOM = f'DOM_SP-{str(YEAR_DOM)}_{str(EDITION_DOM)}_{PAGS_DOM}_{str(dt_now)}'

        print('### INFO: DOM-SP ###')
        print(f'DATA: {dt_now}')
        print(f'PAGS: {PAGS_DOM}')
        print(f'HEAD: {HEAD_DOM}')
        print(f' DOM: {DOM}')
        
        return YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM,DOM

YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM,DOM = get_info_dom()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-21
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-21
DATA_FILES:  ['04c5f59f5d74c5662a7637d73d8c31b14aeb703c.pdf', '04f43a221f45a73e5a7c02cece0cac4c26f98be0.pdf', '060a907e10980493f930246ea6fc4c6cc0a54858.pdf', '0b1e60648bc9eb0ca361f2b04a13555a89dc8ed1.pdf', '0da4d782aac81c423822ca729317cde45444da27.pdf', '0ea788dd206da44abc2deb2bcce66f30cfab9c68.pdf', '10e3ff5f982ee0e8a51aebf399cec32855dc2b52.pdf', '1676d3f844da6faa225908e0340a51966529a12a.pdf', '16b0dc0f6207a639b9e2b7243c73abec045a4368.pdf', '19db38f4b99e730047df79ecd2fe39f43e48cce6.pdf', '1ac2ba5ac83cdeb5fce9d07447283d90cd588a66.pdf', '1ba869e81c08044a4542d2ad5e43e8b68084c2d0.pdf', '1d3543df81b64a8bc02342695ec71f0e2f4245fd.pdf', '236e0bb6f3d316d5fc995f8b70913f686e7e3960.pdf', '2602873a4168518fad7bb36160452a7eed80bfeb.pdf', '264f0cabae30f1de5fed6e4709c41829606c4099.pdf', '297f8

### Renomeando arquivos

In [6]:
contexts = ''
for file_name in DATA_FILES:
        print('Obtendo conteúdo de: ' + file_name)
        with fz.open(DATA_DIR +'\\'+ file_name) as file:
                context = ""
                for page in file:
                        context += '<pag>\n'+ page.get_text() + '</pag>\n'
                
                odd_page = "São Paulo, " + str(YEAR_DOM) + " (" + str(EDITION_DOM) + ") – "
                even_page = " – São Paulo, " + str(YEAR_DOM) + " (" + str(EDITION_DOM) + ")"

                if  context.find(odd_page) != -1:
                        num_page = context[context.find(odd_page)+21:context.find('\n',context.find(odd_page))]
                elif context.find(even_page) != -1:
                        num_page = context[context.find('\n',context.find(even_page)-5)+1:context.find(even_page)]
                elif context.find("D.O.C.; " + HEAD_DOM) != -1:
                        num_page = str(len(DATA_FILES))
                elif context.find("Ano "+ str(YEAR_DOM)) != -1:
                        num_page = '1'
                else:
                        num_page = ''

        contexts += context
        os.rename(f'{DATA_DIR}//{file_name}',f'{DATA_DIR}\\pg_{(num_page.strip()).zfill(3)}-{file_name}')

DATA_FILES = os.listdir(DATA_DIR)
DATA_FILES.sort()
print(f'### RENAME CONCLUÍDO - Verifique a pasta: {DATA_DIR} ###')

Obtendo conteúdo de: 04c5f59f5d74c5662a7637d73d8c31b14aeb703c.pdf
Obtendo conteúdo de: 04f43a221f45a73e5a7c02cece0cac4c26f98be0.pdf
Obtendo conteúdo de: 060a907e10980493f930246ea6fc4c6cc0a54858.pdf
Obtendo conteúdo de: 0b1e60648bc9eb0ca361f2b04a13555a89dc8ed1.pdf
Obtendo conteúdo de: 0da4d782aac81c423822ca729317cde45444da27.pdf
Obtendo conteúdo de: 0ea788dd206da44abc2deb2bcce66f30cfab9c68.pdf
Obtendo conteúdo de: 10e3ff5f982ee0e8a51aebf399cec32855dc2b52.pdf
Obtendo conteúdo de: 1676d3f844da6faa225908e0340a51966529a12a.pdf
Obtendo conteúdo de: 16b0dc0f6207a639b9e2b7243c73abec045a4368.pdf
Obtendo conteúdo de: 19db38f4b99e730047df79ecd2fe39f43e48cce6.pdf
Obtendo conteúdo de: 1ac2ba5ac83cdeb5fce9d07447283d90cd588a66.pdf
Obtendo conteúdo de: 1ba869e81c08044a4542d2ad5e43e8b68084c2d0.pdf
Obtendo conteúdo de: 1d3543df81b64a8bc02342695ec71f0e2f4245fd.pdf
Obtendo conteúdo de: 236e0bb6f3d316d5fc995f8b70913f686e7e3960.pdf
Obtendo conteúdo de: 2602873a4168518fad7bb36160452a7eed80bfeb.pdf
Obtendo co

### Juntando os arquivos

In [7]:
pdf_files = [f for f in os.listdir(DATA_DIR) if f.endswith("pdf")]
merger = PdfFileMerger()

for filename in pdf_files:
    print(f'Merge de: {filename}')
    merger.append(PdfFileReader(os.path.join(DATA_DIR, filename), "rb"))

merger.write(SAVE_DIR + "\\DOM_SP-"+ str(YEAR_DOM) + "_" + str(EDITION_DOM) + "_" + str(len(DATA_FILES)) + "_" + str(dt_now)+".pdf")
print(f'### MERGE CONCLUÍDO - Verifique a pasta: {SAVE_DIR} ###')

Merge de: pg_001-060a907e10980493f930246ea6fc4c6cc0a54858.pdf
Merge de: pg_002-0ea788dd206da44abc2deb2bcce66f30cfab9c68.pdf
Merge de: pg_003-758ab6007115b161cab9836b64e3e80bba1bf28a.pdf
Merge de: pg_004-cbd90751c27ce9a39c4cf3dbc3866c2ed8968559.pdf
Merge de: pg_005-419ba558434f02a393bd23a9e0c4bed317494ee6.pdf
Merge de: pg_006-6f405f3ba689c6075c7b78a5b2e5363f275c8514.pdf
Merge de: pg_007-76ac145d9e2f3ab81280890b471d0236da7f4cb0.pdf
Merge de: pg_008-cb18f1df6e4a25e83d31c57b8d16d1acee3845e8.pdf
Merge de: pg_009-d8357d680e2e0e99dea4ff096c0c183262f82ae7.pdf
Merge de: pg_010-04f43a221f45a73e5a7c02cece0cac4c26f98be0.pdf
Merge de: pg_011-5d03e7816cfc318fadca13a3637837a952264cee.pdf
Merge de: pg_012-77867d2a2042d9d8606baca98be3fc4d4aeab083.pdf
Merge de: pg_013-cbaddc18c8ff968675330282e8c8a1aef731dd20.pdf
Merge de: pg_014-04c5f59f5d74c5662a7637d73d8c31b14aeb703c.pdf
Merge de: pg_015-264f0cabae30f1de5fed6e4709c41829606c4099.pdf
Merge de: pg_016-92be945b613aec1de37c83ad17d013a35ac4f707.pdf
Merge de

### Convertendo para TSV FINAL

In [8]:
print('Convertendo arquivo para TSV')
area_text = [[42.849,28.172,1209.134,215.329],[42.849,216.314,1210.119,393.621],[42.849,395.591,1210.119,574.868],[42.849,576.838,1207.164,760.055]]
#tabula.convert_into_by_batch(SAVE_DIR,output_format="tsv",area=area_text,pages="all")
tabula.convert_into_by_batch(SAVE_DIR,output_format="tsv",area=area_text,pages="all")
print(f'### CONVERT CONCLUÍDO - Verifique a pasta: {SAVE_DIR} ###')

Convertendo arquivo para TSV


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 84: invalid continuation byte

In [9]:
def get_directories():
        '''Obtém  os diretórios de trabalho.
                return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES
        '''
        dt_now = get_date_today()
        BASE_DIR = os.getcwd()
        os.chdir(BASE_DIR)
        try:
                os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
        except:
                pass

        DATA_DIR = f'{BASE_DIR}\\querido-diario\\data_collection\\data\\3550308\\{str(dt_now)}'
        SAVE_DIR = f'{BASE_DIR}\\outputs_files\\{dt_now}'
        DATA_FILE = SAVE_DIR + '\\' + [f for f in os.listdir(SAVE_DIR) if f.endswith("tsv")][0]
        DATA_FILES = os.listdir(DATA_DIR)
        DATA_FILES.sort()
        
        print(f'###   INFO:  DIRS   ###')
        print(f'  BASE_DIR:  {BASE_DIR}')
        print(f'  DATA_DIR:  {DATA_DIR}')
        print(f'  SAVE_DIR:  {SAVE_DIR}')
        print(f' DATA_FILE:  {DATA_FILE}')
        print(f'DATA_FILES:  {DATA_FILES}')
        
        return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES

BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES = get_directories()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-21
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-21
 DATA_FILE:  c:\Projetos\scrapy_dom\outputs_files\2022-06-21\DOM_SP-67_114_128_2022-06-21.tsv
DATA_FILES:  ['pg_001-060a907e10980493f930246ea6fc4c6cc0a54858.pdf', 'pg_002-0ea788dd206da44abc2deb2bcce66f30cfab9c68.pdf', 'pg_003-758ab6007115b161cab9836b64e3e80bba1bf28a.pdf', 'pg_004-cbd90751c27ce9a39c4cf3dbc3866c2ed8968559.pdf', 'pg_005-419ba558434f02a393bd23a9e0c4bed317494ee6.pdf', 'pg_006-6f405f3ba689c6075c7b78a5b2e5363f275c8514.pdf', 'pg_007-76ac145d9e2f3ab81280890b471d0236da7f4cb0.pdf', 'pg_008-cb18f1df6e4a25e83d31c57b8d16d1acee3845e8.pdf', 'pg_009-d8357d680e2e0e99dea4ff096c0c183262f82ae7.pdf', 'pg_010-04f43a221f45a73e5a7c02cece0cac4c26f98be0.pdf', 'pg_011-5d03e7816cfc318fadca13a3637837a952264cee.pdf', 'pg_012-77867d2a2042d9d8606baca98be3fc4d4aeab083.pdf', 'pg_013-cbaddc18c8ff

### Salva arquivo final

In [10]:
def save_file(SAVE_DIR,CONTEXT,NAME_FILE,FORMAT='txt'):
        '''
                Cria um arquivo com o conteúdo e salva na pasta.
                        SAVE_DIR  : Diretório para salvar o conteúdo
                        CONTEXT   : Conteúdo a ser salvo
                        NAME_FILE : Nome do arquivo para ser salvo
                        FORMAT    : Formato do arquivo final
        '''

        with open(f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}","w",encoding='utf-8') as output_file:
                output_file.write(CONTEXT)
        
        return f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}"

In [11]:
def add_file(SAVE_DIR,CONTEXT,NAME_FILE,FORMAT='txt'):
        '''
                Cria um arquivo com o conteúdo e salva na pasta.
                        SAVE_DIR  : Diretório para salvar o conteúdo
                        CONTEXT   : Conteúdo a ser salvo
                        NAME_FILE : Nome do arquivo para ser salvo
                        FORMAT    : Formato do arquivo final
        '''
        print(NAME_FILE)
        with open(f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}","a",encoding='utf-8') as output_file:
                output_file.write(CONTEXT)
        return f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}"

### Definindo Diretórios

### Obtem contéudo do arquivo TSV

In [12]:
with open(DATA_FILE,'r') as file:
    conteudo = file.read()

## Scripts de Listagens

### Seção SERVIDORES

In [13]:
conteudo_alterado = conteudo

#### Limpeza dos dados

In [14]:
def limpa_tabulacao(conteudo_alterado):
    print('### LIMPA TABULAÇÃO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    qtd_len_inicial = len(conteudo_alterado)
    qtd_len_final = 0
    while qtd_len_final < qtd_len_inicial:
        qtd_len_inicial = len(conteudo_alterado)
        conteudo_alterado = conteudo_alterado.replace('\t',' ')
        conteudo_alterado = conteudo_alterado.replace('""','')
        conteudo_alterado = conteudo_alterado.replace(' \n','\n')
        conteudo_alterado = conteudo_alterado.replace('\n ','\n')
        conteudo_alterado = conteudo_alterado.replace('    ',' ')
        conteudo_alterado = conteudo_alterado.replace('   ',' ')
        conteudo_alterado = conteudo_alterado.replace('  ',' ')
        conteudo_alterado = conteudo_alterado.replace('-\n','')
        conteudo_alterado = conteudo_alterado.replace('\n- ',' - ')
        conteudo_alterado = conteudo_alterado.replace('\n– ',' – ')
        conteudo_alterado = conteudo_alterado.replace(',\n',', ')
        conteudo_alterado = conteudo_alterado.replace(', \n',', ')
        conteudo_alterado = conteudo_alterado.replace('/\n','/')
        conteudo_alterado = conteudo_alterado.upper()
        qtd_len_final = len(conteudo_alterado)
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [15]:
def normaliza_cabecalho(conteudo_alterado):
    print('### NORMALIZA CABEÇALHO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    qtd_len_inicial = len(conteudo_alterado)
    qtd_len_final = 0
    while qtd_len_final < qtd_len_inicial:
        qtd_len_inicial = len(conteudo_alterado)
        conteudo_alterado = conteudo_alterado.replace('E.H.','EH')
        conteudo_alterado = conteudo_alterado.replace('REG. FUNC.','RF')
        conteudo_alterado = conteudo_alterado.replace('REG.FUNC.','RF')
        conteudo_alterado = conteudo_alterado.replace('R.F.','RF')
        conteudo_alterado = conteudo_alterado.replace('E.H.','EH')
        conteudo_alterado = conteudo_alterado.replace(' VINC.','VINCULO')
        conteudo_alterado = conteudo_alterado.replace('DURAÇÃO','DURACAO')
        conteudo_alterado = conteudo_alterado.replace('A PARTIR DE','A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('A PARTIR','A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace(' ART.','ARTIGO')
        conteudo_alterado = conteudo_alterado.replace('PERÍODO','PERIODO')
        conteudo_alterado = conteudo_alterado.replace(' VÍNC.',' VINCULO')
        conteudo_alterado = conteudo_alterado.replace(' QTE DE DIAS ',' DIAS ')
        conteudo_alterado = conteudo_alterado.replace('RF. ','RF ')
        conteudo_alterado = conteudo_alterado.replace('RF NOME DIAS A PARTIR DE ARTIGO','RF NOME DIAS A_PARTIR_DE ARTIGO')
        conteudo_alterado = conteudo_alterado.replace('RF NOME A PARTIR DE','RF NOME A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF NOME DUR A PARTIR DE','RF NOME DURACAO A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF SERVIDOR CONTROLE NO','RF NOME CONTROLE_NO')
        conteudo_alterado = conteudo_alterado.replace('RF NOME CONTROLE NO','RF NOME CONTROLE_NO')
        conteudo_alterado = conteudo_alterado.replace('RF/V NOME DIAS/EXERCÍCIO A PARTIR DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF/VINCULO NOME DIAS A_PARTIR_DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF/VINC NOME NÍVEL CAT. SÍMBOLO A PARTIR DE','RF/VINCULO NOME NIVEL_CAT SIMBOLO A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF NOME CARGO','RF NOME CARGO')
        conteudo_alterado = conteudo_alterado.replace('RF V NOME EH A PARTIR DE MOTIVO','RF VINCULO NOME EH A_PARTIR_DE MOTIVO')
        conteudo_alterado = conteudo_alterado.replace('R.F/V. NOME QTE DIAS A_PARTIR_DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME CARGO A PARTIR DE','RF VINCULO NOME CARGO A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('NOME RF DATA HORARIO','NOME RF DATA_HORARIO')
        conteudo_alterado = conteudo_alterado.replace('NOME RF DATAHORARIO','NOME RF DATA_HORARIO')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO FUNCIONAL NOME A_PARTIR_DE','RF NOME A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO VINC. NOME NIIVEL CAT.','RF VINCULO NOME NIIVEL CAT')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO VINC. NOME NIIVEL CAT. SIM','RF VINCULO NOME NIVEL CAT SIM')
        conteudo_alterado = conteudo_alterado.replace('RF VINC NOME NIIVEL CAT','RF VINCULO NOME NIVEL CAT')
        conteudo_alterado = conteudo_alterado.replace('REG. FUNC. NOME CARGO REGIME EXP. AC. NO','RF NOME CARGO REGIME EXP_AC_NO')
        conteudo_alterado = conteudo_alterado.replace('EH RF NOME DURAÇÃO A PARTIR ART','EH RF NOME DURACAO A_PARTIR_DE ARTIGO')
        conteudo_alterado = conteudo_alterado.replace('EH RF/V NOME DURA- A_PARTIR_DE\nÇÃO','EH RF/VINCULO NOME DURACAO A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('EH RF/VC. NOME DUR. A_PARTIR_DEARTIGO','EH RF/VINCULO NOME DURACAO A_PARTIR_DE ARTIGO')
        conteudo_alterado = conteudo_alterado.replace('REG.FUNC. NOME DE PARA','RF NOME DE PARA')
        conteudo_alterado = conteudo_alterado.replace('RF NOME NOTA INDIVIDUAL NOTA INSTITUCIONAL NOTA FINAL','RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL')
        conteudo_alterado = conteudo_alterado.replace('RF NOME DURAÇÃO À PARTIR DE','RF NOME DURACAO A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF NOME PERCENTUAL BASE DE CÁLCULO DATA','RF NOME PERCENTUAL BASE_DE_CALCULO DATA')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUAN- A PARTIR DE FUNCIONAL TIDADE','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME: PERÍODO DE :','RF VINCULO NOME PERIODO_DE')
        conteudo_alterado = conteudo_alterado.replace('RF/V NOME CARGO N°DIAS','RF/VINCULO NOME CARGO DIAS')
        conteudo_alterado = conteudo_alterado.replace('NOME RF A PARTIR DE','NOME RF A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF/V NOME A PARTIR DE','RF/VINCULO NOME A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF: NOME: PROCESSO: E.H.:','RF NOME PROCESSO EH')
        conteudo_alterado = conteudo_alterado.replace('EH RF/V NOME DIAS A_PARTIR_DE\nDIAS','EH RF/VINCULO NOME DIAS A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF NOME E.H. A PARTIR','RF NOME E.H. A_PARTIR')
        conteudo_alterado = conteudo_alterado.replace('RF/V NOME DIAS A PARTIR DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME: PERIODO DE :','RF VINCULO NOME PERIODO')
        conteudo_alterado = conteudo_alterado.replace('RF NOME CONTROLE_NO ','RF NOME CONTROLE_NO\n')
        conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME CARGO A_PARTIR_DE ','RF VINCULO NOME CARGO A_PARTIR_DE\n')
        conteudo_alterado = conteudo_alterado.replace('RF/VINCULO NOME DIAS A_PARTIR_DE','RF/VINCULO NOME DIAS A_PARTIR_DE\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME CARGO REGIME EXP_AC_NO ','RF NOME CARGO REGIME EXP_AC_NO\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME DE PARA ','RF NOME DE PARA\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL ','RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME DURACAO A_PARTIR_DE ','RF NOME DURACAO A_PARTIR_DE\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME PERCENTUAL BASE_DE_CALCULO DATA ','RF NOME PERCENTUAL BASE_DE_CALCULO DATA\n')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUAN- A PARTIR DE FUNCIONAL TIDADE','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('NOME RF A_PARTIR_DE ','NOME RF A_PARTIR_DE\n')
        conteudo_alterado = conteudo_alterado.replace('RF/V NOME A_PARTIR_DE ','RF/V NOME A_PARTIR_DE\n')
        conteudo_alterado = conteudo_alterado.replace('RF NOME A_PARTIR_DE ','RF NOME A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUANTIDADE A_PARTIR_DE FUNCIONAL','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
        conteudo_alterado = conteudo_alterado.replace('RF/VÍNCULO NOME EXERCICIO NO DE DIAS A_PARTIR_DE','RF/VINCULO NOME EXERCICIO NO_DE_DIAS A_PARTIR_DE')
        qtd_len_final = len(conteudo_alterado)
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [16]:
def limpa_conjuncao_preposicao(conteudo_alterado):
    print('### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    qtd_len_inicial = len(conteudo_alterado)
    qtd_len_final = 0
    while qtd_len_final < qtd_len_inicial:
        qtd_len_inicial = len(conteudo_alterado)
        conteudo_alterado = conteudo_alterado.replace(' AO\n',' AO ')
        conteudo_alterado = conteudo_alterado.replace('\nAO ',' AO ')
        conteudo_alterado = conteudo_alterado.replace(' AOS\n',' AOS ')
        conteudo_alterado = conteudo_alterado.replace('\nAOS ',' AOS ')
        conteudo_alterado = conteudo_alterado.replace(' SÃO\n',' SÃO ')
        conteudo_alterado = conteudo_alterado.replace(' À\n',' À ')
        conteudo_alterado = conteudo_alterado.replace('\nÀ ',' À ')
        conteudo_alterado = conteudo_alterado.replace(' ÀS\n',' ÀS ')
        conteudo_alterado = conteudo_alterado.replace('\nÀS ',' ÀS ')
        conteudo_alterado = conteudo_alterado.replace(' AS\n',' AS ')
        conteudo_alterado = conteudo_alterado.replace('\nAS ',' AS ')
        conteudo_alterado = conteudo_alterado.replace(' E\n',' E ')
        conteudo_alterado = conteudo_alterado.replace(' O\n',' O ')
        conteudo_alterado = conteudo_alterado.replace(' OS\n',' OS ')
        conteudo_alterado = conteudo_alterado.replace('\nOS ',' OS ')
        conteudo_alterado = conteudo_alterado.replace(' OU\n',' OU ')
        conteudo_alterado = conteudo_alterado.replace('\nOU ',' OU ')
        conteudo_alterado = conteudo_alterado.replace(' DA\n',' DA ')
        conteudo_alterado = conteudo_alterado.replace('\nDA ',' DA ')
        conteudo_alterado = conteudo_alterado.replace(' DAS\n',' DAS ')
        conteudo_alterado = conteudo_alterado.replace('\nDAS ',' DAS ')
        conteudo_alterado = conteudo_alterado.replace(' DA(S)\n',' DA(S) ')
        conteudo_alterado = conteudo_alterado.replace('\nDA(S) ',' DA(S) ')
        conteudo_alterado = conteudo_alterado.replace(' DE\n',' DE ')
        conteudo_alterado = conteudo_alterado.replace('\nDE ',' DE ')
        conteudo_alterado = conteudo_alterado.replace(' DO\n',' DO ')
        conteudo_alterado = conteudo_alterado.replace('\nDO ',' DO ')
        conteudo_alterado = conteudo_alterado.replace(' DOS\n',' DOS ')
        conteudo_alterado = conteudo_alterado.replace('\nDOS ',' DOS ')
        conteudo_alterado = conteudo_alterado.replace(' DO(S)\n',' DO(S) ')
        conteudo_alterado = conteudo_alterado.replace('\nDO(S) ',' DO(S) ')
        conteudo_alterado = conteudo_alterado.replace(' COM\n',' COM ')
        conteudo_alterado = conteudo_alterado.replace('\nCOM ',' COM ')
        conteudo_alterado = conteudo_alterado.replace(' EM\n',' EM ')
        conteudo_alterado = conteudo_alterado.replace('\nEM ',' EM ')
        conteudo_alterado = conteudo_alterado.replace(' PARA\n',' PARA ')
        conteudo_alterado = conteudo_alterado.replace('\nPARA ',' PARA ')
        conteudo_alterado = conteudo_alterado.replace('\nP/ ',' PARA ')
        conteudo_alterado = conteudo_alterado.replace(' POR\n',' POR ')
        conteudo_alterado = conteudo_alterado.replace('\nPOR ',' POR ')
        conteudo_alterado = conteudo_alterado.replace('\nSEM ',' SEM ')
        conteudo_alterado = conteudo_alterado.replace(' SEM\n',' SEM ')
        conteudo_alterado = conteudo_alterado.replace(' NA\n',' NA ')
        conteudo_alterado = conteudo_alterado.replace(' NAS\n',' NAS ')
        conteudo_alterado = conteudo_alterado.replace('\nNAS ',' NAS ')
        conteudo_alterado = conteudo_alterado.replace(' NO\n',' NO ')
        conteudo_alterado = conteudo_alterado.replace('\nNO ',' NO ')
        conteudo_alterado = conteudo_alterado.replace(' NOS\n',' NOS ')
        conteudo_alterado = conteudo_alterado.replace('\nNOS ',' NOS ')
        qtd_len_final = len(conteudo_alterado)
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [17]:
def palavras_especificas(conteudo_alterado):
    print('### LIMPA PALAVRAS ESPECIFICAS ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    conteudo_alterado = conteudo_alterado.replace('A PARTIR DE','A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('– RECOMENDAÇÃO\n','– RECOMENDAÇÃO ')
    conteudo_alterado = conteudo_alterado.replace('REDE\nPÚBLICA','REDE PÚBLICA')
    conteudo_alterado = conteudo_alterado.replace('MÉDICO\nPERICIAL','MÉDICO PERICIAL')
    conteudo_alterado = conteudo_alterado.replace(' LICENÇA\nMÉDICA ',' LICENÇA MÉDICA ')
    conteudo_alterado = conteudo_alterado.replace('DA LEI\n','DA LEI ')
    conteudo_alterado = conteudo_alterado.replace(' P/ ',' PARA ')
    conteudo_alterado = conteudo_alterado.replace('ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA\n11/84','ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84')
    conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO\n','RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO ')
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [18]:
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = palavras_especificas(conteudo_alterado)
conteudo_alterado = normaliza_cabecalho(conteudo_alterado)
conteudo_alterado = limpa_conjuncao_preposicao(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = limpa_conjuncao_preposicao(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)

### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 3107502
Qtd de linhas depois: 3080048
### LIMPA PALAVRAS ESPECIFICAS ###
Qtd de linhas antes: 3080048
Qtd de linhas depois: 3080076
### NORMALIZA CABEÇALHO ###
Qtd de linhas antes: 3080076
Qtd de linhas depois: 3080731
### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###
Qtd de linhas antes: 3080731
Qtd de linhas depois: 3080733
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 3080733
Qtd de linhas depois: 3080724
### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###
Qtd de linhas antes: 3080724
Qtd de linhas depois: 3080724
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 3080724
Qtd de linhas depois: 3080723
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 3080723
Qtd de linhas depois: 3080723


In [19]:
# Localiza o início das seções SERVIDORES e CONCURSOS
sc_servidores = conteudo_alterado.find('\nSERVIDORES\n')
sc_concursos = conteudo_alterado.find('\nCONCURSOS\n')
print(f"SERVIRODRES: {sc_servidores} / CONCURSOS: {sc_concursos}")
conteudo_servidores = conteudo_alterado[sc_servidores:sc_concursos]
#conteudo_servidores = conteudo

SERVIRODRES: 810226 / CONCURSOS: 1191529


In [20]:
#print(conteudo_servidores)
save_file(SAVE_DIR,conteudo_servidores,'00-SECAO_SERVIDORES')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-21\\00-SECAO_SERVIDORES.txt'

In [21]:
#print(conteudo_servidores)

### Relação de Licença Médica

#### CONTEÚDO PRINCIPAL

In [138]:
conteudo_licenca_medica = conteudo_servidores

#### LICENÇAS MAPEADAS

In [139]:
licencas_mapeadas = {
    'RELAÇÃO DE ADICIONAIS POR TEMPO DE SERVIÇO NOS TERMOS DO ARTIGO 112, DA LEI 8989/79':                  'RF NOME QQ DATA EH',
    'RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO':                                     'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO :':                                   'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO':                                        'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO':                                      'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO EM GRAU DE RECURSO':                     'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO':                                      'RF NOME A_PARTIR_DE',
    'RELAÇÃO DE CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE':                                'RF NOME DATA_HORARIO',
    'RELAÇÃO DE CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE SALÁRIO FAMÍLIA':                                 'RF NOME DATA_HORARIO',
    'RELAÇÃO DE CONVOCADOS PARA PERÍCIA MÉDICA DE ISENÇÃO DE IMPOSTO DE RENDA':                             'RF NOME DATA_HORARIO',
    'RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA':                                                               'RF NOME A_PARTIR_DE ARTIGO',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ESPECIALISTA':                                      'RF NOME A_PARITR_DE',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ISENÇÃO DE IMPOSTO DE RENDA':                       'RF NOME A_PARITR_DE',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE':                     'RF NOME A_PARITR_DE',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE SALÁRIO FAMÍLIA':                      'RF NOME A_PARITR_DE',
    'RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79':                                        'RF NOME A_PARTIR_DE ARTIGO',
    'RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79':                                                'RF NOME DIAS A_PARTIR_DE ARTIGO',
    'RELAÇÃO DE LICENÇAS MÉDICAS RETIFICADAS EM FUNÇÃO DE:':                                                'RF NOME DIAS A_PARTIR_DE ARTIGO',
    'ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84':                                                 'RF NOME DIAS A_PARTIR_DE ARTIGO',
    'RELAÇÃO DE SERVIDORES COM ALTERAÇÕES NAS DATAS DE ATENDIMENTO PARA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO': 'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO':                       'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO MÉDICO PERICIAL':                                      'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO COM MÉDICO PERITO ESPECIALISTA':                       'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA JUNTA MÉDICA DE APOSENTADORIA POR INVALIDEZ':                    'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA PERÍCIA DE LICENÇA MÉDICA PRÓPRIO SERVIDOR - LONGA DURACAO':     'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES CONVOCADOS PARA RETORNO NA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO':            'NOME RF DATA_HORARIO',
    'RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE CAPACIDADE LABORATIVA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO':        'RF NOME',
    'RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE ESPECIALISTA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO DE READAPTADO':   'RF NOME',
    'SERVIDORES COM LAUDO DE READAPTAÇÃO FUNCIONAL DEFERIDO':                                               'RF NOME PERIODO',
    'LICENÇA NOJO':                                                                                         'RF NOME PERIODO',
    'LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO':                                               'RF NOME DIAS A_PARTIR_DE ARTIGO',
    'LICENÇAS MÉDICAS DE CURTA DURACAO':                                                                    ''
}

#### LICENÇAS MÉDICAS

In [140]:
rl_lm =  conteudo_licenca_medica.split('\n')
str_listagens = 'ID;LISTAGEM;INICIO;MAPEADA;QTD\n'
linha = 0
lin_anterior = 0
id = 0
listas = []

for line in rl_lm:
    mapeada = line in licencas_mapeadas
    if ('LICENÇAS MÉDICAS' in line or 'LICENÇA NOJO' in line) and not 'SEÇÃO DE LICENÇAS MÉDICAS' in line:
        id += 1
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        #print(line)
    elif ('RELAÇÃO DE' in line or 'RELAÇÃO DOS' in line) or 'RELAÇÃO DE LICENÇA MÉDICA' in line:
        id += 1
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        #print(line)
    elif 'SERVIDORES COM ' in line or 'NOMES DOS SERVIDORES' in line:
        id += 1
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        #print(line)
    elif 'HORÁRIO AMAMENTAÇÃO – DEFERIDO' in line or 'FÉRIAS DEFERIDAS' in line:
        id += 1
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        #print(line)
    elif linha == len(rl_lm) - 1:
        str_listagens += f'{qtd}'


    #if 'RF' in line or 'REG. FUN.' in line or 'REG.FUN.' in line:
        #print(line)
    linha += 1

#print(licencas)
#print(OrderedDict(licencas))
#print(listas)
print(f'\nTotal de listas: {len(listas)}')
print(str_listagens)
save_file(SAVE_DIR,str_listagens,'00-LISTAGENS_DOM','csv')


Total de listas: 48
ID;LISTAGEM;INICIO;MAPEADA;QTD
1;CIVIL, DA SECRETARIA MUNICIPAL DE SEGURANÇA URBANA, NO CARGO DE DIRETOR DE DIVISÃO TÉCNICA, REFERÊNCIA DAS 12, POR MOTIVO DE LICENÇA NOJO DO TITULAR O SENHOR ALEXANDRE ANDRADE DE SOUZA, RF : 569.444.2.;37;False;182
2;A DIVISÃO DE RECURSOS HUMANOS DA SECRETARIA MUNICIPAL DE SEGURANÇA URBANA DIVULGA A RELAÇÃO DOS SERVIDORES PARA CONCESSÃO DO HORÁRIO DE ESTUDANTE E AUSÊNCIA NOS DIAS DE REALIZAÇÃO DE PROVAS POR ATENDER AOS REQUISITOS EXIGIDOS NO DECRETO 58.073/18, CONFORME SEGUE :;219;False;16
3;LICENÇA NOJO;235;True;57
4;RELAÇÃO DE SERVIDORES CONVOCADOS PARA PERÍCIA DE LICENÇA MÉDICA PRÓPRIO SERVIDOR - LONGA DURACAO;292;True;507
5;RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO COM MÉDICO PERITO ESPECIALISTA;799;True;14
6;RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO;813;True;21
7;RELAÇÃO DE SERVIDORES CONVOCADOS PARA RETORNO NA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO;834;True;9
8;RELAÇÃO DE LICENÇA MÉ

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-21\\00-LISTAGENS_DOM.csv'

In [141]:
listagem = pd.DataFrame([linha.split(';') for linha in str_listagens.split('\n')],columns=str_listagens.split('\n')[0].split(';'),)
listagem.dtypes

ID          object
LISTAGEM    object
INICIO      object
MAPEADA     object
QTD         object
dtype: object

##### VALIDAR LISTA

In [142]:
def qual_script(RELACAO,SCRIPT,LISTA):
    LISTA_ARRUMADA = ''
    if SCRIPT == 'RF NOME QQ DATA EH':
        LISTA_ARRUMADA = RF_NOME_QQ_DATA_EH(RELACAO,LISTA)
    elif SCRIPT == 'NOME RF DATA_HORARIO':
        LISTA_ARRUMADA = NOME_RF_DATA_HORARIO(RELACAO,LISTA)
    elif SCRIPT == 'RF NOME DIAS A_PARTIR_DE ARTIGO':
        LISTA_ARRUMADA = RF_NOME_DIAS_A_PARTIR_DE_ARTIGO(RELACAO,LISTA)
    elif SCRIPT == 'RF NOME A_PARTIR_DE ARTIGO':
        LISTA_ARRUMADA = RF_NOME_A_PARTIR_DE_ARTIGO(RELACAO,LISTA)
    elif SCRIPT == 'RF NOME A_PARTIR_DE':
        LISTA_ARRUMADA = RF_NOME_A_PARTIR_DE(RELACAO,LISTA)
    elif SCRIPT == 'RF NOME PERIODO':
        LISTA_ARRUMADA = RF_NOME_PERIODO(RELACAO,LISTA)
    elif SCRIPT == 'RF NOME':
        LISTA_ARRUMADA = RF_NOME(RELACAO,LISTA)
    if not LISTA_ARRUMADA == '':
        RELACAO = str('_').join(RELACAO.replace('/','_').replace(',','_').replace(':','_').split(' '))
        add_file(SAVE_DIR,LISTA_ARRUMADA,RELACAO,'csv')
    return LISTA_ARRUMADA


##### RF NOME QQ DATA EH

In [143]:
def RF_NOME_QQ_DATA_EH(RELACAO,list_items):
    '''Listagem: RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[2:-3]
        4. QQ           : numeric()  s_item[-3]
        5. DATA         : date()     s_item[-2]
        6. EH           : str()      s_item[-1]
'''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)
    str_list_items = 'RF;VINC;NOME;QQ;DATA;EH;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        s_item = item.strip().split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 5:
            if len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric() and s_item[0].find('/') != -1:
                if len(s_item[0].split('/')) >= 2:
                    rf = s_item[0].split('/')[0]
                    vinc = s_item[0].split('/')[1]
                else:
                    rf = s_item[0].split('/')[0]
                    vinc = 0
                nome = str(' ').join(s_item[1:-3])
                str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-3])
            str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
            print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items


##### NOME RF DATA_HORARIO

In [144]:
def NOME_RF_DATA_HORARIO(RELACAO,list_items):
    '''
    COLUNAS:
        1. NOME             : numeric(7) s_item[0:-3]
        2. RF               : numeric(1) s_item[-3]
        3. DATA             : date()     s_item[-2]
        4. HORARIO          : numeric()  s_item[-1]
'''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'NOME;RF;DATA;HORARIO;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        s_item = item.strip().split(' ')
        #print(f'analise: {s_item}')
        if 'NOME RF DATA_HORARIO' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 5:
            if len(s_item) >= 5 and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric() and s_item[-1][0].isnumeric():
                nome = str(' ').join(s_item[0:-3])
                rf = s_item[-3]
                data = s_item[-2]
                horario = s_item[-1]
                str_list_items += f'{nome};{rf};{data};{horario};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[-1][0].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            nome = str(' ').join(s_item[0:-3])
            rf = s_item[-3]
            data = s_item[-2]
            horario = s_item[-1]
            str_list_items += f'{nome};{rf};{data};{horario};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items


##### RF NOME DIAS A_PARTIR_DE ARTIGO

In [145]:
def RF_NOME_DIAS_A_PARTIR_DE_ARTIGO(RELACAO,list_items):
    '''
        COLUNAS:
            1. RF           : numeric(7) s_item[0][0]
            2. VINC         : numeric(1) s_item[0][1]
            3. NOME         : str()      s_item[2:-3]
            4. DIAS         : numeric()  s_item[-3]
            5. A_PARTIR_DE  : date()     s_item[-2]
            6. ARTIGO       : str()      s_item[-1]
    '''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        s_item = item.strip().split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 6:
            if len(s_item) >= 6 and s_item[0][0].isnumeric() and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric():
                rf = s_item[0].split('/')[0]
                vinc = s_item[0].split('/')[1]
                nome = str(' ').join(s_item[1:-3])
                dias = s_item[-3]
                a_partir_de = s_item[-2]
                artigo = s_item[-1]
                str_list_items += f'{rf};{vinc};{nome};{dias};{a_partir_de};{artigo};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 5 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-3])
            dias = s_item[-3]
            a_partir_de = s_item[-2]
            artigo = s_item[-1]
            str_list_items += f'{rf};{vinc};{nome};{dias};{a_partir_de};{artigo};{SECRETARIA};{RELACAO};{DOM}\n'
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items

##### RF NOME A_PARTIR_DE ARTIGO

In [146]:
def RF_NOME_A_PARTIR_DE_ARTIGO(RELACAO,list_items):
    '''
        COLUNAS:
            1. RF           : numeric(7) s_item[0][0]
            2. VINC         : numeric(1) s_item[0][1]
            3. NOME         : str()      s_item[1:-2]
            4. A_PARTIR_DE  : date()     s_item[-2]
            5. ARTIGO       : str()      s_item[-1]
    '''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'RF;VINC;NOME;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        s_item = item.strip().split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 5:
            if len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-2][0].isnumeric():
                rf = s_item[0].split('/')[0]
                vinc = s_item[0].split('/')[1]
                nome = str(' ').join(s_item[1:-3])
                a_partir_de = s_item[-2]
                artigo = s_item[-1]
                str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{artigo};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-3])
            a_partir_de = s_item[-2]
            artigo = s_item[-1]
            str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{artigo};{SECRETARIA};{RELACAO};{DOM}\n'
            print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items

##### RF NOME A_PARTIR_DE

In [147]:
def RF_NOME_A_PARTIR_DE(RELACAO,list_items):
    '''
        COLUNAS:
            1. RF           : numeric(7) s_item[0][0]
            2. VINC         : numeric(1) s_item[0][1]
            3. NOME         : str()      s_item[1:-1]
            4. A_PARTIR_DE  : date()     s_item[-1]
    '''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'RF;VINC;NOME;A_PARTIR_DE;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        s_item = item.strip().split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 5:
            if len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
                if len(s_item[0].split('/')) >= 2:
                    rf = s_item[0].split('/')[0]
                    vinc = s_item[0].split('/')[1]
                else:
                    rf = s_item[0].split('/')[0]
                    vinc = 0
                nome = str(' ').join(s_item[1:-1])
                a_partir_de = s_item[-1]
                str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-1])
            a_partir_de = s_item[-1]
            str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items

##### RF NOME PERIODO

In [148]:
def RF_NOME_PERIODO(RELACAO,list_items):
    '''
        COLUNAS:
            1. RF           : numeric(7) s_item[0][0]
            2. VINC         : numeric(1) s_item[0][1]
            3. NOME         : str()      s_item[1:-1]
            4. A_PARTIR_DE  : date()     s_item[-1]
    '''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'RF;VINC;NOME;A_PARTIR_DE;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        #print(item)
        s_item = item.strip().replace('.','').split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 4:
            if len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[0].find('/') != -1:
                rf = s_item[0].split('/')[0]
                vinc = s_item[0].split('/')[1]
                nome = str(' ').join(s_item[1:-1])
                a_partir_de = s_item[-1]
                str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-1])
            a_partir_de = s_item[-1]
            str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items

##### RF NOME

In [149]:
def RF_NOME(RELACAO,list_items):
    '''
        COLUNAS:
            1. RF           : numeric(7) s_item[0][0]
            2. VINC         : numeric(1) s_item[0][1]
            3. NOME         : str()      s_item[-1]
    '''
    i = 0
    SECRETARIA = ''
    VALIDA_LINHA = ''
    print(RELACAO)

    str_list_items = 'RF;NOME;SECRETARIA;LISTA;DOM\n'

    for item in list_items:
        #print(item)
        s_item = item.strip().replace('.','').split(' ')
        #print(f'analise: {s_item}')
        if 'RF NOME' in item:
            SECRETARIA = list_items[i-1]
        elif len(s_item) >= 3:
            if len(s_item) >= 3 and s_item[0][0].isnumeric() and s_item[0].find('/') != -1:
                if len(s_item[0].split('/')) >= 2:
                    rf = s_item[0].split('/')[0]
                    vinc = s_item[0].split('/')[1]
                else:
                    rf = s_item[0].split('/')[0]
                    vinc = 0
                nome = str(' ').join(s_item[1:-1])
                str_list_items += f'{rf};{vinc};{nome};{SECRETARIA};{RELACAO};{DOM}\n'
                #print(str_list_items)
        elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
            linha = s_item
            VALIDA_LINHA = True
        elif VALIDA_LINHA == True:
            linha += f' {item}'
            s_item = item.split(' ')
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-1])
            a_partir_de = s_item[-1]
            str_list_items += f'{rf};{vinc};{nome};{a_partir_de};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
            VALIDA_LINHA = False
        i += 1
        #print(i)
    return str_list_items

##### PESQUISA LISTA

In [150]:
for lista in str_listagens.split('\n')[1:]:
    id = lista.split(';')[0]
    relacao = lista.split(';')[1]
    inicio = int(lista.split(';')[-3])
    #inicio = (lista.split(';')[-3])
    mapeada = lista.split(';')[-2]
    qtd = int(lista.split(';')[-1])
    #qtd = (lista.split(';')[-1])
    fim = int(inicio + qtd)
    #fim = (inicio + qtd)
    lista = rl_lm[inicio:fim]
    script = licencas_mapeadas.get(relacao)
    LISTA_ARRUMADA = qual_script(relacao,script,lista)
    

LICENÇA NOJO
LICENÇA_NOJO
RELAÇÃO DE SERVIDORES CONVOCADOS PARA PERÍCIA DE LICENÇA MÉDICA PRÓPRIO SERVIDOR - LONGA DURACAO
RELAÇÃO_DE_SERVIDORES_CONVOCADOS_PARA_PERÍCIA_DE_LICENÇA_MÉDICA_PRÓPRIO_SERVIDOR_-_LONGA_DURACAO
RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO COM MÉDICO PERITO ESPECIALISTA
RELAÇÃO_DE_SERVIDORES_CONVOCADOS_PARA_AVALIAÇÃO_COM_MÉDICO_PERITO_ESPECIALISTA
RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO
RELAÇÃO_DE_SERVIDORES_CONVOCADOS_PARA_AVALIAÇÃO_MÉDICA_DE_ACIDENTE_DE_TRABALHO
RELAÇÃO DE SERVIDORES CONVOCADOS PARA RETORNO NA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO
RELAÇÃO_DE_SERVIDORES_CONVOCADOS_PARA_RETORNO_NA_AVALIAÇÃO_MÉDICA_DE_ACIDENTE_DE_TRABALHO
RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79
RELAÇÃO_DE_LICENÇAS_MÉDICAS_NOS_TERMOS_DA_LEI_8989_79
RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79
RELAÇÃO_DE_LICENÇAS_MÉDICAS_NEGADAS_NOS_TERMOS_DA_LEI_8989_79
RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA
RELAÇÃO_DE_FA