# Script para ler o Diário Oficial do Município de São Paulo

## Script BASE

### Importando as bibliotecas

In [1]:
from datetime import date, datetime, timedelta
from PyPDF2 import PdfFileReader, PdfFileMerger
from collections import OrderedDict
import os
import fitz as fz
import tabula
import scripts

### Obter data atual

In [2]:
def get_date_today():
    '''Obtém a data atual e retorna uma string: (YYYY-mm-dd)'''
    dt_now = date.today()
    if dt_now.weekday() == 0:
            dt_now = dt_now + timedelta(-2)
            dt_now = dt_now.strftime("%Y-%m-%d")
    else:
            dt_now = dt_now.strftime("%Y-%m-%d")
    
    return dt_now

dt_now = get_date_today()

### Criando o diretório SAVE_DIR

In [3]:
BASE_DIR = os.getcwd()
os.chdir(BASE_DIR)
try:
    os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
    print(f'### MAKEDIRS CONCLUÍDO - Verifique a pasta: {BASE_DIR}\\outputs_files\\{dt_now}')
except:
    print(f'### MAKEDIRS PASTA EXISTENTE - Verifique a pasta: {BASE_DIR}\\outputs_files\\{dt_now}')
    pass

### MAKEDIRS CONCLUÍDO - Verifique a pasta: c:\Projetos\scrapy_dom\outputs_files\2022-06-07


### Obter diretórios

In [4]:
def get_directories():
        '''Obtém  os diretórios de trabalho.
                return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES
        '''
        dt_now = get_date_today()
        BASE_DIR = os.getcwd()
        os.chdir(BASE_DIR)
        try:
                os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
        except:
                pass

        DATA_DIR = f'{BASE_DIR}\\querido-diario\\data_collection\\data\\3550308\\{str(dt_now)}'
        SAVE_DIR = f'{BASE_DIR}\\outputs_files\\{dt_now}'
        # DATA_FILE = SAVE_DIR + '\\' + [f for f in os.listdir(SAVE_DIR) if f.endswith("tsv")][0]
        DATA_FILES = os.listdir(DATA_DIR)
        DATA_FILES.sort()
        
        print(f'###   INFO:  DIRS   ###')
        print(f'  BASE_DIR:  {BASE_DIR}')
        print(f'  DATA_DIR:  {DATA_DIR}')
        print(f'  SAVE_DIR:  {SAVE_DIR}')
        #print(f' DATA_FILE:  {DATA_FILE}')
        print(f'DATA_FILES:  {DATA_FILES}')
        
        return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES

BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES = get_directories()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-07
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-07
DATA_FILES:  ['00c6a607b9d9844ec95886b6f267267d848c51b9.pdf', '031489688866ed8f179e1b3c710bf80ff32453b2.pdf', '06eab3545a586a457833f300db4ce3e9be8ea1d5.pdf', '073d6652cf644eb30ce22b3da61284fcae151557.pdf', '090406c758b218f2f5145b5f3bbeb5dfdaac0ea9.pdf', '0a70f7e4445c515e3f755191ec6e082f9ffa7d7d.pdf', '0e2fbe39202fd56db325e12a754e23e26a449cea.pdf', '0e5449fff82183e837072b32493a9a255233c545.pdf', '0ea0ce5acd20e765a4d82bd24ae441dad9ef614c.pdf', '0fa8a67e4ad5ecb5cad4dc147e8aa290d5b92c65.pdf', '10e7bf249b1aee27700d62ef9fb315d07151422c.pdf', '134822c290b2446e443acec63f5222b1ecb58575.pdf', '15dd3e150cc53a254d7686b896777d2ebd385756.pdf', '18b5f61fd6f5349c588f399ea3a0c33b08cce48c.pdf', '1bc1936e873dd4c912f989d808d9e044c40e22b5.pdf', '1f21c01678a7d2729af976aeacddbad0cc4ca350.pdf', '1f225

### Obtendo Informações do DOM

In [5]:
def get_info_dom():
        '''Obtém as informações do DOM.
                return YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM        
        '''
        dt_now = get_date_today()
        BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILES = get_directories()
        YEAR_DOM = date.today().year - 1955
        HEAD_DOM ='São Paulo, ' + str(YEAR_DOM) + ' ('

        with fz.open(DATA_DIR +'\\'+ DATA_FILES[3]) as file:
                search_edition = ''
                for page in file:
                        search_edition += page.get_text()

        search_edition = search_edition[search_edition.find(HEAD_DOM):]
        EDITION_DOM = search_edition[search_edition.find('(')+1:search_edition.find(')')]
        HEAD_DOM ='São Paulo, ' + str(YEAR_DOM) + ' (' + EDITION_DOM + ')'
        PAGS_DOM = str(len(DATA_FILES))
        DOM = f'DOM_SP-{str(YEAR_DOM)}_{str(EDITION_DOM)}_{PAGS_DOM}_{str(dt_now)}'

        print('### INFO: DOM-SP ###')
        print(f'DATA: {dt_now}')
        print(f'PAGS: {PAGS_DOM}')
        print(f'HEAD: {HEAD_DOM}')
        print(f' DOM: {DOM}')
        
        return YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM,DOM

YEAR_DOM,EDITION_DOM,PAGS_DOM,HEAD_DOM,DOM = get_info_dom()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-07
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-07
DATA_FILES:  ['00c6a607b9d9844ec95886b6f267267d848c51b9.pdf', '031489688866ed8f179e1b3c710bf80ff32453b2.pdf', '06eab3545a586a457833f300db4ce3e9be8ea1d5.pdf', '073d6652cf644eb30ce22b3da61284fcae151557.pdf', '090406c758b218f2f5145b5f3bbeb5dfdaac0ea9.pdf', '0a70f7e4445c515e3f755191ec6e082f9ffa7d7d.pdf', '0e2fbe39202fd56db325e12a754e23e26a449cea.pdf', '0e5449fff82183e837072b32493a9a255233c545.pdf', '0ea0ce5acd20e765a4d82bd24ae441dad9ef614c.pdf', '0fa8a67e4ad5ecb5cad4dc147e8aa290d5b92c65.pdf', '10e7bf249b1aee27700d62ef9fb315d07151422c.pdf', '134822c290b2446e443acec63f5222b1ecb58575.pdf', '15dd3e150cc53a254d7686b896777d2ebd385756.pdf', '18b5f61fd6f5349c588f399ea3a0c33b08cce48c.pdf', '1bc1936e873dd4c912f989d808d9e044c40e22b5.pdf', '1f21c01678a7d2729af976aeacddbad0cc4ca350.pdf', '1f225

### Renomeando arquivos

In [6]:
contexts = ''
for file_name in DATA_FILES:
        print('Obtendo conteúdo de: ' + file_name)
        with fz.open(DATA_DIR +'\\'+ file_name) as file:
                context = ""
                for page in file:
                        context += '<pag>\n'+ page.get_text() + '</pag>\n'
                
                odd_page = "São Paulo, " + str(YEAR_DOM) + " (" + str(EDITION_DOM) + ") – "
                even_page = " – São Paulo, " + str(YEAR_DOM) + " (" + str(EDITION_DOM) + ")"

                if  context.find(odd_page) != -1:
                        num_page = context[context.find(odd_page)+21:context.find('\n',context.find(odd_page))]
                elif context.find(even_page) != -1:
                        num_page = context[context.find('\n',context.find(even_page)-5)+1:context.find(even_page)]
                elif context.find("D.O.C.; " + HEAD_DOM) != -1:
                        num_page = str(len(DATA_FILES))
                elif context.find("Ano "+ str(YEAR_DOM)) != -1:
                        num_page = '1'
                else:
                        num_page = ''

        contexts += context
        os.rename(f'{DATA_DIR}//{file_name}',f'{DATA_DIR}\\pg_{(num_page.strip()).zfill(3)}-{file_name}')

DATA_FILES = os.listdir(DATA_DIR)
DATA_FILES.sort()
print(f'### RENAME CONCLUÍDO - Verifique a pasta: {DATA_DIR} ###')

Obtendo conteúdo de: 00c6a607b9d9844ec95886b6f267267d848c51b9.pdf
Obtendo conteúdo de: 031489688866ed8f179e1b3c710bf80ff32453b2.pdf
Obtendo conteúdo de: 06eab3545a586a457833f300db4ce3e9be8ea1d5.pdf
Obtendo conteúdo de: 073d6652cf644eb30ce22b3da61284fcae151557.pdf
Obtendo conteúdo de: 090406c758b218f2f5145b5f3bbeb5dfdaac0ea9.pdf
Obtendo conteúdo de: 0a70f7e4445c515e3f755191ec6e082f9ffa7d7d.pdf
Obtendo conteúdo de: 0e2fbe39202fd56db325e12a754e23e26a449cea.pdf
Obtendo conteúdo de: 0e5449fff82183e837072b32493a9a255233c545.pdf
Obtendo conteúdo de: 0ea0ce5acd20e765a4d82bd24ae441dad9ef614c.pdf
Obtendo conteúdo de: 0fa8a67e4ad5ecb5cad4dc147e8aa290d5b92c65.pdf
Obtendo conteúdo de: 10e7bf249b1aee27700d62ef9fb315d07151422c.pdf
Obtendo conteúdo de: 134822c290b2446e443acec63f5222b1ecb58575.pdf
Obtendo conteúdo de: 15dd3e150cc53a254d7686b896777d2ebd385756.pdf
Obtendo conteúdo de: 18b5f61fd6f5349c588f399ea3a0c33b08cce48c.pdf
Obtendo conteúdo de: 1bc1936e873dd4c912f989d808d9e044c40e22b5.pdf
Obtendo co

### Juntando os arquivos

In [7]:
pdf_files = [f for f in os.listdir(DATA_DIR) if f.endswith("pdf")]
merger = PdfFileMerger()

for filename in pdf_files:
    print(f'Merge de: {filename}')
    merger.append(PdfFileReader(os.path.join(DATA_DIR, filename), "rb"))

merger.write(SAVE_DIR + "\\DOM_SP-"+ str(YEAR_DOM) + "_" + str(EDITION_DOM) + "_" + str(len(DATA_FILES)) + "_" + str(dt_now)+".pdf")
print(f'### MERGE CONCLUÍDO - Verifique a pasta: {SAVE_DIR} ###')

Merge de: pg_001-79a55ba0d2060d87424c6ebf9d939a56ddbc98c1.pdf
Merge de: pg_002-c93a89e5a27bf4ff108e3f582b9dcec984d9ea79.pdf
Merge de: pg_003-2955b396ce478e72b70804b059496773a21b619a.pdf
Merge de: pg_004-6c2128af4f7d14510ee20a76ce6bbfaf51d8861d.pdf
Merge de: pg_005-3a381cb6346708cc9adf26ad6e442b5e35542f8a.pdf
Merge de: pg_006-38ce5040f92c86f0165b72b04b49268baaecfb5b.pdf
Merge de: pg_007-1f21c01678a7d2729af976aeacddbad0cc4ca350.pdf
Merge de: pg_008-4c5f98e087fcb3ac1b0772620944a5aa667ca122.pdf
Merge de: pg_009-d128151438fa72b8e683a7412c024934966d6665.pdf
Merge de: pg_010-e8e9daa1126c8f3d842f75d0aea494766d812222.pdf
Merge de: pg_011-073d6652cf644eb30ce22b3da61284fcae151557.pdf
Merge de: pg_012-2ece73ab6e29241c42748f6a55e8a621693e2e2f.pdf
Merge de: pg_013-0e5449fff82183e837072b32493a9a255233c545.pdf
Merge de: pg_014-b3012c3aa5441e3dd0751aa20684ee45478ab3ea.pdf
Merge de: pg_015-f68cbbe511bb5fd56488648544eb3a5fccc9bad6.pdf
Merge de: pg_016-e2c730746ca93ff00ab6d86a42c55a61d9a42391.pdf
Merge de

### Convertendo para TSV FINAL

In [11]:
print('Convertendo arquivo para TSV')
area_text = [[42.849,28.172,1209.134,215.329],[42.849,216.314,1210.119,393.621],[42.849,395.591,1210.119,574.868],[42.849,576.838,1207.164,760.055]]
#tabula.convert_into_by_batch(SAVE_DIR,output_format="tsv",area=area_text,pages="all")
tabula.convert_into_by_batch(SAVE_DIR,output_format="tsv",area=area_text,pages="all")
print(f'### CONVERT CONCLUÍDO - Verifique a pasta: {SAVE_DIR} ###')

SyntaxError: positional argument follows keyword argument (227286918.py, line 4)

In [12]:
def get_directories():
        '''Obtém  os diretórios de trabalho.
                return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES
        '''
        dt_now = get_date_today()
        BASE_DIR = os.getcwd()
        os.chdir(BASE_DIR)
        try:
                os.makedirs(f'{BASE_DIR}\\outputs_files\\{dt_now}')
        except:
                pass

        DATA_DIR = f'{BASE_DIR}\\querido-diario\\data_collection\\data\\3550308\\{str(dt_now)}'
        SAVE_DIR = f'{BASE_DIR}\\outputs_files\\{dt_now}'
        DATA_FILE = SAVE_DIR + '\\' + [f for f in os.listdir(SAVE_DIR) if f.endswith("tsv")][0]
        DATA_FILES = os.listdir(DATA_DIR)
        DATA_FILES.sort()
        
        print(f'###   INFO:  DIRS   ###')
        print(f'  BASE_DIR:  {BASE_DIR}')
        print(f'  DATA_DIR:  {DATA_DIR}')
        print(f'  SAVE_DIR:  {SAVE_DIR}')
        print(f' DATA_FILE:  {DATA_FILE}')
        print(f'DATA_FILES:  {DATA_FILES}')
        
        return BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES

BASE_DIR,DATA_DIR,SAVE_DIR,DATA_FILE,DATA_FILES = get_directories()

###   INFO:  DIRS   ###
  BASE_DIR:  c:\Projetos\scrapy_dom
  DATA_DIR:  c:\Projetos\scrapy_dom\querido-diario\data_collection\data\3550308\2022-06-07
  SAVE_DIR:  c:\Projetos\scrapy_dom\outputs_files\2022-06-07
 DATA_FILE:  c:\Projetos\scrapy_dom\outputs_files\2022-06-07\DOM_SP-67_106_132_2022-06-07.tsv
DATA_FILES:  ['pg_001-79a55ba0d2060d87424c6ebf9d939a56ddbc98c1.pdf', 'pg_002-c93a89e5a27bf4ff108e3f582b9dcec984d9ea79.pdf', 'pg_003-2955b396ce478e72b70804b059496773a21b619a.pdf', 'pg_004-6c2128af4f7d14510ee20a76ce6bbfaf51d8861d.pdf', 'pg_005-3a381cb6346708cc9adf26ad6e442b5e35542f8a.pdf', 'pg_006-38ce5040f92c86f0165b72b04b49268baaecfb5b.pdf', 'pg_007-1f21c01678a7d2729af976aeacddbad0cc4ca350.pdf', 'pg_008-4c5f98e087fcb3ac1b0772620944a5aa667ca122.pdf', 'pg_009-d128151438fa72b8e683a7412c024934966d6665.pdf', 'pg_010-e8e9daa1126c8f3d842f75d0aea494766d812222.pdf', 'pg_011-073d6652cf644eb30ce22b3da61284fcae151557.pdf', 'pg_012-2ece73ab6e29241c42748f6a55e8a621693e2e2f.pdf', 'pg_013-0e5449fff821

### Salva arquivo final

In [41]:
def save_file(SAVE_DIR,CONTEXT,NAME_FILE,FORMAT='txt'):
        '''
                Cria um arquivo com o conteúdo e salva na pasta.
                        SAVE_DIR  : Diretório para salvar o conteúdo
                        CONTEXT   : Conteúdo a ser salvo
                        NAME_FILE : Nome do arquivo para ser salvo
                        FORMAT    : Formato do arquivo final
        '''

        with open(f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}","w",encoding='utf8') as output_file:
                output_file.write(CONTEXT)
        
        return f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}"

In [42]:
def add_file(SAVE_DIR,CONTEXT,NAME_FILE,FORMAT='txt'):
        '''
                Cria um arquivo com o conteúdo e salva na pasta.
                        SAVE_DIR  : Diretório para salvar o conteúdo
                        CONTEXT   : Conteúdo a ser salvo
                        NAME_FILE : Nome do arquivo para ser salvo
                        FORMAT    : Formato do arquivo final
        '''

        with open(f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}","a",encoding='utf8') as output_file:
                output_file.write(CONTEXT)
        
        return f"{SAVE_DIR}\\{NAME_FILE}.{FORMAT}"

### Definindo Diretórios

### Obtem contéudo do arquivo TSV

In [44]:
with open(DATA_FILE,'r') as file:
    conteudo = file.read()

## Scripts de Listagens

### Seção SERVIDORES

In [51]:
conteudo_alterado = conteudo

#### Limpeza dos dados

In [60]:
def limpa_tabulacao(conteudo_alterado):
    print('### LIMPA TABULAÇÃO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    conteudo_alterado = conteudo_alterado.replace('\t',' ')
    conteudo_alterado = conteudo_alterado.replace('""','')
    conteudo_alterado = conteudo_alterado.replace(' \n','\n')
    conteudo_alterado = conteudo_alterado.replace('\n ','\n')
    conteudo_alterado = conteudo_alterado.replace('    ',' ')
    conteudo_alterado = conteudo_alterado.replace('   ',' ')
    conteudo_alterado = conteudo_alterado.replace('  ',' ')
    conteudo_alterado = conteudo_alterado.replace('-\n','')
    conteudo_alterado = conteudo_alterado.replace(',\n',', ')
    conteudo_alterado = conteudo_alterado.replace(', \n',', ')
    conteudo_alterado = conteudo_alterado.replace('/\n','/')
    conteudo_alterado = conteudo_alterado.upper()
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [61]:
def normaliza_cabecalho(conteudo_alterado):
    print('### NORMALIZA CABEÇALHO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    conteudo_alterado = conteudo_alterado.replace('E.H.','EH')
    conteudo_alterado = conteudo_alterado.replace('REG. FUNC.','RF')
    conteudo_alterado = conteudo_alterado.replace('REG.FUNC.','RF')
    conteudo_alterado = conteudo_alterado.replace('R.F.','RF')
    conteudo_alterado = conteudo_alterado.replace('E.H.','EH')
    conteudo_alterado = conteudo_alterado.replace(' VINC.','VINCULO')
    conteudo_alterado = conteudo_alterado.replace('DURAÇÃO','DURACAO')
    conteudo_alterado = conteudo_alterado.replace('A PARTIR DE','A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('A PARTIR','A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace(' ART.','ARTIGO')
    conteudo_alterado = conteudo_alterado.replace('PERÍODO','PERIODO')
    conteudo_alterado = conteudo_alterado.replace(' VÍNC.',' VINCULO')
    conteudo_alterado = conteudo_alterado.replace(' QTE DE DIAS ',' DIAS ')
    conteudo_alterado = conteudo_alterado.replace('RF. ','RF ')
    conteudo_alterado = conteudo_alterado.replace('RF NOME DIAS A PARTIR DE ARTIGO','RF NOME DIAS A_PARTIR_DE ARTIGO')
    conteudo_alterado = conteudo_alterado.replace('RF NOME A PARTIR DE','RF NOME A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF NOME DUR A PARTIR DE','RF NOME DURACAO A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF SERVIDOR CONTROLE NO','RF NOME CONTROLE_NO')
    conteudo_alterado = conteudo_alterado.replace('RF NOME CONTROLE NO','RF NOME CONTROLE_NO')
    conteudo_alterado = conteudo_alterado.replace('RF/V NOME DIAS/EXERCÍCIO A PARTIR DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF/VINCULO NOME DIAS A_PARTIR_DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF/VINC NOME NÍVEL CAT. SÍMBOLO A PARTIR DE','RF/VINCULO NOME NIVEL_CAT SIMBOLO A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF NOME CARGO','RF NOME CARGO')
    conteudo_alterado = conteudo_alterado.replace('RF V NOME EH A PARTIR DE MOTIVO','RF VINCULO NOME EH A_PARTIR_DE MOTIVO')
    conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME CARGO A PARTIR DE','RF VINCULO NOME CARGO A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('NOME RF DATA HORARIO','NOME RF DATA_HORARIO')
    conteudo_alterado = conteudo_alterado.replace('NOME RF DATAHORARIO','NOME RF DATA_HORARIO')
    conteudo_alterado = conteudo_alterado.replace('REGISTRO VINC. NOME NIIVEL CAT.','RF VINCULO NOME NIIVEL CAT')
    conteudo_alterado = conteudo_alterado.replace('REGISTRO VINC. NOME NIIVEL CAT. SIM','RF VINCULO NOME NIVEL CAT SIM')
    conteudo_alterado = conteudo_alterado.replace('RF VINC NOME NIIVEL CAT','RF VINCULO NOME NIVEL CAT')
    conteudo_alterado = conteudo_alterado.replace('REG. FUNC. NOME CARGO REGIME EXP. AC. NO','RF NOME CARGO REGIME EXP_AC_NO')
    conteudo_alterado = conteudo_alterado.replace('EH RF NOME DURAÇÃO A PARTIR ART','EH RF NOME DURACAO A_PARTIR_DE ARTIGO')
    conteudo_alterado = conteudo_alterado.replace('REG.FUNC. NOME DE PARA','RF NOME DE PARA')
    conteudo_alterado = conteudo_alterado.replace('RF NOME NOTA INDIVIDUAL NOTA INSTITUCIONAL NOTA FINAL','RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL')
    conteudo_alterado = conteudo_alterado.replace('RF NOME DURAÇÃO À PARTIR DE','RF NOME DURACAO A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF NOME PERCENTUAL BASE DE CÁLCULO DATA','RF NOME PERCENTUAL BASE_DE_CALCULO DATA')
    conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUAN- A PARTIR DE FUNCIONAL TIDADE','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME: PERÍODO DE :','RF VINCULO NOME PERIODO_DE')
    conteudo_alterado = conteudo_alterado.replace('RF/V NOME CARGO N°DIAS','RF/VINCULO NOME CARGO DIAS')
    conteudo_alterado = conteudo_alterado.replace('NOME RF A PARTIR DE','NOME RF A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF/V NOME A PARTIR DE','RF/VINCULO NOME A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF: NOME: PROCESSO: E.H.:','RF NOME PROCESSO EH')
    conteudo_alterado = conteudo_alterado.replace('EH RF/V NOME DIAS A PARTIR DE','EH RF/VINCULO NOME DIAS A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF NOME E.H. A PARTIR','RF NOME E.H. A_PARTIR')
    conteudo_alterado = conteudo_alterado.replace('RF/V NOME DIAS A PARTIR DE','RF/VINCULO NOME DIAS A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME: PERIODO DE :','RF VINCULO NOME PERIODO')
    conteudo_alterado = conteudo_alterado.replace('RF NOME CONTROLE_NO ','RF NOME CONTROLE_NO\n')
    conteudo_alterado = conteudo_alterado.replace('RF VINCULO NOME CARGO A_PARTIR_DE ','RF VINCULO NOME CARGO A_PARTIR_DE\n')
    conteudo_alterado = conteudo_alterado.replace('RF/VINCULO NOME DIAS A_PARTIR_DE','RF/VINCULO NOME DIAS A_PARTIR_DE\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME CARGO REGIME EXP_AC_NO ','RF NOME CARGO REGIME EXP_AC_NO\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME DE PARA ','RF NOME DE PARA\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL ','RF NOME NOTA_INDIVIDUAL NOTA_INSTITUCIONAL NOTA_FINAL\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME DURACAO A_PARTIR_DE ','RF NOME DURACAO A_PARTIR_DE\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME PERCENTUAL BASE_DE_CALCULO DATA ','RF NOME PERCENTUAL BASE_DE_CALCULO DATA\n')
    conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUAN- A PARTIR DE FUNCIONAL TIDADE','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('NOME RF A_PARTIR_DE ','NOME RF A_PARTIR_DE\n')
    conteudo_alterado = conteudo_alterado.replace('RF/V NOME A_PARTIR_DE ','RF/V NOME A_PARTIR_DE\n')
    conteudo_alterado = conteudo_alterado.replace('RF NOME A_PARTIR_DE ','RF NOME A_PARTIR_DE')
    conteudo_alterado = conteudo_alterado.replace('REGISTRO NOME CARGO EXERCÍCIO QUANTIDADE A_PARTIR_DE FUNCIONAL','RF NOME CARGO EXERCICIO QUANTIDADE A_PARTIR_DE')
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [62]:
def limpa_conjuncao_preposicao(conteudo_alterado):
    print('### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###')
    print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
    conteudo_alterado = conteudo_alterado.replace(' AO\n',' AO ')
    conteudo_alterado = conteudo_alterado.replace('\nAO ',' AO ')
    conteudo_alterado = conteudo_alterado.replace(' AOS\n',' AOS ')
    conteudo_alterado = conteudo_alterado.replace('\nAOS ',' AOS ')
    conteudo_alterado = conteudo_alterado.replace(' SÃO\n',' SÃO ')
    conteudo_alterado = conteudo_alterado.replace(' À\n',' À ')
    conteudo_alterado = conteudo_alterado.replace('\nÀ ',' À ')
    conteudo_alterado = conteudo_alterado.replace(' ÀS\n',' ÀS ')
    conteudo_alterado = conteudo_alterado.replace('\nÀS ',' ÀS ')
    conteudo_alterado = conteudo_alterado.replace(' AS\n',' AS ')
    conteudo_alterado = conteudo_alterado.replace('\nAS ',' AS ')
    conteudo_alterado = conteudo_alterado.replace(' E\n',' E ')
    conteudo_alterado = conteudo_alterado.replace(' O\n',' O ')
    conteudo_alterado = conteudo_alterado.replace(' OS\n',' OS ')
    conteudo_alterado = conteudo_alterado.replace('\nOS ',' OS ')
    conteudo_alterado = conteudo_alterado.replace(' DA\n',' DA ')
    conteudo_alterado = conteudo_alterado.replace('\nDA ',' DA ')
    conteudo_alterado = conteudo_alterado.replace(' DAS\n',' DAS ')
    conteudo_alterado = conteudo_alterado.replace('\nDAS ',' DAS ')
    conteudo_alterado = conteudo_alterado.replace(' DA(S)\n',' DA(S) ')
    conteudo_alterado = conteudo_alterado.replace('\nDA(S) ',' DA(S) ')
    conteudo_alterado = conteudo_alterado.replace(' DE\n',' DE ')
    conteudo_alterado = conteudo_alterado.replace('\nDE ',' DE ')
    conteudo_alterado = conteudo_alterado.replace(' DO\n',' DO ')
    conteudo_alterado = conteudo_alterado.replace('\nDO ',' DO ')
    conteudo_alterado = conteudo_alterado.replace(' DOS\n',' DOS ')
    conteudo_alterado = conteudo_alterado.replace('\nDOS ',' DOS ')
    conteudo_alterado = conteudo_alterado.replace(' DO(S)\n',' DO(S) ')
    conteudo_alterado = conteudo_alterado.replace('\nDO(S) ',' DO(S) ')
    conteudo_alterado = conteudo_alterado.replace(' COM\n',' COM ')
    conteudo_alterado = conteudo_alterado.replace('\nCOM ',' COM ')
    conteudo_alterado = conteudo_alterado.replace(' EM\n',' EM ')
    conteudo_alterado = conteudo_alterado.replace('\nEM ',' EM ')
    conteudo_alterado = conteudo_alterado.replace(' PARA\n',' PARA ')
    conteudo_alterado = conteudo_alterado.replace('\nPARA ',' PARA ')
    conteudo_alterado = conteudo_alterado.replace(' P/ ',' PARA ')
    conteudo_alterado = conteudo_alterado.replace(' POR\n',' POR ')
    conteudo_alterado = conteudo_alterado.replace(' NA\n',' NA ')
    conteudo_alterado = conteudo_alterado.replace(' NAS\n',' NAS ')
    conteudo_alterado = conteudo_alterado.replace('\nNAS ',' NAS ')
    conteudo_alterado = conteudo_alterado.replace(' NO\n',' NO ')
    conteudo_alterado = conteudo_alterado.replace(' NOS\n',' NOS ')
    conteudo_alterado = conteudo_alterado.replace('\nNOS ',' NOS ')
    print(f'Qtd de linhas depois: {len(conteudo_alterado)}')
    return conteudo_alterado

In [65]:
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = limpa_conjuncao_preposicao(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = normaliza_cabecalho(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)
conteudo_alterado = limpa_conjuncao_preposicao(conteudo_alterado)
conteudo_alterado = limpa_tabulacao(conteudo_alterado)

### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### NORMALIZA CABEÇALHO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### LIMPA CONJUNÇÃO E PREPOSIÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697
### LIMPA TABULAÇÃO ###
Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697


In [66]:
print(f'Qtd de linhas antes: {len(conteudo_alterado)}')
conteudo_alterado = conteudo_alterado.replace('FUNDAÇÃO PAULISTANA DE EDUCAÇÃO\nTECNOLOGIA E CULTURA','FUNDAÇÃO PAULISTANA DE EDUCAÇÃO TECNOLOGIA E CULTURA')
conteudo_alterado = conteudo_alterado.replace('HOSPITAL DO SERVIDOR\nPÚBLICO MUNICIPAL','HOSPITAL DO SERVIDOR PÚBLICO MUNICIPAL')
conteudo_alterado = conteudo_alterado.replace('SECRETARIA MUNICIPAL DE ASSIST E DESENV\nSOCIAL','SECRETARIA MUNICIPAL DE ASSIST E DESENV SOCIAL')
conteudo_alterado = conteudo_alterado.replace('SECRETARIA MUNICIPAL DE INFRAESTRUTURA\nURBANA E OB','SECRETARIA MUNICIPAL DE INFRAESTRUTURA URBANA E OB')
conteudo_alterado = conteudo_alterado.replace('SECRETARIA MUNICIPAL DE SEGURANCA\nURBANA','SECRETARIA MUNICIPAL DE SEGURANCA URBANA')
conteudo_alterado = conteudo_alterado.replace('SECRETARIA MUNICIPAL DO VERDE E DO MEIO\nAMBIENTE','SECRETARIA MUNICIPAL DO VERDE E DO MEIO AMBIENTE')
conteudo_alterado = conteudo_alterado.replace('COORDENADORIA DE ADMINISTRAÇÃO\nE FINANÇAS','COORDENADORIA DE ADMINISTRAÇÃO E FINANÇAS')
conteudo_alterado = conteudo_alterado.replace('LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS\nEM GRAU DE RECURSO','LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS\nNOS TERMOS DA LEI 8989/79','RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE FALTAS DOS CONVOCADOS\nPARA AVALIAÇÃO DE ESPECIALISTA','RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ESPECIALISTA')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE FALTAS DOS CONVOCADOS\nPARA JUNTA MÉDICA PARA FINS DE PENSÃO\nPOR MORTE','RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE ALTA DE AT/DT RETIFICADA EM\nFUNÇÃO DE:','RELAÇÃO DE ALTA DE AT/DT RETIFICADA EM FUNÇÃO DE:')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE SERVIDORES SUBMETIDOS À\nAVALIAÇÃO DE ESPECIALISTA\nCOM CAPACIDADE LABORATIVA PARA A SUA\nFUNÇÃO ORIGINAL','RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE ESPECIALISTA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO ORIGINAL')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO\nDEFERIDO','RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO')
conteudo_alterado = conteudo_alterado.replace('LICENÇAS MÉDICAS DE CURTA DURAÇÃO\nDOC ','LICENÇAS MÉDICAS DE CURTA DURAÇÃO DOC ')
conteudo_alterado = conteudo_alterado.replace('ACI-\nDENTE','ACIDENTE')
conteudo_alterado = conteudo_alterado.replace('CANCELA-\nDAS','CANCELADAS')
conteudo_alterado = conteudo_alterado.replace('RETIFICA-\nDAS','RETIFICADAS')
conteudo_alterado = conteudo_alterado.replace('RECO-\nMENDAÇÃO','RECOMENDAÇÃO')
conteudo_alterado = conteudo_alterado.replace('RECOMENDAÇÃO\nD','RECOMENDAÇÃO D')
conteudo_alterado = conteudo_alterado.replace('LICENÇAS MÉDICAS\nFACE','LICENÇAS MÉDICAS FACE')
conteudo_alterado = conteudo_alterado.replace('LICENÇAS MÉDICAS PARA SERVIDORES SOB REGIME GERAL DA\nPREVIDÊNCIA SOCIAL\nCONCEDIDA DE ACORDO COM O DETERMINADO NA PORTARIA NO\n','LICENÇAS MÉDICAS PARA SERVIDORES SOB REGIME GERAL DA PREVIDÊNCIA SOCIAL CONCEDIDA DE ACORDO COM O DETERMINADO NA PORTARIA NO ')
conteudo_alterado = conteudo_alterado.replace('LICENÇA\nMÉDICA','LICENÇA MÉDICA')
conteudo_alterado = conteudo_alterado.replace('DECRETO NO\n','DECRETO NO')
conteudo_alterado = conteudo_alterado.replace('PUBLICADO\nNO','PUBLICADO NO')
conteudo_alterado = conteudo_alterado.replace('\nCONCEDIDA',' CONCEDIDA')
conteudo_alterado = conteudo_alterado.replace('\nCONCEDIDAS ',' CONCEDIDAS ')
conteudo_alterado = conteudo_alterado.replace(' RETIFICA- DAS ',' RETIFICADAS ')
conteudo_alterado = conteudo_alterado.replace('PORTARIA\n','PORTARIA ')
conteudo_alterado = conteudo_alterado.replace(' TRABALHO\nINDEFERIDO',' TRABALHO INDEFERIDO')
conteudo_alterado = conteudo_alterado.replace(' DOC\nSEI ',' DOC SEI ')
conteudo_alterado = conteudo_alterado.replace(' DA LEI\n',' DA LEI ')
conteudo_alterado = conteudo_alterado.replace(' NOMES DOS SERVIDORES ','\nNOMES DOS SERVIDORES ')
conteudo_alterado = conteudo_alterado.replace(' RELAÇÃO DOS','\nRELAÇÃO DOS')
conteudo_alterado = conteudo_alterado.replace('RELAÇÃO DOS ESTAGIÁRIOS CONTRATADOS E DESLIGADOS,','RELAÇÃO DOS ESTAGIÁRIOS CONTRATADOS E DESLIGADOS\n')
print(f'Qtd de linhas depois: {len(conteudo_alterado)}')


Qtd de linhas antes: 2804697
Qtd de linhas depois: 2804697


In [67]:
# Localiza o início das seções SERVIDORES e CONCURSOS
sc_servidores = conteudo_alterado.find('\nSERVIDORES\n')
sc_concursos = conteudo_alterado.find('\nCONCURSOS\n')
print(f"SERVIRODRES: {sc_servidores} / CONCURSOS: {sc_concursos}")
conteudo_servidores = conteudo_alterado[sc_servidores:sc_concursos]
#conteudo_servidores = conteudo

SERVIRODRES: 795213 / CONCURSOS: 1085595


In [68]:
#print(conteudo_servidores)
save_file(SAVE_DIR,conteudo_servidores,'00-SECAO_SERVIDORES')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-07\\00-SECAO_SERVIDORES.txt'

In [69]:
#print(conteudo_servidores)

### Relação de Licença Médica

#### CONTEÚDO PRINCIPAL

In [70]:
conteudo_licenca_medica = conteudo_servidores

In [32]:
licencas_mapeadas = [
    'RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO EM GRAU DE RECURSO',
    'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO',
    'RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA',
    'RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ESPECIALISTA',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS P/ AVALIAÇÃO DE ISENÇÃO DE IMPOSTO DE RENDA',
    'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE',
    'RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79',
    'RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79',
    'RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE CAPACIDADE LABORATIVA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO',
    'ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84',
    'LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO',
]

In [38]:
rl_lm =  conteudo_licenca_medica.split('\n')
licencas = OrderedDict({})
str_listagens = 'ID;LISTAGEM;INICIO;MAPEADA;QTD\n'
linha = 0
lin_anterior = 0
id = 0
listas = []

for line in rl_lm:
    mapeada = line in licencas_mapeadas
    if ('LICENÇAS MÉDICAS' in line or 'LICENÇA NOJO' in line) and not 'SEÇÃO DE LICENÇAS MÉDICAS' in line:
        id += 1
        licencas.update({
            line : linha
        })
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = lin_anterior
        #print(line)
    elif ('RELAÇÃO DE' in line or 'RELAÇÃO DOS' in line) or 'RELAÇÃO DE LICENÇA MÉDICA' in line:
        id += 1
        licencas.update({
            line : linha
        })
        listas.append(linha)
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = lin_anterior
        #print(line)
    elif 'SERVIDORES COM ' in line or 'NOMES DOS SERVIDORES' in line:
        id += 1
        licencas.update({
            line : linha
        })
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = lin_anterior
        #print(line)
    elif 'HORÁRIO AMAMENTAÇÃO – DEFERIDO' in line or 'FÉRIAS DEFERIDAS' in line:
        id += 1
        licencas.update({
            line : linha
        })
        if id == 1:
            str_listagens += f'{id};{line};{linha};{mapeada};'
            lin_anterior = linha
        if id > 1:
            qtd = linha - lin_anterior
            str_listagens += f'{qtd}\n{id};{line};{linha};{mapeada};'
            lin_anterior = lin_anterior
        #print(line)

    #if 'RF' in line or 'REG. FUN.' in line or 'REG.FUN.' in line:
        #print(line)
    linha += 1

#print(licencas)
#print(OrderedDict(licencas))
#print(listas)
print(f'\nTotal de listas: {len(listas)}')
print(str_listagens)


Total de listas: 39
ID;LISTAGEM;INICIO;MAPEADA;QTD
1;RELAÇÃO DE ADICIONAIS POR TEMPO DE SERVIÇO NOS TERMOS DO ARTIGO 112, DA LEI 8989/79;28;False;6
2;RELAÇÃO DE ADICIONAIS POR TEMPO DE SERVIÇO NOS TERMOS DO ARTIGO 112, DA LEI 8989/79;34;False;267
3;RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO MÉDICA DE ACIDENTE DE TRABALHO;295;False;293
4;RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO COM MÉDICO PERITO ESPECIALISTA;321;False;303
5;RELAÇÃO DE SERVIDORES CONVOCADOS PARA AVALIAÇÃO COM MÉDICO PERITO ESPECIALISTA;331;False;319
6;RELAÇÃO DE SERVIDORES CONVOCADOS PARA PERÍCIA DE LICENÇA MÉDICA PRÓPRIO SERVIDOR - LONGA DURACAO;347;False;435
7;RELAÇÃO DE LICENÇA MÉDICA;463;False;438
8;RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79;466;True;1292
9;LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO;1320;True;1298
10;RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79;1326;True;1335
11;RELAÇÃO DE SERVIDORES QUE TIVERAM PERÍCIAS MÉDICAS REAGENDADAS.;1363;False;1399
12;MENT

In [608]:
id = 0
str_licencas = 'ID;LISTAGEM;INICIO;MAPEADA;QTD\n'

for relacao, linha in licencas.items():
    id += 1
    mapeada = relacao in licencas_mapeadas
    if id == 1:
        str_licencas += f'{id};{relacao};{linha};{mapeada};'
        lin_anterior = linha
    if id > 1:
        qtd = linha - lin_anterior
        str_licencas += f'{qtd}\n{id};{relacao};{linha};{mapeada};'
        lin_anterior = lin_anterior

#print(str_licencas)
save_file(SAVE_DIR,str_licencas,'00-LISTAGENS_DOM','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\00-LISTAGENS_DOM.csv'

#### RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79

In [609]:
RELACAO = 'RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

['RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79',
 'SECRETARIA DE GOVERNO MUNICIPAL',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '5477409/5 MILTON DA SILVA JUNIOR 010 21/02/2022 143',
 'SECRETARIA MUNICIPAL DA SAUDE',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '5123143/4 TEREZINHA TOME LINGUITTE 059 03/09/2021 143',
 '5364078/5 MEIRI ELIANA DE ARAUJO SILVA 005 02/02/2022 143',
 '5487544/5 EDSON WAGNER FERRAZ 001 26/11/2021 143',
 '5583730/1 DORIVAL DE PAULA 004 30/11/2021 143',
 '5636116/2 REINALDO ALVES GUNDIM 004 11/04/2022 143',
 '5845688/2 MONICA CRISTINA SOUZA SOARES 005 26/01/2022 143',
 '6045405/1 APARECIDO ALVES 060 26/04/2022 143',
 '6120806/3 MARINICE AUGOSTINHO BARBOSA 030 18/05/2022 143',
 '6141242/3 SILVANA FAZZANI 005 19/10/2021 143',
 '6184219/6 MARCELO BARBOSA FRANCA 090 28/04/2022 143',
 '6184219/7 MARCELO BARBOSA FRANCA 090 28/04/2022 143',
 '6190901/4 FRANCISCO DA SILVA ANTONIO 090 18/04/2022 143',
 '6371981/1 CESAR NUNES PORFIRIO 004 28/01/2022 143',
 '6371981/1 CESAR N

In [610]:
'''Listagem: RELAÇÃO DE LICENÇAS MÉDICAS NOS TERMOS DA LEI 8989/79
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[2:-3]
        4. DIAS         : numeric()  s_item[-3]
        5. A_PARTIR_DE  : date()     s_item[-2]
        6. ARTIGO       : str()      s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    #print(f'analise: {s_item}')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5:
        if len(s_item) >= 5 and s_item[0][-1].isnumeric() and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric():
            rf = s_item[0].split('/')[0]
            vinc = s_item[0].split('/')[1]
            nome = str(' ').join(s_item[1:-3])
            str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
    elif len(s_item) >= 2 and s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-3])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        print(str_list_items)
        VALIDA_LINHA = False
    i += 1
    #print(i)

In [611]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_NOS_TERMOS_DA_LEI_8989_79.csv'

#### RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79

In [28]:
RELACAO = 'RELAÇÃO DE LICENÇAS MÉDICAS NEGADAS NOS TERMOS DA LEI 8989/79'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items


In [29]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-2]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-2]
        6. ARTIGO       : str()      s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][-1].isnumeric() and s_item[-2][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-2])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-2])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [30]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_NEGADAS_NOS_TERMOS_DA_LEI_8989_79.csv'

#### RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE

In [31]:
RELACAO = 'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA JUNTA MÉDICA PARA FINS DE PENSÃO POR MORTE'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [32]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [33]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_FALTAS_DOS_CONVOCADOS_PARA_JUNTA_MÉDICA_PARA_FINS_DE_PENSÃO_POR_MORTE.csv'

#### RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA

In [34]:
RELACAO = 'RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [35]:
i = 0
SECRETARIA = ''
str_list_items = 'RF;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric():
        if s_item[-3].isnumeric():
            nome = str(' ').join(s_item[1:-3])
            str_list_items += f'{s_item[0]};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO}/{DOM}\n'
            #print(str_list_items)
        else:
            nome = str(' ').join(s_item[1:-2])
            str_list_items += f'{s_item[0]};{nome};;{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
            #print(str_list_items)
    i += 1

In [36]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_FALTA_DO_SERVIDOR_À_PERÍCIA.csv'

#### LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO

In [37]:
RELACAO = 'LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

['LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO',
 'SECRETARIA MUNICIPAL DA SAUDE',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '5166632/2 LEO ALTARAS 005 16/01/2022 143',
 '5818125/4 MARTA PEREIRA BORGES 002 07/01/2022 143',
 '5837413/2 FRANCISCO MARCONIETI NASCIMENTO 001 14/11/2021 143',
 '7421699/5 WALLACE MARINHO JUNIOR 001 06/08/2021 143',
 '7596553/3 IRINETTE APARECIDA DE SOUZA PINTO 010 18/10/2021 143',
 '8302430/3 CICERO ANTONIO CAMPINA DOS SANTOS 014 14/07/2021 143',
 '8323801/3 LUCIANA DINIZ FREITAS 010 29/12/2021 143',
 '8356017/1 RAISSA HEROLD MATIAS RICHTER 007 21/01/2022 143',
 '8378088/1 LEONARDO LUZ DA SILVA 010 07/01/2022 143',
 '8552258/2 KELLY SIMONE MATOS ANDRADE 001 16/09/2021 146',
 '8554129/2 LUIZA CRISTINA VAZ DA SILVA 005 11/01/2022 143',
 '8580596/1 ELAINE DUTRA RAMALHO 005 10/11/2021 146',
 'SECRETARIA MUNICIPAL DE EDUCACAO',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '5311233/4 LUCIENE DA ROCHA VIEIRA 009 10/11/2021 143',
 '5896151/2 MARIA PILAR SAMARTINI DE SOU

In [38]:
'''Listagem: LICENÇAS MÉDICAS CONCEDIDAS/NEGADAS EM GRAU DE RECURSO
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[2:-3]
        4. DIAS         : numeric()  s_item[-3]
        5. A_PARTIR_DE  : date()     s_item[-2]
        6. ARTIGO       : str()      s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][-1].isnumeric() and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-3])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-3])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [39]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\LICENÇAS_MÉDICAS_CONCEDIDAS_NEGADAS_EM_GRAU_DE_RECURSO.csv'

#### RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ESPECIALISTA

In [40]:
RELACAO = 'RELAÇÃO DE FALTAS DOS CONVOCADOS PARA AVALIAÇÃO DE ESPECIALISTA'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

[]

In [41]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. A_PARTIR_DE  : date()     s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DATA;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [42]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_FALTAS_DOS_CONVOCADOS_PARA_AVALIAÇÃO_DE_ESPECIALISTA.csv'

#### RELAÇÃO DE FALTAS DOS CONVOCADOS P/ AVALIAÇÃO DE ISENÇÃO DE IMPOSTO DE RENDA

In [43]:
RELACAO = 'RELAÇÃO DE FALTAS DOS CONVOCADOS P/ AVALIAÇÃO DE ISENÇÃO DE IMPOSTO DE RENDA'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [44]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. A_PARTIR_DE  : date()     s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;A_PARITR_DE;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [45]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_FALTAS_DOS_CONVOCADOS_P__AVALIAÇÃO_DE_ISENÇÃO_DE_IMPOSTO_DE_RENDA.csv'

#### RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA

In [46]:
RELACAO = 'RELAÇÃO DE FALTA DO SERVIDOR À PERÍCIA'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [47]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-2]
        4. A_PARTIR_DE  : date()     s_item[-2]
        5. ARTIGO       : str()      s_item[-1]
'''
    
i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-2][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-2])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-2])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [48]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_FALTA_DO_SERVIDOR_À_PERÍCIA.csv'

#### RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE CAPACIDADE LABORATIVA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO

In [49]:
RELACAO = 'RELAÇÃO DE SERVIDORES SUBMETIDOS À AVALIAÇÃO DE CAPACIDADE LABORATIVA COM CAPACIDADE LABORATIVA PARA A SUA FUNÇÃO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [50]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:])
        str_list_items += f'{rf};{vinc};{nome};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:])
        str_list_items += f'{rf};{vinc};{nome};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [51]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,RELACAO,'csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_SERVIDORES_SUBMETIDOS_À_AVALIAÇÃO_DE_CAPACIDADE_LABORATIVA_COM_CAPACIDADE_LABORATIVA_PARA_A_SUA_FUNÇÃO.csv'

#### ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84

In [52]:
RELACAO = 'ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

['ENGLOBAMENTO DE LICENÇAS MÉDICAS FACE PORTARIA 11/84',
 'SECRETARIA MUNICIPAL DA SAUDE',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '6045405/1 APARECIDO ALVES 089 27/01/2022 143',
 '8067856/1 MARCOS ANTONIO ARAUJO 043 24/03/2022 143',
 '8335338/2 MARTA RIBEIRO 029 23/08/2021 143',
 '8338329/3 OSWALDO MARCONDES DOS SANTOS FILHO 089 15/02/2022 143',
 '8338329/4 OSWALDO MARCONDES DOS SANTOS FILHO 089 15/02/2022 143',
 '8356017/1 RAISSA HEROLD MATIAS RICHTER 004 17/01/2022 143',
 'SECRETARIA MUNICIPAL DE EDUCACAO',
 'RF NOME DIAS A_PARTIR_DE ARTIGO',
 '5509131/5 DIRCE MARIA MOREIRA BATISTA DE SOUZA 006 26/01/2022 143',
 '7109709/2 RENATA RAQUEL DE ALMEIDA TELES DE SANTANA 059 08/02/2022 143',
 '7109709/3 RENATA RAQUEL DE ALMEIDA TELES DE SANTANA 059 08/02/2022 143',
 '7199139/1 MARLY APARECIDA MOYA MACHADO 059 11/01/2022 143',
 '7359225/1 OSANA MARIA DE MATOS 057 28/03/2022 143',
 '7543221/1 MARIA APARECIDA RESENDE 056 14/02/2022 143',
 '7543221/2 MARIA APARECIDA RESENDE 056 14/02/2022 143',
 

In [53]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-3]
        4. DIAS         : numeric()  s_item[-3]
        5. A_PARTIR_DE  : date()     s_item[-2]
        6. ARTIGO       : str()      s_item[-1]
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-3][0].isnumeric() and s_item[-2][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-3])
        str_list_items += f'{rf};{vinc};{nome};{s_item[-3]};{s_item[-2]};{s_item[-1]};{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [54]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
COMPLEMENTO = str('_').join('RELAÇÃO DE LICENÇAS MÉDICAS RETIFICADAS EM FUNÇÃO DE:'.replace(':','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_ENGLOBAMENTO_DE_LICENÇAS_MÉDICAS_FACE_PORTARIA_11_84.csv'

#### RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO

In [55]:
RELACAO = 'RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
#list_items

In [56]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME A_PARTIR_DE' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [57]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_RELAÇÃO_DE_ALTAS_DO_ACIDENTE_DO_TRABALHO_E_DA_DOENÇA_DO_TRABALHO.csv'

#### RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO :

In [58]:
RELACAO = 'RELAÇÃO DE ALTAS DO ACIDENTE DO TRABALHO E DA DOENÇA DO TRABALHO :'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

[]

In [59]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''
LISTAS = [
            'APÓS TRANSFORMAÇÃO DO ARTIGO DA LICENÇA MÉDICA',
        ]

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if item in LISTAS:
            RELACAO2 = f'{RELACAO} {item}'
    if 'RF NOME A_PARTIR_DE' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [60]:
RELACAO = str('_').join(RELACAO.replace('/','_').replace(':','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_RELAÇÃO_DE_ALTAS_DO_ACIDENTE_DO_TRABALHO_E_DA_DOENÇA_DO_TRABALHO__.csv'

#### RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO

In [61]:
RELACAO = 'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

['RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO',
 'SECRETARIA MUNICIPAL DA SAUDE',
 'RF NOME A_PARTIR_DE',
 '8327181/2 MARA LUIZA ROCHA PAIXAO DIOGO 11/04/2022',
 'SECRETARIA MUNICIPAL DE EDUCACAO',
 'RF NOME A_PARTIR_DE',
 '7767218/1 BRUNA APARECIDA FREIRE SANTOS 13/04/2022']

In [62]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME DIAS A_PARTIR_DE ARTIGO' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 5 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [63]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_RELAÇÃO_DE_CONCESSÃO_DE_NEXO_DE_ACIDENTE_DO_TRABALHO_DEFERIDO.csv'

#### RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO EM GRAU DE RECURSO

In [64]:
RELACAO = 'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO EM GRAU DE RECURSO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
else:
    list_items = []
list_items

['RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO DEFERIDO EM GRAU DE RECURSO',
 'SECRETARIA MUNICIPAL DE EDUCACAO',
 'RF NOME A_PARTIR_DE',
 '8229651/1 ROSANGELA ALVES DA SILVA 13/04/2022']

In [65]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    s_item = item.strip().split(' ')
    if 'RF NOME A_PARTIR_DE' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1

In [66]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_RELAÇÃO_DE_CONCESSÃO_DE_NEXO_DE_ACIDENTE_DO_TRABALHO_DEFERIDO_EM_GRAU_DE_RECURSO.csv'

#### RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO

In [67]:
RELACAO = 'RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO'

if RELACAO in licencas:
    list_items = rl_lm[licencas[RELACAO]:listas[listas.index(licencas[RELACAO])+1]]
    #print(licencas[RELACAO])
    #print(listas[listas.index(licencas[RELACAO])+1])
else:
    list_items = []
list_items

['RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO',
 'SECRETARIA MUNICIPAL DA SAUDE',
 'RF NOME A_PARTIR_DE',
 '8551278/2 VANESSA DOS SANTOS DA SILVA 18/04/2022',
 'SECRETARIA MUNICIPAL DE EDUCACAO',
 'RF NOME A_PARTIR_DE',
 '6942148/2 MARIA IRANI FARIAS SOUSA 16/05/2022',
 '7754213/2 CARLA ROBERTA LINS 18/04/2022',
 '7957921/1 ANA PAULA AMARAL DE SOUSA 18/04/2022',
 '8196443/1 TATIANA CRISTINA GOMES MALACHIAS 19/05/2022',
 '8214841/1 LUCILENE BATISTA MARIANO DE OLIVEIRA 14/04/2022',
 'SECRETARIA MUNICIPAL DE SEGURANCA URBANA',
 'RF NOME A_PARTIR_DE',
 '7888538/1 ROSANGELA MARIA CARVALHO DE BARROS 15/10/2021']

In [68]:
'''
    COLUNAS:
        1. RF           : numeric(7) s_item[0][0]
        2. VINC         : numeric(1) s_item[0][1]
        3. NOME         : str()      s_item[1:-1]
        4. DIAS         : null
        5. A_PARTIR_DE  : date()     s_item[-1]
        6. ARTIGO       : null
'''

i = 0
SECRETARIA = ''
VALIDA_LINHA = ''
str_list_items = 'RF;VINC;NOME;DIAS;A_PARTIR_DE;ARTIGO;SECRETARIA;LISTA;DOM\n'

for item in list_items:
    print(item)
    s_item = item.strip().split(' ')
    if 'RF NOME A_PARTIR_DE' in item:
        SECRETARIA = list_items[i-1]
    elif len(s_item) >= 4 and s_item[0][0].isnumeric() and s_item[-1][0].isnumeric():
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
    elif s_item[0][-1].isnumeric() and VALIDA_LINHA == False:
        linha = s_item
        VALIDA_LINHA = True
    elif VALIDA_LINHA == True:
        linha += f' {item}'
        s_item = item.split(' ')
        rf = s_item[0].split('/')[0]
        vinc = s_item[0].split('/')[1]
        nome = str(' ').join(s_item[1:-1])
        str_list_items += f'{rf};{vinc};{nome};;{s_item[-1]};;{SECRETARIA};{RELACAO};{DOM}\n'
        #print(str_list_items)
        VALIDA_LINHA = False
    i += 1
    print(i)

RELAÇÃO DE CONCESSÃO DE NEXO DE ACIDENTE DO TRABALHO INDEFERIDO
1
SECRETARIA MUNICIPAL DA SAUDE
2
RF NOME A_PARTIR_DE
3
8551278/2 VANESSA DOS SANTOS DA SILVA 18/04/2022
4
SECRETARIA MUNICIPAL DE EDUCACAO
5
RF NOME A_PARTIR_DE
6
6942148/2 MARIA IRANI FARIAS SOUSA 16/05/2022
7
7754213/2 CARLA ROBERTA LINS 18/04/2022
8
7957921/1 ANA PAULA AMARAL DE SOUSA 18/04/2022
9
8196443/1 TATIANA CRISTINA GOMES MALACHIAS 19/05/2022
10
8214841/1 LUCILENE BATISTA MARIANO DE OLIVEIRA 14/04/2022
11
SECRETARIA MUNICIPAL DE SEGURANCA URBANA
12
RF NOME A_PARTIR_DE
13
7888538/1 ROSANGELA MARIA CARVALHO DE BARROS 15/10/2021
14


In [69]:
RELACAO = str('_').join(RELACAO.replace('/','_').split(' '))
save_file(SAVE_DIR,str_list_items,f'{COMPLEMENTO}{RELACAO}','csv')

'c:\\Projetos\\scrapy_dom\\outputs_files\\2022-06-04\\RELAÇÃO_DE_LICENÇAS_MÉDICAS_RETIFICADAS_EM_FUNÇÃO_DE_RELAÇÃO_DE_CONCESSÃO_DE_NEXO_DE_ACIDENTE_DO_TRABALHO_INDEFERIDO.csv'