In [1]:
import re


SEPARADOR_BLOCOS = "H01"
SEPARADOR_CAMPOS = "|"

"""Divide o texto em linhas e, então, itera as linhas para agrupá-las em seções"""
with open('./demo.txt', 'r', encoding='utf8') as file:
    # Lê todas as linhas do arquivo
    lines = file.readlines()

    # Itera as linhas e as agrupa em seções
    sections = []
    current_section = []

    for line in lines:
        line = line.strip()  # Remove espaços em branco do início e do fim da linha

        if line == SEPARADOR_BLOCOS:
            if current_section:
                sections.append(current_section)
            current_section = []
        else:
            current_section.append(line)

    if current_section:
        sections.append(current_section)

# Agora, `sections` contém as linhas entre os separadores
# for line in sections:
#     print(line)

print(len(sections))
print(sections)


2
[['|LCO1504  00|TASIL   |ORARO    |SALPU|INTOL|VUNOK|2808', '|GVAC   A2034|0509     -|0525     -|0541      -|0557    -|0608     - |2023', 'W|      B763H|340    320|340   320| 340   320    | 340    320|   340    320|1829', 'I|SBGR   N0455|-    |1:   AEBK|ACT', '| UN873   UN873|PBN/A1B1C1D1L1I1S1     S2 DAT/CPDLCX 1F|2:     GR    | CPL', 'CP|CCCXD|-      -|-    |STP', '', ''], ['|LCO8921  00|TASIL   |ORARO    |SALPU|INTOL|VUNOK|2808', '|GVAC   A2036|0509     -|0525     -|0541      -|0557    -|0608     - |2023', 'W|      D763Y|340    320|340   320| 340   320    | 340    320|   340    320|1829', 'I|SBGR   M0381|-    |1:   AEBK|ACT', '| UN873   UN529|PBN/A1B1C1D1L1I1S1     S2 DAT/CPDLCX 1F|2:     GR    | CPL', 'CP|CCCXD|-      -|-    |STP']]


In [2]:
for (section_index, section) in enumerate(sections):
    print(f"\n> Iterando section: {section_index}")

    # Unifica as linhas dentro da section (transforma array de linhas em única string)
    section_line = "|".join(map(str, section))
    # print(section_line)

    # Separa os campos
    campos = section_line.split(SEPARADOR_CAMPOS)
    for index, value in enumerate(campos):
        print(index, " ::  ", value)

    # Remove leading e trailing spaces de cada campo
    campos = [item.strip() for item in campos]

    # Identifica os campos
    campo_prefixo   = re.split(r"\s+", campos[1])[0]
    campo_adep      = re.split(r"\s+", campos[9])[0]
    campo_ades      = re.split(r"\s+", campos[25])[0]
    campo_setor     = re.split(r"\s+", campos[1])[1]
    campo_dia_mes   = campos[7]
    campo_hora_utc  = campos[23]
    campo_reg       = campos[35]

    print(
        "\n> Campos identificados:\n"
        f"campo_prefixo: {campo_prefixo}\n",
        f"campo_adep: {campo_adep}\n",
        f"campo_ades: {campo_ades}\n",
        f"campo_setor: {campo_setor}\n",
        f"campo_dia_mes: {campo_dia_mes}\n",
        f"campo_hora_utc: {campo_hora_utc}\n",
        f"campo_reg: {campo_reg}\n",
    )



> Iterando section: 0
0  ::   
1  ::   LCO1504  00
2  ::   TASIL   
3  ::   ORARO    
4  ::   SALPU
5  ::   INTOL
6  ::   VUNOK
7  ::   2808
8  ::   
9  ::   GVAC   A2034
10  ::   0509     -
11  ::   0525     -
12  ::   0541      -
13  ::   0557    -
14  ::   0608     - 
15  ::   2023
16  ::   W
17  ::         B763H
18  ::   340    320
19  ::   340   320
20  ::    340   320    
21  ::    340    320
22  ::      340    320
23  ::   1829
24  ::   I
25  ::   SBGR   N0455
26  ::   -    
27  ::   1:   AEBK
28  ::   ACT
29  ::   
30  ::    UN873   UN873
31  ::   PBN/A1B1C1D1L1I1S1     S2 DAT/CPDLCX 1F
32  ::   2:     GR    
33  ::    CPL
34  ::   CP
35  ::   CCCXD
36  ::   -      -
37  ::   -    
38  ::   STP
39  ::   
40  ::   

> Campos identificados:
campo_prefixo: LCO1504
 campo_adep: GVAC
 campo_ades: SBGR
 campo_setor: 00
 campo_dia_mes: 2808
 campo_hora_utc: 1829
 campo_reg: CCCXD


> Iterando section: 1
0  ::   
1  ::   LCO8921  00
2  ::   TASIL   
3  ::   ORARO    
4  ::   SALPU
5  