In [1]:
from collections import Counter
from glob import glob

amostra = '20054108206 Ana Paula Alves de Souza (34851564-9-SP)'

def extrair_isentos(linhas):
    for linha in linhas:
        linha = linha.strip()
        campos = linha.split('(')
        if len(campos) < 2:
            continue  # ignorar marcas de quebra por letra inicial
        ident = ''.join(c for c in campos[-1] if c.isdigit() and c!='0')[:7]
        if not ident:
            continue
        partes = campos[0].split()[1:]  # descartar numero fuvest
        yield ' '.join(partes), ident
        
list(extrair_isentos([amostra]))

[('Ana Paula Alves de Souza', '3485156')]

In [2]:
isentos_ident = set()

for ano in range(2004, 2009):
    nome_arq = f'isen{ano}.txt'
    with open(nome_arq, encoding='ascii') as arq:
        isentos_ident.update(extrair_isentos(arq))
        print(len(isentos_ident), nome_arq)

19946 isen2004.txt
63316 isen2005.txt
118094 isen2006.txt
148343 isen2007.txt
169736 isen2008.txt


In [4]:
isentos_ident = sorted(isentos_ident)
isentos_ident[:50]

[('Aarao Cecilio da Silva', '3296869'),
 ('Aaron Ben Siqueira', '4218926'),
 ('Aaron Militello Cesar', '3382179'),
 ('Aaron Nelson Lopes', '2948739'),
 ('Abadia Aparecida Marinho Guerreiro', '9428573'),
 ('Abadia Martins dos Santos', '2811426'),
 ('Abdala Lima Silva', '4188844'),
 ('Abdon Rios', '4258875'),
 ('Abdon da Costa Sousa', '2526951'),
 ('Abel Adriano de Carvalho', '4235814'),
 ('Abel Alberto dos Santos de Oliveira', '1867598'),
 ('Abel Aparecido de Almeida', '1925995'),
 ('Abel Brito de Angelo', '4385171'),
 ('Abel Constancio Martins de Moura', '2833256'),
 ('Abel Dias da Roz', '4389899'),
 ('Abel Fernando Pepe dos Anjos', '2769872'),
 ('Abel Fernando Pepe dos Anjos', '2869872'),
 ('Abel Francisco dos Santos', '4915551'),
 ('Abel Oliveira da Silva', '1257689'),
 ('Abel Pereira dos Santos Neto', '4449861'),
 ('Abel Ribeiro de Lima', '3246735'),
 ('Abel Ribeiro de Oliveira', '3871588'),
 ('Abel Silva Cardoso', '4172777'),
 ('Abelar Vicente de Sousa Lima', '3666463'),
 ('Abenai 

In [5]:
with open('isentos.txt', 'w', encoding='ascii') as arq:
    for nome, ident in isentos_ident:
        arq.write(nome + '\n')

In [10]:
amostra = ['20047416650 Ana Paula da Silva H11',
           '2449310 Aaron Hwang']

def extrair_convocados(linhas):
    for linha in linhas:
        if linha.startswith('---'):
            continue
        partes = linha.split()
        if len(partes) < 3:
            continue
        if partes[-1].startswith('H0') or partes[-1].startswith('H1'):
            del partes[-1]
        yield ' '.join(partes[1:])
        
list(extrair_convocados(amostra))

['Ana Paula da Silva', 'Aaron Hwang']

In [11]:
vistos = {nome for nome, ident in isentos_ident}
convocados = []
print(f'{len(vistos)=} {len(convocados)=}')
for ano in range(2002, 2009):
    nome_arq = f'conv{ano}.txt'
    with open(nome_arq, encoding='ascii') as arq:
        for nome in extrair_convocados(arq):
            if nome not in vistos:
                vistos.add(nome)
                convocados.append(nome)
        print(len(convocados), nome_arq)
print(f'{len(vistos)=} {len(convocados)=}')


len(vistos)=162677 len(convocados)=0
22215 conv2002.txt
40939 conv2003.txt
63896 conv2004.txt
83582 conv2005.txt
102320 conv2006.txt
125862 conv2007.txt
148180 conv2008.txt
len(vistos)=310857 len(convocados)=148180


In [12]:
convocados[:50]

['Aaron Marques Fre',
 'Abel de Castro Silva',
 'Abel de Souza Junior',
 'Abel Dib Rayashi',
 'Abel Scupeliti Artilheiro',
 'Abilio Lourenco Blanco Neto',
 'Abner Almeida Massarioli',
 'Abner Cardoso Rodrigues Neto',
 'Abner de Pinho Nogueira Freitas',
 'Abner Gosmini',
 'Abraao Lucas Pacheco Hercheui',
 'Acacio Bannvart',
 'Adagamos Pellegrini Sartini',
 'Adaina da Silva Rosa',
 'Adalberto Augusto Salzedas Junior',
 'Adalberto Felicio Maluf Filho',
 'Adalberto Francisco Soares Junior',
 'Adalberto Kazuo Kishi',
 'Adalberto Malinverni Junior',
 'Adalberto Oliveira da Silva',
 'Adalgisa Thayne Munhoz Ramos',
 'Adalto Evangelista Filho',
 'Adalton Jose de Cerqueira',
 'Adam Yuzo Kurozawa',
 'Adao Aparecido Lanzieri Modesto',
 'Adauto de Azevedo',
 'Adele Cristina da Silva Costa',
 'Adelia Suzana da Cunha Melo',
 'Adelino Gaspar Costeira',
 'Adelita Bueno Braga',
 'Adelmo Felipe de O Bento da Silva',
 'Adelson Jose Gomes',
 'Ademar Aparecido da Costa Filho',
 'Ademar Bastos Brandao Junior

In [13]:
with open('convocados_unicos.txt', 'w', encoding='ascii') as arq:
    for nome in convocados:
        arq.write(nome + '\n')