In [1]:
%ls -l conv*.txt

-rw-r--r--  1 luciano  staff   788903 Jan 31  2008 conv2002.txt
-rw-r--r--  1 luciano  staff   829870 Jan 31  2008 conv2003.txt
-rw-r--r--@ 1 luciano  staff  1113155 Feb 21 22:33 conv2004.txt
-rw-r--r--  1 luciano  staff  1052062 Jan 31  2008 conv2005.txt
-rw-r--r--  1 luciano  staff  1050545 Jan 31  2008 conv2006.txt
-rw-r--r--  1 luciano  staff  1281500 Jan 31  2008 conv2007.txt
-rw-r--r--  1 luciano  staff  1262140 Jan 31  2008 conv2008.txt


In [2]:
! head conv2002.txt


----------------------- A -----------------------
6234600 Aaron Marques Fre
4841718 Abel de Castro Silva
7017883 Abel de Souza Junior
8810563 Abel Dib Rayashi
2407930 Abel Scupeliti Artilheiro
8422280 Abilio Lourenco Blanco Neto
5401814 Abner Almeida Massarioli
1255155 Abner Cardoso Rodrigues Neto


In [3]:
import sys

def extrair_nomes(arquivo, quantos=sys.maxsize):
    
    extraidos = 0
    with open(arquivo, encoding='ascii') as entrada:
        for linha in entrada:
            linha = linha.strip()
            if not linha or linha.startswith('---'):
                continue
            ident, *nome = linha.split()
            if not nome:
                continue
            nome = ' '.join(nome)
            yield(nome)
            extraidos += 1
            if extraidos == quantos:
                break

for nome in extrair_nomes('conv2002.txt', 7):
    print(nome)

Aaron Marques Fre
Abel de Castro Silva
Abel de Souza Junior
Abel Dib Rayashi
Abel Scupeliti Artilheiro
Abilio Lourenco Blanco Neto
Abner Almeida Massarioli


In [4]:
! head conv2008.txt

------------------------------------------------
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
------------------------------------------------
8610796 Aaron Juraski
2231825 Abdiel Luciano Lobo de Oliveira
3008405 Abdo Latif Fares
7433866 Abel Pereira dos Santos Neto
2447723 Abes Mahmed Amed Filho
6249315 Abia Burigo Pedro
2004927 Abigail Neide da Silva Santos


In [5]:
for nome in extrair_nomes('conv2008.txt', 7):
    print(nome)

Aaron Juraski
Abdiel Luciano Lobo de Oliveira
Abdo Latif Fares
Abel Pereira dos Santos Neto
Abes Mahmed Amed Filho
Abia Burigo Pedro
Abigail Neide da Silva Santos


In [6]:
from glob import glob

nomes = set()
for arquivo in sorted(glob('conv*.txt')):
    try:
        nomes.update(extrair_nomes(arquivo))
    except UnicodeDecodeError as e:
        print(arquivo, e)
        continue

len(nomes)

166324

In [7]:
nomes = list(nomes)
sorted(nomes[:50])

['Alexandre Cortez Sabino',
 'Antonio Jose Pessoa Elias',
 'Ariane Oliveira Tartarotti',
 'Artur Polano Spreafico',
 'Bruna Rabachini',
 'Bruno Fernando Uehara',
 'Bruno Paganotti',
 'Camila Petris Esteve',
 'Danilo Fernandes Santana',
 'Diego Felipe Munhoz',
 'Eduardo Matheus Marion Jorge',
 'Elson Atushi Kondo',
 'Eric Carvalho Martins',
 'Fabiana de Araujo Vanin',
 'Felipe Elias Ribeiro David',
 'Felipe Sessin Di Lascio',
 'Gabriel Valladao Silva',
 'Gabriela Giacomini de Almeida',
 'Gisele Audrei Pedroso',
 'Guilherme A R T de Almeida do Amaral',
 'Guilherme Costa Lopes',
 'Gustavo Volpato',
 'Horacio Vianello',
 'Ighor Romero Fiorin Marcelino',
 'Joao Gomes Goncalves',
 'Joao Marcos Peloia',
 'Joao Patricio Trindade Saavedra',
 'Joyce Nogueira Ferreira da Costa',
 'Larissa de Freitas',
 'Leandro de Mattos Pimenta',
 'Lucia Lopes',
 'Mariana Abbate',
 'Mariana Correa Viana',
 'Marie Okumura',
 'Marilia Gabriela C Correa Carlos',
 'Marina Salzedas Giafferi',
 'Michelle Valerio Renar

## Remendo para achar um nome escrito com ASCII inválido

A Fuvest não usava Unicode...
O nome não ASCII era Paulo Henrique Ignacio Saldaña.
Reescrevi como Saldanha.

In [8]:
linhas = []

with open('conv2004.txt', mode='rb') as entrada:
    for linha in entrada.readlines():
        try:
            texto = linha.decode('ascii')
        except UnicodeDecodeError:
            print(linha)
        else:
            linhas.append(texto)
        
print(len(linhas))

29639


In [9]:
from collections import Counter

pedacinhos = Counter()

for nome in nomes:
    pedacinhos.update(parte.upper() for parte in nome.split() if len(parte) == 2)

pedacinhos.most_common(20)

[('DE', 31103),
 ('DA', 10769),
 ('DO', 1682),
 ('SA', 287),
 ('DI', 228),
 ('LA', 61),
 ('AP', 56),
 ('EL', 54),
 ('YU', 52),
 ('JR', 50),
 ('WU', 42),
 ('HO', 35),
 ('LI', 31),
 ('NG', 22),
 ('JI', 21),
 ('OH', 20),
 ('AN', 19),
 ('MI', 17),
 ('RE', 17),
 ('BO', 16)]

## A fazer

Para gerar novos nomes a partir destes...

Eliminar sufixos H01, H02 (deve ser para homônimos) 

Será bom extrair JR e NETO da lista,
ou criar uma lógica em que estes sufixos devem acompanhar o mesmo primeiro nome sempre,
pois são sufixos usados só em nomes masculinos.
Notei que Neto aparece também no meio do nome: Raul Neto Borges, Aline Carolina Neto Amorim.

In [10]:
!rg "\sNeto\s.+" conv*

[0m[35mconv2008.txt[0m
[0m[32m10102[0m:8646059 Eduardo[0m[1m[31m Neto Rafael
[0m[32m16723[0m:4813856 Ismael de Paulo Pereira[0m[1m[31m Neto Marani
[0m[32m21364[0m:8818046 Lourenco Fernandes[0m[1m[31m Neto E Silva
[0m[32m28515[0m:4226660 Paula[0m[1m[31m Neto Homem de Montes
[0m[32m32522[0m:8628029 Rodrigo[0m[1m[31m Neto Pires

[0m[35mconv2006.txt[0m
[0m[32m838[0m:2423065 Alina[0m[1m[31m Neto Simoes
[0m[32m10744[0m:3631699 Fernando Fernandes[0m[1m[31m Neto H01
[0m[32m13958[0m:1841026 Isabela[0m[1m[31m Neto Aguiar
[0m[32m14187[0m:7071422 Izabel[0m[1m[31m Neto Cardeal
[0m[32m16670[0m:7071625 Larissa Rodrigues[0m[1m[31m Neto Angeloco
[0m[32m24167[0m:2451118 Pedro[0m[1m[31m Neto Lopes de Sousa

[0m[35mconv2007.txt[0m
[0m[32m5110[0m:7004474 Bruno[0m[1m[31m Neto Batista
[0m[32m10399[0m:7643372 Eduardo[0m[1m[31m Neto Rafael
[0m[32m17080[0m:4146881 Ismael de Paulo Pereira[0m[1m[31m Neto Marani
[0m[32m1

Tratar nomes com da, de, do, di, del, von, van, van der, van de, van den ...