In [1]:
import pandas as pd
import re

In [2]:
#arquivo = 'afastamentos'
arquivo = 'cadastro'

In [3]:
df = pd.read_csv(arquivo + '.csv.bz2', sep=';',
                 usecols=['Id_SERVIDOR_PORTAL', 'NOME'], index_col=0)

In [4]:
df.head(10)

Unnamed: 0_level_0,NOME
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1
5116961,AARAO CARLOS LUZ MACAMBIRA
201964,AARAO DIAMANTINO OLIVEIRA
4405000,AARAO FERREIRA LIMA NETO
4915841,AARAO PEREIRA DE ARAUJO JUNIOR
5105492,AARAO SOARES
8114023,AARAO TEIXEIRA DOS SANTOS
82440282,AARON DA COSTA TELLES
2671,AARON DE SOUSA ALVES
107618548,AARON ENRICO YAMAFUKO
16237,AARON INACIO FREIRE


In [5]:
def remover_preposicoes(str):
    return re.sub(" D[A|E|O]S? ", " ", str)

In [6]:
exemplos = [
    "BELCHIOR DA CUNHA NETO",
    "ABADIO ALVES DE LIMA FILHO",
    "ALBINO GOMES DOS SANTOS JUNIOR"
]

for ex in exemplos:
    print(ex, "=>", remover_preposicoes(ex))

BELCHIOR DA CUNHA NETO => BELCHIOR CUNHA NETO
ABADIO ALVES DE LIMA FILHO => ABADIO ALVES LIMA FILHO
ALBINO GOMES DOS SANTOS JUNIOR => ALBINO GOMES SANTOS JUNIOR


In [7]:
df['NOME2'] = df['NOME'].apply(remover_preposicoes)
df.head(30)

Unnamed: 0_level_0,NOME,NOME2
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1,Unnamed: 2_level_1
5116961,AARAO CARLOS LUZ MACAMBIRA,AARAO CARLOS LUZ MACAMBIRA
201964,AARAO DIAMANTINO OLIVEIRA,AARAO DIAMANTINO OLIVEIRA
4405000,AARAO FERREIRA LIMA NETO,AARAO FERREIRA LIMA NETO
4915841,AARAO PEREIRA DE ARAUJO JUNIOR,AARAO PEREIRA ARAUJO JUNIOR
5105492,AARAO SOARES,AARAO SOARES
8114023,AARAO TEIXEIRA DOS SANTOS,AARAO TEIXEIRA SANTOS
82440282,AARON DA COSTA TELLES,AARON COSTA TELLES
2671,AARON DE SOUSA ALVES,AARON SOUSA ALVES
107618548,AARON ENRICO YAMAFUKO,AARON ENRICO YAMAFUKO
16237,AARON INACIO FREIRE,AARON INACIO FREIRE


In [8]:
def obter_primeiro_nome(str):
    return re.split("\s", str)[0]

In [9]:
for ex in exemplos:
    print(ex, "=>", obter_primeiro_nome(ex))

BELCHIOR DA CUNHA NETO => BELCHIOR
ABADIO ALVES DE LIMA FILHO => ABADIO
ALBINO GOMES DOS SANTOS JUNIOR => ALBINO


In [10]:
def obter_ultimo_nome(str):
    nomes = re.split("\s", str)
    ultimo = nomes[-1]
    if ultimo not in ["FILHO", "JUNIOR", "NETO", "SOBRINHO", "JR", "SEGUNDO", "TERCEIRO"]:
        return ultimo
    else:
        return nomes[-2]

In [11]:
for ex in exemplos:
    print(ex, "=>", obter_ultimo_nome(ex))

BELCHIOR DA CUNHA NETO => CUNHA
ABADIO ALVES DE LIMA FILHO => LIMA
ALBINO GOMES DOS SANTOS JUNIOR => SANTOS


In [12]:
df['PNOME'] = df['NOME2'].apply(obter_primeiro_nome)
df['UNOME'] = df['NOME2'].apply(obter_ultimo_nome)
df.head(30)

Unnamed: 0_level_0,NOME,NOME2,PNOME,UNOME
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5116961,AARAO CARLOS LUZ MACAMBIRA,AARAO CARLOS LUZ MACAMBIRA,AARAO,MACAMBIRA
201964,AARAO DIAMANTINO OLIVEIRA,AARAO DIAMANTINO OLIVEIRA,AARAO,OLIVEIRA
4405000,AARAO FERREIRA LIMA NETO,AARAO FERREIRA LIMA NETO,AARAO,LIMA
4915841,AARAO PEREIRA DE ARAUJO JUNIOR,AARAO PEREIRA ARAUJO JUNIOR,AARAO,ARAUJO
5105492,AARAO SOARES,AARAO SOARES,AARAO,SOARES
8114023,AARAO TEIXEIRA DOS SANTOS,AARAO TEIXEIRA SANTOS,AARAO,SANTOS
82440282,AARON DA COSTA TELLES,AARON COSTA TELLES,AARON,TELLES
2671,AARON DE SOUSA ALVES,AARON SOUSA ALVES,AARON,ALVES
107618548,AARON ENRICO YAMAFUKO,AARON ENRICO YAMAFUKO,AARON,YAMAFUKO
16237,AARON INACIO FREIRE,AARON INACIO FREIRE,AARON,FREIRE


## Nomes

In [13]:
maiores_nomes = df[['PNOME', 'UNOME']].\
    groupby(['PNOME']).count().sort_values(['UNOME'], ascending=False)
maiores_nomes.rename(columns={'UNOME': 'QTDE'}, inplace=True)

In [14]:
qtd_total = maiores_nomes['QTDE'].sum()
qtd_total

645476

In [15]:
maiores_nomes['PERC'] = maiores_nomes['QTDE'].apply(lambda x: x / qtd_total * 100.0)
maiores_nomes.head(30)

Unnamed: 0_level_0,QTDE,PERC
PNOME,Unnamed: 1_level_1,Unnamed: 2_level_1
MARIA,20389,3.158754
JOSE,15925,2.467172
ANA,11497,1.781166
JOAO,7515,1.164257
CARLOS,7370,1.141793
PAULO,7218,1.118245
ANTONIO,6982,1.081682
LUIZ,6139,0.951081
FRANCISCO,5795,0.897787
MARCELO,4979,0.771369


## Sobrenomes

In [16]:
maiores_sobrenomes = df[['PNOME', 'UNOME']].\
    groupby(['UNOME']).count().sort_values(['PNOME'], ascending=False)
maiores_sobrenomes.rename(columns={'PNOME': 'QTDE'}, inplace=True)

In [17]:
maiores_sobrenomes['PERC'] = maiores_sobrenomes['QTDE'].apply(lambda x: x / qtd_total * 100.0)
maiores_sobrenomes.head(30)

Unnamed: 0_level_0,QTDE,PERC
UNOME,Unnamed: 1_level_1,Unnamed: 2_level_1
SILVA,48617,7.531961
SANTOS,26656,4.129666
OLIVEIRA,21617,3.349001
SOUZA,15604,2.417441
LIMA,11941,1.849953
COSTA,11019,1.707112
PEREIRA,8645,1.339322
FERREIRA,8365,1.295943
ARAUJO,7969,1.234593
CARVALHO,7319,1.133892


### Geração dos arquivos resultantes

In [18]:
maiores_nomes.to_csv(arquivo + '-nomes.csv', float_format='%.4f')
maiores_sobrenomes.to_csv(arquivo + '-sobrenomes.csv', float_format='%.4f')