In [1]:
import pandas as pd
import re

In [2]:
df_afasta = pd.read_csv('afastamentos.csv.bz2', sep=';', 
                        usecols=['Id_SERVIDOR_PORTAL', 'NOME'], index_col=0)

In [3]:
df_afasta.head(10)

Unnamed: 0_level_0,NOME
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1
5105492,AARAO SOARES
76402944,ABADIA APARECIDA FAUSTINO
5309978,ABADIA CANDIDA LEMES
6412792,ABADIAS CARDOSO MORAIS
8414882,ABADIO ALVES LIMA
2006768,ABAETE PINHEIRO DE HOLANDA
8608224,ABAPORANG PAES LEME ALBERTO
4516155,ABDELHAK RAZKY
3210067,ABDENAGA SILVA BELCHIOR DA CUNHA
8611816,ABDENEGO ALBINO GOMES


In [4]:
def remover_preposicoes(str):
    return re.sub(" D[A|E|O]S? ", " ", str)

In [5]:
exemplos = [
    "BELCHIOR DA CUNHA NETO",
    "ABADIO ALVES DE LIMA FILHO",
    "ALBINO GOMES DOS SANTOS JUNIOR"
]

for ex in exemplos:
    print(ex, "=>", remover_preposicoes(ex))

BELCHIOR DA CUNHA NETO => BELCHIOR CUNHA NETO
ABADIO ALVES DE LIMA FILHO => ABADIO ALVES LIMA FILHO
ALBINO GOMES DOS SANTOS JUNIOR => ALBINO GOMES SANTOS JUNIOR


In [6]:
df_afasta['NOME2'] = df_afasta['NOME'].apply(remover_preposicoes)
df_afasta.head(30)

Unnamed: 0_level_0,NOME,NOME2
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1,Unnamed: 2_level_1
5105492,AARAO SOARES,AARAO SOARES
76402944,ABADIA APARECIDA FAUSTINO,ABADIA APARECIDA FAUSTINO
5309978,ABADIA CANDIDA LEMES,ABADIA CANDIDA LEMES
6412792,ABADIAS CARDOSO MORAIS,ABADIAS CARDOSO MORAIS
8414882,ABADIO ALVES LIMA,ABADIO ALVES LIMA
2006768,ABAETE PINHEIRO DE HOLANDA,ABAETE PINHEIRO HOLANDA
8608224,ABAPORANG PAES LEME ALBERTO,ABAPORANG PAES LEME ALBERTO
4516155,ABDELHAK RAZKY,ABDELHAK RAZKY
3210067,ABDENAGA SILVA BELCHIOR DA CUNHA,ABDENAGA SILVA BELCHIOR CUNHA
8611816,ABDENEGO ALBINO GOMES,ABDENEGO ALBINO GOMES


In [7]:
def obter_primeiro_nome(str):
    return re.split("\s", str)[0]

In [8]:
for ex in exemplos:
    print(ex, "=>", obter_primeiro_nome(ex))

BELCHIOR DA CUNHA NETO => BELCHIOR
ABADIO ALVES DE LIMA FILHO => ABADIO
ALBINO GOMES DOS SANTOS JUNIOR => ALBINO


In [9]:
def obter_ultimo_nome(str):
    nomes = re.split("\s", str)
    ultimo = nomes[-1]
    if ultimo not in ["FILHO", "JUNIOR", "NETO", "SOBRINHO"]:
        return ultimo
    else:
        return nomes[-2]

In [10]:
for ex in exemplos:
    print(ex, "=>", obter_ultimo_nome(ex))

BELCHIOR DA CUNHA NETO => CUNHA
ABADIO ALVES DE LIMA FILHO => LIMA
ALBINO GOMES DOS SANTOS JUNIOR => SANTOS


In [11]:
df_afasta['PNOME'] = df_afasta['NOME2'].apply(obter_primeiro_nome)
df_afasta['UNOME'] = df_afasta['NOME2'].apply(obter_ultimo_nome)
df_afasta.head(30)

Unnamed: 0_level_0,NOME,NOME2,PNOME,UNOME
Id_SERVIDOR_PORTAL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
5105492,AARAO SOARES,AARAO SOARES,AARAO,SOARES
76402944,ABADIA APARECIDA FAUSTINO,ABADIA APARECIDA FAUSTINO,ABADIA,FAUSTINO
5309978,ABADIA CANDIDA LEMES,ABADIA CANDIDA LEMES,ABADIA,LEMES
6412792,ABADIAS CARDOSO MORAIS,ABADIAS CARDOSO MORAIS,ABADIAS,MORAIS
8414882,ABADIO ALVES LIMA,ABADIO ALVES LIMA,ABADIO,LIMA
2006768,ABAETE PINHEIRO DE HOLANDA,ABAETE PINHEIRO HOLANDA,ABAETE,HOLANDA
8608224,ABAPORANG PAES LEME ALBERTO,ABAPORANG PAES LEME ALBERTO,ABAPORANG,ALBERTO
4516155,ABDELHAK RAZKY,ABDELHAK RAZKY,ABDELHAK,RAZKY
3210067,ABDENAGA SILVA BELCHIOR DA CUNHA,ABDENAGA SILVA BELCHIOR CUNHA,ABDENAGA,CUNHA
8611816,ABDENEGO ALBINO GOMES,ABDENEGO ALBINO GOMES,ABDENEGO,GOMES


## Nomes

In [12]:
maiores_nomes = df_afasta[['PNOME', 'UNOME']].\
    groupby(['PNOME']).count().sort_values(['UNOME'], ascending=False)
maiores_nomes.rename(columns={'UNOME': 'QTDE'}, inplace=True)

In [14]:
qtd_total = maiores_nomes['QTDE'].sum()
qtd_total

63915

In [17]:
maiores_nomes['PERC'] = maiores_nomes['QTDE'].apply(lambda x: x / qtd_total * 100.0)
maiores_nomes.head(30)

Unnamed: 0_level_0,QTDE,PERC
PNOME,Unnamed: 1_level_1,Unnamed: 2_level_1
MARIA,2937,4.595165
JOSE,2766,4.327623
ANTONIO,1257,1.966674
FRANCISCO,1014,1.586482
JOAO,993,1.553626
CARLOS,979,1.531722
ANA,938,1.467574
PAULO,907,1.419072
LUIZ,829,1.297035
MARCOS,515,0.805758


## Sobrenomes

In [21]:
maiores_sobrenomes = df_afasta[['PNOME', 'UNOME']].\
    groupby(['UNOME']).count().sort_values(['PNOME'], ascending=False)
maiores_sobrenomes.rename(columns={'PNOME': 'QTDE'}, inplace=True)

In [22]:
maiores_sobrenomes['PERC'] = maiores_sobrenomes['QTDE'].apply(lambda x: x / qtd_total * 100.0)
maiores_sobrenomes.head(30)

Unnamed: 0_level_0,QTDE,PERC
UNOME,Unnamed: 1_level_1,Unnamed: 2_level_1
SILVA,5853,9.157475
SANTOS,3179,4.973793
OLIVEIRA,2272,3.554721
SOUZA,1771,2.770868
LIMA,1245,1.9479
COSTA,1203,1.882187
PEREIRA,935,1.46288
FERREIRA,901,1.409685
ARAUJO,837,1.309552
CARVALHO,770,1.204725


In [23]:
maiores_nomes.to_csv('afastamentos-nomes.csv')

In [24]:
maiores_sobrenomes.to_csv('afastamentos-sobrenomes.csv')