In [298]:
p_storage_dir = "../../storage"

In [299]:
import unicodedata
import re
from pathlib import Path

import pandas as pd
from thefuzz import fuzz

IFG_PRODUZ_STORAGE_DIR = Path(f"{p_storage_dir}/ifg_produz")

## Unidades Federativas

In [300]:
ufs = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "intermediate/unidades_federativas.csv", delimiter=";")

ufs.sample(n=5)

Unnamed: 0,sigla
14,PE
12,PA
23,SE
24,SP
6,ES


**Colocar o nome completo em cada UF**

In [301]:
ufs['nome'] = ufs['sigla']

In [302]:
uf_name_replacement_map = {
    'AC': 'Acre',
    'AL': 'Alagoas',
    'AM': 'Amazonas',
    'BA': 'Bahia',
    'CE': 'Ceará',
    'DF': 'Distrito Federal',
    'ES': 'Espírito Santo',
    'GO': 'Goiás',
    'MA': 'Maranhão',
    'MG': 'Minas Gerais',
    'MS': 'Mato Grosso do Sul',
    'MT': 'Mato Grosso',
    'PA': 'Pará',
    'PB': 'Paraíba',
    'PE': 'Pernambuco',
    'PI': 'Piauí',
    'PR': 'Paraná',
    'RJ': 'Rio de Janeiro',
    'RN': 'Rio Grande do Norte',
    'RO': 'Rondônia',
    'RR': 'Roraima',
    'RS': 'Rio Grande do Sul',
    'SC': 'Santa Catarina',
    'SE': 'Sergipe',
    'SP': 'São Paulo',
    'TO': 'Tocantins'
}

In [303]:
ufs['nome'] = ufs['nome'].replace(uf_name_replacement_map)

In [304]:
ufs.sample(n=10)

Unnamed: 0,sigla,nome
0,AC,Acre
12,PA,Pará
17,RJ,Rio de Janeiro
15,PI,Piauí
19,RO,Rondônia
10,MS,Mato Grosso do Sul
16,PR,Paraná
3,BA,Bahia
2,AM,Amazonas
22,SC,Santa Catarina


## Cidades

In [305]:
cidades = pd.read_csv(IFG_PRODUZ_STORAGE_DIR / "intermediate/cidades.csv", delimiter=";")

cidades.head()

Unnamed: 0,nome,sigla_uf
0,ALMEIRIM,PA
1,ANÁPOLIS,GO
2,APARECIDA DE GOIÂNIA,GO
3,Abadiânia,GO
4,Alagoinhas,BA


**Normalizar o nome das cidades**

In [306]:
cidades['nome_normalizado'] = cidades['nome']

In [307]:
def normalizar_string(s):
    # Transforma todos os caracteres em minúsculas
    s = s.lower()
    
    # Remove acentos das letras
    s = unicodedata.normalize("NFD", s).encode("ascii", "ignore").decode("utf-8")

    # Substitui todos os caracteres que não são letras por um espaço em branco
    s = re.sub(r'[^A-Za-z ]', ' ', s)

    # Substitui espaços consecutivos por apenas um espaço
    s = re.sub(r'\d{2,}', ' ', s)

    # Remove os espaços em branco do começo e fim
    s = s.strip()

    return s

In [308]:
cidades['nome_normalizado'] = cidades['nome_normalizado'].apply(normalizar_string)

In [309]:
cidades[cidades['nome_normalizado'].str.contains(' ')].head(n=10)

Unnamed: 0,nome,sigla_uf,nome_normalizado
2,APARECIDA DE GOIÂNIA,GO,aparecida de goiania
6,Alto Araguaia,MT,alto araguaia
7,Alto Garças,MT,alto garcas
8,Amarante do Maranhão,MA,amarante do maranhao
14,Aparecida de Goiânia,GO,aparecida de goiania
15,Aparecida de goiânia,GO,aparecida de goiania
29,BELO HORIZONTE,MG,belo horizonte
31,BOA VISTA,RR,boa vista
33,BRASILIA-DF,DF,brasilia df
36,Barra do Corda,MA,barra do corda


### Reconciliar as cidades por UF

In [310]:
cidades.groupby('sigla_uf')['nome'].count().sort_values(ascending=False)

sigla_uf
GO    153
MG     65
SP     55
RS     17
BA     13
DF     12
MA     11
MT     11
RJ     11
PR     10
TO     10
PA      7
MS      6
PE      6
PI      5
ES      4
CE      4
SC      3
PB      3
RN      2
SE      2
RO      1
RR      1
AL      1
AM      1
AC      1
Name: nome, dtype: int64

**Funções auxiliares**

In [333]:
def get_first_token_length(s):
    partes = s.split(" ")
    return len(partes[0])

**Rio Grande do Sul - RS**

In [312]:
cidades_rs = cidades[cidades['sigla_uf'] == 'RS']

In [313]:
cidades_rs.shape

(17, 3)

In [314]:
cidades_rs.columns

Index(['nome', 'sigla_uf', 'nome_normalizado'], dtype='object')

In [315]:
nome_cidades_rs = [
    'Bagé', 'Boa Vista do Buricá', 'Catuípe', 'Ijuí', 'Independência',
    'Muçum', 'Pelotas', 'Porto Alegre', 'Rio Grande', 'Santa Maria',
    'Santiago', 'Santo Ângelo', 'São Francisco de Assis',
    'Tenente Portela', 'Uruguaiana', 'Venâncio Aires'
]


nome_ascii_cidades_rs = [
    'bage', 'boa vista do burica', 'catuipe', 'ijui', 'independencia',
    'mucum', 'pelotas', 'porto alegre', 'rio grande', 'santa maria',
    'santiago', 'santo angelo', 'sao francisco de assis',
    'tenente portela', 'uruguaiana', 'venancio aires'
]

In [316]:
cidades_rs_final = pd.DataFrame({'nome': nome_cidades_rs, 'nome_ascii': nome_ascii_cidades_rs, 'sigla_uf': ['RS'] * len(nome_cidades_rs)})

In [317]:
cidades_rs_final.sample(n=5)

Unnamed: 0,nome,nome_ascii,sigla_uf
6,Pelotas,pelotas,RS
0,Bagé,bage,RS
15,Venâncio Aires,venancio aires,RS
5,Muçum,mucum,RS
11,Santo Ângelo,santo angelo,RS


In [318]:
cidades_rs.loc[:, ['tamanho_primeiro_token']] = cidades_rs['nome_normalizado'].apply(get_first_token_length)

In [319]:
cidades_rs['tamanho_primeiro_token'].min()

3

In [320]:
nome_ascii_to_nome = list(zip(cidades_rs["nome"], cidades_rs["nome_normalizado"]))

In [321]:
def create_aliases(row):
    nome_ascii = row["nome_ascii"]
    aliases = [nome_desnormalizado for nome_desnormalizado, nome_normalizado in
               nome_ascii_to_nome if fuzz.ratio(nome_normalizado, nome_ascii) >= 80 and nome_normalizado[:3] == nome_ascii[:3]]
    return aliases

In [322]:
cidades_rs_final['aliases'] = cidades_rs_final.apply(create_aliases, axis=1)

In [323]:
cidades_rs_final

Unnamed: 0,nome,nome_ascii,sigla_uf,aliases
0,Bagé,bage,RS,[BAGÉ]
1,Boa Vista do Buricá,boa vista do burica,RS,[Boa Vista do Buricá]
2,Catuípe,catuipe,RS,[Catuípe]
3,Ijuí,ijui,RS,[Ijuí]
4,Independência,independencia,RS,[Independência]
5,Muçum,mucum,RS,[MUÇUM]
6,Pelotas,pelotas,RS,[Pelotas]
7,Porto Alegre,porto alegre,RS,[Porto Alegre]
8,Rio Grande,rio grande,RS,[Rio Grande]
9,Santa Maria,santa maria,RS,"[Santa Maria, santa maria]"


**Bahia - BA**

In [324]:
cidades_ba = cidades[cidades['sigla_uf'] == 'BA']

In [325]:
cidades_ba

Unnamed: 0,nome,sigla_uf,nome_normalizado
4,Alagoinhas,BA,alagoinhas
46,Bom Jesus da Serra,BA,bom jesus da serra
48,Brasilia,BA,brasilia
84,Casa Nova,BA,casa nova
95,Cocos,BA,cocos
98,Correntina,BA,correntina
181,Itaberaba,BA,itaberaba
184,Itabuna,BA,itabuna
186,Itamaraju,BA,itamaraju
202,Jacobina,BA,jacobina


In [337]:
cidades_ba = cidades_ba.drop(cidades_ba[cidades_ba['nome_normalizado'] == 'brasilia'].index)

In [332]:
len(cidades_ba['nome_normalizado'].unique()) == len(cidades_ba['nome_normalizado'])

True

In [338]:
cidades_ba_final = cidades_ba[['nome', 'sigla_uf']]

In [339]:
cidades_ba_final['aliases'] = cidades_ba['nome'].apply(lambda s: [s])

In [341]:
cidades_ba_final['nome_ascii'] = cidades_ba['nome_normalizado']

In [342]:
cidades_ba_final

Unnamed: 0,nome,sigla_uf,aliases,nome_ascii
4,Alagoinhas,BA,[Alagoinhas],alagoinhas
46,Bom Jesus da Serra,BA,[Bom Jesus da Serra],bom jesus da serra
84,Casa Nova,BA,[Casa Nova],casa nova
95,Cocos,BA,[Cocos],cocos
98,Correntina,BA,[Correntina],correntina
181,Itaberaba,BA,[Itaberaba],itaberaba
184,Itabuna,BA,[Itabuna],itabuna
186,Itamaraju,BA,[Itamaraju],itamaraju
202,Jacobina,BA,[Jacobina],jacobina
211,Jequié,BA,[Jequié],jequie
