In [1]:
# importando bibliotecas necessárias
import pandas as pd

In [2]:
# criando dataframe a partir de um arquivo csv
df = pd.read_csv('../in/ceps.csv', delimiter=';', encoding='utf-8')

# criando duas colunas (cidade e uf) a partir da divisão da coluna cidade-uf
df[['cidade','uf']] = df['cidade-uf'].str.split('/', expand=True)

# removendo a coluna cidade-uf
df.drop('cidade-uf', axis=1, inplace=True)

# removendo números dos logradouros
df['logradouro'] = df['logradouro'].str.split(',', n=1, expand=True)[0]
df['logradouro'] = df['logradouro'].str.split(' - ', n=1, expand=True)[0]

# reordenando as colunas do dataframe
df = df.reindex(columns=['cep','uf','cidade','bairro','logradouro'])

# removando linhas que possuem alguma informação vazia
df.drop_duplicates(inplace=True)
df.dropna(inplace=True)

# visualizando dataframe
df

Unnamed: 0,cep,uf,cidade,bairro,logradouro
0,1001000,SP,São Paulo,Sé,Praça da Sé
1,1001001,SP,São Paulo,Sé,Praça da Sé
2,1001010,SP,São Paulo,Sé,Rua Filipe de Oliveira
3,1001900,SP,São Paulo,Sé,Praça da Sé
4,1001901,SP,São Paulo,Sé,Praça da Sé
...,...,...,...,...,...
732751,99965971,RS,Água Santa,Centro,Rua Padre Júlio Marin
732756,99970970,RS,Ciríaco,Centro,Avenida Dezenove de Maio
732758,99975970,RS - Distrito,São João Bosco (Ciríaco),Centro,Rua Principal
732761,99980970,RS,David Canabarro,Centro,Rua Adelino Gazzoni


In [3]:
# verifica se os nomes das cidades coincidem com a lista oficial
# deixando somente as linhas com o nome correto

df_cidades = pd.read_csv("../out/cidades.csv", sep=";")

df = df[df.cidade.isin(df_cidades.nome)]

In [4]:
# criar dataframe global (50.000 registros, removendo o estado de SP)
df_global = df[df.uf != 'SP']
df_global = df_global.sample(n=50000, random_state=1)
df_global

Unnamed: 0,cep,uf,cidade,bairro,logradouro
263185,27257515,RJ,Volta Redonda,Roma,Rua Guatambu
286674,30431086,MG,Belo Horizonte,Barroca,Rua Ludgero Dolabela
537154,72261055,DF,Brasília,Ceilândia Norte (Ceilândia),QNO 19 Conjunto 55
289234,30644159,MG,Belo Horizonte,Diamante (Barreiro),Rua Geraldo Moreira da Silva
589504,76964496,RO,Cacoal,Village do Sol II,Rua Joaquim Pinheiro Filho
...,...,...,...,...,...
534432,72210243,DF,Brasília,Ceilândia Norte (Ceilândia),QNM 24 Conjunto C
467275,60822680,CE,Fortaleza,Cidade dos Funcionários,Rua José Resende
187545,20271140,RJ,Rio de Janeiro,Maracanã,Praça Presidente Emílio Garrastazu Médici
233605,25055360,RJ,Duque de Caxias,Jardim Gramacho,Rua Aracati


In [5]:
# criar dataframe do estado SP (10.000 registros, removendo as cidades de Sertãozinho, Ribeirão Preto e Americana)
df_sp = df[(df.uf == 'SP')&(df.cidade != "Sertãozinho")&(df.cidade != "Ribeirão Preto")&(df.cidade != "Americana")]
df_sp = df_sp.sample(n=10000, random_state=1)
df_sp

Unnamed: 0,cep,uf,cidade,bairro,logradouro
9025,2539040,SP,São Paulo,Parque Peruche,Rua Luís Gonzaga da Gama Filho
20367,3725110,SP,São Paulo,Engenheiro Goulart,Avenida Galera
13644,3086060,SP,São Paulo,Parque São Jorge,Rua Carlota Luísa de Jesus
100208,9210030,SP,Santo André,Parque das Nações,Rua Bélgica
115494,11440140,SP,Guarujá,Enseada,Rua Paschoal Carlos Magno
...,...,...,...,...,...
52517,6288160,SP,Osasco,Vila Menck,Rua Thaís D'Abril Parente
53337,6333300,SP,Carapicuíba,Jardim Santa Brígida,Rua Pitangueiras
141868,13405030,SP,Piracicaba,Nova Piracicaba,Avenida Cruzeiro do Sul
157945,15086384,SP,São José do Rio Preto,Village Normand,Rua Maria Virgínia Tiradentes Agrelli


In [6]:
# criar dataframe da cidade de Sertãozinho (250)
df_sertaozinho = df[df.cidade == 'Sertãozinho']
df_sertaozinho = df_sertaozinho.sample(n=250, random_state=1)
df_sertaozinho

Unnamed: 0,cep,uf,cidade,bairro,logradouro
151354,14170210,SP,Sertãozinho,São João,Rua José Batista Rosa
150763,14165138,SP,Sertãozinho,Jardim do Engenho,Rua Olga Luis de Oliveira
151548,14176877,SP,Sertãozinho,Chácaras de Recreio Pedregal - Vila Garcia,Rua Mercedes Passareli Juvêncio
151425,14170840,SP,Sertãozinho,Jardim Recreio dos Bandeirantes,Rua Antônio Malaquias Pedroso
151720,14177372,SP,Sertãozinho,Conjunto Habitacional Luís Carlos Zequim,Rua João Maria de Castro
...,...,...,...,...,...
150460,14160680,SP,Sertãozinho,Centro,Rua Crescência Carolo Balbo
151180,14169310,SP,Sertãozinho,Jardim Montreal,Rua Humberto Ortolan
150730,14164218,SP,Sertãozinho,Jardim Nassim Mamed,Avenida José Antonio Angelotti
151621,14177160,SP,Sertãozinho,Parque Residencial Francisco Paschoal,Rua Angelo Pignata


In [7]:
# criar dataframe da cidade de Ribeirão Preto (1000)
df_ribeirao = df[df.cidade == 'Ribeirão Preto']
df_ribeirao = df_ribeirao.sample(n=1000, random_state=1)
df_ribeirao

Unnamed: 0,cep,uf,cidade,bairro,logradouro
147388,14027065,SP,Ribeirão Preto,Jardim Nova Aliança Sul,Rua Antonio Tufic Antonio Senhor Tufic
148076,14051370,SP,Ribeirão Preto,Parque Residencial Cidade Universitária,Rua Ministro Victor Nunes Leal
148679,14060010,SP,Ribeirão Preto,Vila Recreio,Rua Vila Nova
146973,14021615,SP,Ribeirão Preto,Jardim Botânico,Rua Noboru Nisiyama
146940,14021520,SP,Ribeirão Preto,City Ribeirão,Avenida Guilhermina Cunha Coelho
...,...,...,...,...,...
148803,14060560,SP,Ribeirão Preto,Ipiranga,Rua Tocantins
148457,14056719,SP,Ribeirão Preto,Jardim Doutor Paulo Gomes Romeo,Rua Dirceu Peixoto
149712,14076510,SP,Ribeirão Preto,Independência,Avenida Doutor Oscar de Moura Lacerda
147753,14031822,SP,Ribeirão Preto,Jardim Progresso,Rua B-6


In [8]:
# gerar lista (array) com os 4 bairros de Americana que possuem o maior número de ruas
df_americana = df[df.cidade == "Americana"]
df_americana_bairros = df_americana.groupby(by='bairro').count()
df_americana_bairros = df_americana_bairros.sort_values(by='logradouro').tail(4)
arr_americana_bairros = df_americana_bairros.index.values
print(arr_americana_bairros)

# criar dataframe contendo apenas o 4 bairros acima
df_americana = df[df.cidade == "Americana"]
df_americana_bairros = df_americana[df_americana.bairro.isin(arr_americana_bairros)]

# modificar dataframe, filtrando apenas 5 ruas em cada bairro
lst_dfs_americana_ruas = [df_americana_bairros[df_americana_bairros.bairro == item].sample(n=5, random_state=1) for item in arr_americana_bairros] 
df_americana_bairros = pd.concat(lst_dfs_americana_ruas)

# modificar dataframe, multiplicando por 10 os registros (ficando 10 registros por rua)
df_americana_bairros = pd.concat(10*[df_americana_bairros])
df_americana_bairros



['Vila Dainese' 'Cidade Jardim II' 'Centro' 'Parque Novo Mundo']


Unnamed: 0,cep,uf,cidade,bairro,logradouro
142842,13469220,SP,Americana,Vila Dainese,Rua Francisco Giongo
142913,13469514,SP,Americana,Vila Dainese,Rua Jaguarão
142843,13469230,SP,Americana,Vila Dainese,Rua Francisco Corat
142861,13469300,SP,Americana,Vila Dainese,Avenida Marginal Três
142909,13469510,SP,Americana,Vila Dainese,Rua Miranda
...,...,...,...,...,...
142524,13467469,SP,Americana,Parque Novo Mundo,Praça Manoel Rodrigues Nogueira
142523,13467461,SP,Americana,Parque Novo Mundo,Rua Valinhos
142545,13467590,SP,Americana,Parque Novo Mundo,Rua das Açucenas
142561,13467640,SP,Americana,Parque Novo Mundo,Rua Lindóia


In [9]:
# criar dataframe da cidade de Ribeirão Preto (1000)
df_americana = df[df.cidade == 'Americana']

# filtrar dataframe, removendo os bairros-logradouros inseridos anteriormente
filtro = df_americana.bairro.isin(df_americana_bairros.bairro) & df_americana.logradouro.isin(df_americana_bairros.logradouro)
df_americana = df_americana[~filtro]
df_americana
df_americana = df_americana.sample(n=500, random_state=1)
df_americana

Unnamed: 0,cep,uf,cidade,bairro,logradouro
142252,13465570,SP,Americana,Vila Massucheto,Rua Casemiro de Abreu
142869,13469372,SP,Americana,Catharina Zanaga,Avenida Europa
142176,13465060,SP,Americana,Centro,Rua dos Professores
142412,13467013,SP,Americana,Jardim São José,Rua M
142438,13467090,SP,Americana,Cidade Jardim II,Rua dos Cactos
...,...,...,...,...,...
142205,13465280,SP,Americana,Centro,Rua Rui Barbosa
142276,13465711,SP,Americana,Paraíso,Rua Panamá
142577,13467680,SP,Americana,Parque Universitário,Avenida Professora Wilma Lenzi Tombi
142542,13467550,SP,Americana,Parque Novo Mundo,Rua Diadema


In [10]:
# concatenar todos os dataframes
df_ceps_geral = pd.concat([df_global, df_sp, df_ribeirao, df_sertaozinho, df_americana, df_americana_bairros])
df_ceps_geral

Unnamed: 0,cep,uf,cidade,bairro,logradouro
263185,27257515,RJ,Volta Redonda,Roma,Rua Guatambu
286674,30431086,MG,Belo Horizonte,Barroca,Rua Ludgero Dolabela
537154,72261055,DF,Brasília,Ceilândia Norte (Ceilândia),QNO 19 Conjunto 55
289234,30644159,MG,Belo Horizonte,Diamante (Barreiro),Rua Geraldo Moreira da Silva
589504,76964496,RO,Cacoal,Village do Sol II,Rua Joaquim Pinheiro Filho
...,...,...,...,...,...
142524,13467469,SP,Americana,Parque Novo Mundo,Praça Manoel Rodrigues Nogueira
142523,13467461,SP,Americana,Parque Novo Mundo,Rua Valinhos
142545,13467590,SP,Americana,Parque Novo Mundo,Rua das Açucenas
142561,13467640,SP,Americana,Parque Novo Mundo,Rua Lindóia


In [11]:
# cria arquivo csv
df_ceps_geral.to_csv('../out/_ceps_geral.csv', sep=';', index=None, header=['id', 'uf', 'cidade', 'bairro', 'logradouro'], encoding='iso-8859-1')

In [12]:
# criar arquivo bairros.csv

# remover nomes de bairros duplicados
df_bairros_csv = df_ceps_geral.bairro.drop_duplicates()

df_bairros_csv = df_bairros_csv.reset_index()
df_bairros_csv = df_bairros_csv.bairro
df_bairros_csv.index += 1

df_bairros_csv.to_csv('../out/bairros.csv', sep=';', index_label='id', header=['nome'], encoding='iso-8859-1')

df_bairros_csv



1                               Roma
2                            Barroca
3        Ceilândia Norte (Ceilândia)
4                Diamante (Barreiro)
5                  Village do Sol II
                    ...             
10629         Balneário Salto Grande
10630           Jardim Nielsen Ville
10631                 Vila Belvedere
10632            Jardim São Domingos
10633                 Antônio Zanaga
Name: bairro, Length: 10633, dtype: object

In [13]:
# criar arquivo ruas.csv

# remover nomes de bairros duplicados
df_ruas_csv = df_ceps_geral.logradouro.drop_duplicates()

df_ruas_csv = df_ruas_csv.reset_index()
df_ruas_csv = df_ruas_csv.logradouro
df_ruas_csv.index += 1

df_ruas_csv.to_csv('../out/ruas.csv', sep=';', index_label='id', header=['nome'], encoding='iso-8859-1')

df_ruas_csv

1                           Rua Guatambu
2                   Rua Ludgero Dolabela
3                     QNO 19 Conjunto 55
4           Rua Geraldo Moreira da Silva
5             Rua Joaquim Pinheiro Filho
                      ...               
49114                Rua Heitor Penteado
49115         Rua Joaquim Luiz de Mattos
49116            Rua Doutor Vieira Bueno
49117    Praça Manoel Rodrigues Nogueira
49118                       Rua Valinhos
Name: logradouro, Length: 49118, dtype: object

In [25]:
# criar tabela ceps

df_estados = pd.read_csv("../out/estados.csv", sep=";", encoding='iso-8859-1')
# print(df_estados)

df_cidades = pd.read_csv("../out/cidades.csv", sep=";", encoding='iso-8859-1')
# print(df_cidades)

df_bairros = pd.read_csv("../out/bairros.csv", sep=";", encoding='iso-8859-1')
# print(df_bairros)

df_ruas = pd.read_csv("../out/ruas.csv", sep=";", encoding='iso-8859-1')
# print(df_ruas)

# usando as chaves estrangeiras
df_ceps = df_ceps_geral
df_ceps = pd.merge(left=df_ceps, right=df_estados, on='uf', how='left')
df_ceps.rename({'id':'estado_id', 'nome':'estado_nome'}, axis=1, inplace=True)
df_ceps.drop(['uf','estado_nome'], axis=1, inplace=True)
df_ceps

# fazendo um replace nas cidades
dict_cidades = df_cidades.to_dict('list')
list_cidades = [dict_cidades['nome'], dict_cidades['id']]
dict_cidades_replace = {}
for key, value in zip(list_cidades[0], list_cidades[1]):
    dict_cidades_replace[key] = value
dict_cidades_replace
df_ceps.cidade.replace(to_replace=dict_cidades_replace, inplace=True)
df_ceps.rename({'cidade':'cidade_id'}, axis=1, inplace=True)
df_ceps

# fazendo replace dos bairros
df_ceps = pd.merge(left=df_ceps, right=df_bairros, left_on='bairro', right_on='nome', how='left')
df_ceps.rename({'id':'bairro_id', 'nome':'bairro_nome'}, axis=1, inplace=True)
df_ceps.drop(['bairro', 'bairro_nome'], axis=1, inplace=True)
df_ceps

# fazendo replace das ruas
df_ceps = pd.merge(left=df_ceps, right=df_ruas, left_on='logradouro', right_on='nome', how='left')
df_ceps.rename({'id':'rua_id', 'nome':'rua_nome'}, axis=1, inplace=True)
df_ceps.drop(['logradouro', 'rua_nome'], axis=1, inplace=True)
df_ceps

# renomear coluna cep
df_ceps.rename(columns={'cep':'id'}, inplace=True)

# reorganizar a ordem das colunas
df_ceps_csv = df_ceps[['id', 'estado_id', 'cidade_id', 'bairro_id', 'rua_id']]
display(df_ceps_csv)

# exportar para csv
df_ceps_csv.to_csv('../out/ceps.csv', sep=';', index=None, encoding='iso-8859-1')



Unnamed: 0,id,estado_id,cidade_id,bairro_id,rua_id
0,27257515,33,3306305,1,1
1,30431086,31,3106200,2,2
2,72261055,53,5300108,3,3
3,30644159,31,3106200,4,4
4,76964496,11,1100049,5,5
...,...,...,...,...,...
61945,13467469,35,3501608,6510,49117
61946,13467461,35,3501608,6510,49118
61947,13467590,35,3501608,6510,2847
61948,13467640,35,3501608,6510,15323
