# Tratamento de dados de endereço

Importação da biblioteca Pandas para a manipulação de dados de forma tabular.

In [1]:
import pandas as pd

Leitura do arquivo "**cli_end_amostra_minas_gerais_202005281312.csv**", este arquivo contém as informações de dendereço de Minas Gerais. Para a geração deste arquivo, foi executado o [script sql](http://fontes.des.caixa/GESIR/gesir-solucoes-analiticas/ibge-indicadores-censitarios/blob/master/C%C3%B3digos/end_renda_cli.sql) utilizando os filtros de "**sg_uf = 'MG'**", "**aa_fim isnull**" e "**ic_comprovacao = 'S'**".

In [2]:
analise_endereco_mg = pd.read_csv('../dados/amostra_sicli/cli_end_amostra_minas_gerais_202007030927.zip',\
                                    delimiter='\|\|', compression='zip', header=None)

  This is separate from the ipykernel package so we can avoid doing imports until


In [3]:
analise_endereco_mg = analise_endereco_mg.rename(columns={0:"nu_pessoa_p17",
                                                            1:"nu_cep",
                                                            2:"nu_cep_complemento",
                                                            3:"nu_cep_full",
                                                            4:"no_localidade",
                                                            5:"no_bairro",
                                                            6:"de_localizacao",
                                                            7:"sg_posicao_dtrme",
                                                            8:"sg_uf",
                                                            9:"no_pais",
                                                            10:"sg_tipo_ed_imovel",
                                                            11:"ed_unidade_ocpco",
                                                            12:"ic_origem_cdsto",
                                                            13:"ic_validacao",
                                                            14:"ic_comprovacao",
                                                            15:"nu_ano_mes_inicio",
                                                            16:"nu_ano_mes_fim",
                                                            17:"dt_apuracao_endereco"})

Foi realizado uma limpeza nos campos retirando as áspas duplas pois não estavam em conformidade com seu tipo de dado.

In [4]:
analise_endereco_mg = analise_endereco_mg.replace(to_replace=r'\"', value='', regex=True)

Após a limpeza foi convertido o campo de CEP para inteiro.

In [5]:
analise_endereco_mg['nu_cep_full'] = analise_endereco_mg['nu_cep_full'].astype(int)

Criação de uma coluna "**valida_cep**" para identificação de estrutura de CEP's com os tamanho de 7 e 8 dígitos.

In [6]:
analise_endereco_mg['valida_cep'] = (analise_endereco_mg['nu_cep_full'] / 1000000).astype(int)

---
# Pré processamento de endereço

Nesta parte foi realizado um tratamento de alguns valores de endereço.

Foi utilizada para aumentar a probabilidade na hora da predição dos endereços.

In [7]:
analise_endereco_mg['sg_posicao_dtrme'].value_counts()

R        1115119
AV        195254
RUA        18337
PC          8646
TV          5728
          ...   
R:             1
0              1
ROA            1
2AL            1
R,M            1
Name: sg_posicao_dtrme, Length: 323, dtype: int64

### Tratamento de siglas de endereços

In [8]:
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'\s*', value='', regex=True)
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'000', value='', regex=True)
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'RUA', value='R', regex=True)
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'AV.', value='AV', regex=True)
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'R.', value='R', regex=True)
analise_endereco_mg['sg_posicao_dtrme'] = analise_endereco_mg['sg_posicao_dtrme'].replace(to_replace=r'PCA', value='PC', regex=True)

In [9]:
analise_endereco_mg['sg_posicao_dtrme'].value_counts()

R      1134049
AV      195824
PC        9267
TV        5728
FAZ       4426
        ...   
PIO          1
TVP          1
BUE          1
GUI          1
6TV          1
Name: sg_posicao_dtrme, Length: 242, dtype: int64

In [10]:
for i in analise_endereco_mg['sg_posicao_dtrme'].value_counts().index:
    print(i)

R
AV
PC
TV
FAZ
SIT
AL
BC
CR
EST
VL
RD
LOT
TR
ALA
CH
DT
AC
RS
LD
V
A
PR

VLA
RM
RV
CON
RT
ETR
RR
RP
RA
COL
P
RJ
VIA
VI
GAL
RC
LGA
ST
CAI
BR
CX
ACL
CJ
RE
RF
RB
9R
Q
LG
AL.
MR
VLE
RO
RG
ETC
ETN
RI
PAT
1R
GJA
CPO
T
LAD
RN
ESD
CAM
ESC
LR
LT
COR
PA
DR
PTE
LAO
LGO
ATL
PDA
CEL
RZ
CP
BSQ
FAV
JOA
VIL
3R
2R
RL
RQ
MAR
E
AT
DEP
TER
NAI
ACA
BL
R0
4R
QTA
ETP
.
KM
PAD
5R
R9
10R
RH
PTO
BX
RU
JUL
RX
NUC
JOS
CAL
NOR
AR
XX
__R
DEL
R1
VR
5BC
7R
DEC
PSG
AE
R2
PSP
ELM
8R
4A
ANT
1A
UR
TV.
CHA
BER
S
BAR
FR
NOE
SAN
MIS
POV
ZV
FAN
AER
CX.
JD
GER
JUV
OR
DSV
ADE
MOR
BCO
FZA
00R
BEL
SAO
QUI
LAR
AFO
ECT
PE
HER
B.D
PSA
ESP
O
SIN
QNL
OD
XV
ESV
CHI
6R
EIX
SEG
VD
RW
R3
EVD
C
1TV
ETT
AMI
1
TAN
UNI
:R
M
CES
PAL
XXX
HUM
AOS
SIQ
PIR
IMI
CAN
SEB
FZ
PC.
OSV
EUC
DON
11R
MAL
HEN
ALM
ENT
EDU
EME
AGE
PAU
QUA
ESE
AD
BEC
VAL
TCH
JAT
2AL
12A
FER
GAM
R-
LIC
0
V.
SAR
PIO
TVP
BUE
GUI
6TV


In [11]:
for i in analise_endereco_mg['sg_posicao_dtrme'].value_counts():
    print(i)

1134049
195824
9267
5728
4426
3670
3441
2878
2385
1604
1343
1000
862
519
470
293
213
177
168
156
116
106
101
97
89
75
70
63
60
54
52
52
45
44
44
43
37
35
35
34
32
31
31
30
29
28
26
25
24
24
23
22
22
19
19
19
18
18
18
17
17
16
16
16
15
15
14
14
14
13
13
13
12
12
12
12
12
11
11
11
11
10
10
10
9
9
9
9
9
8
8
8
7
7
7
7
7
6
5
5
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1


### Tratamento de localidade

In [12]:
analise_endereco_mg['no_localidade'].value_counts()

BELO HORIZONTE    734327
UBERLANDIA        172892
CONTAGEM          159807
JUIZ DE FORA      134567
UBERABA            86379
                   ...  
GUIMARAES              1
PEREIQUITO             1
G PALMITAL             1
BOM PASTOR JFO         1
M0NTES CLAROS          1
Name: no_localidade, Length: 18238, dtype: int64

In [13]:
for i in analise_endereco_mg['no_localidade'].value_counts().index:
    print(i)

BELO HORIZONTE
UBERLANDIA
CONTAGEM
JUIZ DE FORA
UBERABA
BETIM
MONTES CLAROS
DIVINOPOLIS
IPATINGA
SETE LAGOAS
PATOS DE MINAS
POUSO ALEGRE
ARAGUARI
ARAXA
ITUIUTABA
VARGINHA
SANTA LUZIA
RIBEIRAO DAS N
IBIRITE
GOVERNADOR VAL
ITABIRA
PASSOS
PATROCINIO
BARBACENA
SABARA
MURIAE
ITAUNA
LAVRAS
UBA
ITAJUBA
POCOS DE CALDA
JOAO MONLEVADE
TRES CORACOES
BH
ALFENAS
TEOFILO OTONI
VICOSA
PARA DE MINAS
NOVA LIMA
TIMOTEO
CARATINGA
BHTE
OURO PRETO
CATAGUASES
P DE CALDAS
GOVERNADOR VALADARES
NOVA SERRANA
GUAXUPE
PARACATU
UNAI
VESPASIANO
CURVELO
FORMIGA
PONTE NOVA
POCOS DE CALDAS
TRES PONTAS
FRUTAL
LAGOA DA PRATA
PEDRO LEOPOLDO
MONTE CARMELO
CAMPO BELO
BOM DESPACHO
MANHUACU
JANAUBA
LAGOA SANTA
LEOPOLDINA
MARIANA
ITABIRITO
CONGONHAS
RIBEIRAO DAS NEVES
CORONEL FABRIC
SAO SEBASTIAO
JOAO PINHEIRO
SAO LOURENCO
MACHADO
GOV VALADARES
PIRAPORA
ARCOS
ALMENARA
OURO BRANCO
JANUARIA
SAO GOTARDO
BOA ESPERANCA
SANTOS DUMONT
OLIVEIRA
ESMERALDAS
GUANHAES
ANDRADAS
DIAMANTINA
CONSELHEIRO LA
SALINAS
ALEM PARAIBA
ITURAMA
CLAUDI

RIBEIRAO DO LARGO
BREJAUBINHA
SANTANA DE PATOS
VILA IDEAL
SION/BH
APARECIDA DE MINAS
JOAO MOLEVADE
MINAS BRASIL
CONC DO RIO VERDE
V S BENEDITO
PAPAGAIO
MINAS CAIXA/BH
COR EUCARISTIC
STA RITA SAPUC
SILVEIRA
SERRANOPOLIS DE MINAS
ARAGUARI MG
N GAMELEIRA
SAGR FAMILIA
NOVO RIACHO
V.RIO BRANCO
SENADOR JOSE B
SAO JOSE DO MANTIMENTO
S TOME LETRAS
PEDRA BRANCA
ANTONIO PEREIRA
OPERARIO
ENG NAVARRO
S RITA DO SAPUCAI
SANTA FE DE MI
S DOS AIMORES
BOCAI  A
PIEDADE DOS GE
PRUD MORAIS
DIVINOLANDIA
PALMEIRAL
SAUDADE
S FAMILIA BHTE
S VICENTE MINA
SANTO ANTONIO DO LEITE
PRUD DE MORAIS
S JOSE DO DIVI
SERRA/BH
MARTA HELENA
LAGOINHA/BHTE
ARAGUAIA
SAO SEBASTIAO DO RIO VERD
DONA CLARA/BH
PRESIDENTE KUBITSCHEK
STA AMELIA
CORREGO DO OURO
ROCA GRANDE
COLONIA TAPERA
AGUA BRANCA
SANTA LUZIA-MG
LIBERDADE/BH
S CRISTOVAO/BH
IBIRIT    MG
SANTA TERESA
V STA CRUZ
CAMPO MAGRO
UBERLANIDA
CONS LAFAIETE3
SERRANOPOLIS
CORON   FABRIC
SAPUCAI-MIRIM
CONCEIAAO DO R
DIVIN  OLIS
VI OSA
AGUAS FERREAS
CANABRAVA
MANTIQUEIRA BH
S GON

DIVINO DAS LARANJEIR
NOVA BARROCA
NV GAMELEIRA
CLAFAIETE
P DE MORAIS
MONS. PAULO
PAT MURIAE
CONCEICAO APARECIDA
LUIZOTE
BONSUCESSO
STA R CALDAS
S C DE MINAS
PE DO MORRO
CAMILO ALVES
JUZI DE FORA
ALIPIO MELO
B PASTOR DVL
ITUIUTABAM
KENNEDY
CID JARDIM/BH
STOS DUMONT/LS
S PAULO
CASTELO BH
ITAJUB    MG
AB D DOURADOS
NOVA SUI A
SALITRE DE MIN
X
STA JULIANA
S.J.B.GLORIA
B DE COCAIS MG
CENTRO UDIA
AIMOR S   MG
BELO HORIOZONT
N
TUPACIGAURA
PENHA CASSIANO
VISCONDE RIO BRANC
MONTES CLAORS
GOIANIA B
BELO HOROZONTE
SANTA M ITABIR
S FRANCISCO
OLHOS D  AGUA
MARAVINHAS
JATOBA BH
GUANH  S
JUIZ E FORA
JARDIM INDUSTR
SAGR.FAMILIA
PIUHMI
INDUSTRIAL  JF
CENACULO
SERRA BHTE
PARAG  CU
NOSSA FAZENDA
S SEB DO ANTA
LUIZOTE II
COR JESUS/BH
CUSTODIO PEREI
BARAO DO MONTE
COLORADO
ANT CARLOS
STA BARBARA LE
SANTA  ARIA DE
CONJ FELICIDAD
CONC.APARECIDA
SAO R DE MINAS
COL. BATISTA
CATAS A NORUEG
BRETAS/GV
AYUCENA
PARAJU
GOV VALADAERS
SANTA  BARBARA
BRASI  NDIA DE
IMPERIAL
CARAJAS
S SEB RIO PRET
SAO SEB. DO PARAISO
GO

JANAURIA
ENG. NAVARRO
GOIABAL
XXXXX
NOVA CIDADE
POUSO AEGRE
URA
VILELA
JUIA DE FORA
VILA S GERALDO
S T LETRAS
S.J. DA SAFIRA
FUCNIONARIOS
CENTRO OLIVEIR
CLAUDIO MANUEL
SAO SEBASTIAO PARAISO
CATALAO/DVL
LAJE DO MURIAE
PENHA
ANDRA  S
S GER PIEDADE
ALEM PAAIBA
S O JOAQUIM DE
FERNANDES TOURI
SION/BHTE
VILA MILITA
ELIOPOLIS
GOV VALARES
S FCO PAULA
RIACHO PEDRAS
STA EFIGENIA/B
EUXENITA
CONTRIA
LINHARES
UBRABA
SANTA  LUZIA
SAN DO PARAISO
CANDELARIA BH
JUNQUEIRA
MADRE DEUS
BOCAIVA
CONTAGENM
PATRIMONIO
JOSE GONC MINA
SAO S MARANHAO
PD. EUSTAQUIO
ITAPA  PE
S. DO JACARE
N ORIENTE MINA
SAO JOSE DO PA
CONJ CALIFORNI
SAPUCAIA DE GUANHAES
PQ GRANADA
JUIZ DE DORA
CONTAG
LONTRA   MG
REZENDE
NOVA CIDADE/BH
S.P.UNIAO
JOCLEY CLUBEII
CAMARGOS/BH
GLORIA/BH
ALTO PASSOS
J AMERICA/BHTE
COR.FABRICIANO
M GARCA
M STO MINAS
SANTA MARTINHA
BAR. DE BAIXO
DR JOSE TOMAZ
JARD.MONTANHES
VARGINAH
STA B. TUGURIO
RASA
SION - BH
CARNEIRINHOS
M.CAMPOS
AUG. DE LIMA
TIETE
CONCEIYAO DO PARA
TIMOTEO   MG
CAET FURQUIM
ANTONIO CAR

JOAO  MONLEVADE
GIVAL
ST LUZIA
SANTA IZABEL
SAN.ANT.GRAMA
SALGUEIRO
POUSOALEGRE
STA BRANCA  BH
ILHA DO ARAUJO
JUIZZ DE FORA
TIMIRIM
ICARAI - DVL
R.DOS MACHADOS
S V MINAS
SAO JOAO DEL-R
SANTA FILOMENA
REC FERNANDES
RIBEIRAO
SAO DOM DO PRATA
S.J.EVANGELIST
EWBANC CAMARA
N ESPERANCA
LEVY GASPARIAN
L DOS PATOS
NV CACHOEIRINH
CURVEO
B DESPACHO
JUIS DE FORA
SAO VICENTE DA ESTRELA
TRES CROACOES
CACH. PRATA
BH0/
S A GRAMA
C PRATES BHTE
STO A DO AMPARO
SABARA MG
B RETIRO NORTE
OLIVEIRAS
S.C ESCALVADO
LAGOA DOURADO
C PRATES/BHTE
VL ERMELINDA
CORDEIRO DE MI
NATAL
BOA MORTE
RIB DASNEVES
DONA CLARA - B
SARANDI
CONCEICAO BARR
B PEDRA BRANCA
CACH PAJEU
MONTECARMELO
JD PETROPOLIS
S.J.DO ORIENTE
IPTATINGA
SENHOR B JESUS
DIOGO VASCONCELO
BELO HORINZONTE
CAMPO  GERAIS
CONSOLA AO
ILHA/GOVAL
FELIXANDIA
BURITIZEIRO   M
C XAVIER CHAVE
ARUANAN
BELO HORIZONRTE
SAUDE
INDUSTRIAL  BH
FRONT.DOS VALE
SGSAPCUAI
SANTO ANT MONT
SERRO   MG
ONTAGEM
V CRUZ
INDEPEDENCIA
V PACIENCIA
RIOLANDIA
STA LUZIA-JF
CAMPUS PAMPUL.
S 

LAVRASS
JAD ARIZONA/SL
B DE MACEDO
CENTRO DIVINOP
C  DO  ARANA
CEU AZUL A/BH
BELO HOREIZONT
PQ CENTENARIO
R DA NEVES
GUARACIABA:
ARACAUI
JOSE GONCALVES DE MI
SAO JOAQUIM BI
CEL FABRI
VILA DOM LOPES
B J DA CACHOEI
PRES.JUSCELINO
BARAO DO M ALT
LAGOINH/BH
CENTRO-DVL
S.D. DO PRATA
UNCU
CAICARAS
EUGELOPOLIS
MATEUS LEME   M
RIO
MATEUS LEMES
BARBACEA
VILA PAPINE
DIAMATINA
J.DE FORA
VRBRAMCO
VILA MAGNESITA
BELO_HORIZONTE
COM GOMES
B OURO PRETO
CARMO DA CACHOEI
CIPOT  EA
ATALE
IPATINEA
LUXEMBURGO- BH
N LAVRAS
CONTAGEMR
BARREIRO CIM
SANTA FE MINAS
CONC DA BARRA
ELDORADINHO
ITUIUTAB A
ITAGBIRA
CARANGOAL
S F GLORIA
V. O. COSTA JF
FLORESTA-BH
SIR
BARREIRA CIMA
CANAAN/BH
B. APARECIDA
CONSOLAYAO
JARDIM DEA
SRA OLIVEIRA
STA MARIA DO SUACUI
VILA SANTA CLA
V.R. BRANCO
IPIRANGA - BH
RETIRO PEDRAS
R BRANCO - BH
VIRINOPOLIS
VL TIRADENTES
MONTES CLAROSL
C.DE JESUS
MANGUEIRINHA
PAMPULHA    BH
ANT. FONSECA
C JARDIM/BH
MONTES CLAROSP
GUANHAES  MG
DELF.MAGALHAES
LAJEADO
SANTA LAURA
FLAV.M.LISBOA
CORUMBA
CENTRO

SAO CAETANO MOEDA
B NOVA AMERICA
BARAO M.ALTO
SATOS DUMONT
MUNIC ARAPUA
CACH.MINAS
CHTE
CDNTRO
ES BHTE
BELO HOR
GOV VALADAARES
CENTRO J.FORA
MARIANO ABREU
NOVO TEMPO TIM
NOSSO LAR
VICOSA MGMG
JOAO MONLEADE
CASTELO - BHTE
CERVATO IV
S.V.DE MINAS
S.J.DO MANTENINHA
STA IPATINGA
BH/FLORESTA
A IDEN
PALMARES    BH
CONC RIO VEDE
P. GUARUA
JACIN
S JOAQ D BICAS
STA BARBARA DO
TEOFILO OTONE
JD PLANALTO
UTINGA
RAPSOSO
SANTANA VARG
ITABIRITP
OURO PRETOO
POCOS CALDA
ARAXZA
STO ANT.CAMPOS
UNAI MG DDD 38
TARUA-U
TMOTEO
CAXAMBU3
MARIPA  MINAS
BOM DESPAVHO
CARMO DOCAJURU
MUN.CLAUDIO
STA. AMELIA/BH
SAO RUMAO
JD.MONTANHES
PAQUETA BH
S SEB R PRETO
SANTOS DUM0NT
SAO PEDRO  BH
S  DO PARAISO
IPAB.PARAISO
NOVO AMAZONAS
DIVINO DE VIRG
TRES RIOS
SAO D.D.DORES
PATEROCINIO
LAMBAR
CARMO RIO CLARO
RJ
JARDIM BRASILI
MADRE D.MINAS
GRA DUQUEZA
AMPARODO SERRA
SAO PAULO-BH
STA TERESA/BH
CONCEIYAO DA A
CONCEIY O DOS
SA FE DE MINAS
GARIMPO BANDEI
TRES BARRAS
RES GRAMADO
TIMOTEO MG
ESPERA FELZI
S DOMI PRATA
IPAITNGA
MACHAD

COR. BOM JESUS
CONQUISTA-MG
SJOSE DA LAPA
GORREGO D ILHA
MARIPA NINAS
PEREIRINHAS
JARDIM BH
ESERALDAS
CEL FABRICIAO
BOM JD  MINAS
N SUICA/BHEE
VILA CAPRI
BARAO  DCOCAIS
SAO PAULLO
SJ NEPOMUVENO
GALILEIRA
CPO STO ANTONI
B HORIOZNTE
J FLORENCA
FUNILANDIA   M
STA LUZIA CARA
MAJOR LAGE
JAMANTA
TRES   MARIA
ANDR ADAS
PARQUE  BH
POUSO ALAGRE
B J MINAS
SAO SEBASTIAO PARAIS
CASSSIA
ABADIA DOS DOURA
N S DO CARMO
N DAS INDUSTRI
DELFIN POLIS
CENTRO-PERDOES
SERRA D AIMORES
FRANC. BADARO
UDAI
CHACARAS TUBAL
ITAU DE  MINAS
SANTA
SANTANA DO GARA
LAGOINHABH
PARACATY
CACHO  RA DE P
N.SUISSA
S ANTONIO PONT
CJ NOVA PAMPUL
CONGOHAS
SAGD FAMILIA
BRASIL IND.-BH
MONTES CLALROS
V. EXPOSICAO
CLAUDIOO
MONTES LCAROS
USINA JAGUARA
ANDRE FERNANDE
PERDIZES MG
RIBERAO DAS NEVES
SAO FRANCISCO DE
CEL XAV CAHVES
SANT.RIACHO
POOUSO ALEGRE
CONS LADFAIETE
SENADOR MODESTINO GO
BAENPEDI
SANTO ANT. DO MONTE
REBOURGEON
BACAO
TIMOTEORICIANO
RIBEIRAO  NEVE
OLIVEIRAM
MONTE CARMELOM
T POTONI
BH/VENDA NOVA
SAO DGOS PRATA
ST RITA J

DORADO INDOIA
SAO J DA VARGI
BANDEIR DO SUL
M. GERTRUDES
ITAPERUNGA RJ
BARRAO COCAIS
SAO SEBASTIDO DO PARAISO
CID. NOVA/BH
CENRO-BHTE
SAMARCO
TEIXEIRA FREITAS
JD CALIF/CONTA
CEU AZUL    BH
I:TABIRA
CATALAO-DVL
FLORAMAR / BH
PONTE/S LUZIA
S O JOSE DA LAP
JUIZD E FORA
B.DESPACHO
STA BARBARA TUGURIO
DUMONT UBERABA
TRES PODERES
P KUBITSCHECK
T.MARIAS
STA R SAPCUAI
JUIZ DE FOERA
C.CASTELO II
C FUNDO MEIO
OUO BRANCO
C DA PRATA
AZTECA/S LUZIA
J N IORQUE
CRUZ DO SUL
SANTA M SUACUI
LAGOA-BH
SAO SEBAST PARAISO
C  DA PRATA
ST EFIGENIA
PALMEIRA DO PIAUI
OBRE IPATINGA
BOM DESPACHIO
AUGUST.DE LIMA
JORDANIA-MG
S CRUZ
SANT.DA VARGEM
STA.CRUZ MINAS
LIMEI   DO OES
P DE CALDAS00
BRAUNAS/BH
JK / CONTAGEM
SJ NEWPOMUCENO
CORONEL FAB
CONC. OUROS
BETANIA-BH
SJNPOMUCENO
V.DO JATOBA
SAO J TRONQUEI
EAMPO BELO
PQ GUARANI III
NANQUUE
S T DE MINAS
POCOS DE CALDAS MG
CIDADD NOVA
JARDIM PAQUETA
STO A. AMPARO
M.CALROS
BOM DEPSAHCO
SANTA VTORIA
S J B  GLORIA
GOVERNDOR VALADARES
S ANTONIO BHTE
CNTR
AP402 BHTE
GENIP DE M

REGINA/BH
SAO JOAO ORIEN
B. SAO BENTO
NOVA ESPERANCA DO PIRIA
STA ROSA    BH
POTON
PQ S.PEDRO BH
STOS REIS MOC
A,VERA CRUZ
BH/STA AMELIA
DIAAMANTINA
SAO JORGE 2
ALVINIPOLIS
TA.B. HORIZONT
OAO MONLEVADE
PIEDADEPNOVA
T TONI
N SRA DO O
NV AARAO REIS
ITABIRFITO
JD S CARLOS
DESEMBOQUE
DOM PEDRO I
ANT NIO CARLOS
LADAINHA - MG
SA FRANCISCO P
I IPATINGA
REC DA LAGOA
P.DE CARATINGA
CALAFATE BHTE
S. BERNARDO-BH
SANTANA DO DESER
SANTA LUZ BH
ABADIA DOURAD
GONZAGA   MG
JUIZ DE FRA
JUSTINIPOLIS
CAPARAO   MG
MEEDINA
MINDU
BERIAL
VILA S JOAO
COR.DA ILHA
1  DE MAIO
ACESITA / TIMOTEO
LUZ   MG
SAO G. DO PARA
OURO 35414000MG1
SABRALIA
CONJ. VIVIANE
CB JESUS
VL ATLANTIDA
EVARISTO BUENO DA FONSECA
B PAQ SAO PEDR
NALTO B. HORIZ
LEONANI
BAEPNDI
MAIA HELENA
MONJOLINHO
UGA
S. P.UNIAO
BELO 31744705MG1
BELO HORITONTE
BOAO ESPERANCA
MORADA TREVO
TOCANTINS/ UDI
BH MG ST ANTON
CASTAGUASES
BELO HORZIZONT
POUDO ALEGRE
T OTOM
STA.RITA INDUS
CORRENTINHO M
ANCHIETA/B HTE
BAIRRO MARTINS
OURO RPRETO
CJ HB COSTA E SI
BIQUI

MONTE4S CLAROS
ENTRE RIOS M
C ALEGRE
ANT.PRADO DE M
PONTO DOS VOLAN
SAO SEB DO OESTE
VILA CRUZ
S.S.DAS DORES
SAO PEDRO SUAC
ITAIPE-MG
CAE FURQUIM
PARAUNA/BH
JARAGUA    BH
S JOAO MANTEN
PATRC MURIAE
PORTO  FIRME
CATAJAS
CAXANBU
MONTES   CLARO
LABAREDA
SAO DOMI. PRATA
PA0
VENDA NOVA B.H
CINCO CONTAGEM
IV
FLORESTA -BHTE
NOVO NILO
CONCEIYAO DE PIRACICABA
MOMTES CLAROS
VALE DAS FLORE
CONCEI  O DO RI
JR ARIZONA
SAO PAULO-GOV
SA0 F DO  GLOR
CEL  XAVIER CHAVES
CON DA SPEDRAS
PEDRO LREOPOLDO
S S ESTRELA
MARIANA,
SAO THOME LETRAS
AGUASES
GEN. CARNEIRO
PLANALTO II
PRATINHA   MG
HAMILTON
BARRA PEDRO LE
CARANAI
LEMES DO PRADO
STA BARBARA DO TUGUR
S GLORIA
B.CUIETE
SAO GONCAO DO SAPUCAI
POCOSD DE CALDAS
MORRO DO CARMO
OLHOS DAGUA/BH
ESPLANADA-BHTE
STA MONICA-UDI
PAMPULHA  BH
SALTO  D DIVIS
CID.JARDIM -BH
BARRBACENA
SAO G PARA
V IDEAL
TEIXEIRAS/JF
P. SAO PEDRO
NTAGEM
VL SAO JORGE
SAO SERSERRA VERDE
SAO PIO X
AGUAS FORMOSA
ONCA DI PITANG
MANTIQ/BH
N GRANADA  BH
SAO JOSE DALAPA
A MARANHAO
CANTRY CLUBE


ROCHA GRANDE
IJCAI
LAGAMAR   MG
NPROGRESSO
TONY / NEVES
COMEN  DOR GOM
JEQUEI
PIRAJA BHTE
INDEPENDENCIA/
CRISTO RDENTOR
AMARGOSA
CAMBUQIIRA
MG C/JUIZ FORA
BELO HORIZONTEMG
SAO JOAQ DE BICAS
BOM SUSCESSO
RODELAS
SANTA RITA IBI
SANTA CECLIA
MAE DE ESPANHA
CONJ.AGUA BCA.
T.DIAS - B.HTE
JD PAULISTA
ABADIA UBERABA
VAREM GRANDE
BARREIRO BIAXO
BONFIM/B.HTE.
NOVA BELEN
GOV VAL.
ANT DOS SANTOS
STA R DA SERRA
J ATLANTICO BH
COQUIRAL
ALE
CAETANOPOLI
CERQ LIMA
MORRO DO SOL
FREI GASPAR398
VILA GUIMARAES
S GERALDO DA P
PEDRO LOEPOLDO
CAPIUM BRANCO
VILA DOS MONTE
LEBLOM
SAO TARSCIO/GV
ORIZANIA   MG
UPABA
NOVA SEERANA
IPIRANG MCLARO
ANTANA DO MCU
BOM JARDIM DE MI
NAZARE/BH
N.S GRACAS
S.ANTONIO PORT
B J AMAPARO
VERDE BHTE
S.J. BATIST BH
DIOGO  E VASCO
COINTAGEM
SAO PEDRO DOS F
BARRA DO ARIRA
OURO BRACO
LUCEMBURGO
VALE DOS BANDE
CAI-ARA/BH
CONTAAGEM
ALPINOPOLOIS
ALMEMARA
M. EUGENIA
PORTO ESPERIDIAO
CARUARU- PE
M MORADA NOVA
OUO PRETO
JOSEN  OLIS
PERO LEOPOLDO
BOA ESERANCA
JACUTING A
BELO HOROIZONTE
DORE

BOM JESUS PENHA
J.ARIZONA
SANTO HIPOLIT0
LAGOASDOSPATOS
PEN DO CACIANO
JANUARIA.
ITAMARATY
N S OLIVEIRAS
RIO CASCA MG
RUFINOPOLIS
STA  BARBARA
S. JOAO DEL RE
SANTA BARBARA TUGURIO
VLE JATOBA BH
N. S. GRACAS
PATROC. MURIAE
B E CARNEIRO
CASA GRANDE 36
JD KARAIBA
PQ TREVO
B.VILA GONCALO
CONJ NEWTON C
BA.ALVINOPOLIS
FILGUEIRAS
DIVINOPOLISH
NOVA ANDRADINA
TIBERY / UDIA
PEDRO LELOPOLD
RODRITO SILVA
JAPONVAR   MG
GRAJAU / BHTE
S DOMING PRATA
MJ.PRATES/MOC
S.JOAO DAS MIS
PRIMEIROMAIO
MARMEL POLIS
EDIT
CONTA32185050M
JOC CLUB II/JF
CONCEICAO CO MATO DENTRO
ELISBURGO
FUBA
S J CAMPOS
12AP102COQUEIR
UDI/MARTINS
VENDA NOVA BEL
POUS ALEGRE
CL FABRICIANO
LAGOA SANT A
VILA RATAGUAS
CENTENARIO LAV
LAGO AZUL
CASCALHO  RICO
ALVORA MINAS
VIS.R.BRANCO
BELO HORIZO
ARACUAI/MG
PALMARES - BH
MUTIRAO CORREGO GRANDE
S GERALDO TUMIRITINGA
ERA  NOVA
RIBEIR.NEVES
RESSAQUINHA   M
JASNAUBA
VUCISA
SAO J. JACUTIN
OUORO FINO
STA CRUZ DE MIN
BAR. DE CIMA
AGENIL
BERIAZAL
B CEU AZUL
VAPABUCU S LAG
35406000
V. REGINA
RODRIG

UMBARITIBA
SERRONOPOLIS
LAGOA DA PRTA
; ; ; ; ; ; ;
V.PQ.RIACHUELO
ALVORADA/SABAR
SAO COSME/S.LU
NOVA ESPERAN;A
SAO FRANC PAULA
BELO HORIZNTEM
ITAPAGIPE   MG
S.JORGE I-UDIA
B NTE
P. PONTE NOVA
PATRO  NIO DO
INHAOIM
SERTAOZINHO SP
IPORA
BOM J.AMPARO
SAO SIMAO DO R
PIEDADE DE CARA
NOSSA S. CARMO
B CEU AZUL B
C AGUA BRANCA
SAO J. DO ORIE
LUIS ANTONIO
NOVA PORRTEIRINH
A DUTRA
TUPARECE
1 DE MAIO/BH
OURO BRNCO
BELHO HTE
NACIONAL BH
JANAIBA
STA INEZ B.HTE
CARM RIO CLARO
CACHOEIR./BH
JD DO CONTORNO
CAICARAS BH
ALVORADA/UDIA
LUIZOTE FREITA
ACACIO BORGES
1000
S.JOAO DO ORIENTE
STO ANTONIO  B
CENTRO LAVRAS
B.DAS NEVES
JD,LEBLOM/BH
TUPACIUGARA
BARREURO CIMA
C DOS OUROS
S. JACARE
FREI-INOCENCIO
S ANT.AMPARO
OURAO BRANCO
R. JOAO PINTO
VILA CENTENARI
EUGEN POLIS
LAGOA AZUL I
SETAOZINHO
S JOSE LAGOA
VTABIRITO
S.RITA JACUTIN
MAREUS LEME
ORAT RIOS   MG
ST MATILDE/BH
TRES MAIRAS
B. GRACA
CHRISTIANO OTO
DURABDE
BATAGUASSU
S JOSE  DA LAPA
UFV
TABUELIRO
PAMPULHA UDIA
VERDELANDI
FUNCIONARIOSM
S DOMINGOS DAS


In [14]:
for i in analise_endereco_mg['no_localidade'].value_counts():
    print(i)

734327
172892
159807
134567
86379
71284
65795
61717
49848
44578
43399
39603
37165
36250
35155
34874
33632
31422
30388
29812
29809
29227
26882
26495
25382
25268
25263
24290
23961
23552
23483
23451
23150
22541
22484
22396
22264
21601
21102
20380
19451
19263
18771
18554
18207
17946
17729
17437
16530
16331
16266
16159
15949
15351
14909
14645
14618
14472
13916
13608
13607
13542
13209
12688
12341
12244
12223
12221
11820
11328
11303
10733
10728
10567
10554
10409
10362
10301
10250
10085
9823
9720
9706
9652
9496
9265
9156
9082
8779
8757
8682
8650
8640
8620
8502
8496
8360
8257
8251
8117
8113
8083
8002
7942
7927
7783
7672
7550
7537
7482
7472
7299
7226
7213
7205
7021
7017
6899
6885
6866
6847
6718
6716
6656
6552
6460
6449
6339
6305
6284
6261
6224
6122
6053
6026
5962
5931
5930
5863
5709
5630
5623
5613
5610
5575
5526
5436
5427
5405
5337
5318
5302
5204
5199
5150
5071
5042
4866
4783
4753
4709
4652
4465
4447
4422
4348
4311
4229
4226
4188
4168
4129
4101
4074
4014
3981
3949
3854
3769
3699
3683
3599
3563
3

18
18
18
18
18
18
18
18
18
18
18
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
17
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
14
1

3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3


2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2


1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1


Criação de dois conjuntos de dados sendo um conjunto de CEP's válidos "**amostra_cep_mg_valido**" e outro conjunto de CEP's inválidos "**amostra_cep_mg_invalido**".

Este filtro elimina os CEP's que não estão cumprindo com as regras de negócio definida pela equipe CAIXA.

In [15]:
analise_endereco_mg['valida_cep'] > 0

0          True
1          True
2          True
3          True
4          True
           ... 
4399995    True
4399996    True
4399997    True
4399998    True
4399999    True
Name: valida_cep, Length: 4400000, dtype: bool

In [16]:
analise_endereco_mg['valido'] = analise_endereco_mg['valida_cep'] > 0

In [20]:
analise_endereco_mg = analise_endereco_mg.drop(columns='valida_cep')

Aplicação do filtro no atributo "**ic_origem_cdsto**" para eliminação de registros que não estão no domínio de dados previsto pelo atributo.

In [17]:
analise_endereco_mg = analise_endereco_mg[(analise_endereco_mg['ic_origem_cdsto'] == "O") | (analise_endereco_mg['ic_origem_cdsto'] == "B")]

Visualização dos dados e a quantidade de registros.

In [21]:
analise_endereco_mg

Unnamed: 0,nu_pessoa_p17,nu_cep,nu_cep_complemento,nu_cep_full,no_localidade,no_bairro,de_localizacao,sg_posicao_dtrme,sg_uf,no_pais,sg_tipo_ed_imovel,ed_unidade_ocpco,ic_origem_cdsto,ic_validacao,ic_comprovacao,nu_ano_mes_inicio,nu_ano_mes_fim,dt_apuracao_endereco,valido
0,8480186189848,37550,0,37550000,POUSO ALEGRE,SAO GERALDO,R JOAO SABINO 52,,MG,BRASIL,N INF,NAO INFORMADO,O,2,S,201612,,2016-12-16,True
1,9840064467984,31230,460,31230460,BELO HORIZONTE,SANTO ANDRE,SAO CLEMENTE,R,MG,BRASIL,CASA,ALUGADA,O,2,S,,,,True
2,6910060431691,35500,200,35500200,ARAXA,PARQUE BELA VISTA,"RUA HONORIO DE PAIVA ABREU, 250",R,MG,BRASIL,CASA,OUTROS,O,1,S,,,,True
3,5590187325559,39670,0,39670000,ITAMARANDIBA,CENTRO,R DO LONGUINHO 266 CS,,MG,BRASIL,N INF,NAO INFORMADO,O,2,S,201812,,2018-12-18,True
4,5600102483560,39390,0,39390000,BOCAIUVA,ZONA RURAL,COMUNIDADE ANDIRINO,,MG,BRASIL,,,B,2,S,,,,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4399995,470143547047,38500,0,38500000,MONTE CARMELO,CATULINA I,R F 650 CS,,MG,BRASIL,N INF,NAO INFORMADO,O,2,S,201507,,2015-07-28,True
4399996,3380222118338,36406,204,36406204,CONSELHEIRO LA,PAULO VI,R DONA MANINHA JUNQUEIRA 363 C,,MG,BRASIL,N INF,NAO INFORMADO,O,2,S,201810,,2018-10-17,True
4399997,8620063421862,32215,0,32215000,CONTAGEM,JD INDUSTRIAL,TITO FULGENCIO 142,AV,MG,BRASIL,,,B,2,S,,,,True
4399998,6110045754611,35473,0,35473000,BELO VALE,CENTRO,TOCANTINS 57,AV,MG,BRASIL,,,B,2,S,,,,True


Exportação dos dados de endereços para arquivo no formato de 'csv'.

In [22]:
analise_endereco_mg.to_csv('../dados/amostra_sicli_tratada/cli_end_amostra_minas_gerais.csv', index=False, encoding='utf-8', sep=';')