In [1]:
# Load Packages
from __future__ import unicode_literals, print_function

import plac #  wrapper over argparse
import random
from pathlib import Path
import spacy
from tqdm import tqdm, tqdm_notebook # loading bar 
import pandas as pd
import re
from pprint import pprint
from nltk.tokenize import sent_tokenize
import numpy as np

from spacy.util import minibatch, compounding

# Abrindo e gerando Datasets

### Entidade logradouro

In [2]:
# Obtendo dados crus de endereço

dataset = pd.read_csv("201906AGENCIAS.CSV")
dset = dataset.iloc[:-2,4:10].values  # tipo nparray object
pd_dset = pd.DataFrame(dset) # caso queira visualizar

pd_dset['Join'] = pd_dset[pd_dset.columns[0:]].apply(
    lambda x: ';'.join(x.dropna().astype(str)),
    axis=1
)
pd_dset.head(5)

Unnamed: 0,0,1,2,3,4,5,Join
0,"R.GUILHERME MOREIRA,315","SUBLOJA,LOJA E 2.ANDAR ...",CENTRO,69005-300,MANAUS ...,AM,"R.GUILHERME MOREIRA,315 ;SUBLO..."
1,"AV.PRES.VARGAS,248",1.E 2.ANDARES ...,CAMPINA,66010-900,BELEM ...,PA,"AV.PRES.VARGAS,248 ;1.E 2..."
2,"R.QUINZE DE NOVEMBRO,195",...,CENTRO,11010-908,SANTOS ...,SP,"R.QUINZE DE NOVEMBRO,195 ; ..."
3,"PCA.DAS QUATRO JORNADAS,11",MEZANINO ...,CENTRO,28010-000,CAMPOS DOS GOYTACAZES ...,RJ,"PCA.DAS QUATRO JORNADAS,11 ;MEZAN..."
4,"SEXTA AVENIDA,600",SECRETARIA DA EDUCACAO-TERREO ...,CAB,41745-002,SALVADOR ...,BA,"SEXTA AVENIDA,600 ;SECRE..."


In [3]:
# Tratando endereço completo do DataFrame
dset = np.array(pd_dset)
end_lista = []

for i in range(len(dset)):
    str_raw = dset[i][6]
    str_tratada = re.sub(r'[ ]{2,}', "",str_raw) # Tirando espaços excedentes no final do endereço
    str_tratada = re.sub(r'[;]{1,}', "; ", str_tratada) # Para complementos vazios, para não ter 2 ";"
    str_tratada = str_tratada.lower()
    
    end_lista.append(str_tratada)

end_lista[:3]

['r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am',
 'av.pres.vargas,248; 1.e 2.andares; campina; 66010-900; belem; pa',
 'r.quinze de novembro,195; centro; 11010-908; santos; sp']

In [4]:
# Lógica para extrair posição do logradouro:
# Dividir a String inteira por ";", pegar o len do primeiro split
# len de LOGRA é de 0 até len do primeiro split

print(end_lista[0])
split = end_lista[0].split(";")
print(split)
print(split[0])
print(len(split[0]))

r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am
['r.guilherme moreira,315', ' subloja,loja e 2.andar', ' centro', ' 69005-300', ' manaus', ' am']
r.guilherme moreira,315
23


In [5]:
# Extraindo iob com entidade apenas de logradouro

iob = []

for i in range(len(end_lista)):
    split = end_lista[i].split(";")
    len_logra = len(split[0])
    iob_dict = {"entities": [(0, len_logra-1,'LOGRA')]}
    end_lista[i] = end_lista[i].replace(";", " ")
    end_lista[i] = end_lista[i].replace(",", " ")
    end_lista[i] = re.sub(r'[ ]{2,}', " ", end_lista[i])

    
    tupla = (end_lista[i], iob_dict)
    iob.append(tupla)

FULL_DATA = iob

In [6]:
print(FULL_DATA[0])
print(FULL_DATA[1])
print(FULL_DATA[2])
print(FULL_DATA[5:15])

('r.guilherme moreira 315 subloja loja e 2.andar centro 69005-300 manaus am', {'entities': [(0, 22, 'LOGRA')]})
('av.pres.vargas 248 1.e 2.andares campina 66010-900 belem pa', {'entities': [(0, 17, 'LOGRA')]})
('r.quinze de novembro 195 centro 11010-908 santos sp', {'entities': [(0, 23, 'LOGRA')]})
[('av.rio branco 240 1.andar recife antigo 50030-310 recife pe', {'entities': [(0, 16, 'LOGRA')]}), ('av.santos dumont 2828 5.andar aldeota 60150-162 fortaleza ce', {'entities': [(0, 20, 'LOGRA')]}), ('pca.tiradentes 410 1.andar centro 80020-100 curitiba pr', {'entities': [(0, 17, 'LOGRA')]}), ('r.uruguai 185 5.andar centro 90010-901 porto alegre rs', {'entities': [(0, 12, 'LOGRA')]}), ('pca.1817 129 1.andar centro 58013-010 joao pessoa pb', {'entities': [(0, 11, 'LOGRA')]}), ('pca.odilon resende andrade 76 centro 37410-000 tres coracoes mg', {'entities': [(0, 28, 'LOGRA')]}), ('av fernandes lima 2591 terreo farol 57057-972 maceio al', {'entities': [(0, 22, 'LOGRA')]}), ('r.treze de junho 91

In [7]:
# Criação da base de teste e treinamento

n_test= 0.1 # Porcentagem para base de teste
test_n = round(len(FULL_DATA) * n_test)

# Divisao em Train Test Val

def gerador_bases(dataset, n):
    indices_random = random.sample(range(0,len(dataset)-1), n)
    base_teste_n = []
    base_treinamento_n = []
    
    for i in range(n):
        base_teste_n.append(dataset[indices_random[i]])

    for j in range(len(dataset)):
        if(j not in indices_random):
            base_treinamento_n.append(dataset[j])
            
    return base_teste_n, base_treinamento_n


base_teste, base_treinamento = gerador_bases(FULL_DATA, test_n)

random.shuffle(base_treinamento)
random.shuffle(base_teste)

print("Treinamento: " + str(len(base_treinamento)), "\nTeste: " + str(len(base_teste)), "\nTotal: " + str(len(FULL_DATA)))

Treinamento: 19202 
Teste: 2134 
Total: 21336


In [8]:
for i in range(5):
    print(base_treinamento[i])

('rua joaquim medeiros 189 centro 17350-000 igaracu do tiete sp', {'entities': [(0, 24, 'LOGRA')]})
('r.jader moura 258 centro 35620-000 abaete mg', {'entities': [(0, 16, 'LOGRA')]})
('rua gaviao peixoto icarai 24230-103 niteroi rj', {'entities': [(0, 17, 'LOGRA')]})
('av.nove de julho 443 terreo e 1.andar centro 08550-100 poa sp', {'entities': [(0, 19, 'LOGRA')]})
('av.prof.mario werneck 1893 buritis 30455-610 belo horizonte mg', {'entities': [(0, 25, 'LOGRA')]})


# Carregando o modelo

In [9]:
# Define our variables

model = None
output_dir=Path(".")
n_iter= 100 # número de épocas
batch_size = 32

In [10]:
# Setting up the pipeline and entity recognizer.
if model is not None:
    nlp = spacy.load(model)  # load existing spacy model
    print("Loaded model '%s'" % model)
else:
    lan = 'pt'
    nlp = spacy.blank(lan)  # create blank Language class
    print("Created blank '%s' model" % lan)
    
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner)
    print('Added new NER')
else:
    ner = nlp.get_pipe('ner')
    print('Got an old NER')

Created blank 'pt' model
Added new NER


In [11]:
# create the built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner, last=True)
# otherwise, get it so we can add labels
else:
    ner = nlp.get_pipe('ner')

## Treinamento

In [12]:
print("Batch size: ", batch_size)
print("Épocas: ", n_iter)
print()

# add labels
for _, annotations in base_treinamento:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])


# get names of other pipes to disable them during training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(base_treinamento)
        losses = {}
        batches = minibatch(base_treinamento, size=batch_size)
        
        for batch in batches:
            texts, annotations = zip(*batch)
            try:
                nlp.update(texts, annotations, sgd=optimizer, drop=0.2,
                       losses=losses)
            except:
                pass     
        
        print(itn+1, ' Losses', losses)        

Batch size:  32
Épocas:  100

1  Losses {'ner': 14458.030195211553}
2  Losses {'ner': 5221.318508767399}
3  Losses {'ner': 4712.164904081836}
4  Losses {'ner': 4133.068568746017}
5  Losses {'ner': 3684.138504928653}
6  Losses {'ner': 3062.260736042569}
7  Losses {'ner': 2894.6741197825754}
8  Losses {'ner': 2802.222336271253}
9  Losses {'ner': 2553.5831083378944}
10  Losses {'ner': 2607.1828144210135}
11  Losses {'ner': 2445.9992045489607}
12  Losses {'ner': 2195.895211429094}
13  Losses {'ner': 2224.368353143533}
14  Losses {'ner': 1836.4398862616627}
15  Losses {'ner': 1900.8895455258848}
16  Losses {'ner': 1828.6064544790343}
17  Losses {'ner': 1810.696801848172}
18  Losses {'ner': 1624.0787790485062}
19  Losses {'ner': 1688.6859203911642}
20  Losses {'ner': 1360.8176866249817}
21  Losses {'ner': 1467.181350005152}
22  Losses {'ner': 1519.873482694738}
23  Losses {'ner': 1411.9510929618027}
24  Losses {'ner': 1208.8751359337207}
25  Losses {'ner': 1252.8895861123806}
26  Losses {'ne

## Teste

In [15]:
# test the trained model
for text, _ in base_teste:
    doc = nlp(text)
    print(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print()

pra�a doutor olavo guimar�es centro 14350-000 altinopolis sp
Entities [('pra�a doutor olavo guimar�es', 'LOGRA')]

rua treze de maio 14 centro 13840-000 mogi-guacu sp
Entities [('rua treze de maio 14', 'LOGRA')]

r santos barreto lj 603 santo agostinho 30170-070 belo horizonte mg
Entities [('r santos barreto', 'LOGRA')]

r.paulino nogueira 271 benfica 60020-270 fortaleza ce
Entities [('r.paulino nogueira 271', 'LOGRA')]

pca.dep.jose alves de assis 8 st central 75830-074 mineiros go
Entities [('pca.dep.jose alves de assis 8', 'LOGRA')]

boulevard vinte e oito de setembro 293-a vila isabel 20551-030 rio de janeiro rj
Entities [('boulevard vinte e oito de setembro 293-a', 'LOGRA')]

r sebastiao jose rodrigues campos eliseos 27542-060 resende rj
Entities [('r sebastiao jose rodrigues', 'LOGRA')]

rua souza dutra lojas 1 e 5 estreito 88070-605 florianopolis sc
Entities [('rua souza dutra', 'LOGRA')]

avenida silves cachoeirinha 69065-080 manaus am
Entities [('avenida silves', 'LOGRA')]

av

r prof francisco fonseca 88 lj 1 28990-000 saquarema rj
Entities [('r prof francisco fonseca 88', 'LOGRA')]

r amador bueno centro 14010-070 ribeirao preto sp
Entities [('r amador bueno', 'LOGRA')]

av alvares cabral 476 centro 30170-000 belo horizonte mg
Entities [('av alvares cabral 476', 'LOGRA')]

av. carlos gomes auxiliadora 90480-003 porto alegre rs
Entities [('av. carlos gomes', 'LOGRA')]

pca.joao pessoa s/n terreo junto a sec.mun.saude centro 75680-000 corumbaiba go
Entities [('pca.joao pessoa s/', 'LOGRA')]

n�cleo cidade de deus s/n� pr�dio rubi t�rreo sala 2 vila yara 06029-900 osasco sp
Entities [('n�cleo', 'LOGRA')]

av. presidente vargas 1361 centro 79730-000 gloria de dourados ms
Entities [('av. presidente vargas 1361', 'LOGRA')]

av.tropical s/n qd.23 lote 4/6 esq.c/r.102 jd.tropical 74946-540 aparecida de goiania go
Entities [('av.tropical s/', 'LOGRA')]

rua visconde de piraja 495/499/499a - sobreloja ipanema 22410-003 rio de janeiro rj
Entities [('rua visconde de pi

av. joao pessoa 649 centro 84570-000 mallet pr
Entities [('av. joao pessoa 649', 'LOGRA')]

rua volunt�rios da p�tria 1284 6.� andar - conjuntos 606 e 607 santana 02010-200 sao paulo sp
Entities [('rua volunt�rios da p�tria 1284', 'LOGRA')]

rua barao de jundiai centro 13208-001 jundiai sp
Entities [('rua barao de jundiai', 'LOGRA')]

scr/sul quadra 511 bloco b loja 15 asa sul 70361-520 brasilia df
Entities [('scr/sul quadra 511 bloco b loja 15', 'LOGRA')]

scn quadra 4 bloco b petala c loja 86 setor coml.norte 70714-900 brasilia df
Entities [('scn quadra 4 bloco b petala c', 'LOGRA')]

av felinto rego centro 64120-000 uniao pi
Entities [('av felinto rego', 'LOGRA')]

av.brasil 888 lojas 02 e 03 santa efigenia 30140-001 belo horizonte mg
Entities [('av.brasil 888', 'LOGRA')]

avengenheiro roberto freire capim macio 59082-095 natal rn
Entities [('avengenheiro roberto freire', 'LOGRA')]

rua julio noroes ed. ant�nio a. araripe centro 63150-000 campos sales ce
Entities [('rua julio noroes

av brasil lj 109-07 a 11 guadalupe 21670-000 rio de janeiro rj
Entities [('av brasil lj 109-07 a 11', 'LOGRA')]

avenida copacabana balne�rio monte carlo 11925-000 ilha comprida sp
Entities [('avenida copacabana balne', 'LOGRA')]

rua presidente costa e silva centro 68527-000 abel figueiredo pa
Entities [('rua presidente costa e silva', 'LOGRA')]

av. jones dos santos neves 88 centro 29960-000 conceicao da barra es
Entities [('av. jones dos santos neves 88', 'LOGRA')]

pca.pedro gomes 274 terreo centro 42600-000 madre de deus ba
Entities [('pca.pedro gomes 274', 'LOGRA')]

av.portugal 519 centro 09041-321 santo andre sp
Entities [('av.portugal 519', 'LOGRA')]

rua cedros 301 centro 78520-000 guaranta do norte mt
Entities [('rua cedros 301', 'LOGRA')]

av. dantas barreto 1024 sao jose 50020-000 recife pe
Entities [('av. dantas barreto 1024', 'LOGRA')]

av.das americas 16691 lojas a b c d e r. ministro a.baleeiro 840 ljs.f g e h recreio dos bandeirantes 22790-701 rio de janeiro rj
Entiti

rua getulio vargas 663 centro 19260-000 mirante do paranapanema sp
Entities [('rua getulio vargas 663', 'LOGRA')]

praca luiz gama 8/1 largo do tanque 40357-300 salvador ba
Entities [('praca luiz gama 8/1', 'LOGRA')]

av. princesa isabel 1.298 perequ� 11630-000 ilhabela sp
Entities [('av. princesa isabel 1.298', 'LOGRA')]

rua marechal deodoro da fonseca centro 95760-000 sao sebastiao do cai rs
Entities [('rua marechal deodoro da fonseca', 'LOGRA')]

shd bloco j/a st. comercial central 73310-200 brasilia (planaltina) df
Entities [('shd bloco j/a', 'LOGRA')]

av.brig.luis antonio 3370 prox.ginasio ibirapuera jd.paulista 01402-001 sao paulo sp
Entities [('av.brig.luis antonio 3370', 'LOGRA')]

rua voluntarios da patria bl 1 lj a botafogo 22270-010 rio de janeiro rj
Entities [('rua voluntarios da patria bl 1', 'LOGRA')]

r.marechal deodoro 748 esq.c/r.cons.laurindo centro 80010-010 curitiba pr
Entities [('r.marechal deodoro 748', 'LOGRA')]

r.manoel sobral 553 centro 64400-000 amarante pi

rua lindolfo simoes 330 centro 57230-000 coruripe al
Entities [('rua lindolfo simoes 330', 'LOGRA')]

av independencia 5055 eden 18103-000 sorocaba sp
Entities [('av independencia 5055', 'LOGRA')]

av .manoel dias da silva 1663 c/rua espirito santo pituba 41830-000 salvador ba
Entities [('av .manoel dias da silva 1663', 'LOGRA')]

rua governador florentino �vidos n� 80 n sra concei��o 29900-490 linhares es
Entities [('rua governador florentino �vidos n� 80', 'LOGRA')]

av. das campanelas 122 cidade ae carvalho 08220-830 sao paulo sp
Entities [('av. das campanelas 122', 'LOGRA')]

rua sao francisco xavier 524 maracana 20550-013 rio de janeiro rj
Entities [('rua sao francisco xavier 524', 'LOGRA')]

av.guilherme cotching 1819 v.maria 02113-017 sao paulo sp
Entities [('av.guilherme cotching 1819', 'LOGRA')]

av. joao ramalho 1515 vl. noemia 09371-520 maua sp
Entities [('av. joao ramalho 1515', 'LOGRA')]

av.jamanxin 70 jd.planalto 68193-000 novo progresso pa
Entities [('av.jamanxin 70', '

av. santana 288 centro 46400-000 caetite ba
Entities [('av. santana 288', 'LOGRA')]

avenida val�rio caldas de magalh�es 307 centro 69950-000 manoel urbano ac
Entities [('avenida val�rio caldas de magalh�es 307', 'LOGRA')]

rua do sol 310 quadra 11 lote 615 centro 57020-070 maceio al
Entities [('rua do sol 310', 'LOGRA')]

rua da independencia s/n. centro 69230-000 nova olinda do norte am
Entities [('rua da independencia s/n', 'LOGRA')]

rua joao clementino 73 centro 56300-000 petrolina pe
Entities [('rua joao clementino 73', 'LOGRA')]

av.francisco sa 4083 jacarecanga 60310-001 fortaleza ce
Entities [('av.francisco sa 4083', 'LOGRA')]

pca.joao americo de oliveira s/n. centro 44840-000 tapiramuta ba
Entities [('pca.joao americo de oliveira s/n', 'LOGRA')]

av.pres.kennedy 37 centro 65740-000 pocao de pedras ma
Entities [('av.pres.kennedy 37', 'LOGRA')]

r. pinheiro machado centro 95340-000 nova bassano rs
Entities [('r. pinheiro machado', 'LOGRA')]

largo campo da polvora s/n. nazare 

rua 1 de janeiro 902/esq. florencio machado centro 77800-000 araguaina to
Entities [('rua 1 de janeiro 902/esq. florencio', 'LOGRA')]

av imperador 3892 jardim sao sebastiao 08050-000 sao paulo sp
Entities [('av imperador 3892', 'LOGRA')]

rua carijos 2.165 vila linda 09180-001 santo andre sp
Entities [('rua carijos 2.165', 'LOGRA')]

avenida ant�nio lourenco de s� 1011 centro 76660-000 itaguaru go
Entities [('avenida ant�nio lourenco de s� 1011', 'LOGRA')]

r.uruguai 185 11.andar c historico 90010-140 porto alegre rs
Entities [('r.uruguai 185 11.andar', 'LOGRA')]

rua do a��car 363 jardim p�rola 13454-178 santa barbara d'oeste sp
Entities [('rua do a��car 363', 'LOGRA')]

estrada do galeao 1164 jardim carioca 21931-522 rio de janeiro rj
Entities [('estrada do galeao 1164', 'LOGRA')]

av.doutor freitas 2272 marco 66095-110 belem pa
Entities [('av.doutor freitas 2272', 'LOGRA')]

avenida dr.antonio gouveia 701 pajucara 57030-170 maceio al
Entities [('avenida dr.antonio gouveia 701', 'LO

rod.br-040 km 688 s/n ceasaminas ed.minasbolsa loja 4 guanabara 32145-900 contagem mg
Entities [('rod.br-040 km 688 s/', 'LOGRA')]

pca charles miller pacaembu 01234-010 sao paulo sp
Entities [('pca charles miller', 'LOGRA')]

rua coronel bertaso num 1050 centro 89990-000 sao lourenco d'oeste sc
Entities [('rua coronel bertaso num 1050', 'LOGRA')]

av n sra de copacabana 804 lj e slj copacabana 22050-001 rio de janeiro rj
Entities [('av n sra de copacabana 804', 'LOGRA')]

av angelica consola��o 01227-200 sao paulo sp
Entities [('av angelica consola��o 01227-200 sao paulo sp', 'LOGRA')]

rua expedito farias centro 62580-000 acarau ce
Entities [('rua expedito farias', 'LOGRA')]

rua siqueira campos s-137 centro 17280-000 pederneiras sp
Entities [('rua siqueira campos s-137', 'LOGRA')]

r.oratorio 1577 pq.das nacoes 09280-000 santo andre sp
Entities [('r.oratorio 1577', 'LOGRA')]

av 4a avenida - 1300 centro 88330-112 balneario camboriu sc
Entities [('av 4a avenida - 1300', 'LOGRA')]

ru

pc barao do rio branco 73 centro 48860-000 queimadas ba
Entities [('pc barao do rio branco 73', 'LOGRA')]

rua das mangueiras 104 chesf 48608-470 paulo afonso ba
Entities [('rua das mangueiras 104', 'LOGRA')]

av. giovanni gronchi 5511 vila andrade 05724-003 sao paulo sp
Entities [('av. giovanni gronchi 5511', 'LOGRA')]

avenida circular 12 qd. 62 - lote 01 setor pedro ludovico 74823-020 goiania go
Entities [('avenida circular 12', 'LOGRA')]

av.alvares s/n qd.13 lote 18 cx.postal 44 centro 75795-000 campo alegre de goias go
Entities [('av.alvares s/', 'LOGRA')]

av. brasil 618 centro 19870-000 florinea sp
Entities [('av. brasil 618', 'LOGRA')]

avenida palmares centro 95540-000 palmares do sul rs
Entities [('avenida palmares', 'LOGRA')]

av. indianopolis 2125 indianopolis 40630-000 sao paulo sp
Entities [('av. indianopolis 2125', 'LOGRA')]

pra�a jo�o pessoa centro 08674-040 suzano sp
Entities [('pra�a jo�o pessoa', 'LOGRA')]

rua rui barbosa 69 centro 38440-000 araguari mg
Entities [

scn qd.5 bloco a lojas 20-s e 24-s asa norte 70715-000 brasilia df
Entities [('scn qd.5 bloco a lojas 20-s e 24-s asa norte 70715-000 brasilia df', 'LOGRA')]

avenida nilo pe�anha n� 478 loja - parte centro 26210-012 nova iguacu rj
Entities [('avenida nilo pe�anha n� 478', 'LOGRA')]

avenida souza filho 195 centro 56302-370 petrolina pe
Entities [('avenida souza filho 195', 'LOGRA')]

av.do comercio 317 centro 35470-000 moeda mg
Entities [('av.do comercio 317', 'LOGRA')]

rua bento goncalves 518 centro 99020-060 passo fundo rs
Entities [('rua bento goncalves 518', 'LOGRA')]

r.santa cruz 757 centro 37002-089 varginha mg
Entities [('r.santa cruz 757', 'LOGRA')]

av sao joao republica 01035-100 sao paulo sp
Entities [('av sao joao', 'LOGRA')]

av. joao jorge 445 vila industrial 13036-180 campinas sp
Entities [('av. joao jorge 445', 'LOGRA')]

av.brasil 418 jd america 01430-000 sao paulo sp
Entities [('av.brasil 418', 'LOGRA')]

r.conselheiro franco 418 1.andar centro 44002-272 feira de s

av mal tito 701 sao miguel paulista 08010-090 sao paulo sp
Entities [('av mal tito', 'LOGRA')]

avenida ibirapuera 2210 indianopolis 04028-001 sao paulo sp
Entities [('avenida ibirapuera 2210', 'LOGRA')]

pra�a dr. genserico nunes de oliveira 4 centro 36820-000 divino mg
Entities [('pra�a dr. genserico nunes de oliveira 4', 'LOGRA')]

rua barao do rio branco 1266 centro 79002-171 campo grande ms
Entities [('rua barao do rio branco 1266', 'LOGRA')]

r.laudelino freire 202 terreo centro 49400-000 lagarto se
Entities [('r.laudelino freire 202', 'LOGRA')]

rua santo antonio 301 centro 66120-350 belem pa
Entities [('rua santo antonio 301', 'LOGRA')]

av. mateus moulin 56 - a centro 35270-000 mendes pimentel mg
Entities [('av. mateus moulin 56 - a', 'LOGRA')]

rua 7 de setembro centro 99790-000 mariano moro rs
Entities [('rua 7 de setembro', 'LOGRA')]

rua borges de medeiros loja t�rrea centro 95020-310 caxias do sul rs
Entities [('rua borges de medeiros', 'LOGRA')]

rua augusta lj cerqueira

av. nazare ipiranga 04263-100 sao paulo sp
Entities [('av. nazare ipiranga', 'LOGRA')]

rua vereador arthur manoel mariano forquilhinhas 88106-501 sao jose sc
Entities [('rua vereador arthur manoel mariano', 'LOGRA')]

av.olavo bilac 293 centro 15895-000 cedral sp
Entities [('av.olavo bilac 293', 'LOGRA')]

av.das palmeiras 726 centro 99675-000 tres palmeiras rs
Entities [('av.das palmeiras 726', 'LOGRA')]

av.castelo branco s/n centro 65393-000 buriticupu ma
Entities [('av.castelo branco s/', 'LOGRA')]

rua marechal deodoro t�rreo centro 95700-000 bento goncalves rs
Entities [('rua marechal deodoro t�rreo', 'LOGRA')]

r.augusto stresser 1998 loja 03 hugo lange 80040-310 curitiba pr
Entities [('r.augusto stresser 1998', 'LOGRA')]

av.vinte e oito de maio 972 centro 95915-000 santa clara do sul rs
Entities [('av.vinte e oito de maio 972', 'LOGRA')]

rua doutor jose francisco 444 centro 28400-000 sao fidelis rj
Entities [('rua doutor jose francisco 444', 'LOGRA')]

rua santos dumont qd 0

av.constituicao 1373 b vista 15025-120 sao jose do rio preto sp
Entities [('av.constituicao 1373', 'LOGRA')]

rua rond�nia mimoso do oeste 47850-000 luis eduardo magalhaes ba
Entities [('rua rond�nia', 'LOGRA')]

r.antonio de barros 468 tatuape 03089-000 sao paulo sp
Entities [('r.antonio de barros 468', 'LOGRA')]

av. paulista 778 bela vista 01310-100 sao paulo sp
Entities [('av. paulista 778', 'LOGRA')]

r.liberdade 197 marechal rondon 92020-240 canoas rs
Entities [('r.liberdade 197', 'LOGRA')]

r.benjamin constant 14 centro 47500-000 paratinga ba
Entities [('r.benjamin constant 14', 'LOGRA')]

rua jo�o ramalho 803 lojas 02 e 03 centro 11310-050 sao vicente sp
Entities [('rua jo�o ramalho 803', 'LOGRA')]

av. duque de caxias 376 centro 79240-000 jardim ms
Entities [('av. duque de caxias 376', 'LOGRA')]

av.brasil 10500 olaria 21012-350 rio de janeiro rj
Entities [('av.brasil 10500', 'LOGRA')]

rua nicola pelanda 4775 umbara 81940-000 curitiba pr
Entities [('rua nicola pelanda 4775', 

rod antonio heil 3880 lj f3 limoeiro 88352-502 brusque sc
Entities [('rod antonio heil 3880 lj f3', 'LOGRA')]

r.lindolfo simoes 102 centro 57230-000 coruripe al
Entities [('r.lindolfo simoes 102', 'LOGRA')]

av. tenente medeiros centro 59140-020 parnamirim rn
Entities [('av. tenente medeiros', 'LOGRA')]

rua dionisio bentes 612 quatro bocas 68680-000 tome-acu pa
Entities [('rua dionisio bentes 612', 'LOGRA')]

pca rui barbosa centro 48010-130 alagoinhas ba
Entities [('pca rui barbosa', 'LOGRA')]

av.duque de caxias 2905 base aerea de campo grande sto.antonio 79101-001 campo grande ms
Entities [('av.duque de caxias 2905', 'LOGRA')]

praca ruy barbosa centro 18300-120 capao bonito sp
Entities [('praca ruy barbosa', 'LOGRA')]

avenida giovanni gronchi morumbi 05651-002 sao paulo sp
Entities [('avenida giovanni gronchi morumbi 05651-002', 'LOGRA')]

av.deputado alvaro soares s/n. centro 62360-000 ibiapina ce
Entities [('av.deputado alvaro soares s/n', 'LOGRA')]

rua dr. paulo alves 61/65 

Entities [('rua professor guedes de mirando 9', 'LOGRA')]

rua santa isabel 20 barao geraldo 13084-790 campinas sp
Entities [('rua santa isabel 20', 'LOGRA')]

rua expedicionario almeida centro 97400-000 sao pedro do sul rs
Entities [('rua expedicionario almeida', 'LOGRA')]

av.presidente vargas 4145 centro 79570-000 aparecida do taboado ms
Entities [('av.presidente vargas 4145', 'LOGRA')]

rua francisco teixeira n� 03 centro 29500-000 alegre es
Entities [('rua francisco teixeira n� 03', 'LOGRA')]

av.dezenove de dezembro 1076 centro 69260-000 novo aripuana am
Entities [('av.dezenove de dezembro 1076', 'LOGRA')]

r.santos dumont 542 centro 14850-000 pradopolis sp
Entities [('r.santos dumont 542', 'LOGRA')]

rua francisco miguel 20 centro 13230-300 campo limpo paulista sp
Entities [('rua francisco miguel 20', 'LOGRA')]

qd 101 sul av.joaquim teotonio segurado conjunto 01 lote 03 p dir sul 77015-002 palmas to
Entities [('qd 101 sul av.joaquim teotonio segurado conjunto 01 lote 03 p dir s

av. barao do rio branco 2133 centro 68725-000 igarape-acu pa
Entities [('av. barao do rio branco 2133', 'LOGRA')]

av. manoel f�lix de farias centro 68383-000 vitoria do xingu pa
Entities [('av. manoel f�lix de farias', 'LOGRA')]

avenida getulio vargas 550 centro 64900-000 bom jesus pi
Entities [('avenida getulio vargas 550', 'LOGRA')]

estrada sao joao climaco 592 sao joao climaco 04255-000 sao paulo sp
Entities [('estrada sao joao climaco 592', 'LOGRA')]

rua rui barbosa 96 centro 55641-100 gravata pe
Entities [('rua rui barbosa 96', 'LOGRA')]

rodovia augusto montenegro km 7 parque verde 66635-110 belem pa
Entities [('rodovia augusto montenegro km 7', 'LOGRA')]

estrada pres.juscelino kubitschek de oliveira 3978 jardim dos pimentas 07272-345 guarulhos sp
Entities [('estrada pres.juscelino kubitschek de oliveira 3978', 'LOGRA')]

rua almirante tamandare 1.130 vila nova 89035-000 blumenau sc
Entities [('rua almirante tamandare 1.130', 'LOGRA')]

rua conselheiro franco 150 centro 4401

Entities [('rua joaquim de queiros 39', 'LOGRA')]

est manuel de sa 92 prq martinho 26182-000 belford roxo rj
Entities [('est manuel de sa 92', 'LOGRA')]

av.dr.epitacio pessoa 15 boqueirao 11045-301 santos sp
Entities [('av.dr.epitacio pessoa 15', 'LOGRA')]

rua jose matildes de carvalho 164 centro 37150-000 carmo do rio claro mg
Entities [('rua jose matildes de carvalho 164', 'LOGRA')]

ca 05 - bloco h - lojas 107 a 114 - shin lote h - terreo lago norte 71503-505 brasilia df
Entities [('ca 05 - bloco h - lojas 107 a 114 - shin lote h - terreo', 'LOGRA')]

av. 24 de outubro 1452 360305 campinas 74505-011 goiania go
Entities [('av. 24 de outubro 1452', 'LOGRA')]

rua marechal costa e silva 23 centro 69240-000 autazes am
Entities [('rua marechal costa e silva 23', 'LOGRA')]

rua cel. vieira 55 centro 36770-000 cataguases mg
Entities [('rua cel. vieira 55', 'LOGRA')]

al aristiliano ramos 1470 jardim america 89160-240 rio do sul sc
Entities [('al aristiliano ramos 1470', 'LOGRA')]

rua g

av.minas gerais 418 centro 45936-000 mucuri ba
Entities [('av.minas gerais 418', 'LOGRA')]

av com. gustavo paiva cruz das almas 57038-000 maceio al
Entities [('av com. gustavo paiva', 'LOGRA')]

r nagib muhana zahr 553 centro 16920-000 castilho sp
Entities [('r nagib muhana zahr 553', 'LOGRA')]

rua ordalia carneiro centro 38160-000 nova ponte mg
Entities [('rua ordalia carneiro', 'LOGRA')]

av.dos tarumas 764 centro 78550-000 sinop mt
Entities [('av.dos tarumas 764', 'LOGRA')]

av. presidente kennedy esquina com rua carlos gomes cidade ocian 11705-000 praia grande sp
Entities [('av. presidente kennedy', 'LOGRA')]

rua major mariano centro 18800-000 piraju sp
Entities [('rua major mariano', 'LOGRA')]

av marechal deodoro da fonseca 814 centro 89251-700 jaragua do sul sc
Entities [('av marechal deodoro da fonseca 814', 'LOGRA')]

avenida wladimir meirelles ferreira 11 andar salas 1105 1106 e 1107 jardim botanico 14021-630 ribeirao preto sp
Entities [('avenida wladimir meirelles ferreir

avenida das na��es unidas 24� andar vila gertrudes 04794-000 sao paulo sp
Entities [('avenida das na��es unidas 24� andar', 'LOGRA')]

rua pastor frederico 23/rua sao leopoldo centro 93700-000 campo bom rs
Entities [('rua pastor frederico 23/rua sao leopoldo', 'LOGRA')]

rua duque de caxias 401 centro 58010-821 joao pessoa pb
Entities [('rua duque de caxias 401', 'LOGRA')]

pca.da bandeira 161 centro 45860-000 canavieiras ba
Entities [('pca.da bandeira 161', 'LOGRA')]

av.dom joao vi 2219 brotas 40285-000 salvador ba
Entities [('av.dom joao vi 2219', 'LOGRA')]

av. queiroz filho 1700 torre c - cj. 1004 - 10� andar vila hamburguesa 05319-000 sao paulo sp
Entities [('av. queiroz filho 1700', 'LOGRA')]

av princesa isabel 64 centro 29010-360 vitoria es
Entities [('av princesa isabel 64', 'LOGRA')]

shcs cr quadra 0503 bloco b lj 015 asa sul 70331-520 brasilia df
Entities [('shcs cr quadra 0503 bloco b', 'LOGRA')]

r.fernandes lima 118 centro 57300-070 arapiraca al
Entities [('r.fernandes 

av. rangel pestana 78 vila matias 11013-000 santos sp
Entities [('av. rangel pestana 78', 'LOGRA')]

av. madre maria teodora 95 jaragu� 13403-000 piracicaba sp
Entities [('av. madre maria teodora 95', 'LOGRA')]

r celson fonseca centro 65580-000 tutoia ma
Entities [('r celson fonseca', 'LOGRA')]

rua joao candido da camara 328 jardim america 79804-000 dourados ms
Entities [('rua joao candido da camara 328', 'LOGRA')]

r.maj.claudiano 2012 centro 14400-690 franca sp
Entities [('r.maj.claudiano 2012', 'LOGRA')]

pca.benjamin guimaraes 141 predio centro 37220-000 bom sucesso mg
Entities [('pca.benjamin guimaraes 141', 'LOGRA')]

rua major gote 806 centro 38700-001 patos de minas mg
Entities [('rua major gote 806', 'LOGRA')]

alameda santos 1873 cerqueira cesar 14190-020 sao paulo sp
Entities [('alameda santos 1873', 'LOGRA')]

av.cristiano machado 2326 cid.nova 31170-800 belo horizonte mg
Entities [('av.cristiano machado 2326', 'LOGRA')]

av. santos dumont 3290 aldeota 60150-162 fortaleza

pca.da matriz 96 centro 13495-000 iracemapolis sp
Entities [('pca.da matriz 96', 'LOGRA')]

rua sebasti�o mariano nepomuceno centro 11660-000 caraguatatuba sp
Entities [('rua sebasti�o mariano nepomuceno', 'LOGRA')]

pra�a francisco antonio da silva 825 centro 64770-000 sao raimundo nonato pi
Entities [('pra�a francisco antonio da silva 825', 'LOGRA')]

praca da matriz 15 centro 49950-000 japoata se
Entities [('praca da matriz 15', 'LOGRA')]

av. senador salgado filho 1877 guabirotuba 81510-001 curitiba pr
Entities [('av. senador salgado filho 1877', 'LOGRA')]

rua gil stein ferreira centro 88301-210 itajai sc
Entities [('rua gil stein ferreira', 'LOGRA')]

av.conselheiro furtado 631 batista campos 66025-160 belem pa
Entities [('av.conselheiro furtado 631', 'LOGRA')]

rua desembargador homero mafra enseada do sua 29050-275 vitoria es
Entities [('rua desembargador homero mafra enseada do', 'LOGRA')]

av. nazare 1241 nazare 66035-170 belem pa
Entities [('av. nazare 1241', 'LOGRA')]

rua 

av alfredo ignacio nogueira penido sala 513 parque residencial aquarius 12246-000 sao jose dos campos sp
Entities [('av alfredo ignacio nogueira', 'LOGRA')]

r.quinze de novembro 7� andar - ed centro empres one offices jd.dos estados 79020-300 campo grande ms
Entities [('r.quinze de novembro', 'LOGRA')]

r da matriz 36 loja e sobreloja parte centro 25520-640 sao joao de meriti rj
Entities [('r da matriz 36 loja e sobreloja', 'LOGRA')]

r.ten.nicolau maffei 560 calcadao centro 19010-010 presidente prudente sp
Entities [('r.ten.nicolau maffei 560', 'LOGRA')]

r.do orfanato 133 v.prudente 03131-010 sao paulo sp
Entities [('r.do orfanato 133', 'LOGRA')]

rua rui barbosa 100 parte centro 88801-120 criciuma sc
Entities [('rua rui barbosa 100', 'LOGRA')]

avenida 7 de setembro n� 971 parte centro 69010-005 manaus am
Entities [('avenida 7 de setembro n� 971', 'LOGRA')]

r.pres.juscelino kubitschek 1192 esquina com av. para centro 77402-100 gurupi to
Entities [('r.pres.juscelino kubitschek 1192

av. barao do rio branco 419 centro 89500-000 cacador sc
Entities [('av. barao do rio branco 419', 'LOGRA')]

av. benjamin pinto dias 1647 parte belford roxo 26130-000 belford roxo rj
Entities [('av. benjamin pinto dias 1647', 'LOGRA')]

r sao sebastiao centro 14015-040 ribeirao preto sp
Entities [('r sao sebastiao', 'LOGRA')]

rua presidente kennedy 1051 centro 93806-346 sapiranga rs
Entities [('rua presidente kennedy 1051', 'LOGRA')]

r pres vargas lt 07a qd m centro 35460-000 brumadinho mg
Entities [('r pres vargas', 'LOGRA')]

rua santo antonio 118 centro 18185-000 pilar do sul sp
Entities [('rua santo antonio 118', 'LOGRA')]

shc/sw clsw 304 bloco b lojas c/numeros pares de 32 a 50) setor sudoeste 70670-622 brasilia df
Entities [('shc/sw clsw 304', 'LOGRA')]

ltm merepe s/n lt 3a q a2 porto de galinhas 55590-000 ipojuca pe
Entities [('ltm merepe s/n', 'LOGRA')]

av. santos dumont 2834 c/av.desem.moreira aldeota 60150-161 fortaleza ce
Entities [('av. santos dumont 2834', 'LOGRA')]



In [None]:
ph ="""
        "PREFEITURA DE Certidão de Dados Cadastrais do Imóvel - IPTU 2017\n\nSÃO PAULO\n\nFAZENDA",
        "Cadastro do Imóvel: 067.061.0048-1",
        "| Local do Imóvel:",
        "| AVJACANA, 764- AP 104 E VG",
        "BLOCO 1 UP LIFE SAO PAULO CEP 02273-001\nImóvel localizado na 22 Subdivisão da Zona Urbana",
        "| Endereço para entrega da notificação:",
        "| AVJACANA, 764- AP 104 E VG",
        "| BLOCO1 UPLIFE SAO PAULO CEP 02273-001",
        "| Contribuinte(s):",
        "| AGUA DAS FLORES EMPREENDIMENTOS IMOB LTDA",
        "| Dados cadastrais do terreno:",
        "| Área incorporada (m?): 1.669 Testada (m): 0,00",
        "| Área não incorporada (m?): 0 Fração ideal: 0,0024",
        "| Área total (m?): 7.669",
        "| Dados cadastrais da construção:",
        "| Área construída (m?):\n\n88\n\nPadrão da construção:\n\n2-C",
        "Área ocupada pela construção (m?): 5.134 Uso: residência",
        "| Ano da construção corrigido: 2016",
        "| Valores de m? (R$):",
        "| - de terreno: 700,00",
        "| - da construção: 1.508,00",
        "| Valores para fins de cálculo do IPTU (R$):",
        "| - da área incorporada: 23.675,00",
        "- da área não incorporada: 0,00",
        "| - da construção: 131.377,00",
        "|| Base de cálculo do IPTU: 155.052,00",
        "Ressalvado o direito da Fazenda Pública do Município de São Paulo atualizar os dados constantes do Cadastro\nImobiliário Fiscal, apurados ou verificados a qualquer tempo, inclusive em relação ao exercício abrangido por\nesta certidão, a Secretaria Municipal da Fazenda CERTIFICA que os dados cadastrais acima foram utilizados no\nlançamento do Imposto Predial e Territorial Urbano do imóvel do exercício de 2017.",
        "Certidão expedida via Internet - Portaria SF nº 008/2004, de 28/01/2004.",
        "A autenticidade desta certidão poderá ser confirmada, até o dia 05/02/2018, em",
        "http://www .prefeitura.sp.gov.br/cidade/secretarias/financas/servicos/certidoes/",
        "| Data de Emissão: 07/11/2017",
        "| Número do Documento: 2.2017.001599486-1",
        "|| Solicitante: PAULO AFONSO DECICINO (CPF 892.407.408-30)"
    """      


In [19]:
def regex(str_):
    ph_tratada = str_.replace("\"", "")
    ph_tratada = ph_tratada.replace("-", " ")
    ph_tratada = ph_tratada.replace("|", "")
    ph_tratada = ph_tratada.replace(",", "")
    ph_tratada = ph_tratada.replace(":", "")
    ph_tratada = ph_tratada.replace(".", "")
    ph_tratada = ph_tratada.replace("  ", "")
    ph_tratada = ph_tratada.lower()
    ph_tratada = re.sub(r'[\n]+', " ", ph_tratada)
    ph_tratada = re.sub(r'^[ ]+', "", ph_tratada)

    return ph_tratada

In [None]:
doc_ph = nlp(ph_tratada)
print('Entities', [(ent.text, ent.label_) for ent in doc_ph.ents])

In [22]:
phrase = regex("Qne 20 numero 12 teste 123 ")

doc = nlp(phrase)
print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
print(phrase)

Entities [('qne 20 numero 12 teste 123', 'LOGRA')]
qne 20 numero 12 teste 123 
