In [1]:
# Load Packages
from __future__ import unicode_literals, print_function

import plac #  wrapper over argparse
import random
from pathlib import Path
import spacy
from tqdm import tqdm, tqdm_notebook # loading bar 
import pandas as pd
import re
from pprint import pprint
from nltk.tokenize import sent_tokenize
import numpy as np
import unicodedata
from spacy.util import minibatch, compounding

In [2]:
# Função para substituir acentos

def strip_accents(text):
    try:
        text = unicode(text, 'utf-8')
    except (TypeError, NameError): # unicode is a default on python 3 
        pass
    text = unicodedata.normalize('NFD', text)
    text = text.encode('ascii', 'ignore')
    text = text.decode("utf-8")
    
    return str(text)

# Abrindo e gerando Datasets

### Entidade logradouro

In [3]:
# Obtendo dados crus de endereço

dataset = pd.read_csv("../Datasets/201906AGENCIAS.CSV")
dset = dataset.iloc[:-2,4:10].values  # tipo nparray object
pd_dset = pd.DataFrame(dset) # caso queira visualizar

pd_dset['Join'] = pd_dset[pd_dset.columns[0:]].apply(
    lambda x: ';'.join(x.dropna().astype(str)),
    axis=1
)
pd_dset.head(5)

Unnamed: 0,0,1,2,3,4,5,Join
0,"R.GUILHERME MOREIRA,315","SUBLOJA,LOJA E 2.ANDAR ...",CENTRO,69005-300,MANAUS ...,AM,"R.GUILHERME MOREIRA,315 ;SUBLO..."
1,"AV.PRES.VARGAS,248",1.E 2.ANDARES ...,CAMPINA,66010-900,BELEM ...,PA,"AV.PRES.VARGAS,248 ;1.E 2..."
2,"R.QUINZE DE NOVEMBRO,195",...,CENTRO,11010-908,SANTOS ...,SP,"R.QUINZE DE NOVEMBRO,195 ; ..."
3,"PCA.DAS QUATRO JORNADAS,11",MEZANINO ...,CENTRO,28010-000,CAMPOS DOS GOYTACAZES ...,RJ,"PCA.DAS QUATRO JORNADAS,11 ;MEZAN..."
4,"SEXTA AVENIDA,600",SECRETARIA DA EDUCACAO-TERREO ...,CAB,41745-002,SALVADOR ...,BA,"SEXTA AVENIDA,600 ;SECRE..."


In [4]:
# Tratando endereço completo do DataFrame
dset = np.array(pd_dset)
end_lista = []

for i in range(len(dset)):
    str_raw = dset[i][6]
    str_tratada = re.sub(r'[ ]{2,}', "",str_raw) # Tirando espaços excedentes no final do endereço
    str_tratada = re.sub(r'[;]{1,}', "; ", str_tratada) # Para complementos vazios, para não ter 2 ";"
    str_tratada = str_tratada.lower() # Tudo em minúsculo
    str_tratada = strip_accents(str_tratada) # Substituição de acentos e caracteres diferentes
    
    end_lista.append(str_tratada)

end_lista[:3]

['r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am',
 'av.pres.vargas,248; 1.e 2.andares; campina; 66010-900; belem; pa',
 'r.quinze de novembro,195; centro; 11010-908; santos; sp']

In [5]:
# Lógica para extrair posição do logradouro:
# Dividir a String inteira por ";", pegar o len do primeiro split
# len de LOGRA é de 0 até len do primeiro split

print(end_lista[0])
split = end_lista[0].split(";")
print(split)
print(split[0])
print(len(split[0]))

r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am
['r.guilherme moreira,315', ' subloja,loja e 2.andar', ' centro', ' 69005-300', ' manaus', ' am']
r.guilherme moreira,315
23


In [6]:
# Extraindo iob com entidade apenas de logradouro

iob = []

for i in range(len(end_lista)):
    split = end_lista[i].split(";")
    len_logra = len(split[0])
    iob_dict = {"entities": [(0, len_logra-1,'LOGRA')]}
    
    end_lista[i] = end_lista[i].replace(";", " ")
    end_lista[i] = end_lista[i].replace(",", " ")
    end_lista[i] = re.sub(r'[ ]{2,}', " ", end_lista[i])

    
    tupla = (end_lista[i], iob_dict)
    iob.append(tupla)

FULL_DATA = iob

In [7]:
print(FULL_DATA[0])
print(FULL_DATA[1])
print(FULL_DATA[2])
print(FULL_DATA[5:15])

('r.guilherme moreira 315 subloja loja e 2.andar centro 69005-300 manaus am', {'entities': [(0, 22, 'LOGRA')]})
('av.pres.vargas 248 1.e 2.andares campina 66010-900 belem pa', {'entities': [(0, 17, 'LOGRA')]})
('r.quinze de novembro 195 centro 11010-908 santos sp', {'entities': [(0, 23, 'LOGRA')]})
[('av.rio branco 240 1.andar recife antigo 50030-310 recife pe', {'entities': [(0, 16, 'LOGRA')]}), ('av.santos dumont 2828 5.andar aldeota 60150-162 fortaleza ce', {'entities': [(0, 20, 'LOGRA')]}), ('pca.tiradentes 410 1.andar centro 80020-100 curitiba pr', {'entities': [(0, 17, 'LOGRA')]}), ('r.uruguai 185 5.andar centro 90010-901 porto alegre rs', {'entities': [(0, 12, 'LOGRA')]}), ('pca.1817 129 1.andar centro 58013-010 joao pessoa pb', {'entities': [(0, 11, 'LOGRA')]}), ('pca.odilon resende andrade 76 centro 37410-000 tres coracoes mg', {'entities': [(0, 28, 'LOGRA')]}), ('av fernandes lima 2591 terreo farol 57057-972 maceio al', {'entities': [(0, 22, 'LOGRA')]}), ('r.treze de junho 91

In [8]:
# Criação da base de teste e treinamento

n_test= 0.1 # Porcentagem para base de teste
test_n = round(len(FULL_DATA) * n_test)

# Divisao em Train Test Val

def gerador_bases(dataset, n):
    indices_random = random.sample(range(0,len(dataset)-1), n)
    base_teste_n = []
    base_treinamento_n = []
    
    for i in range(n):
        base_teste_n.append(dataset[indices_random[i]])

    for j in range(len(dataset)):
        if(j not in indices_random):
            base_treinamento_n.append(dataset[j])
            
    return base_teste_n, base_treinamento_n


base_teste, base_treinamento = gerador_bases(FULL_DATA, test_n)

random.shuffle(base_treinamento)
random.shuffle(base_teste)

print("Treinamento: " + str(len(base_treinamento)), "\nTeste: " + str(len(base_teste)), "\nTotal: " + str(len(FULL_DATA)))

Treinamento: 19202 
Teste: 2134 
Total: 21336


In [9]:
for i in range(5):
    print(base_treinamento[i])

('rua presidente lucena 3586 centro 93600-000 estancia velha rs', {'entities': [(0, 26, 'LOGRA')]})
('rua 15 de novembro 99450-000 selbach rs', {'entities': [(0, 17, 'LOGRA')]})
('av.dom pedro ii 688 centro 27570-000 porto real rj', {'entities': [(0, 19, 'LOGRA')]})
('rua getulio vargas 220 centro 84320-000 reserva pr', {'entities': [(0, 22, 'LOGRA')]})
('av.mal.deodoro 494 jd.sta.clara 12080-080 taubate sp', {'entities': [(0, 17, 'LOGRA')]})


# Carregando o modelo

In [10]:
# Define our variables

model = None
output_dir=Path(".")
n_iter= 50 # número de épocas
batch_size = 64

In [11]:
# Setting up the pipeline and entity recognizer.
if model is not None:
    nlp = spacy.load(model)  # load existing spacy model
    print("Loaded model '%s'" % model)
else:
    lan = 'pt'
    nlp = spacy.blank(lan)  # create blank Language class
    print("Created blank '%s' model" % lan)
    
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner)
    print('Added new NER')
else:
    ner = nlp.get_pipe('ner')
    print('Got an old NER')

Created blank 'pt' model
Added new NER


In [12]:
# create the built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner, last=True)
# otherwise, get it so we can add labels
else:
    ner = nlp.get_pipe('ner')

## Treinamento

In [13]:
print("Batch size: ", batch_size)
print("Épocas: ", n_iter)
print()

# add labels
for _, annotations in base_treinamento:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])


# get names of other pipes to disable them during training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(base_treinamento)
        losses = {}
        batches = minibatch(base_treinamento, size=batch_size)
        
        for batch in batches:
            texts, annotations = zip(*batch)
            try:
                nlp.update(texts, annotations, sgd=optimizer, drop=0.2,
                       losses=losses)
            except:
                pass     
        
        print(itn+1, '\tLosses', losses)        

Batch size:  64
Épocas:  50

1 	Losses {'ner': 22742.978502177502}
2 	Losses {'ner': 5340.102163684356}
3 	Losses {'ner': 3915.55731439995}
4 	Losses {'ner': 3848.1426914783983}
5 	Losses {'ner': 2895.59729868274}
6 	Losses {'ner': 2770.908736658325}
7 	Losses {'ner': 2939.555244507386}
8 	Losses {'ner': 2445.8564750558967}
9 	Losses {'ner': 2000.2272698108936}
10 	Losses {'ner': 1895.2004724781914}
11 	Losses {'ner': 1818.435842381205}
12 	Losses {'ner': 1955.8044033745732}
13 	Losses {'ner': 1544.8910712737256}
14 	Losses {'ner': 1595.870967454392}
15 	Losses {'ner': 1390.3102541812393}
16 	Losses {'ner': 1333.1235490445886}
17 	Losses {'ner': 1522.3777476201228}
18 	Losses {'ner': 1526.1900846198741}
19 	Losses {'ner': 1318.576249844566}
20 	Losses {'ner': 1174.933684216256}
21 	Losses {'ner': 1429.9398950556222}
22 	Losses {'ner': 1153.740232717059}
23 	Losses {'ner': 1303.05390478852}
24 	Losses {'ner': 1144.7554400201461}
25 	Losses {'ner': 945.9118389115044}
26 	Losses {'ner': 8

## Teste

Base de Teste

In [14]:
# test the trained model
for text, _ in base_teste:
    doc = nlp(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print(text)
    print()

Entities [('r do ouvidor', 'LOGRA')]
r do ouvidor lj/ss - jirau centro 20040-031 rio de janeiro rj

Entities [('pca. joviniano f. de oliveira s/n', 'LOGRA')]
pca. joviniano f. de oliveira s/n centro 49580-000 areia branca se

Entities [('av orival cndido luz de oliveira 5245', 'LOGRA')]
av orival cndido luz de oliveira 5245 so vicente 94060-001 gravatai rs

Entities [('rua desemb. medeiros correia s/n', 'LOGRA')]
rua desemb. medeiros correia s/n centro 56200-000 ouricuri pe

Entities [('rua fioravante milanez 159', 'LOGRA')]
rua fioravante milanez 159 centro 92010-240 canoas rs

Entities [('rua coronel quirino 786', 'LOGRA')]
rua coronel quirino 786 esq.c/a rua gal.osorio cambui 13025-001 campinas sp

Entities [('rua castro alves 1847', 'LOGRA')]
rua castro alves 1847 centro 85801-150 cascavel pr

Entities [('rua rsula paulino 1177', 'LOGRA')]
rua rsula paulino 1177 betnia 30570-000 belo horizonte mg

Entities [('pca.barao de cambui 189', 'LOGRA')]
pca.barao de cambui 189 centro 37980-

Entities [('av.prof.ana maria silvestre adade s/n', 'LOGRA')]
av.prof.ana maria silvestre adade s/n puc campinas parque das universidades 13086-130 campinas sp

Entities [('rua izabel bueno 775', 'LOGRA')]
rua izabel bueno 775 jaragu 31270-030 belo horizonte mg

Entities [('av.senador levindo coelho 1923', 'LOGRA')]
av.senador levindo coelho 1923 vale do jatoba 30664-030 belo horizonte mg

Entities [('pca.pe.mateus 239', 'LOGRA')]
pca.pe.mateus 239 predio centro 44571-350 santo antonio de jesus ba

Entities [('av pres valentim', 'LOGRA')]
av pres valentim gentil centro 14900-000 itapolis sp

Entities [('av. couto de magalhes 2.815', 'LOGRA')]
av. couto de magalhes 2.815 centro norte 78110-400 varzea grande mt

Entities [('avenida do contorno 7777', 'LOGRA')]
avenida do contorno 7777 1 andar lourdes 30110-051 belo horizonte mg

Entities [('av. ibirapuera 2220', 'LOGRA')]
av. ibirapuera 2220 indianopolis 04028-001 sao paulo sp

Entities [('av.patricio lima 1101', 'LOGRA')]
av.patricio li

Entities [('av. liberdade 1030', 'LOGRA')]
av. liberdade 1030 liberdade 15020-010 sao paulo sp

Entities [('av. silva lobo', 'LOGRA')]
av. silva lobo nova granada 30460-000 belo horizonte mg

Entities [('avenida sete de setembro 2469', 'LOGRA')]
avenida sete de setembro 2469 vitria 40080-003 salvador ba

Entities [('praca juarez de souza 158', 'LOGRA')]
praca juarez de souza 158 centro 47820-000 sao desiderio ba

Entities [('r.vol.de sao paulo 2857 ao lado da catedral', 'LOGRA')]
r.vol.de sao paulo 2857 ao lado da catedral centro 15015-200 sao jose do rio preto sp

Entities [('rua juvenal de campos 981', 'LOGRA')]
rua juvenal de campos 981 centro 14550-000 aramina sp

Entities [('rua dr. rodrigues alves 886', 'LOGRA')]
rua dr. rodrigues alves 886 centro 15820-000 pirangi sp

Entities [('av. duque de caxias 1601', 'LOGRA')]
av. duque de caxias 1601 jardim petropolis 86015-000 londrina pr

Entities [('av. goias 743', 'LOGRA')]
av. goias 743 centro 75800-012 jatai go

Entities [('rua frei

Entities [('est coari mamia', 'LOGRA')]
est coari mamia uniao 69460-000 coari am

Entities [('praca rui barbosa 220', 'LOGRA')]
praca rui barbosa 220 dt05/10-a - sede centro 86800-700 apucarana pr

Entities [('avenida joao batista leal 34', 'LOGRA')]
avenida joao batista leal 34 centro 11740-000 itanhaem sp

Entities [('av pres.getulio vargas 2963', 'LOGRA')]
av pres.getulio vargas 2963 bela vista ii 45996-000 teixeira de freitas ba

Entities [('r.dr.afranio h.lemos 510', 'LOGRA')]
r.dr.afranio h.lemos 510 centro 99220-000 dois lajeados rs

Entities [('avenida brasilia 6.179', 'LOGRA')]
avenida brasilia 6.179 novo mundo 81020-010 curitiba pr

Entities [('rua bueno brandao 41', 'LOGRA')]
rua bueno brandao 41 360305 centro 38430-000 tupaciguara mg

Entities [('rua coronel quirino n 838', 'LOGRA')]
rua coronel quirino n 838 cambu 13025-001 campinas sp

Entities [('avenida joao pinheiro', 'LOGRA')]
avenida joao pinheiro lourdes 30130-188 belo horizonte mg

Entities [('praca nereu ramos 176

Entities [('rua da carioca 77 e 81', 'LOGRA')]
rua da carioca 77 e 81 centro 20050-008 rio de janeiro rj

Entities [('shc/sw clsw 304 bloco b', 'LOGRA'), (') setor sudoeste 70670-622 brasilia df', 'LOGRA')]
shc/sw clsw 304 bloco b lojas c/numeros pares de 32 a 50) setor sudoeste 70670-622 brasilia df

Entities [('rua dr. pereira dos santos', 'LOGRA')]
rua dr. pereira dos santos centro 24800-041 itaborai rj

Entities [('pca.nove de janeiro 20', 'LOGRA')]
pca.nove de janeiro 20 terreo centro 62380-000 guaraciaba do norte ce

Entities [('rua professor atilio innocenti', 'LOGRA')]
rua professor atilio innocenti conjunto 1601 - 15 andar 00000-000 sao paulo sp

Entities [('r.anisio de abreu 600', 'LOGRA')]
r.anisio de abreu 600 vizinho aos correios centro 64930-000 gilbues pi

Entities [('praa da repblica s/n', 'LOGRA')]
praa da repblica s/n centro 68170-000 juruti pa

Entities [('r.pres.juscelino 234', 'LOGRA')]
r.pres.juscelino 234 centro 88400-000 ituporanga sc

Entities [('rua bernardino

Entities [('rua santa catarina 1330', 'LOGRA')]
rua santa catarina 1330 centro 18700-005 avare sp

Entities [('r.fernando luiz henrique dos santos 1155', 'LOGRA')]
r.fernando luiz henrique dos santos 1155 jd oceania 58037-051 joao pessoa pb

Entities [('av. cel norberto lima 34', 'LOGRA')]
av. cel norberto lima 34 centro 68540-000 conceicao do araguaia pa

Entities [('av.eng.luis carlos berrini 716', 'LOGRA')]
av.eng.luis carlos berrini 716 brooklin novo 04571-000 sao paulo sp

Entities [('rua getulio vargas 1133', 'LOGRA')]
rua getulio vargas 1133 centro 98600-000 tres passos rs

Entities [('av rio branco 138', 'LOGRA')]
av rio branco 138 loja a centro 20040-002 rio de janeiro rj

Entities [('clsw qd.105 bl.a lj.22', 'LOGRA')]
clsw qd.105 bl.a lj.22 setor sudoeste 70670-431 brasilia df

Entities [('r.tiradentes 807', 'LOGRA')]
r.tiradentes 807 esq.c/r.oswaldo cruz centro 15150-000 monte aprazivel sp

Entities [('av. presidente costa e silva 699', 'LOGRA')]
av. presidente costa e silva

Entities [('rua bento goncalves 371', 'LOGRA')]
rua bento goncalves 371 centro 99010-012 passo fundo rs

Entities [('av. pedro palvares cabral 766', 'LOGRA')]
av. pedro palvares cabral 766 jardim paulista 12216-000 sao jose dos campos sp

Entities [('rua joo passos', 'LOGRA')]
rua joo passos centro 18600-040 botucatu sp

Entities [('av 24 de dezembro', 'LOGRA')]
av 24 de dezembro centro 11750-000 peruibe sp

Entities [('av.deputado alvaro soares s/n', 'LOGRA')]
av.deputado alvaro soares s/n. centro 62360-000 ibiapina ce

Entities [('praca otavio mangabeira 108', 'LOGRA')]
praca otavio mangabeira 108 360305 centro 45600-190 itabuna ba

Entities [('r.mirador 87', 'LOGRA')]
r.mirador 87 centro 89150-000 presidente getulio sc

Entities [('av.treze de maio 430', 'LOGRA')]
av.treze de maio 430 jd.paulista 14090-260 ribeirao preto sp

Entities [('av.joaquim floriano', 'LOGRA')]
av.joaquim floriano itaim bibi 04534-012 sao paulo sp

Entities [('rua capitao whitaker 360', 'LOGRA')]
rua capitao 

Entities [('av.dep.quintino vargas 261', 'LOGRA')]
av.dep.quintino vargas 261 centro 38600-000 paracatu mg

Entities [('r.francisco pereira borges 316', 'LOGRA')]
r.francisco pereira borges 316 centro 37820-000 arceburgo mg

Entities [('rua nossa senhora de fatima s/n', 'LOGRA')]
rua nossa senhora de fatima s/n centro 68638-000 rondon do para pa

Entities [('avenida aril barnabe 1448', 'LOGRA')]
avenida aril barnabe 1448 jd.morada do sol 13346-400 indaiatuba sp

Entities [('rua monsenhor celso 50', 'LOGRA')]
rua monsenhor celso 50 1 andar centro 80010-150 curitiba pr

Entities [('avenida paulista n 2064', 'LOGRA')]
avenida paulista n 2064 shopping center 3 - lucs p29 p30 a39 e a40 - par bela vista 01310-928 sao paulo sp

Entities [('rua manoel joaquim dos santos 43', 'LOGRA')]
rua manoel joaquim dos santos 43 itaciba 29150-270 cariacica es

Entities [('rua francisco marques beato 02', 'LOGRA')]
rua francisco marques beato 02 centro 17580-000 pompeia sp

Entities [('rua xv de novembro',

Entities [('av alberto byington 1991', 'LOGRA')]
av alberto byington 1991 vl maria 02127-001 sao paulo sp

Entities [('av. luiz osorio 615', 'LOGRA')]
av. luiz osorio 615 centro 16300-000 penapolis sp

Entities [('avenida ibirapuera', 'LOGRA')]
avenida ibirapuera indianpolis 04028-001 sao paulo sp

Entities [('av. brigadeiro faria lima n 3900', 'LOGRA')]
av. brigadeiro faria lima n 3900 10 andar-cond.edif.pedro mariz-b31 itaim bibi 04538-132 sao paulo sp

Entities [('r.barao do rio branco 390-a', 'LOGRA')]
r.barao do rio branco 390-a centro 16680-000 avai sp

Entities [('av. prestes maia 831', 'LOGRA')]
av. prestes maia 831 jardim d'abril 06040-014 osasco sp

Entities [('av. tocantins s/n', 'LOGRA')]
av. tocantins s/n quadra 4 - lote 9 setor santa f 77064-002 palmas to

Entities [('nucleo cidade de deus prdio', 'LOGRA')]
nucleo cidade de deus prdio rubi vila yara 06029-900 osasco sp

Entities [('av. republica argentina 3.370', 'LOGRA')]
av. republica argentina 3.370 jardim esmeralda 85

Entities [('avenida imirim 1128', 'LOGRA')]
avenida imirim 1128 imirim 02465-100 sao paulo sp

Entities [('av.rodoviaria 1238', 'LOGRA')]
av.rodoviaria 1238 centro 65470-000 sao mateus do maranhao ma

Entities [('rua xv de novembro 126/128/rua cidade de toledo 30', 'LOGRA')]
rua xv de novembro 126/128/rua cidade de toledo 30 centro 11010-000 santos sp

Entities [('r.francisco martiniano de oliveira 416', 'LOGRA')]
r.francisco martiniano de oliveira 416 centro bela vista 14820-000 americo brasiliense sp

Entities [('rua verbo divino 1830', 'LOGRA')]
rua verbo divino 1830 3.andar - sala exclusivo 11 ch sto antonio (z sul) 04719-907 sao paulo sp

Entities [('rua do carmo 8', 'LOGRA')]
rua do carmo 8 8o. andar centro 20011-020 rio de janeiro rj

Entities [('rua francisco getlio vargas', 'LOGRA')]
rua francisco getlio vargas bairro universitrio universitrio 95070-650 caxias do sul rs

Entities [('av.caxanga 3424 empresarial bruno', 'LOGRA')]
av.caxanga 3424 empresarial bruno nogueira caldas

Entities [('rua campos sales 159', 'LOGRA')]
rua campos sales 159 centro 17340-000 barra bonita sp

Entities [('av capitao casa 1299', 'LOGRA')]
av capitao casa 1299 dos casa 09812-000 sao bernardo do campo sp

Entities [('av. pres. juscelino kubitschek', 'LOGRA')]
av. pres. juscelino kubitschek sl 44 54 e 64 -4 5 6 and. - bloco 4- cond.ed. so luiz vila nova conceio 04543-000 sao paulo sp

Entities [('avenida oito', 'LOGRA')]
avenida oito qd 35 lt 5 centro 79560-000 chapadao do sul ms

Entities [('rua coronel manoel teixeira 13', 'LOGRA')]
rua coronel manoel teixeira 13 centro 47400-000 xique-xique ba

Entities [('rua antonio simo mauad', 'LOGRA')]
rua antonio simo mauad centro 37500-180 itajuba mg

Entities [('r.saturnino bezerra s/', 'LOGRA')]
r.saturnino bezerra s/n pavimento centro 56820-000 carnaiba pe

Entities [('r.quinze de novembro 191', 'LOGRA')]
r.quinze de novembro 191 2.andar centro 18010-081 sorocaba sp

Entities [('rua joaquim balduino de souza', 'LOGRA')]
rua joaquim ba

Entities [('rua emiliano perneta 271/275', 'LOGRA')]
rua emiliano perneta 271/275 centro 80010-050 curitiba pr

Entities [('r minas gerais 555', 'LOGRA')]
r minas gerais 555 centro 15650-000 estrela d'oeste sp

Entities [('r.guanabara 65', 'LOGRA')]
r.guanabara 65 predio da pref.municipal centro 39625-000 itaobim mg

Entities [('rua joao pessoa 77', 'LOGRA')]
rua joao pessoa 77 jardim america 85920-000 assis chateaubriand pr

Entities [('rua emancipao', 'LOGRA')]
rua emancipao centro 95778-000 vale real rs

Entities [('av.hugo musso 1100', 'LOGRA')]
av.hugo musso 1100 loja 1 pr costa 29101-284 vila velha es

Entities [('rua rafael langoni 82', 'LOGRA')]
rua rafael langoni 82 centro 25880-000 sapucaia rj

Entities [('av.afonso pena 273', 'LOGRA')]
av.afonso pena 273 1 andar centro 38400-059 uberlandia mg

Entities [('av. dona belmira marin 1.211', 'LOGRA')]
av. dona belmira marin 1.211 parque planalto 04846-010 sao paulo sp

Entities [('av. morumbi 8384', 'LOGRA')]
av. morumbi 8384 sant

Entities [('r.bernardo locks 304', 'LOGRA')]
r.bernardo locks 304 terreo centro 88750-000 braco do norte sc

Entities [('praca toledo de barros 164', 'LOGRA')]
praca toledo de barros 164 centro 13480-008 limeira sp

Entities [('av. santos dumont 2565', 'LOGRA')]
av. santos dumont 2565 subsolo - loja e sobreloja - parte aldeota 60150-161 fortaleza ce

Entities [('rua jornalista geraldo rocha 200', 'LOGRA')]
rua jornalista geraldo rocha 200 parte jardim america 21240-080 rio de janeiro rj

Entities [('av. jose loureiro da silva 1282', 'LOGRA')]
av. jose loureiro da silva 1282 centro 93280-480 gravatai rs

Entities [('av. vinte e oito de abril 176', 'LOGRA')]
av. vinte e oito de abril 176 centro 35160-004 ipatinga mg

Entities [('rua savino barreira 911', 'LOGRA')]
rua savino barreira 911 centro 63475-000 jaguaribe ce

Entities [('rua xv de novembro 135', 'LOGRA')]
rua xv de novembro 135 centro 59215-000 nova cruz rn

Entities [('rua parana s/n', 'LOGRA')]
rua parana s/n. centro 78360-000

Entities [('av.dep.alvaro gaudencio 46', 'LOGRA')]
av.dep.alvaro gaudencio 46 centro 58580-000 serra branca pb

Entities [('pca.do mercado s/n', 'LOGRA')]
pca.do mercado s/n predio centro 46438-000 iuiu ba

Entities [('rua ten cel aviador teodomiro rocha', 'LOGRA')]
rua ten cel aviador teodomiro rocha centro 38810-000 rio paranaiba mg

Entities [('rua capito frederico teixeira guimaraes', 'LOGRA')]
rua capito frederico teixeira guimaraes centro 85555-000 palmas pr

Entities [('pca.vidal ramos 85', 'LOGRA')]
pca.vidal ramos 85 centro 88790-000 laguna sc

Entities [('av.joao manoel da silva 302', 'LOGRA')]
av.joao manoel da silva 302 centro 55125-000 toritama pe

Entities [('av.ismael gouvea 230', 'LOGRA')]
av.ismael gouvea 230 centro 55870-000 timbauba pe

Entities [('r.dr.getulio vargas 22', 'LOGRA')]
r.dr.getulio vargas 22 loja 01 centro 27660-000 rio das flores rj

Entities [('rua governador pedro de toledo 381', 'LOGRA')]
rua governador pedro de toledo 381 centro 13440-000 charquead

Entities [('av sao miguel', 'LOGRA')]
av sao miguel pq boturussu 03871-100 sao paulo sp

Entities [('rua da bahia 1600', 'LOGRA')]
rua da bahia 1600 lourdes 30160-907 belo horizonte mg

Entities [('av.maria s.demarchi 1662/1690', 'LOGRA')]
av.maria s.demarchi 1662/1690 demarchi 09820-000 sao bernardo do campo sp

Entities [('av vasconcelos costa', 'LOGRA')]
av vasconcelos costa martins 38400-450 uberlandia mg

Entities [('av. andromeda 673', 'LOGRA')]
av. andromeda 673 jardim satelite 12230-000 sao jose dos campos sp

Entities [('r.juan de la cruz 69', 'LOGRA')]
r.juan de la cruz 69 jd.jabaquara 04384-090 sao paulo sp

Entities [('rua maximiliano fernandes 112', 'LOGRA')]
rua maximiliano fernandes 112 centro 45015-900 vitoria da conquista ba

Entities [('av. mogiana n 1750', 'LOGRA')]
av. mogiana n 1750 vila mariana 14075-260 ribeirao preto sp

Entities [('rua comendador araujo 143', 'LOGRA')]
rua comendador araujo 143 20 andar. centro 80420-900 curitiba pr

Entities [('praca tiradente

Entities [('av.pref.vitoriano antunes 2471', 'LOGRA')]
av.pref.vitoriano antunes 2471 centro 62850-000 cascavel ce

Entities [('av. washington lus n 6971', 'LOGRA')]
av. washington lus n 6971 vila congonhas 04627-005 sao paulo sp

Entities [('av dos imigrantes sn esq c rua dr', 'LOGRA')]
av dos imigrantes sn esq c rua dr freita centro 12902-000 braganca paulista sp

Entities [('av.brasil 6546', 'LOGRA')]
av.brasil 6546 quadra 32 datas 1 e 2 zona 6 87015-281 maringa pr

Entities [('av. das amoreiras 2187', 'LOGRA')]
av. das amoreiras 2187 sao bernardo 13036-120 campinas sp

Entities [('rua general osorio 38', 'LOGRA')]
rua general osorio 38 centro 36520-000 visconde do rio branco mg

Entities [('pca santos dumont 190 ap 01/ 194 lj', 'LOGRA')]
pca santos dumont 190 ap 01/ 194 lj 1/2 qd 57a lt setor aeroporto 74070-050 goiania go

Entities [('av. nossa sra. de copacabana 1335 - loja a', 'LOGRA')]
av. nossa sra. de copacabana 1335 - loja a copacabana 22070-010 rio de janeiro rj

Entities [

Entities [('r.guerino giovani leardini 93', 'LOGRA')]
r.guerino giovani leardini 93 vila barreto 02937-040 sao paulo sp

Entities [('rua coronel bertaso num 1050', 'LOGRA')]
rua coronel bertaso num 1050 centro 89990-000 sao lourenco d'oeste sc

Entities [('av.benjamim constant s/', 'LOGRA')]
av.benjamim constant s/n qd.23 lote 2 centro 75980-000 parauna go

Entities [('qnn 1 conjunto a', 'LOGRA')]
qnn 1 conjunto a lote 01 ceilandia 72225-010 brasilia (ceilandia) df

Entities [('av. jane maria martins figueira', 'LOGRA')]
av. jane maria martins figueira loja jardim marilea 28890-000 rio das ostras rj

Entities [('avenida brasil 2043', 'LOGRA')]
avenida brasil 2043 vila aparecida 14401-234 franca sp

Entities [('av.dom bosco 693', 'LOGRA')]
av.dom bosco 693 centro 78695-000 torixoreu mt

Entities [('av raimundo pereira de magalhaes 12495', 'LOGRA')]
av raimundo pereira de magalhaes 12495 parada de taipas 02989-095 sao paulo sp

Entities [('rua santos dumont 2562', 'LOGRA')]
rua santos du

Entities [('av. cezario de melo 3166', 'LOGRA')]
av. cezario de melo 3166 campo grande 23050-100 rio de janeiro rj

Entities [('pca emilio henrique ower sandolth 66', 'LOGRA')]
pca emilio henrique ower sandolth 66 centro 15920-970 vista alegre do alto sp

Entities [('rua engenheiro portela 97', 'LOGRA')]
rua engenheiro portela 97 centro 75024-100 anapolis go

Entities [('av. graca aranha 296-a', 'LOGRA')]
av. graca aranha 296-a centro 20030-001 rio de janeiro rj

Entities [('avenida general osrio n 691', 'LOGRA')]
avenida general osrio n 691 vila trujillo 18060-501 sorocaba sp

Entities [('av. carolina fraga', 'LOGRA')]
av. carolina fraga centro 29490-000 atilio vivacqua es

Entities [('avenida presidente costa e silva 80', 'LOGRA')]
avenida presidente costa e silva 80 boqueirao 11700-005 praia grande sp

Entities [('r.francisco ferreira alves 298', 'LOGRA')]
r.francisco ferreira alves 298 predio centro 13835-000 conchal sp

Entities [('praa nove de julho n 690', 'LOGRA')]
praa nove de

Entities [('rua rio branco 6-56', 'LOGRA')]
rua rio branco 6-56 centro 17010-190 bauru sp

Entities [('r buenos aires 298', 'LOGRA')]
r buenos aires 298 centro 20061-001 rio de janeiro rj

Entities [('rua nove de julho 1156', 'LOGRA')]
rua nove de julho 1156 centro 16800-000 mirandopolis sp

Entities [('r.sebastiao lopes carvalho 303', 'LOGRA')]
r.sebastiao lopes carvalho 303 centro 36570-000 vicosa mg

Entities [('rodovia stael mary', 'LOGRA')]
rodovia stael mary bicalho m magalhes loja 1 belvedere 30320-760 belo horizonte mg

Entities [('av getulio vargas', 'LOGRA')]
av getulio vargas centro 89340-000 itaiopolis sc

Entities [('rua comendador antonio alves', 'LOGRA')]
rua comendador antonio alves centro 33600-000 pedro leopoldo mg

Entities [('av. gov. julio jose campos 1303', 'LOGRA')]
av. gov. julio jose campos 1303 centro 78550-000 sinop mt

Entities [('av vaz ferreira 977', 'LOGRA')]
av vaz ferreira 977 centro 98170-000 tupancireta rs

Entities [('av.rio verde quadra 25', 'LOGRA'

Entities [('praca conego vitor 203', 'LOGRA')]
praca conego vitor 203 centro 37190-000 tres pontas mg

Entities [('av olegario maciel 7', 'LOGRA')]
av olegario maciel 7 centro 35300-000 caratinga mg

Entities [('rua bueno de aguiar', 'LOGRA')]
rua bueno de aguiar centro 13260-000 morungaba sp

Entities [('av. duque de caxias 267a', 'LOGRA')]
av. duque de caxias 267a fragata 96030-001 pelotas rs

Entities [('rua garibaldi', 'LOGRA')]
rua garibaldi centro 97770-000 nova esperanca do sul rs

Entities [('avenida presidente vargas 1600', 'LOGRA')]
avenida presidente vargas 1600 alto da boa vista 14025-700 ribeirao preto sp

Entities [('av. rio branco 1173', 'LOGRA')]
av. rio branco 1173 alto cafezal 17502-000 marilia sp

Entities [('quartel general do exercitosmu', 'LOGRA')]
quartel general do exercitosmu bl h 360305 asa sul 70630-000 brasilia df

Entities [('rua souza dutra lojas 1 e 5 estreito 88070-605 florianopolis sc', 'LOGRA')]
rua souza dutra lojas 1 e 5 estreito 88070-605 florianopo

Entities [('av anita garibaldi', 'LOGRA')]
av anita garibaldi lj 02 a 06 federacao 40210-750 salvador ba

Entities [('avenida central sul s/n', 'LOGRA')]
avenida central sul s/n centro 47630-000 serra do ramalho ba

Entities [('av barao do rio branco 1906', 'LOGRA')]
av barao do rio branco 1906 centro 36015-510 juiz de fora mg

Entities [('av filinto muller 646', 'LOGRA')]
av filinto muller 646 centro-norte 78110-302 varzea grande mt

Entities [('av. das americas 500', 'LOGRA')]
av. das americas 500 bl 2 - ljs 101/102/115 barra da tijuca 22640-100 rio de janeiro rj

Entities [('rua pamplona n. 1.109', 'LOGRA')]
rua pamplona n. 1.109 jardim paulista 01405-001 sao paulo sp

Entities [('r.anacleto da silva ortiz 751', 'LOGRA')]
r.anacleto da silva ortiz 751 centro 88570-000 sao jose do cerrito sc

Entities [('r.rio de janeiro 750', 'LOGRA')]
r.rio de janeiro 750 centro 30160-041 belo horizonte mg

Entities [('rua almirante barroso n 420', 'LOGRA')]
rua almirante barroso n 420 360305 centr

Entities [('av.dr.mendonca lima 388', 'LOGRA')]
av.dr.mendonca lima 388 centro 76850-000 guajara-mirim ro

Entities [('pa monsenhor berenguer sn', 'LOGRA')]
pa monsenhor berenguer sn centro 48800-000 monte santo ba

Entities [('shc/sul cr quadra 516 bloco c', 'LOGRA')]
shc/sul cr quadra 516 bloco c loja 21 asa sul 70381-535 brasilia df

Entities [('rua julio de castilhos 2705', 'LOGRA')]
rua julio de castilhos 2705 centro 95600-000 taquara rs

Entities [('centro ind. de aratu q 2 lte 1 lote 1-simoes filho', 'LOGRA')]
centro ind. de aratu q 2 lte 1 lote 1-simoes filho centro indl aratu 43700-000 simoes filho ba

Entities [('r silvio jose de castro maia 643', 'LOGRA')]
r silvio jose de castro maia 643 centro 78780-000 alto araguaia mt

Entities [('r.pres.castelo branco 63', 'LOGRA')]
r.pres.castelo branco 63 centro 89920-000 guaraciaba sc

Entities [('rchafic maluf 396', 'LOGRA')]
rchafic maluf 396 sto amaro 04710-160 sao paulo sp

Entities [('praa dr. jos sacramento e silva 64', 'LOGRA'

Entities [('av. engenheiro', 'LOGRA')]
av. engenheiro heitor antnio eiras garcia n 4.185 jardim raposo tavares 05564-100 sao paulo sp

Entities [('av. manoel goulart 2400', 'LOGRA')]
av. manoel goulart 2400 jardim das rosas 19060-000 presidente prudente sp

Entities [('avenida visconde de souza franco 857', 'LOGRA')]
avenida visconde de souza franco 857 reduto 66053-000 belem pa

Entities [('rua dr. costa aguiar 700', 'LOGRA')]
rua dr. costa aguiar 700 centro 13010-061 campinas sp

Entities [('pca.cel.flavio fernandes 39', 'LOGRA')]
pca.cel.flavio fernandes 39 centro 37405-000 monsenhor paulo mg

Entities [('r bom pastor 153', 'LOGRA')]
r bom pastor 153 2. e 3. andares ipiranga 04203-050 sao paulo sp

Entities [('rua dr. xavier da silva 834', 'LOGRA')]
rua dr. xavier da silva 834 centro 86410-000 ribeirao claro pr

Entities [('av. carlos lindemberg', 'LOGRA')]
av. carlos lindemberg centro 29230-000 anchieta es

Entities [('av.caxanga cordeiro 50630-000', 'LOGRA')]
av.caxanga cordeiro 5

Frase qualquer

In [16]:
phrase = "SHVP Rua 12 435 casa 22 lote 1"

doc = nlp(phrase)
print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
print(phrase)

Entities [('SHVP Rua 12 435', 'LOGRA')]
SHVP Rua 12 435 casa 22 lote 1
