In [1]:
# Load Packages
from __future__ import unicode_literals, print_function

import plac #  wrapper over argparse
import random
from pathlib import Path
import spacy
from tqdm import tqdm, tqdm_notebook # loading bar 
import pandas as pd
import re
from pprint import pprint
from nltk.tokenize import sent_tokenize
import numpy as np

from spacy.util import minibatch, compounding

# Abrindo e gerando Datasets

### Entidade logradouro

In [2]:
# Obtendo dados crus de endereço

dataset = pd.read_csv("201906AGENCIAS.CSV")
dset = dataset.iloc[:-2,4:10].values  # tipo nparray object
pd_dset = pd.DataFrame(dset) # caso queira visualizar

pd_dset['Join'] = pd_dset[pd_dset.columns[0:]].apply(
    lambda x: ';'.join(x.dropna().astype(str)),
    axis=1
)
pd_dset.head(5)

Unnamed: 0,0,1,2,3,4,5,Join
0,"R.GUILHERME MOREIRA,315","SUBLOJA,LOJA E 2.ANDAR ...",CENTRO,69005-300,MANAUS ...,AM,"R.GUILHERME MOREIRA,315 ;SUBLO..."
1,"AV.PRES.VARGAS,248",1.E 2.ANDARES ...,CAMPINA,66010-900,BELEM ...,PA,"AV.PRES.VARGAS,248 ;1.E 2..."
2,"R.QUINZE DE NOVEMBRO,195",...,CENTRO,11010-908,SANTOS ...,SP,"R.QUINZE DE NOVEMBRO,195 ; ..."
3,"PCA.DAS QUATRO JORNADAS,11",MEZANINO ...,CENTRO,28010-000,CAMPOS DOS GOYTACAZES ...,RJ,"PCA.DAS QUATRO JORNADAS,11 ;MEZAN..."
4,"SEXTA AVENIDA,600",SECRETARIA DA EDUCACAO-TERREO ...,CAB,41745-002,SALVADOR ...,BA,"SEXTA AVENIDA,600 ;SECRE..."


In [3]:
# Tratando endereço completo do DataFrame
dset = np.array(pd_dset)
end_lista = []

for i in range(len(dset)):
    str_raw = dset[i][6]
    str_tratada = re.sub(r'[ ]{2,}', "",str_raw) # Tirando espaços excedentes no final do endereço
    str_tratada = re.sub(r'[;]{1,}', "; ", str_tratada) # Para complementos vazios, para não ter 2 ";"
    str_tratada = str_tratada.lower()
    
    end_lista.append(str_tratada)

end_lista[:3]

['r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am',
 'av.pres.vargas,248; 1.e 2.andares; campina; 66010-900; belem; pa',
 'r.quinze de novembro,195; centro; 11010-908; santos; sp']

In [4]:
# Lógica para extrair posição do logradouro:
# Dividir a String inteira por ";", pegar o len do primeiro split
# len de LOGRA é de 0 até len do primeiro split

print(end_lista[0])
split = end_lista[0].split(";")
print(split)
print(split[0])
print(len(split[0]))

r.guilherme moreira,315; subloja,loja e 2.andar; centro; 69005-300; manaus; am
['r.guilherme moreira,315', ' subloja,loja e 2.andar', ' centro', ' 69005-300', ' manaus', ' am']
r.guilherme moreira,315
23


In [5]:
# Extraindo iob com entidade apenas de logradouro

iob = []

for i in range(len(end_lista)):
    split = end_lista[i].split(";")
    len_logra = len(split[0])
    iob_dict = {"entities": [(0, len_logra-1,'LOGRA')]}
    end_lista[i] = end_lista[i].replace(";", " ")
    end_lista[i] = end_lista[i].replace(",", " ")
    end_lista[i] = re.sub(r'[ ]{2,}', " ", end_lista[i])

    
    tupla = (end_lista[i], iob_dict)
    iob.append(tupla)

FULL_DATA = iob

In [6]:
print(FULL_DATA[0])
print(FULL_DATA[1])
print(FULL_DATA[2])
print(FULL_DATA[5:15])

('r.guilherme moreira 315 subloja loja e 2.andar centro 69005-300 manaus am', {'entities': [(0, 22, 'LOGRA')]})
('av.pres.vargas 248 1.e 2.andares campina 66010-900 belem pa', {'entities': [(0, 17, 'LOGRA')]})
('r.quinze de novembro 195 centro 11010-908 santos sp', {'entities': [(0, 23, 'LOGRA')]})
[('av.rio branco 240 1.andar recife antigo 50030-310 recife pe', {'entities': [(0, 16, 'LOGRA')]}), ('av.santos dumont 2828 5.andar aldeota 60150-162 fortaleza ce', {'entities': [(0, 20, 'LOGRA')]}), ('pca.tiradentes 410 1.andar centro 80020-100 curitiba pr', {'entities': [(0, 17, 'LOGRA')]}), ('r.uruguai 185 5.andar centro 90010-901 porto alegre rs', {'entities': [(0, 12, 'LOGRA')]}), ('pca.1817 129 1.andar centro 58013-010 joao pessoa pb', {'entities': [(0, 11, 'LOGRA')]}), ('pca.odilon resende andrade 76 centro 37410-000 tres coracoes mg', {'entities': [(0, 28, 'LOGRA')]}), ('av fernandes lima 2591 terreo farol 57057-972 maceio al', {'entities': [(0, 22, 'LOGRA')]}), ('r.treze de junho 91

In [7]:
# Criação da base de teste e treinamento

n_test= 0.1 # Porcentagem para base de teste
test_n = round(len(FULL_DATA) * n_test)

# Divisao em Train Test Val

def gerador_bases(dataset, n):
    indices_random = random.sample(range(0,len(dataset)-1), n)
    base_teste_n = []
    base_treinamento_n = []
    
    for i in range(n):
        base_teste_n.append(dataset[indices_random[i]])

    for j in range(len(dataset)):
        if(j not in indices_random):
            base_treinamento_n.append(dataset[j])
            
    return base_teste_n, base_treinamento_n


base_teste, base_treinamento = gerador_bases(FULL_DATA, test_n)

random.shuffle(base_treinamento)
random.shuffle(base_teste)

print("Treinamento: " + str(len(base_treinamento)), "\nTeste: " + str(len(base_teste)), "\nTotal: " + str(len(FULL_DATA)))

Treinamento: 19202 
Teste: 2134 
Total: 21336


In [8]:
for i in range(5):
    print(base_treinamento[i])

('praca benedito meirelles 186 centro 12570-000 aparecida sp', {'entities': [(0, 28, 'LOGRA')]})
('av.paulo de frontin 110 aterrado 27213-150 volta redonda rj', {'entities': [(0, 23, 'LOGRA')]})
('av.n.sra.de fatima 22-a centro 20240-051 rio de janeiro rj', {'entities': [(0, 22, 'LOGRA')]})
('av. independencia 98300-000 palmeira das missoes rs', {'entities': [(0, 16, 'LOGRA')]})
('avenida sua�una 374 quart 4212 qd 56 lt 15 vila aeroporto 13054-105 campinas sp', {'entities': [(0, 18, 'LOGRA')]})


# Carregando o modelo

In [9]:
# Define our variables

model = None
output_dir=Path(".")
n_iter= 100 # número de épocas
batch_size = 64

In [10]:
# Setting up the pipeline and entity recognizer.
if model is not None:
    nlp = spacy.load(model)  # load existing spacy model
    print("Loaded model '%s'" % model)
else:
    lan = 'pt'
    nlp = spacy.blank(lan)  # create blank Language class
    print("Created blank '%s' model" % lan)
    
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner)
    print('Added new NER')
else:
    ner = nlp.get_pipe('ner')
    print('Got an old NER')

Created blank 'pt' model
Added new NER


In [11]:
# create the built-in pipeline components and add them to the pipeline
    # nlp.create_pipe works for built-ins that are registered with spaCy
if 'ner' not in nlp.pipe_names:
    ner = nlp.create_pipe('ner')
    nlp.add_pipe(ner, last=True)
# otherwise, get it so we can add labels
else:
    ner = nlp.get_pipe('ner')

## Treinamento

In [12]:
print("Batch size: ", batch_size)
print("Épocas: ", n_iter)
print()

# add labels
for _, annotations in base_treinamento:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])


# get names of other pipes to disable them during training
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(base_treinamento)
        losses = {}
        batches = minibatch(base_treinamento, size=batch_size)
        
        for batch in batches:
            texts, annotations = zip(*batch)
            try:
                nlp.update(texts, annotations, sgd=optimizer, drop=0.2,
                       losses=losses)
            except:
                pass     
        
        print(itn+1, ' Losses', losses)        

Batch size:  64
Épocas:  100

1  Losses {'ner': 19831.867839641283}
2  Losses {'ner': 5587.187654880628}
3  Losses {'ner': 4747.712440041905}
4  Losses {'ner': 3571.2951006069256}
5  Losses {'ner': 3791.955800525956}
6  Losses {'ner': 3446.278985528668}
7  Losses {'ner': 3056.796404897451}
8  Losses {'ner': 2590.437319298614}
9  Losses {'ner': 2762.622550400089}
10  Losses {'ner': 2390.0576414050247}
11  Losses {'ner': 2435.0627649975263}
12  Losses {'ner': 2173.0066205404582}
13  Losses {'ner': 1949.3835919389064}
14  Losses {'ner': 1828.711330771129}
15  Losses {'ner': 1937.1560782559998}
16  Losses {'ner': 1548.47443502713}
17  Losses {'ner': 1584.1878045401488}
18  Losses {'ner': 1504.1001630591982}
19  Losses {'ner': 1638.68770458259}
20  Losses {'ner': 1309.914074565429}
21  Losses {'ner': 1318.906028696298}
22  Losses {'ner': 1441.0242280638136}
23  Losses {'ner': 1432.7379352941923}
24  Losses {'ner': 1230.5440113802708}
25  Losses {'ner': 1017.3780487214002}
26  Losses {'ner':

In [13]:
# test the trained model
for text, _ in base_teste:
    doc = nlp(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
    print(text)
    print()

Entities [('av.goias 980', 'LOGRA')]
av.goias 980 3.andar centro 74010-010 goiania go

Entities [('rua xv de novembro 2.767', 'LOGRA')]
rua xv de novembro 2.767 centro 80045-125 curitiba pr

Entities [('rua carijos 871', 'LOGRA')]
rua carijos 871 centro 30120-060 belo horizonte mg

Entities [('av.dom pedro i 768', 'LOGRA')]
av.dom pedro i 768 ipiranga 14055-630 ribeirao preto sp

Entities [('av. parana 1026', 'LOGRA')]
av. parana 1026 centro 87900-000 loanda pr

Entities [('av. centauro 420', 'LOGRA')]
av. centauro 420 centro 87265-000 quinta do sol pr

Entities [('av. presidente vargas quadra 40', 'LOGRA')]
av. presidente vargas quadra 40 lotes 9/10 jardim goias 75903-290 rio verde go

Entities [('avenida presidentegetuilio vargas', 'LOGRA')]
avenida presidentegetuilio vargas bela vista ii 45996-000 teixeira de freitas ba

Entities [('av. rui barbosa 790', 'LOGRA')]
av. rui barbosa 790 centro 28700-000 macae rj

Entities [('av caminho de areia 234', 'LOGRA')]
av caminho de areia 234 c

Entities [('r cazuza ramos', 'LOGRA')]
r cazuza ramos cruzeiro 65590-000 barreirinhas ma

Entities [('alameda dom pedro ii 21', 'LOGRA')]
alameda dom pedro ii 21 batel 80420-060 curitiba pr

Entities [('av. das americas', 'LOGRA')]
av. das americas bloco 07 grupo 201 barra da tijuca 22640-102 rio de janeiro rj

Entities [('rua joaquim floriano', 'LOGRA')]
rua joaquim floriano 7� andar - cj. 71/72 itaim bibi 04534-004 sao paulo sp

Entities [('av.ernani do amaral peixoto 347', 'LOGRA')]
av.ernani do amaral peixoto 347 3 andar centro 24020-072 niteroi rj

Entities [('av. flores da cunha 1939/rua exped.', 'LOGRA')]
av. flores da cunha 1939/rua exped. c. pinheiro centro 99500-000 carazinho rs

Entities [('rua cincinato braga 340', 'LOGRA')]
rua cincinato braga 340 16� andar cj 162 bela vista 01333-010 sao paulo sp

Entities [('rua mendes junior 654', 'LOGRA')]
rua mendes junior 654 bras 03013-011 sao paulo sp

Entities [('rua comendador ara�jo', 'LOGRA')]
rua comendador ara�jo centro 80420

Entities [('avenida brasil', 'LOGRA')]
avenida brasil lote 05 quadra 35 - nucleo urbano centro 68550-005 redencao pa

Entities [('rua marechal deodoro 630', 'LOGRA')]
rua marechal deodoro 630 5 andar - conjunto 502 centro 80010-010 curitiba pr

Entities [('av.angelica 2011', 'LOGRA')]
av.angelica 2011 santa cecilia 01227-200 sao paulo sp

Entities [('av. t4 s/n�', 'LOGRA')]
av. t4 s/n� esq. t63 - lotes 10/11 - quadra 141 - parte setor bueno 74230-035 goiania go

Entities [('pca.patriarca jose bonifacio s/', 'LOGRA')]
pca.patriarca jose bonifacio s/n ed.palacio da justica centro 11013-910 santos sp

Entities [('r.trinta de dezembro 193', 'LOGRA')]
r.trinta de dezembro 193 centro 88495-000 garopaba sc

Entities [('av. jose paulino', 'LOGRA')]
av. jose paulino centro 13140-000 paulinia sp

Entities [('av. dom emanoel c/ av. progresso quadra s/', 'LOGRA')]
av. dom emanoel c/ av. progresso quadra s/n sala 4 jardim sabi� 75250-000 senador canedo go

Entities [('avmarechal mascarenhas de mora

Entities [('avenida rep�blica do l�', 'LOGRA')]
avenida rep�blica do l�bano salas 1705 e 1706 torre c pina 51110-160 recife pe

Entities [('av. assis chateaubriand 264', 'LOGRA')]
av. assis chateaubriand 264 floresta 30150-100 belo horizonte mg

Entities [('rua alcebiades menezes 679', 'LOGRA')]
rua alcebiades menezes 679 centro 15420-000 guaraci sp

Entities [('av. brig. faria lima 2491', 'LOGRA')]
av. brig. faria lima 2491 j paulistano 01452-000 sao paulo sp

Entities [('rua dom pedro ii 109', 'LOGRA')]
rua dom pedro ii 109 loja centro 36345-000 lagoa dourada mg

Entities [('pra�a tiradentes 3', 'LOGRA')]
pra�a tiradentes 3 centro 36400-000 conselheiro lafaiete mg

Entities [('r dr ramiro de araujo filho 490', 'LOGRA')]
r dr ramiro de araujo filho 490 vila formosa 13214-300 jundiai sp

Entities [('av.getulio vargas 693', 'LOGRA')]
av.getulio vargas 693 centro 29240-000 alfredo chaves es

Entities [('av agua fria 1105', 'LOGRA')]
av agua fria 1105 agua fria 02333-001 sao paulo sp

Ent

Entities [('praca da graca 340', 'LOGRA')]
praca da graca 340 centro 64200-906 parnaiba pi

Entities [('av. bar�o de itapura 2.145', 'LOGRA')]
av. bar�o de itapura 2.145 jardim guanabara 13073-300 campinas sp

Entities [('rua mmdc 569', 'LOGRA')]
rua mmdc 569 paulic�ia 09690-000 sao bernardo do campo sp

Entities [('r 13 de junho 168', 'LOGRA')]
r 13 de junho 168 centro 79380-000 miranda ms

Entities [('av. coracao eucaristico de jesus 317', 'LOGRA')]
av. coracao eucaristico de jesus 317 coracao eucaristico de jesus 30535-460 belo horizonte mg

Entities [('av.jose mol 216', 'LOGRA')]
av.jose mol 216 terreo centro 35290-000 mantena mg

Entities [('rua clemente �lvares 351', 'LOGRA')]
rua clemente �lvares 351 centro 05074-050 sao paulo sp

Entities [('praca barao do rio branco 1', 'LOGRA')]
praca barao do rio branco 1 centro 48903-400 juazeiro ba

Entities [('rua monsenhor rosa 1685', 'LOGRA')]
rua monsenhor rosa 1685 1 andar centro 14400-670 franca sp

Entities [('pca.domingos cabral 16

Entities [('av. dona perola biyngton 1430', 'LOGRA')]
av. dona perola biyngton 1430 centro 87540-000 perola pr

Entities [('pra�a gald�ncio rincom seg�via 04-a', 'LOGRA')]
pra�a gald�ncio rincom seg�via 04-a centro 75200-000 pires do rio go

Entities [('av.mateo bei 1756', 'LOGRA')]
av.mateo bei 1756 sao mateus 03949-100 sao paulo sp

Entities [('rua xv de novembro 531', 'LOGRA')]
rua xv de novembro 531 centro 13860-000 aguai sp

Entities [('praca da independencia 53', 'LOGRA')]
praca da independencia 53 centro 13990-000 espirito santo do pinhal sp

Entities [('av. guajajaras 200', 'LOGRA')]
av. guajajaras 200 quadra 220 - lojas 01 e 02 tirirical 65055-285 sao luis ma

Entities [('cj c 08 lote 16 parte taguatinga', 'LOGRA')]
cj c 08 lote 16 parte taguatinga centro taguatinga 72010-080 brasilia df

Entities [('av. quinze de novembro 36', 'LOGRA')]
av. quinze de novembro 36 vila romanopolis 08500-405 ferraz de vasconcelos sp

Entities [('av. joao dias 2024', 'LOGRA')]
av. joao dias 2024 

Entities [('r.visc.de inhauma 74/76', 'LOGRA')]
r.visc.de inhauma 74/76 2.andar centro 20091-007 rio de janeiro rj

Entities [('r prof osias ribeiro', 'LOGRA')]
r prof osias ribeiro boa viagem 51111-100 recife pe

Entities [('avenida bezerra de menezes n� 1811', 'LOGRA')]
avenida bezerra de menezes n� 1811 loja 2- parte s�o gerardo 60325-004 fortaleza ce

Entities [('av. andrade neves 2.263', 'LOGRA')]
av. andrade neves 2.263 jardim chapadao 13070-001 campinas sp

Entities [('av.sen.joao camara 243', 'LOGRA')]
av.sen.joao camara 243 centro 59650-000 acu rn

Entities [('rua marques do herval 107', 'LOGRA')]
rua marques do herval 107 centro 58400-087 campina grande pb

Entities [('r.luis camilo de camargo 50', 'LOGRA')]
r.luis camilo de camargo 50 remanso campineiro 13184-420 hortolandia sp

Entities [('rua pinheiro machado s�', 'LOGRA')]
rua pinheiro machado s�o pelegrino 95020-172 caxias do sul rs

Entities [('av hist pereira da costa', 'LOGRA')]
av hist pereira da costa centro 54510-5

Entities [('av.dos navegantes 22 orla', 'LOGRA')]
av.dos navegantes 22 orla centro 45810-000 porto seguro ba

Entities [('av. barao do rio branco 2519', 'LOGRA')]
av. barao do rio branco 2519 centro 36010-311 juiz de fora mg

Entities [('avenidabrigadeiro faria lima', 'LOGRA')]
avenidabrigadeiro faria lima un.12 13 14 15 16 71 72 73 74 e 182-t�rr 7� e 18� jardim paulistano 01451-000 sao paulo sp

Entities [('av.landulfo alves 46', 'LOGRA')]
av.landulfo alves 46 centro 48602-900 paulo afonso ba

Entities [('av. dom pedro i 616', 'LOGRA')]
av. dom pedro i 616 centro 94500-000 rio grande da serra sp

Entities [('est dos rem�dios 2135', 'LOGRA')]
est dos rem�dios 2135 base de avia��o de taubat� cavex itaim 12086-000 taubate sp

Entities [('rua conde do pinhal 1953', 'LOGRA')]
rua conde do pinhal 1953 jardim sao carlos 13560-140 sao carlos sp

Entities [('av. rep�blica do l�', 'LOGRA')]
av. rep�blica do l�bano loja 5019 sc 505 piso g1 pina 51110-160 recife pe

Entities [('rua presidente dut

Entities [('ruaheitor penteado 1833/rua', 'LOGRA')]
ruaheitor penteado 1833/rua juatiba 60746948 sumarezinho 05437-002 sao paulo sp

Entities [('av. das am�ricas 3.333', 'LOGRA')]
av. das am�ricas 3.333 loja a barra da tijuca 22631-003 rio de janeiro rj

Entities [('rua oswaldo collino 768', 'LOGRA')]
rua oswaldo collino 768 presidente altino 06210-005 osasco sp

Entities [('rua frederico costa terreo', 'LOGRA')]
rua frederico costa terreo periperi 40725-620 salvador ba

Entities [('av itapemirim 559', 'LOGRA')]
av itapemirim 559 praia de itaipava 29330-000 itapemirim es

Entities [('rua progresso 31', 'LOGRA')]
rua progresso 31 centro 07901-170 francisco morato sp

Entities [('r.wladislau garcia gomes 1200', 'LOGRA')]
r.wladislau garcia gomes 1200 centro 79500-000 paranaiba ms

Entities [('av. angelica 1946', 'LOGRA')]
av. angelica 1946 s. cecilia 01228-200 sao paulo sp

Entities [('av adolfo pinheiro', 'LOGRA')]
av adolfo pinheiro santo amaro 04733-000 sao paulo sp

Entities [('rua a

Entities [('rua vereador clovis camargo bueno 469', 'LOGRA')]
rua vereador clovis camargo bueno 469 centro 19970-000 palmital sp

Entities [('av.quinze de novembro 111', 'LOGRA')]
av.quinze de novembro 111 centro 15950-000 santa adelia sp

Entities [('avenida brasil 19.001', 'LOGRA')]
avenida brasil 19.001 pav. 33 coelho neto 21530-001 rio de janeiro rj

Entities [('av. nossa senhora de f�tima 1361', 'LOGRA')]
av. nossa senhora de f�tima 1361 centro 38735-000 cruzeiro da fortaleza mg

Entities [('av. fernando vilela 2.331', 'LOGRA')]
av. fernando vilela 2.331 daniel fonseca 38401-134 uberlandia mg

Entities [('r irineu ferlin', 'LOGRA')]
r irineu ferlin centro 99150-000 marau rs

Entities [('av.sao joao 2135', 'LOGRA')]
av.sao joao 2135 jd.apolo ii 12242-000 sao jose dos campos sp

Entities [('av. duque de caxias 200', 'LOGRA')]
av. duque de caxias 200 sta. ifigenia 01214-000 sao paulo sp

Entities [('pra�a da rep�blica 322', 'LOGRA')]
pra�a da rep�blica 322 parte setor central 75503-2

Entities [('av.governador pedro de toledo 1099', 'LOGRA')]
av.governador pedro de toledo 1099 complexo do bonfim - 4.andar bonfim 13070-751 campinas sp

Entities [('rua lucidio lago 138/140', 'LOGRA')]
rua lucidio lago 138/140 lojas a e b casa 1 meier 20780-020 rio de janeiro rj

Entities [('r da quitanda 93', 'LOGRA')]
r da quitanda 93 centro 01012-010 sao paulo sp

Entities [('av.sete de setembro 2775', 'LOGRA')]
av.sete de setembro 2775 7.andar - sala 8610 reboucas 80230-010 curitiba pr

Entities [('r.quinze de novembro 615', 'LOGRA')]
r.quinze de novembro 615 centro 17300-000 dois corregos sp

Entities [('av.aureliano moura brandao 1200', 'LOGRA')]
av.aureliano moura brandao 1200 centro 79180-000 ribas do rio pardo ms

Entities [('rua carlos alberto de souza parracho 69', 'LOGRA')]
rua carlos alberto de souza parracho 69 centro 45848-000 itabela ba

Entities [('av.estados unidos', 'LOGRA')]
av.estados unidos 561-terreo terreo comercio 40010-904 salvador ba

Entities [('r.prudente d

Entities [('r tupy 151', 'LOGRA')]
r tupy 151 taboao 12900-290 braganca paulista sp

Entities [('rua da paz 304', 'LOGRA')]
rua da paz 304 afogados 50770-000 recife pe

Entities [('r cel jose teodoro 251', 'LOGRA')]
r cel jose teodoro 251 centro 14680-000 jardinopolis sp

Entities [('rua clodomiro amazonas 1123', 'LOGRA')]
rua clodomiro amazonas 1123 vila nova conceicao 04537-012 sao paulo sp

Entities [('r gessyr goncalves fontes 126', 'LOGRA')]
r gessyr goncalves fontes 126 centro 25520-570 sao joao de meriti rj

Entities [('rua quinta s/n', 'LOGRA')]
rua quinta s/n centro 68870-000 soure pa

Entities [('av luiz paulo franco l4/667l5/669l6', 'LOGRA')]
av luiz paulo franco l4/667l5/669l6 belvedere 30320-570 belo horizonte mg

Entities [('av.pres.castelo branco 194', 'LOGRA')]
av.pres.castelo branco 194 terreo - sala exclusivo cel antonino 79010-600 campo grande ms

Entities [('rua candido mendes 1316', 'LOGRA')]
rua candido mendes 1316 centro 68906-260 macapa ap

Entities [('rua marqu

Entities [('av.ipiranga 210', 'LOGRA')]
av.ipiranga 210 60746948 centro 01046-010 sao paulo sp

Entities [('rua dr. alceu de campos rodrigues 229', 'LOGRA')]
rua dr. alceu de campos rodrigues 229 vila olimpia 04544-000 sao paulo sp

Entities [('rua paranaiba 564', 'LOGRA')]
rua paranaiba 564 centro 79601-050 tres lagoas ms

Entities [('rua narciso sturlini 112', 'LOGRA')]
rua narciso sturlini 112 vila bussocaba 06018-100 osasco sp

Entities [('av. flores da cunha', 'LOGRA')]
av. flores da cunha centro 98900-000 santa rosa rs

Entities [('av.duque de caxias 560', 'LOGRA')]
av.duque de caxias 560 terreo e 1.andar centro 60035-110 fortaleza ce

Entities [('pca.charles miller 4', 'LOGRA')]
pca.charles miller 4 pacaembu 01234-010 sao paulo sp

Entities [('av. n.sra dos navegantes 825', 'LOGRA')]
av. n.sra dos navegantes 825 loja 01 enseada do sua 29050-335 vitoria es

Entities [('av.angelo debiasi 209', 'LOGRA')]
av.angelo debiasi 209 terreo central 68140-000 uruara pa

Entities [('av. l�ci

Entities [('av.prof.ana maria silvestre adade s/', 'LOGRA')]
av.prof.ana maria silvestre adade s/n puc campinas parque das universidades 13086-130 campinas sp

Entities [('rua eleonora cintra 50/64 e 74', 'LOGRA')]
rua eleonora cintra 50/64 e 74 jd. analia franco 03337-000 sao paulo sp

Entities [('av pastor martin luther king', 'LOGRA')]
av pastor martin luther king jr del castilho 20765-971 rio de janeiro rj

Entities [('av. industrial 600', 'LOGRA')]
av. industrial 600 jardim 09080-500 santo andre sp

Entities [('r jacaranda 353', 'LOGRA')]
r jacaranda 353 eucaliptos 83820-001 fazenda rio grande pr

Entities [('av santa catarina 287', 'LOGRA')]
av santa catarina 287 vila alexandria 04635-001 sao paulo sp

Entities []
 rua olivia de faria centro 28250-000 italva rj

Entities [('av. amazonas', 'LOGRA')]
av. amazonas centro 78700-050 rondonopolis mt

Entities [('rua tiradentes 77', 'LOGRA')]
rua tiradentes 77 centro 92010-260 canoas rs

Entities [('ruafrancisco xavier de oliveira lt ur

Entities [('rua moises calixto 435', 'LOGRA')]
rua moises calixto 435 centro 19590-000 taciba sp

Entities [('rua 2 de julho sn', 'LOGRA')]
rua 2 de julho sn centro 47220-000 campo alegre de lourdes ba

Entities [('rua joinville 175', 'LOGRA')]
rua joinville 175 beira rio 88730-000 sao ludgero sc

Entities [('rua heitor penteado 1528', 'LOGRA')]
rua heitor penteado 1528 sumarezinho 05438-200 sao paulo sp

Entities [('av. portugal', 'LOGRA')]
av. portugal centro 09040-001 santo andre sp

Entities [('rua tiradentes 42', 'LOGRA')]
rua tiradentes 42 centro 35900-013 itabira mg

Entities [('rua barao de sao francisco 177', 'LOGRA')]
rua barao de sao francisco 177 5 andar - bloco 4 - ala a andarai 20560-901 rio de janeiro rj

Entities [('av. julio de castilhos', 'LOGRA')]
av. julio de castilhos centro 95010-005 caxias do sul rs

Entities [('avenida brasil cd boqueir�o ed chelmon', 'LOGRA')]
avenida brasil cd boqueir�o ed chelmon loja boqueir�o 11701-090 praia grande sp

Entities [('rua berna

Entities [('rua 21 de abril', 'LOGRA')]
rua 21 de abril setor 3 uni�o 76860-000 candeias do jamari ro

Entities [('rua dr. siqueira 342', 'LOGRA')]
rua dr. siqueira 342 360305 centro 25900-000 mage rj

Entities [('r.tucupi 76', 'LOGRA')]
r.tucupi 76 centro 68523-000 curionopolis pa

Entities [('rua taipas 432', 'LOGRA')]
rua taipas 432 v.barcelona 09560-200 sao caetano do sul sp

Entities [('av dr marcos penteado de ulhoa', 'LOGRA')]
av dr marcos penteado de ulhoa rodrigues tambore 06460-040 barueri sp

Entities [('rua costa aguiar 616', 'LOGRA')]
rua costa aguiar 616 centro 13010-061 campinas sp

Entities [('rua pinheiro machado 97800-000', 'LOGRA')]
rua pinheiro machado 97800-000 sao luiz gonzaga rs

Entities [('av.general pedro pinho 641', 'LOGRA')]
av.general pedro pinho 641 1.andar pestana 06180-180 osasco sp

Entities [('av.dionisio bentes 151', 'LOGRA')]
av.dionisio bentes 151 prox.correio quatro bocas 68682-000 tome-acu pa

Entities [('avenida ana costa 185', 'LOGRA')]
avenida 

Entities [('r.joaquim martins carvalho 660', 'LOGRA')]
r.joaquim martins carvalho 660 centro 14955-000 borborema sp

Entities [('r.luiz gama 459', 'LOGRA')]
r.luiz gama 459 centro 16400-080 lins sp

Entities [('rua benedito do vale s/n', 'LOGRA')]
rua benedito do vale s/n centro 68145-000 medicilandia pa

Entities [('av. pedro abrantes 383', 'LOGRA')]
av. pedro abrantes 383 centro 39690-000 malacacheta mg

Entities [('av. brasil 1570', 'LOGRA')]
av. brasil 1570 vila romanopolis 08500-000 ferraz de vasconcelos sp

Entities [('estrada raul veiga', 'LOGRA')]
estrada raul veiga alcantara 24730-060 sao goncalo rj

Entities [('rua cel. jose nava', 'LOGRA')]
rua cel. jose nava centro 65950-000 barra do corda ma

Entities [('rua coronel jose julio 760', 'LOGRA')]
rua coronel jose julio 760 centro 13700-000 casa branca sp

Entities [('rua jacutinga n� 12', 'LOGRA')]
rua jacutinga n� 12 porto canoa 29168-360 serra es

Entities [('av emilio arroyo', 'LOGRA')]
av emilio arroyo hernandes pozzobon 1

Entities [('r barao do rio branco', 'LOGRA')]
r barao do rio branco centro 19010-010 presidente prudente sp

Entities [('av. independencia 1325', 'LOGRA')]
av. independencia 1325 centro 90035-037 porto alegre rs

Entities [('rua dr. antonio dorta 107', 'LOGRA')]
rua dr. antonio dorta 107 centro 57900-000 porto calvo al

Entities [('rua rui barbosa', 'LOGRA')]
rua rui barbosa centro 14840-000 guariba sp

Entities [('av das americas 13555', 'LOGRA')]
av das americas 13555 lt 20 pal 1967 recreio bandeirantes 22790-701 rio de janeiro rj

Entities [('r.do comercio 655', 'LOGRA')]
r.do comercio 655 centro 89896-000 itapiranga sc

Entities [('av.dr.joao batista s. de', 'LOGRA')]
av.dr.joao batista s. de queiroz jr.2081 jd. das industrias 12240-000 sao jose dos campos sp

Entities [('r.alexandre dumas 1671', 'LOGRA')]
r.alexandre dumas 1671 ala a terreo ed.brasilprev chac.sto.antonio 04717-004 sao paulo sp

Entities [('av.7 de setembro 78', 'LOGRA')]
av.7 de setembro 78 centro 49680-000 nossa 

Entities [('rua governador pedro de toledo 381', 'LOGRA')]
rua governador pedro de toledo 381 centro 13440-000 charqueada sp

Entities [('rua verbo divino 1356', 'LOGRA')]
rua verbo divino 1356 chacara santo antonio 04719-002 sao paulo sp

Entities [('av. sta leopoldina n� 1440', 'LOGRA')]
av. sta leopoldina n� 1440 loja 02 coqueiral de itaparica 29102-200 vila velha es

Entities [('rua cardoso de morais 524', 'LOGRA')]
rua cardoso de morais 524 lojas b e c - parte bonsucesso 21032-000 rio de janeiro rj

Entities [('av parana', 'LOGRA')]
av parana zona 1 87501-030 umuarama pr

Entities [('av.conde d eu 467', 'LOGRA')]
av.conde d eu 467 centro 29670-000 ibiracu es

Entities [('av getulio vargas 2001', 'LOGRA')]
av getulio vargas 2001 conjunto 187 alto da boa vista 14020-260 ribeirao preto sp

Entities [('r.barao de sao felix 3a/5a e r.camerino 58', 'LOGRA')]
r.barao de sao felix 3a/5a e r.camerino 58 centro 20221-422 rio de janeiro rj

Entities [('rua olavo bilac 514', 'LOGRA')]
rua ola

Entities [('rua senador pedro lago 177', 'LOGRA')]
rua senador pedro lago 177 centro 44700-000 jacobina ba

Entities [('av.nossa senhora da penha 2035', 'LOGRA')]
av.nossa senhora da penha 2035 santa lucia 29056-245 vitoria es

Entities [('rua jos� paranagu� 186', 'LOGRA')]
rua jos� paranagu� 186 centro 69005-130 manaus am

Entities [('avenida mora e silva 640', 'LOGRA')]
avenida mora e silva 640 centro 65935-000 senador la rocque ma

Entities [('av amador bueno da veiga 1818', 'LOGRA')]
av amador bueno da veiga 1818 60746948 penha de franca 03636-100 sao paulo sp

Entities [('avenida marcelino pires 3440', 'LOGRA')]
avenida marcelino pires 3440 sala 101 79830-000 dourados ms

Entities [('av. n.s.de copacabana 103-a', 'LOGRA')]
av. n.s.de copacabana 103-a copacabana 22070-010 rio de janeiro rj

Entities [('av. juscelino kubitschek 732', 'LOGRA')]
av. juscelino kubitschek 732 centro 78460-000 nobres mt

Entities [('av. brasil 93700-000', 'LOGRA')]
av. brasil 93700-000 campo bom rs

Enti

Entities []
 pc prof salgado s/n centro 48800-000 monte santo ba

Entities [('av.santos dumont 3515', 'LOGRA')]
av.santos dumont 3515 60746948 centro 42700-000 lauro de freitas ba

Entities [('pra�a da independ�ncia 84', 'LOGRA')]
pra�a da independ�ncia 84 centro 38750-000 presidente olegario mg

Entities [('r.direita da piedade 25', 'LOGRA')]
r.direita da piedade 25 2 pavimento - ala a barris 40070-190 salvador ba

Entities [('av. rio grande do sul', 'LOGRA')]
av. rio grande do sul mathias velho 92330-000 canoas rs

Entities [('avenida brasil 2043', 'LOGRA')]
avenida brasil 2043 vila aparecida 14401-234 franca sp

Entities [('avenida padre adolfo rohl lote 09 quadra 02', 'LOGRA')]
avenida padre adolfo rohl lote 09 quadra 02 setor 02 bloco b centro 76890-970 jaru ro

Entities [('pca. dr. luciano esteves jr', 'LOGRA')]
pca. dr. luciano esteves jr esq com a rua bar�o de campinas 198 centro 13480-048 limeira sp

Entities [('av. das araucarias 5126', 'LOGRA')]
av. das araucarias 5126 sala 

Entities [('av pires do rio', 'LOGRA')]
av pires do rio jardim norma 08240-005 sao paulo sp

Entities [('rua paulo do vale 55', 'LOGRA')]
rua paulo do vale 55 centro 06804-010 embu das artes sp

Entities [('av. rio branco 181-a', 'LOGRA')]
av. rio branco 181-a centro 20040-000 rio de janeiro rj

Entities [('rua paulo marques 434', 'LOGRA')]
rua paulo marques 434 centro 62370-000 sao benedito ce

Entities [('av.amaral peixoto 2', 'LOGRA')]
av.amaral peixoto 2 centro 28380-000 natividade rj

Entities [('rua nove de julho 947', 'LOGRA')]
rua nove de julho 947 centro 15400-000 olimpia sp

Entities [('av. bernardo sayao 1325', 'LOGRA')]
av. bernardo sayao 1325 n. imperatriz 65907-000 imperatriz ma

Entities [('av.noel nutels 1436', 'LOGRA')]
av.noel nutels 1436 bloco 6 loja 1-a cidade nova i 69093-770 manaus am

Entities [('rua miguel de carvalho 159', 'LOGRA')]
rua miguel de carvalho 159 centro 28660-000 bom jardim rj

Entities [('pca.juracy magalhaes 21', 'LOGRA')]
pca.juracy magalhaes 21

Entities [('pca.manoel ribeiro soares 366', 'LOGRA')]
pca.manoel ribeiro soares 366 centro 44620-000 baixa grande ba

Entities [('pca.aprigio de toledo 40', 'LOGRA')]
pca.aprigio de toledo 40 centro 12940-670 atibaia sp

Entities [('r.coronel conrado caldeira 591', 'LOGRA')]
r.coronel conrado caldeira 591 centro 14701-000 bebedouro sp

Entities [('r cel jose dulce', 'LOGRA')]
r cel jose dulce centro 78200-000 caceres mt

Entities [('avenida princesa isabel', 'LOGRA')]
avenida princesa isabel centro 47650-000 correntina ba

Entities [('rua assis brasil 11', 'LOGRA')]
rua assis brasil 11 sala 7 centro 95700-000 bento goncalves rs

Entities [('rua santa rita 40', 'LOGRA')]
rua santa rita 40 centro 75503-290 itumbiara go

Entities [('avenida bento gonclaves 2072', 'LOGRA')]
avenida bento gonclaves 2072 partenon 90650-003 porto alegre rs

Entities [('av.mato grosso 329', 'LOGRA')]
av.mato grosso 329 centro 78435-000 sao jose do rio claro mt

Entities [('av.atlantica 440', 'LOGRA')]
av.atlan

In [14]:
phrase = "SHVP Rua 12 435 casa 22 lote 1"

doc = nlp(phrase)
print('Entities', [(ent.text, ent.label_) for ent in doc.ents])
print('Tokens', [(t.text, t.ent_type_, t.ent_iob) for t in doc])

Entities [('SHVP Rua 12 435', 'LOGRA')]
Tokens [('SHVP', 'LOGRA', 3), ('Rua', 'LOGRA', 1), ('12', 'LOGRA', 1), ('435', 'LOGRA', 1), ('casa', '', 2), ('22', '', 2), ('lote', '', 2), ('1', '', 2)]
