# Named Entity Recognition: Portuguese

In this lesson, we're going to learn about a text analysis method called *Named Entity Recognition* (NER) as applied to Portuguese. This method will help us computationally identify people, places, and things (of various kinds) in a text or collection of texts.

---

## Dataset

The example text for Portuguese is *Contos e Phantasias* by Maria Amália Vaz de Carvalho [from Project Gutenberg](http://www.gutenberg.org/ebooks/63406).

**Here's a preview of spaC's NER tagging *Contos e Phantasias*.**

If you compare the results to the [English example](Named-Entity-Recognition), you'll notice that the Portuguese NER is much less good at recognizing entities, and is especially bad ata distinguishing different kinds of entities, like ORG vs LOC vs PER. You need a lot of examples to train a model to distinguish different entity types; currently, English is the only model that does a decent job of it.

You can read more about the [data sources used to train Portuguese](https://spacy.io/models/pt) on the spaCy model page.

In [6]:
displacy.render(document, style="ent")

---

## NER with spaCy
If you've already used the pre-processing notebook for this language, you can skip the steps for installing spaCy and downloading the language model.

### Install spaCy

In [None]:
!pip install -U spacy

### Import Libraries

We're going to import `spacy` and `displacy`, a special spaCy module for visualization.

In [1]:
import spacy
from spacy import displacy
from collections import Counter
import pandas as pd
pd.options.display.max_rows = 600
pd.options.display.max_colwidth = 400

We're also going to import the `Counter` module for counting people, places, and things, and the `pandas` library for organizing and displaying data (we're also changing the pandas default max row and column width display setting).

### Download Language Model

Next we need to download the Portuguese-language model (`pt_core_news_md`), which will be processing and making predictions about our texts. You can read more about the [data sources used to train Portuguese](https://spacy.io/models/pt) on the spaCy model page.

In [None]:
!python -m spacy download pt_core_news_md

### Load Language Model

Once the model is downloaded, we need to load it. There are two ways to load a spaCy language model.

**1.** We can import the model as a module and then load it from the module.

In [2]:
import pt_core_news_md
nlp = pt_core_news_md.load()

**2.** We can load the model by name.

In [4]:
#nlp = spacy.load('pt_core_news_md')

If you just downloaded the model for the first time, it's advisable to use Option 1. Then you can use the model immediately. Otherwise, you'll likely need to restart your Jupyter kernel (which you can do by clicking Kernel -> Restart Kernel.. in the Jupyter Lab menu).

## Process Document

We first need to process our `document` with the loaded NLP model. Most of the heavy NLP lifting is done in this line of code.

After processing, the `document` object will contain tons of juicy language data — named entities, sentence boundaries, parts of speech — and the rest of our work will be devoted to accessing this information.

In the cell below, we open and the example document. Then we run`nlp()` on the text and create our document.

In [3]:
filepath = '../texts/other-languages/pt.txt'
text = open(filepath, encoding='utf-8').read()
document = nlp(text)

## Get Named Entities

All the named entities in our `document` can be found in the `document.ents` property. If we check out `document.ents`, we can see all the entities from the example document.

In [4]:
document.ents

(Encanecido,
 Começára,
 _,
 Vestia-o,
 Thadeu,
 Thadeu,
 Sahiu d'alli,
 Thadeu,
 Thadeu,
 Thadeu,
 N'aquelle,
 Thadeu,
 _,
 Oh!,
 Thadeu,
 Thadeu,
 _,
 Thadeu,
 _,
 _,
 _,
 Thadeu,
 Margarida,
 Margarida,
 Thadeu,
 Oh!,
 _perola_,
 Margarida,
 Margarida,
 Margarida,
 Thadeu,
 Margarida,
 Thadeu,
 Margarida,
 Margarida,
 Margarida,
 collocara Thadeu,
 Thadeu,
 Margarida,
 Elle,
 Ella,
 Margarida,
 Deixaram-os,
 Thadeu,
 Ha,
 Thadeu,
 Margarida,
 Thadeu,
 Thadeu,
 Elle,
 Acharam-na,
 Thadeu,
 _,
 _,
 III,
 Margarida,
 D'ahi,
 Margarida,
 Margarida,
 Thadeu,
 Viveria,
 Margarida,
 Ella,
 Thadeu,
 Elles,
 Thadeu,
 Margarida,
 Thadeu,
 Margarida,
 Paris,
 Fallaram,
 Sacré,
 Cœur,
 Thadeu,
 Margarida,
 Thadeu,
 Margarida,
 Thadeu,
 _,
 França,
 Fôra,
 _Sacré-Cœur_,
 Margarida,
 Thadeu,
 Margarida,
 Tambem,
 _,
 Margarida_,
 Thadeu,
 Margarida,
 Ralhava-lhe,
 Thadeu,
 Thadeu,
 _,
 _fetiche_,
 lh'as,
 banalisar,
 _,
 _,
 Ella,
 Thadeu,
 Thadeu cahiu,
 Henrique de Souza,
 Orphão,
 Henrique,
 T

Each of the named entities in `document.ents` contains [more information about itself](https://spacy.io/usage/linguistic-features#accessing), which we can access by iterating through the `document.ents` with a simple `for` loop.

For each `named_entity` in `document.ents`, we will extract the `named_entity` and its corresponding `named_entity.label_`.

In [5]:
for named_entity in document.ents:
    print(named_entity, named_entity.label_)

Encanecido PER
Começára PER
_ MISC
Vestia-o MISC
Thadeu PER
Thadeu PER
Sahiu d'alli ORG
Thadeu PER
Thadeu PER
Thadeu PER
N'aquelle PER
Thadeu PER
_ MISC
Oh! MISC
Thadeu PER
Thadeu PER
_ MISC
Thadeu PER
_ MISC
_ MISC
_ MISC
Thadeu PER
Margarida PER
Margarida PER
Thadeu PER
Oh! MISC
_perola_ MISC
Margarida PER
Margarida PER
Margarida PER
Thadeu PER
Margarida PER
Thadeu PER
Margarida PER
Margarida PER
Margarida PER
collocara Thadeu PER
Thadeu PER
Margarida PER
Elle PER
Ella PER
Margarida PER
Deixaram-os PER
Thadeu PER
Ha PER
Thadeu PER
Margarida PER
Thadeu PER
Thadeu PER
Elle PER
Acharam-na LOC
Thadeu PER
_ MISC
_ MISC
III MISC
Margarida PER
D'ahi LOC
Margarida PER
Margarida PER
Thadeu PER
Viveria PER
Margarida PER
Ella PER
Thadeu PER
Elles PER
Thadeu PER
Margarida PER
Thadeu PER
Margarida PER
Paris LOC
Fallaram LOC
Sacré LOC
Cœur LOC
Thadeu PER
Margarida PER
Thadeu PER
Margarida PER
Thadeu PER
_ MISC
França LOC
Fôra PER
_Sacré-Cœur_ MISC
Margarida PER
Thadeu PER
Margarida PER
Tambem PER


Lisboa LOC
Cintra PER
Lisboa LOC
Cerqueira LOC
Braga LOC
Ponte de Lima LOC
Cerqueira LOC
Cerqueira LOC
--Seu moço PER
tia Genoveva PER
Cerqueira LOC
Desapparecera PER
Lisboa LOC
Áquella PER
Minho LOC
Cerqueira PER
--Quem LOC
Cerqueira LOC
tia Genoveva PER
Ó Christo PER
Venho LOC
--Do meu Francisco? MISC
Deus! MISC
Cerqueira PER
Francisco PER
Joanna PER
Francisco PER
Valha-te Deus PER
tia Genoveva PER
Vaes PER
d'ahi LOC
Guimarães LOC
Cerqueira LOC
Recolhiam PER
Joanna PER
Francisco PER
Conversemos PER
d'ahi LOC
Brazil LOC
Francisco Cerqueira PER
Sonhou LOC
Brazil LOC
Europa LOC
Portugal LOC
Minho LOC
Narravam PER
Cerqueira LOC
N'isto MISC
Arriba LOC
_ MISC
_ MISC
PERCEPTORA MISC
Martha de Vasconcellos PER
_Keepsake_ MISC
_ MISC
Gonçalves MISC
Martha PER
Allemanha ORG
Europa LOC
_burra MISC
Martha de Vasconcellos PER
Fulana_ MISC
Martha PER
Mariquinhas LOC
Julia PER
Marta PER
Marta PER
Penetrára PER
Creação MISC
bom Deus LOC
Martha PER
Martha PER
Martha PER
Martha PER
Martha PER
Gonçalve

To extract just the named entities that have been identified as `PER` (person), we can add a simple `if` statement into the mix:

In [6]:
for named_entity in document.ents:
    if named_entity.label_ == "PER":
        print(named_entity)

Encanecido
Começára
Thadeu
Thadeu
Thadeu
Thadeu
Thadeu
N'aquelle
Thadeu
Thadeu
Thadeu
Thadeu
Thadeu
Margarida
Margarida
Thadeu
Margarida
Margarida
Margarida
Thadeu
Margarida
Thadeu
Margarida
Margarida
Margarida
collocara Thadeu
Thadeu
Margarida
Elle
Ella
Margarida
Deixaram-os
Thadeu
Ha
Thadeu
Margarida
Thadeu
Thadeu
Elle
Thadeu
Margarida
Margarida
Margarida
Thadeu
Viveria
Margarida
Ella
Thadeu
Elles
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Fôra
Margarida
Thadeu
Margarida
Tambem
Thadeu
Margarida
Thadeu
Thadeu
lh'as
banalisar
Ella
Thadeu
Thadeu cahiu
Henrique de Souza
Henrique
Thadeu
Henrique
Comprehendeu
Thadeu
Henrique
Occupavam
Henrique
Henrique
Joanninha
Desdobrára
Thadeu
Soffria
Thadeu
Ali
Thadeu
Henrique
Thadeu
Margarida
Margarida!
Margarida
Henrique
Joanninha
Margarida
d'ella
Henrique
Thadeu
Henrique
Joanninha
Joanna
Margarida
Dormia
Thadeu
Thadeu
Vinha-lhe
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Thadeu
Margarida
Thadeu
Henrique
Margarida
casa Bi

## NER with Long Texts or Many Texts

In [7]:
import math
number_of_chunks = 80

chunk_size = math.ceil(len(text) / number_of_chunks)

text_chunks = []

for number in range(0, len(text), chunk_size):
    text_chunk = text[number:number+chunk_size]
    text_chunks.append(text_chunk)

In [8]:
chunked_documents = list(nlp.pipe(text_chunks))

## Get People

To extract and count the people, we will use an `if` statement that will pull out words only if their "ent" label matches "PER."

In [9]:
people = []

for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "PER":
            people.append(named_entity.text)

people_tally = Counter(people)

df = pd.DataFrame(people_tally.most_common(), columns=['character', 'count'])
df

Unnamed: 0,character,count
0,Margarida,88
1,Thadeu,73
2,Gastão,30
3,Bertha,30
4,Sebastião,29
5,Henrique,28
6,Martha,22
7,Balsac,20
8,Clotilde,19
9,Grant,18


## Get Places

To extract and count places, we can follow the same model as above, except we will change our `if` statement to check for "ent" labels that match "LOC."

In [10]:
places = []
for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "LOC":
            places.append(named_entity.text)

places_tally = Counter(places)

df = pd.DataFrame(places_tally.most_common(), columns=['place', 'count'])
df

Unnamed: 0,place,count
0,Lisboa,19
1,Coimbra,13
2,França,9
3,Braga,9
4,Europa,9
5,Cerqueira,9
6,Portugal,8
7,Brazil,7
8,N'este,6
9,Pariz,6


## Get NER in Context

In [11]:
from IPython.display import Markdown, display
import re

def get_ner_in_context(keyword, document, desired_ner_labels= False):
    
    if desired_ner_labels != False:
        desired_ner_labels = desired_ner_labels
    else:
        desired_ner_labels = ['PER', 'ORG', 'LOC']  
        
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        #process each sentence
        sentence_doc = nlp(sentence.text)
        for named_entity in sentence_doc.ents:
            #Check to see if the keyword is in the sentence (and ignore capitalization by making both lowercase)
            if keyword.lower() in named_entity.text.lower()  and named_entity.label_ in desired_ner_labels:
                #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
                #sentence_text = sentence.text
            
                sentence_text = re.sub('\n', ' ', sentence.text)
                sentence_text = re.sub(f"{named_entity.text}", f"**{named_entity.text}**", sentence_text, flags=re.IGNORECASE)

                display(Markdown('---'))
                display(Markdown(f"**{named_entity.label_}**"))
                display(Markdown(sentence_text))

In [12]:
for document in chunked_documents:
    get_ner_in_context('Lisboa', document)

---

**LOC**

Margarida sahia de uma loja e ia a saltar ligeira, elegante com a sua graça parisiense para dentro do _coupé_ delicioso que, de proposito para a filha, o marquez havia encommendado mezes antes á casa Binder, e que dous finos cavallos inglezes esplendidamente ajaezados faziam voar pelas ruas da nossa **pacata Lisboa**.  

---

**LOC**

O advogado Vasconcellos morrêra pobre, sorte de todos os causidicos de provincia, que logram vencer, quando muito, por mez, o que qualquer dos collegas de **Lisboa** e Porto dá aos seus agaloados trintanarios.  

---

**LOC**

O rapaz foi para Coimbra, e a menina para o convento das Salesias em **Lisboa**, de onde recolheu quando o irmão entrava para o primeiro anno juridico.  

---

**LOC**

Logo que se viu senhor dos titulos alcançados pelo seu estudo e applicação, foi á villa natal agradecer aos que o haviam tão evangelicamente amparado, e, por conselhos de um condiscipulo, dirigiu-se a **Lisboa**, onde fixou residencia, e entrou a frequentar o escriptorio de um dos advogados de mais renome no fôro da capital.  

---

**LOC**

Em **Lisboa** encontraria campo mais dilatado onde desafogar as suas altas aspirações.  

---

**LOC**

N'aquella época chegara a **Lisboa** um individuo que fôra o mais perdulario dos _leões_ da **Lisboa** de ha trinta annos, e que presentemente occupava 

---

**LOC**

N'aquella época chegara a Lisboa um individuo que fôra o mais perdulario dos _leões_ da **Lisboa de ha trinta annos**, e que presentemente occupava 

---

**LOC**

Em vez do arnez, do broquel, das cannelleiras e do elmo, aconselho-lhe que se vista com elegancia igual á sua gentileza, porque vae combater a féra no salão da mais elegante senhora de **Lisboa**, e ante a presença das nossas mais acentuadas celebridades politicas e litterarias.

---

**LOC**

uma cousa que lhes parecerá excentrica, mas que me relevarão, já que em **Lisboa** passo por um ente singular e extraordinario.

---

**LOC**

Em **Lisboa** não era menos rica, nem menos confortavel, a habitação do millionario.  

---

**LOC**

Margarida no inverno vivia em **Lisboa**.  

---

**LOC**

Conhece-o?  --Foi-me apresentado este inverno em **Lisboa**; respondeu Margarida.  

---

**LOC**

«Pergunta-o se quizeres, a essa **Lisboa**, que assistiu ao louco esphacelar de uma fortuna enorme, com o sorriso banal e adulador que ella tem para todos os perdularios.  

---

**LOC**

A brilhante Condessa de V..., a filha adorada de um dos homens mais ricos de **Lisboa**, a rainha dos salões luxuosos, a _estrella_ mais fulgurante do alto mundo, dava lições para sustentar os dous filhos que lhe restavam, unicos vestigios de um passado de pomposas mentiras.  

---

**LOC**

N'uma tarde do mez de janeiro, chuvosa, humida e fria, Margarida subia a muito custo a calçada de S. Bento, em **Lisboa**, onde morava uma das suas discipulas.  

---

**LOC**

Os dous orphãos de Margarida estão agora a educar-se em um dos melhores collegios de **Lisboa**, e todas as despezas da sua educação são pagas por um protector invisivel e mysterioso.  

---

**LOC**

O sr. Francisco Cerqueira lembrava-se de todos os pormenores e incidentes trabalhosos da jornada que elle fizera desde a sua pequena e risonha aldeia minhota até **Lisboa**.  

---

**LOC**

Em **Lisboa** pouco se demorou.  

---

**LOC**

No hotel, alguns amigos quizeram prendel-o ainda, tentando-o com o theatro lyrico, com Cintra e com as poucas fascinações baratas de **Lisboa**.  

---

**LOC**

Verdade é que podia ter tido novas d'ella em **Lisboa** escrevendo ao abbade, mas queria fazer uma supreza, chegar de improviso.  

---

**LOC**

De vez em quando a tela monotona d'esta nossa vida **de Lisboa**, unicamente bordada de pequeninos _cancans

---

**LOC**

E este homem, tão modesto na apparencia, tão laconico nas fallas, tão simples no viver, este homem que recusa recompensas apparatosas, porque julga que a suprema recompensa é a da propria consciencia, este homem que póde apresentar-se como a personalisação da democracia moderna, é o mesmo que **Lisboa** ha pouco viu passar com a estupida e distrahida indifferença que ella tem para tudo que é verdadeiramente grande, e por isso mesmo despretencioso e simples.     