# Named Entity Recognition for Portuguese

<div class="admonition note" name="html-admonition" style="background: lightblue; padding: 10px">
<p class="title">Note</p>
This section, "Working in Languages Beyond English," is co-authored with <a href="http://www.quinndombrowski.com/">Quinn Dombrowski</a>, the Academic Technology Specialist at Stanford University and a leading voice in multilingual digital humanities. I'm grateful to Quinn for helping expand this textbook to serve languages beyond English. 
</div>

In this lesson, we're going to learn about a text analysis method called *Named Entity Recognition* (NER) as applied to Portuguese. This method will help us computationally identify people, places, and things (of various kinds) in a text or collection of texts.

---

## Dataset

The example text for Portuguese is *Contos e Phantasias* by Maria Amália Vaz de Carvalho [from Project Gutenberg](http://www.gutenberg.org/ebooks/63406).

**Here's a preview of spaC's NER tagging *Contos e Phantasias*.**

If you compare the results to the [English example](Named-Entity-Recognition), you'll notice that the Portuguese NER is much less good at recognizing entities, and is especially bad ata distinguishing different kinds of entities, like ORG vs LOC vs PER. You need a lot of examples to train a model to distinguish different entity types; currently, English is the only model that does a decent job of it.

You can read more about the [data sources used to train Portuguese](https://spacy.io/models/pt) on the spaCy model page.

In [14]:
displacy.render(document, style="ent")

---

## NER with spaCy
If you've already used the pre-processing notebook for this language, you can skip the steps for installing spaCy and downloading the language model.

### Install spaCy

In [None]:
!pip install -U spacy

### Import Libraries

We're going to import `spacy` and `displacy`, a special spaCy module for visualization.

In [1]:
import spacy
from spacy import displacy
from collections import Counter
import pandas as pd
pd.options.display.max_rows = 600
pd.options.display.max_colwidth = 400

We're also going to import the `Counter` module for counting people, places, and things, and the `pandas` library for organizing and displaying data (we're also changing the pandas default max row and column width display setting).

### Download Language Model

Next we need to download the Portuguese-language model (`pt_core_news_md`), which will be processing and making predictions about our texts. You can read more about the [data sources used to train Portuguese](https://spacy.io/models/pt) on the spaCy model page.

In [2]:
!python -m spacy download pt_core_news_md

Collecting pt-core-news-md==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_md-3.7.0/pt_core_news_md-3.7.0-py3-none-any.whl (42.4 MB)
     ---------------------------------------- 0.0/42.4 MB ? eta -:--:--
     ---------------------------------------- 0.2/42.4 MB 7.6 MB/s eta 0:00:06
      --------------------------------------- 0.6/42.4 MB 10.2 MB/s eta 0:00:05
      --------------------------------------- 0.9/42.4 MB 7.1 MB/s eta 0:00:06
     - -------------------------------------- 1.3/42.4 MB 7.3 MB/s eta 0:00:06
     - -------------------------------------- 1.7/42.4 MB 7.8 MB/s eta 0:00:06
     - -------------------------------------- 1.9/42.4 MB 7.6 MB/s eta 0:00:06
     -- ------------------------------------- 2.4/42.4 MB 8.2 MB/s eta 0:00:05
     -- ------------------------------------- 2.8/42.4 MB 8.5 MB/s eta 0:00:05
     -- ------------------------------------- 3.1/42.4 MB 7.9 MB/s eta 0:00:05
     --- ----------------------------

### Load Language Model

Once the model is downloaded, we need to load it. There are two ways to load a spaCy language model.

**1.** We can import the model as a module and then load it from the module.

In [3]:
import pt_core_news_md
nlp = pt_core_news_md.load()

**2.** We can load the model by name.

In [None]:
#nlp = spacy.load('pt_core_news_md')

If you just downloaded the model for the first time, it's advisable to use Option 1. Then you can use the model immediately. Otherwise, you'll likely need to restart your Jupyter kernel (which you can do by clicking Kernel -> Restart Kernel.. in the Jupyter Lab menu).

## Process Document

We first need to process our `document` with the loaded NLP model. Most of the heavy NLP lifting is done in this line of code.

After processing, the `document` object will contain tons of juicy language data — named entities, sentence boundaries, parts of speech — and the rest of our work will be devoted to accessing this information.

In the cell below, we open and the example document. Then we run`nlp()` on the text and create our document.

In [4]:
filepath = '../texts/pt.txt'
text = open(filepath, encoding='utf-8').read()
document = nlp(text)

## Get Named Entities

All the named entities in our `document` can be found in the `document.ents` property. If we check out `document.ents`, we can see all the entities from the example document.

In [5]:
document.ents

(﻿PRIMEIRA,
 tristissima,
 Encanecido,
 rosaes,
 Começára,
 brutaes,
 complacencias,
 brutaes,
 Chamava-o,
 Vestia-o,
 marujo,
 Thadeu,
 Thadeu,
 castiçaes,
 Sahiu d'alli,
 Thadeu,
 Thadeu,
 Entregava-o,
 marquez,
 brutaes das aias,
 velludo,
 Thadeu,
 N'aquelle,
 Thadeu,
 Thadeu,
 Thadeu,
 Thadeu,
 d'alli,
 fóra,
 Thadeu,
 arêa finissima,
 Margarida,
 Margarida,
 Thadeu,
 marujo,
 Margarida,
 Margarida,
 Margarida,
 Thadeu,
 Margarida,
 Thadeu,
 Margarida,
 Margarida,
 comprehender,
 Margarida,
 d'aquelle rasgo,
 Thadeu,
 heroes,
 Thadeu,
 d'aquillo,
 prohibiu,
 Margarida,
 Elle,
 Ella,
 Margarida,
 Deixaram-os,
 Thadeu,
 terra,
 Thadeu,
 Margarida travessa,
 Thadeu,
 tanque do jardim,
 n'agua,
 Thadeu,
 n'elle,
 Elle,
 Thadeu,
 Margarida,
 D'ahi,
 Margarida,
 paes,
 Margarida,
 paes,
 n'aquelle,
 Thadeu,
 Viveria,
 Margarida,
 Seriam,
 Ella,
 kiosque,
 Thadeu,
 Elles,
 Thadeu,
 Margarida,
 Thadeu,
 Margarida,
 sabes?--E,
 Paris,
 Estive,
 Sacré
 Cœur,
 Thadeu,
 Margarida,
 Thadeu,
 M

Each of the named entities in `document.ents` contains [more information about itself](https://spacy.io/usage/linguistic-features#accessing), which we can access by iterating through the `document.ents` with a simple `for` loop.

For each `named_entity` in `document.ents`, we will extract the `named_entity` and its corresponding `named_entity.label_`.

In [6]:
for named_entity in document.ents:
    print(named_entity, named_entity.label_)

PRIMEIRA MISC
tristissima MISC
Encanecido LOC
rosaes ORG
Começára PER
brutaes PER
complacencias LOC
brutaes PER
Chamava-o LOC
Vestia-o PER
marujo PER
Thadeu PER
Thadeu PER
castiçaes PER
Sahiu d'alli PER
Thadeu PER
Thadeu PER
Entregava-o MISC
marquez LOC
brutaes das aias LOC
velludo LOC
Thadeu PER
N'aquelle LOC
Thadeu PER
Thadeu PER
Thadeu PER
Thadeu PER
d'alli PER
fóra ORG
Thadeu PER
arêa finissima PER
Margarida PER
Margarida PER
Thadeu PER
marujo PER
Margarida PER
Margarida PER
Margarida PER
Thadeu PER
Margarida PER
Thadeu PER
Margarida PER
Margarida PER
comprehender LOC
Margarida PER
d'aquelle rasgo PER
Thadeu PER
heroes MISC
Thadeu PER
d'aquillo PER
prohibiu PER
Margarida PER
Elle MISC
Ella PER
Margarida PER
Deixaram-os PER
Thadeu PER
terra LOC
Thadeu PER
Margarida travessa PER
Thadeu PER
tanque do jardim LOC
n'agua PER
Thadeu PER
n'elle PER
Elle MISC
Thadeu PER
Margarida PER
D'ahi ORG
Margarida PER
paes PER
Margarida PER
paes PER
n'aquelle LOC
Thadeu PER
Viveria PER
Margarida PER
S

To extract just the named entities that have been identified as `PER` (person), we can add a simple `if` statement into the mix:

In [7]:
for named_entity in document.ents:
    if named_entity.label_ == "PER":
        print(named_entity)

Começára
brutaes
brutaes
Vestia-o
marujo
Thadeu
Thadeu
castiçaes
Sahiu d'alli
Thadeu
Thadeu
Thadeu
Thadeu
Thadeu
Thadeu
Thadeu
d'alli
Thadeu
arêa finissima
Margarida
Margarida
Thadeu
marujo
Margarida
Margarida
Margarida
Thadeu
Margarida
Thadeu
Margarida
Margarida
Margarida
d'aquelle rasgo
Thadeu
Thadeu
d'aquillo
prohibiu
Margarida
Ella
Margarida
Deixaram-os
Thadeu
Thadeu
Margarida travessa
Thadeu
n'agua
Thadeu
n'elle
Thadeu
Margarida
Margarida
paes
Margarida
paes
Thadeu
Viveria
Margarida
Seriam
Ella
Thadeu
Elles
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Margarida
Thadeu
Margarida
Thadeu
ido sósinho
Margarida
Thadeu
Margarida
Margarida
Thadeu
Margarida
Thadeu
Thadeu
comprehendia
lh'as
Ella
Thadeu
Thadeu
collegiaes
brutaes
Henrique de Souza
Orphão
Henrique
Thadeu
Henrique
Henrique
Occupavam
Henrique
Henrique
Joanninha
Desdobrára
Thadeu
Thadeu
Thadeu
Henrique
Thadeu
Margarida
descripta
elle vivêra
Margarida
Henrique
Joanninha
Margarida
d'ella
Henrique
VII
Thadeu
Henrique
Joanninha
Joanna
M

## NER with Long Texts or Many Texts

In [8]:
import math
number_of_chunks = 80

chunk_size = math.ceil(len(text) / number_of_chunks)

text_chunks = []

for number in range(0, len(text), chunk_size):
    text_chunk = text[number:number+chunk_size]
    text_chunks.append(text_chunk)

In [9]:
chunked_documents = list(nlp.pipe(text_chunks))

## Get People

To extract and count the people, we will use an `if` statement that will pull out words only if their "ent" label matches "PER."

In [10]:
people = []

for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "PER":
            people.append(named_entity.text)

people_tally = Counter(people)

df = pd.DataFrame(people_tally.most_common(), columns=['character', 'count'])
df

Unnamed: 0,character,count
0,Margarida,87
1,Thadeu,70
2,Sebastião,35
3,Henrique,28
4,Gastão,28
5,Bertha,28
6,Cigana,27
7,Martha,21
8,Clotilde,19
9,Deus,17


## Get Places

To extract and count places, we can follow the same model as above, except we will change our `if` statement to check for "ent" labels that match "LOC."

In [11]:
places = []
for document in chunked_documents:
    for named_entity in document.ents:
        if named_entity.label_ == "LOC":
            places.append(named_entity.text)

places_tally = Counter(places)

df = pd.DataFrame(places_tally.most_common(), columns=['place', 'count'])
df

Unnamed: 0,place,count
0,Lisboa,20
1,Coimbra,13
2,França,9
3,Braga,9
4,Portugal,9
5,Europa,9
6,terra,8
7,d'ella,8
8,marquez,6
9,Pariz,6


## Get NER in Context

In [12]:
from IPython.display import Markdown, display
import re

def get_ner_in_context(keyword, document, desired_ner_labels= False):
    
    if desired_ner_labels != False:
        desired_ner_labels = desired_ner_labels
    else:
        desired_ner_labels = ['PER', 'ORG', 'LOC']  
        
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        #process each sentence
        sentence_doc = nlp(sentence.text)
        for named_entity in sentence_doc.ents:
            #Check to see if the keyword is in the sentence (and ignore capitalization by making both lowercase)
            if keyword.lower() in named_entity.text.lower()  and named_entity.label_ in desired_ner_labels:
                #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
                #sentence_text = sentence.text
            
                sentence_text = re.sub('\n', ' ', sentence.text)
                sentence_text = re.sub(f"{named_entity.text}", f"**{named_entity.text}**", sentence_text, flags=re.IGNORECASE)

                display(Markdown('---'))
                display(Markdown(f"**{named_entity.label_}**"))
                display(Markdown(sentence_text))

In [13]:
for document in chunked_documents:
    get_ner_in_context('Lisboa', document)

---

**LOC**

Margarida sahia de uma loja e ia a saltar ligeira, elegante com a sua graça parisiense para dentro do _coupé_ delicioso que, de proposito para a filha, o marquez havia encommendado mezes antes á casa Binder, e que dous finos cavallos inglezes esplendidamente ajaezados faziam voar pelas ruas da nossa **pacata Lisboa**.  

---

**LOC**

O advogado Vasconcellos morrêra pobre, sorte de todos os causidicos de provincia, que logram vencer, quando muito, por mez, o que qualquer dos **collegas de Lisboa** e Porto dá aos seus agaloados trintanarios.  

---

**LOC**

O rapaz foi para Coimbra, e a menina para o convento das Salesias em **Lisboa**, de onde recolheu quando o irmão entrava para o primeiro anno juridico.  

---

**LOC**

Logo que se viu senhor dos titulos alcançados pelo seu estudo e applicação, foi á villa natal agradecer aos que o haviam tão evangelicamente amparado, e, por conselhos de um condiscipulo, dirigiu-se a **Lisboa**, onde fixou residencia, e entrou a frequentar o escriptorio de um dos advogados de mais renome no fôro da capital.  

---

**LOC**

Em **Lisboa** encontraria campo mais dilatado onde desafogar as suas altas aspirações.  

---

**LOC**

...  Pobre creança!         *       *       *       *       *  N'aquella época chegara a **Lisboa**

---

**LOC**

um individuo que fôra o mais perdulario dos _leões_ da **Lisboa** de ha trinta annos, e que presentemente occupava um elevado lugar diplomatico em uma côrte estrangeira.  

---

**LOC**

Em vez do arnez, do broquel, das cannelleiras e do elmo, aconselho-lhe que se vista com elegancia igual á sua gentileza, porque vae combater a féra no salão da mais elegante senhora de **Lisboa**, e ante a presença das nossas mais acentuadas celebridades politicas e litterarias.

---

**LOC**

Vou propôr a V. Ex.ᵃˢ uma cousa que lhes parecerá excentrica, mas que me relevarão, já que em **Lisboa** passo por um ente singular e extraordinario.

---

**LOC**

Em **Lisboa** não era menos rica, nem menos confortavel, a habitação do millionario.  

---

**LOC**

Salvava-a isto da vulgaridade que mais ou menos contamina as mulheres ricas.  Margarida no inverno vivia em **Lisboa**.  

---

**LOC**

--Foi-me apresentado este inverno em **Lisboa**;

---

**LOC**

«Pergunta-o se quizeres, a essa **Lisboa**, que assistiu ao louco esphacelar de uma fortuna enorme, com o sorriso banal e adulador que ella tem para todos os perdularios.  

---

**LOC**

A brilhante Condessa de V..., a filha adorada de um dos homens mais ricos de **Lisboa**, a rainha dos salões luxuosos, a _estrella_ mais fulgurante do alto mundo, dava lições para sustentar os dous filhos que lhe restavam, unicos vestigios de um passado de pomposas mentiras.  

---

**LOC**

N'uma tarde do mez de janeiro, chuvosa, humida e fria, Margarida subia a muito custo a calçada de S. Bento, em **Lisboa**, onde morava uma das suas discipulas.  

---

**LOC**

Os dous orphãos de Margarida estão agora a educar-se em um dos melhores collegios de **Lisboa**, e todas as despezas da sua educação são pagas por um protector invisivel e mysterioso.  

---

**LOC**

O sr. Francisco Cerqueira lembrava-se de todos os pormenores e incidentes trabalhosos da jornada que elle fizera desde a sua pequena e risonha aldeia minhota até **Lisboa**.  

---

**LOC**

Na manhã do dia seguinte, no tombadilho d'um dos vapores da Companhia do Pacifico, emquanto os dous socios do Cerqueira riam e diziam facecias, deitando com ares de casquilhos atabalhoados as lunetas a algumas francezas, que, com os seus vestidos de fazendas claras animavam alegremente aquelle conjunto de pessoas possuidas de tão estranhos e contradictorios sentimentos, o nosso viajante olhava com os olhos de quem se despede de um sitio amado para os armazens, para os trapiches que se retratavam nas aguas da bahia, para as torres das egrejas que se arrendavam nitidamente no claro céo azul.         *       *       *       *       *  Em **Lisboa** pouco se demorou.  

---

**LOC**

No hotel, alguns amigos quizeram prendel-o ainda, tentando-o com o theatro lyrico, com Cintra e com as poucas fascinações baratas de **Lisboa**.  

---

**LOC**

Verdade é que podia ter tido novas d'ella em **Lisboa** escrevendo ao abbade, mas queria fazer uma supreza, chegar de improviso.  

---

**LOC**

De vez em quando a tela monotona d'esta nossa vida de **Lisboa**, unicamente bordada de pequeninos _cancans_ politicos, litterarios e sociaes, rompe-se com a chegada, ou para melhor dizer, com a passagem de um viajante illustre.  

---

**LOC**

E este homem, tão modesto na apparencia, tão laconico nas fallas, tão simples no viver, este homem que recusa recompensas apparatosas, porque julga que a suprema recompensa é a da propria consciencia, este homem que póde apresentar-se como a personalisação da democracia moderna, é o mesmo que **Lisboa** ha pouco viu passar com a estupida e distrahida indifferença que ella tem para tudo que é verdadeiramente grande, e por isso mesmo despretencioso e simples.     