# Part-of-Speech Tagging and Named Entity Recognition

Perform an analisys of an article in  language other than English by following these steps:

*   Scrape the article from a URL
*   Perform the necessary text normalization (if any)
*   Obtain the most common nouns and verbs
*   Obtain the most common Named Entity types
*   Obtain the most common entities

## 1. Obtaining the article

In [None]:
import requests
from bs4 import BeautifulSoup
import re

In [None]:
# Let's define a function to scrape an url

blacklist = [ # List with elements we don't want to keep
    'script',
    'style',
    'aside'
]

def url_to_string(url):
    request = requests.get(url)
    html = request.text
    soup = BeautifulSoup(html, "html5lib")
    
    for script in soup(blacklist):
        script.extract()
    text = [paragraph.get_text() for paragraph in soup.find_all('p')]
    return " ".join(text)

In [None]:
url = "https://www.vilaweb.cat/noticies/tanxugueiras-catala-gallec-basc-eurovisio/"

In [None]:
text = url_to_string(url)
text

'El suport econòmic dels lectors és fonamental per a mantenir el nostre model de periodisme independent i de qualitat. Podeu fer-vos-en subscriptor clicant ací i, a més de llegir VilaWeb sense anuncis, ens ajudareu d\'una manera decisiva a continuar fent la nostra feina. Voleu enviar ara el comentari? Us recordem que els comentaris a l\'editorial són els únics comentaris públics de VilaWeb i poden ser llegits per tothom, no solament pels subscriptors. \n\t\t\t\t\t\tCULTURA > MÚSICA\t\t\t\t\t \n\t\t\t\t\t\tEl grup gallec Tanxugueiras és a un pas d\'aconseguir-ho amb la cançó "Terra"\t\t\t\t\t Per: Redacció \n\n\t\t\t\t\t\t Aquesta funcionalitat és per als membres de la comunitat de VilaWeb. Si encara no en sou subscriptors, cliqueu en aquesta pàgina per veure\'n els avantatges. Aquesta funcionalitat és per als membres de la comunitat de VilaWeb. Si encara no en sou subscriptors, cliqueu en aquesta pàgina per veure\'n els avantatges. Fes-te subscriptor de VilaWeb Sonarà per primera vegad

## 2. Text Normalization

We will load a model for [Catalan](https://spacy.io/models/ca).

In [None]:
!pip install --upgrade spacy
!python -m spacy download ca_core_news_sm # Model for Catalan

Collecting spacy
  Downloading spacy-3.2.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[K     |████████████████████████████████| 6.0 MB 4.2 MB/s 
Collecting langcodes<4.0.0,>=3.2.0
  Downloading langcodes-3.3.0-py3-none-any.whl (181 kB)
[K     |████████████████████████████████| 181 kB 57.9 MB/s 
Collecting spacy-loggers<2.0.0,>=1.0.0
  Downloading spacy_loggers-1.0.1-py3-none-any.whl (7.0 kB)
Installing collected packages: spacy-loggers, langcodes, spacy
  Attempting uninstall: spacy
    Found existing installation: spacy 2.2.4
    Uninstalling spacy-2.2.4:
      Successfully uninstalled spacy-2.2.4
Successfully installed langcodes-3.3.0 spacy-3.2.1 spacy-loggers-1.0.1


In [None]:
!python -m spacy download ca_core_news_sm # Model for Catalan

Collecting ca-core-news-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ca_core_news_sm-3.2.0/ca_core_news_sm-3.2.0-py3-none-any.whl (20.7 MB)
[K     |████████████████████████████████| 20.7 MB 494 kB/s 
Installing collected packages: ca-core-news-sm
Successfully installed ca-core-news-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ca_core_news_sm')


In [None]:
# 1. Substitute multiple spaces

clean_text = re.sub('\s+',' ',text) 
clean_text

'El suport econòmic dels lectors és fonamental per a mantenir el nostre model de periodisme independent i de qualitat. Podeu fer-vos-en subscriptor clicant ací i, a més de llegir VilaWeb sense anuncis, ens ajudareu d\'una manera decisiva a continuar fent la nostra feina. Voleu enviar ara el comentari? Us recordem que els comentaris a l\'editorial són els únics comentaris públics de VilaWeb i poden ser llegits per tothom, no solament pels subscriptors. CULTURA > MÚSICA El grup gallec Tanxugueiras és a un pas d\'aconseguir-ho amb la cançó "Terra" Per: Redacció Aquesta funcionalitat és per als membres de la comunitat de VilaWeb. Si encara no en sou subscriptors, cliqueu en aquesta pàgina per veure\'n els avantatges. Aquesta funcionalitat és per als membres de la comunitat de VilaWeb. Si encara no en sou subscriptors, cliqueu en aquesta pàgina per veure\'n els avantatges. Fes-te subscriptor de VilaWeb Sonarà per primera vegada una cançó en gallec, basc, asturià i català a la final d’Eurovi

In [None]:
import nltk
from nltk import word_tokenize 
nltk.download('punkt')

# 2. Tokenization
tokenized_text = " ".join(word_tokenize(clean_text, "spanish"))
print(tokenized_text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
El suport econòmic dels lectors és fonamental per a mantenir el nostre model de periodisme independent i de qualitat . Podeu fer-vos-en subscriptor clicant ací i , a més de llegir VilaWeb sense anuncis , ens ajudareu d'una manera decisiva a continuar fent la nostra feina . Voleu enviar ara el comentari ? Us recordem que els comentaris a l'editorial són els únics comentaris públics de VilaWeb i poden ser llegits per tothom , no solament pels subscriptors . CULTURA > MÚSICA El grup gallec Tanxugueiras és a un pas d'aconseguir-ho amb la cançó `` Terra '' Per : Redacció Aquesta funcionalitat és per als membres de la comunitat de VilaWeb . Si encara no en sou subscriptors , cliqueu en aquesta pàgina per veure'n els avantatges . Aquesta funcionalitat és per als membres de la comunitat de VilaWeb . Si encara no en sou subscriptors , cliqueu en aquesta pàgina per veure'n els avantatge

In [None]:
import ca_core_news_sm # We import the model 

nlp = ca_core_news_sm.load() # We create a nlp object
nlp
doc = nlp(tokenized_text) # We convert our text to a spacy parsed object

# 3. Remove stopwords
text_nosw = [word for word in doc if not word.is_stop and not word.is_punct]

['suport', 'econòmic', 'de', 'lector', 'fonamental', 'mantenir', 'model', 'periodisme', 'independent', 'qualitat', '-vos', '-en', 'subscriptor', 'clicar', 'llegir', 'vilaweb', 'anunci', 'ajudar', 'de', 'manera', 'decisiu', 'continuar', 'fer', 'feina', 'Voleu', 'enviar', 'ara', 'comentari', 'recordar', 'comentari', 'el', 'editorial', 'únic', 'comentari', 'públic', 'VilaWeb', 'llegir', 'tothom', 'per', 'subscriptor', 'CULTURA', '>', 'MÚSICA', 'grup', 'gallec', 'Tanxugueiras', 'de', 'aconseguir', '-ho', 'cançó', '`', '`', 'Terra', 'Redacció', 'funcionalitat', 'el', 'membre', 'comunitat', 'VilaWeb', 'subscriptor', 'cliquar', 'pàgina', 'veure', "'n", 'avantatge', 'funcionalitat', 'el', 'membre', 'comunitat', 'VilaWeb', 'subscriptor', 'cliquar', 'pàgina', 'veure', "'n", 'avantatge', 'Fes', '-te', 'subscriptor', 'VilaWeb', 'sonar', 'primer', 'vegada', 'cançó', 'gallec', 'basc', 'asturià', 'català', 'final', 'de', 'Eurovisió', 'enguany', 'poder', 'passar', 'cosa', 'sorprenent', 'ser', 'Andorra

## 3. POS Tagging

In [None]:
from collections import Counter

def get_most_common_category(doc,category,top_n): # we define a function that returns the most common words of a grammatical category
  words_category = [word.lemma_ for word in doc if word.pos_ == category]
  words_category_dict = Counter(words_category)
  most_common = [word for word, count in words_category_dict.most_common(top_n)] #Counter returns a tuple of (word, occurrences); we only want the words
  return most_common

In [None]:
print("Most common NOUNS")
print(get_most_common_category(text_nosw,"NOUN", 5))

print("\nMost common VERBS")
print(get_most_common_category(text_nosw,"VERB", 5))

Most common NOUNS
[('gent', 10), ('llengua', 10), ('cançó', 9), ('subscriptor', 8), ('cultura', 8)]

Most common VERBS
[('veure', 5), ('passar', 4), ('pensar', 4), ('parlar', 4), ('clicar', 3)]


## 4. Named Entity Recognition

In [None]:
print("Found entities:",len(doc.ents))

Found entities: 76


In [None]:
from spacy import displacy
displacy.render(doc, jupyter=True, style='ent')

In [None]:
labels = [x.label_ for x in doc.ents]
labels
print("Most common entity types:")
print(Counter(labels))

Most common entity types:
Counter({'PER': 24, 'LOC': 20, 'MISC': 19, 'ORG': 13})


In [None]:
entities = [x for x in doc.ents]
print(entities)

spacy.tokens.span.Span

In [None]:
# The punctuation seems annoying
import string

punct = re.compile('['+string.punctuation+'’]+') # Match punctuation signs, but on their own, keep words with punctuation
clean_entities = [re.sub(punct,'',entity.text) for entity in entities]
print(clean_entities)

['VilaWeb', 'VilaWeb i', 'CULTURA', 'MÚSICA El grup gallec', 'Tanxugueiras', 'Terra', 'VilaWeb', 'VilaWeb', 'VilaWeb Sonarà', ' Eurovisió ', 'Andorra', 'Espanya', 'Tanxugueiras', 'Terra', 'Joan Manuel Serrat', 'Eurovisió', 'Europa', '', '', 'Tanxugueiras –Aida Tarrío', 'Olaia', 'Sabela Maneiro', 'Festival de Benidorm', 'Ràdio Televisió Espanyola a Eurovisió 2022', 'Rigoberta Bandini', 'Tanxugueiras', 'Ximo Puig', 'Festival de Benidorm “ Estem molt orgulloses', 'Nós Diario', 'Tanxugueiras', 'Eurovisió', 'Foliadas', 'Galícia', '', 'Terra', 'Tanxugueiras', ' Eurovisió', 'Eurovisió', 'Figa', 'T', 'N X U G U E I R', 'S', '', 'Terra', '', ' Apple Music', 'All I', 'Christmas', 'Mariah Carey', '“', '', 'Olaia Maneiro', 'Nós Diario', 'Terra', '', '“', 'País Basc', 'Astúries', 'Països Catalans', 'Tanxugueiras', 'Eurovisió', 'Olaia Maneiro', 'Eurovisió', 'Maneiro', '', '', 'riu', 'Molta', '', 'Galícia', 'VilaWeb', 'Facebook Comparteix', 'Favorits Enviar', 'Separa', 'Subscriure m', 'Vilaweb']


Now there are some empty elements and some whitespaces at the beginning and end. Let's fix it.

In [None]:
clean_entities = [entity for entity in clean_entities if entity] #Remove empty elements
whitespace = re.compile('^ | $') # Match punctuation signs, but on their own, keep words with punctuation
clean_entities = [re.sub(whitespace,'',entity) for entity in clean_entities]
print(clean_entities)

['VilaWeb', 'VilaWeb i', 'CULTURA', 'MÚSICA El grup gallec', 'Tanxugueiras', 'Terra', 'VilaWeb', 'VilaWeb', 'VilaWeb Sonarà', 'Eurovisió', 'Andorra', 'Espanya', 'Tanxugueiras', 'Terra', 'Joan Manuel Serrat', 'Eurovisió', 'Europa', 'Tanxugueiras –Aida Tarrío', 'Olaia', 'Sabela Maneiro', 'Festival de Benidorm', 'Ràdio Televisió Espanyola a Eurovisió 2022', 'Rigoberta Bandini', 'Tanxugueiras', 'Ximo Puig', 'Festival de Benidorm “ Estem molt orgulloses', 'Nós Diario', 'Tanxugueiras', 'Eurovisió', 'Foliadas', 'Galícia', 'Terra', 'Tanxugueiras', 'Eurovisió', 'Eurovisió', 'Figa', 'T', 'N X U G U E I R', 'S', 'Terra', 'Apple Music', 'All I', 'Christmas', 'Mariah Carey', '“', 'Olaia Maneiro', 'Nós Diario', 'Terra', '“', 'País Basc', 'Astúries', 'Països Catalans', 'Tanxugueiras', 'Eurovisió', 'Olaia Maneiro', 'Eurovisió', 'Maneiro', 'riu', 'Molta', 'Galícia', 'VilaWeb', 'Facebook Comparteix', 'Favorits Enviar', 'Separa', 'Subscriure m', 'Vilaweb']


In [None]:
print("Most common entities:")
most_common = [word for word, count in Counter(clean_entities).most_common(5)] #Counter returns a tuple of (word, occurrences); we only want the words
print(most_common)

Most common entities:
['Eurovisió', 'Tanxugueiras', 'Terra', 'VilaWeb', 'Nós Diario']
