# NLP - spaCy

- **Created by Andrés Segura Tinoco**
- **Created on June 04, 2019**
- **Updated on Apr 06, 2021**

**Natural language processing (NLP):** is a discipline where computer science, artificial intelligence and cognitive logic are intercepted, with the objective that machines can read and understand our language for decision making <a href="#link_one">[1]</a>.

**spaCy:** features fast statistical NER as well as an open-source named-entity visualizer <a href="#link_two">[2]</a>.

## Example with a document in Spanish

In [1]:
# Load Python libraries
import io
from collections import Counter

In [2]:
# Load NLP libraries from spacy
import spacy

In [3]:
# Verify installed spacy version
spacy.__version__

'3.0.5'

### Step 1 - Read natural text from a book

In [4]:
# Util function to read a plain text file
def read_text_file(file_path):
    text = ""
    with io.open(file_path, 'r', encoding='ISO-8859-1') as f:
        text = f.read()
    
    return text

In [5]:
# Get text sample
file_path = "../data/es/El Grillo del Hogar - Charles Dickens.txt"
book_text = read_text_file(file_path)

In [6]:
# Show first 1000 raw characters of document
book_text[:1000]

'El grillo del hogar\n(The Cricket of the Heard)\nde\n\nCharles Dickens\nEste libro electrónico es cortesía de\n\nhttp://www.dominiopublico.es\nPrimer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nSegundo grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nTercer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\n\nPrimer grito\n- I -\nEmpezó el puchero. No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo. Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero. Tengo motivos para saberlo. El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.\n¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a 

### Step 2 - Create a NLP model

In [7]:
# Create NLP model for spanish language
nlp = spacy.load('es_core_news_sm')
doc_es = nlp(book_text)

**- Vocabulary:** unique words of the document.

In [8]:
# Get vocabulary
vocabulary_es = list(set(str(token).lower() for token in doc_es if not token.is_stop and token.is_alpha))
len(vocabulary_es)

5613

In [9]:
# Show first 200 words of the vocabulary
print(vocabulary_es[0:200])

['novia', 'posibles', 'negra', 'motivo', 'acusación', 'ciertamente', 'término', 'tranquilidad', 'creedme', 'fortaleza', 'sincera', 'marco', 'fielmente', 'matar', 'íbamos', 'simultáneamente', 'niñera', 'instrumentos', 'despedazarle', 'efusión', 'esperarlo', 'ceremoniosamente', 'soportal', 'capacidad', 'sumido', 'haceros', 'satisfecho', 'acordaba', 'dirigida', 'caminaban', 'descubrir', 'espíritu', 'propuso', 'opinión', 'hoja', 'contemplándola', 'fulgor', 'expansión', 'dolor', 'rosal', 'fatigarme', 'fusiles', 'vendrá', 'fueseis', 'ferozmente', 'magia', 'movimiento', 'ensayar', 'agradecería', 'indiscreto', 'chiquillo', 'recibirlos', 'solemnizar', 'salpicado', 'próxima', 'embozada', 'maliciosamente', 'comercio', 'desprecio', 'amuebladas', 'media', 'colgaba', 'mejillas', 'satisfacer', 'dulzura', 'establecida', 'experimenté', 'dándose', 'ejecutar', 'estraza', 'imposibilidad', 'abertura', 'pronunciadas', 'gozo', 'beso', 'inmovilidad', 'marisco', 'cesta', 'cazuela', 'derecha', 'especie', 'malic

**- Stopwords:** refers to the most common words in a language, which do not significantly affect the meaning of the text.

In [10]:
# Get unique stop-words
stop_words_es = list(set(str(token).lower() for token in doc_es if token.is_stop))
len(stop_words_es)

416

In [11]:
# Show unique stop-words
print(stop_words_es)

['quiere', 'principalmente', 'poder', 'qué', 'breve', 'buena', 'te', 'muchos', 'lado', 'ninguna', 'veces', 'porque', 'contra', 'mismo', 'tus', 'unas', 'allí', 'quedó', 'habla', 'entonces', 'podrían', 'sido', 'todas', 'arriba', 'estaba', 'saben', 'ningunos', 'ahora', 'bueno', 'aquel', 'nuevos', 'antes', 'sois', 'pueden', 'llevar', 'da', 'ni', 'toda', 'nada', 'poner', 'vuestro', 'estamos', 'más', 'cosas', 'misma', 'mis', 'todavía', 'ejemplo', 'debajo', 'modo', 'cuales', 'otros', 'pesar', 'primera', 'ante', 'cual', 'va', 'cierto', 'estaban', 'estará', 'la', 'muchas', 'raras', 'hace', 'tarde', 'junto', 'expresó', 'ciertos', 'dicen', 'decir', 'sólo', 'quizá', 'tenía', 'tanto', 'pasada', 'le', 'mi', 'estos', 'incluso', 'verdadera', 'nosotros', 'hoy', 'sobre', 'siendo', 'trabajar', 'explicó', 'estuvo', 'hubo', 'como', 'ayer', 'momento', 'ningún', 'alrededor', 'al', 'podemos', 'quién', 'nunca', 'verdadero', 'posible', 'este', 'es', 'aquí', 'dicho', 'cuanto', 'tenga', 'en', 'delante', 'podría',

**- Entity:** can be any word or series of words that consistently refers to the same thing.

In [12]:
# Returns a text with data quality
def text_quality(text):
    new_text = text.replace('\n', '')
    return new_text.strip('\r\n')

# Print out named first 50 entities
for ix in range(50):
    ent = doc_es.ents[ix]
    ent_text = text_quality(ent.text)
    
    if len(ent_text) > 3:
        print((ix + 1), '- Entity:', ent_text, ', Label:', ent.label_)

1 - Entity: The Cricket of the Heard , Label: MISC
2 - Entity: Charles Dickens , Label: PER
3 - Entity: Este libro electrónico , Label: MISC
4 - Entity: Primer grito , Label: MISC
5 - Entity: Capítulo I , Label: PER
6 - Entity: Capítulo II , Label: PER
7 - Entity: Capítulo III , Label: PER
8 - Entity: Capítulo IV , Label: PER
9 - Entity: Capítulo V , Label: PER
10 - Entity: Capítulo VI , Label: PER
11 - Entity: Segundo grito , Label: MISC
12 - Entity: Capítulo I , Label: PER
13 - Entity: Capítulo II , Label: PER
14 - Entity: Capítulo III , Label: PER
15 - Entity: Capítulo IV , Label: PER
16 - Entity: Capítulo V , Label: PER
17 - Entity: Capítulo VI , Label: PER
18 - Entity: Tercer , Label: MISC
19 - Entity: Capítulo I , Label: PER
20 - Entity: Capítulo II , Label: PER
21 - Entity: Capítulo III , Label: PER
22 - Entity: Capítulo IV , Label: PER
23 - Entity: Capítulo V , Label: PER
24 - Entity: Capítulo VI , Label: PER
25 - Entity: Primer , Label: MISC
27 - Entity: Empezó , Label: PER
28

### Step 3 - Working with POS, NER and sentences

**- POS:** the parts of speech explain how a word is used in a sentence.

In [13]:
# Part of speech (POS) used in this document
set(token.pos_ for token in doc_es)

{'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CCONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SPACE',
 'SYM',
 'VERB'}

**- Sentences:** a set of words that is complete in itself and typically containing a subject and predicate.

In [14]:
# How many sentences are in this text?
sentences = [s for s in doc_es.sents]
len(sentences)

1699

In [15]:
# Show first 10 sentences
sentences[1:11]

[Capítulo IV,
 ,
 Capítulo V
 Capítulo VI,
 Segundo grito
 Capítulo I
 Capítulo II
 Capítulo III
 Capítulo IV,
 Capítulo V
 Capítulo VI,
 Tercer grito
 Capítulo I
 Capítulo II
 Capítulo III
 Capítulo IV,
 Capítulo V
 Capítulo VI
 
 Primer,
 grito
 - I -
 Empezó el puchero.,
 No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo.,
 Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero.]

In [16]:
# Get the sentences in which the 'grillo' appears
pattern = 'grillo'
cricket_sent = [sent for sent in doc_es.sents if pattern in sent.text]
len(cricket_sent)

49

In [17]:
# Show the first 10 sentences in which the 'grillo' appears
for sent in cricket_sent[1:11]:
    print('-', sent)

- El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.
- 
¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a izquierda y luego de izquierda a derecha ante la fachada de su palacio morisco, no hubiese segado medio acre de césped imaginario antes que el grillo hubiese hecho notar su presencia!
A decir verdad, no fui nunca terco, como todo el mundo sabe.
- Pero se trata de una cuestión de hecho, y el hecho es que el puchero empezó por lo menos cinco minutos antes que el grillo hubiese dado señal de vida.
- Es lo que hubiera hecho desde la primera frase a no considerar que si cuento una historia debo empezar por el principio, y ¿cómo queréis que empiece por el principio si no empiezo por la vasija?
Parecía que la vasija y el grillo luchaban.
- Aquí, precisamente en este punto, fue cuando el grillo entró en escena con un 

**- NER:** Named Entity Recognition.

In [18]:
# Returns the most common entities and their quantity
def find_entities(doc, ent_type, n):
    entities = Counter()
    
    for ent in doc.ents:
        if ent.label_ == ent_type:
            ent_name = text_quality(ent.lemma_)
            entities[ent_name] += 1
    
    return entities.most_common(n)

In [19]:
# Show entities of type PERSON
find_entities(doc_es, 'PER', 20)

[('John', 153),
 ('Tackleton', 68),
 ('Caleb', 56),
 ('Berta', 43),
 ('May', 38),
 ('John-', 16),
 ('John Peerybingle', 15),
 ('Tilly', 14),
 ('¿', 12),
 ('después', 10),
 ('Tilly Slowboy', 8),
 ('Dot', 7),
 ('Eduardo', 7),
 ('May Fielding', 6),
 ('Sol', 5),
 ('aquí', 5),
 ('Peerybingle', 5),
 ('ir', 5),
 ('además', 4),
 ('¡ Crrri', 4)]

In [20]:
# Returns persons adjectives
def get_person_adj(doc, person):
    adjectives = []
    
    for ent in doc.ents:
        if ent.lemma_ == person:
            for token in ent.subtree:
                if token.pos_ == 'ADJ': # Adjective
                    adjectives.append(token.lemma_)
    
    for ent in doc.ents:
        if ent.lemma_ == person:
            if ent.root.dep_ == 'nsubj': # Nominal subject
                for child in ent.root.head.children:
                    if child.dep_ == 'acomp': # Adjectival complement
                        adjectives.append(child.lemma_)
    
    return list(set(adjectives))

In [21]:
# Show the adjectives used for John (most common entity)
curr_person = 'John'
print(get_person_adj(doc_es, curr_person))

['extrañado', 'eficazmente', 'diligente', 'distraído', 'venturoso', 'pensativo', 'cabizbajo', 'amado', 'santo', 'turbada-']


In [22]:
# Returns the people who use a certain verb
def verb_persons(doc, verb, n):
    verb_count = Counter()
    
    for ent in doc.ents:
        if ent.label_ == 'PER' and ent.root.head.lemma_ == verb:
            verb_count[ent.text] += 1
    
    return verb_count.most_common(n)

In [23]:
# Show the people who use a certain verb
curr_verb = 'hacer'
verb_persons(doc_es, curr_verb, 10)

[('John', 3),
 ('Pronto', 1),
 ('Tiempo', 1),
 ('Hacía', 1),
 ('Tackleton', 1),
 ('Hizo', 1),
 ('Tilly', 1),
 ('¡Cuánto', 1),
 ('May', 1)]

In [24]:
# Get ADJ type labels
adj_tokens = list(set(str(token.orth_).lower() for token in doc_es if token.pos_ == 'ADJ'))
len(adj_tokens)

1340

In [25]:
# Show ADJ type labels
print(adj_tokens[:50])

['desengañados', 'altaneras', 'irreprochable', 'hablado', 'posibles', 'negra', 'motivo', 'perfectas', 'zumba', 'buena', 'bendecido', 'inclinada', 'creedme', 'tentativas', 'sincera', 'inspirada', 'triunfante', 'ceñuda', 'niñera', 'ceremoniosamente', 'impenetrable', 'dichos', 'furtivas', 'sumido', 'satisfecho', 'gozosas', 'ningunos', 'dirigida', 'ingeniosa', 'domésticas', 'extraordinario', 'mezcla', 'calculado', 'linda', 'contado', 'colocado', 'indiscreto', 'heterogéneos', 'contrario', 'vivísima', 'antiguo', 'salpicado', 'próxima', 'embozada', 'brillante', 'desprecio', 'enmohecidas', 'amuebladas', 'frecuentes', 'cierto']


In [26]:
# Get PROPN type labels
propn_tokens = list(set(str(token.orth_).lower() for token in doc_es if token.pos_ == 'PROPN'))
len(adj_tokens)

1340

In [27]:
# Show PROPN type labels
print(propn_tokens[:50])

['-añadió', 'cuánto', 'inglaterra', 'hombrecillo-', 'san', 'dondequiera', 'california', 'faz-', 'navidad', '-dijo', 'vi', 'dímelo', 'ésta-', '-john', 'miss', 'hiciéronle', 'dadle', 'hija', 'tac', 'sentada', 'invariablemente', '-lo', 'habríais', 'entrad', '-permitidme', '-¡su', 'vito', '-¡me', 'oídme', 'cuán', 'dicho', '-deletreó', 'mutuamente-', 'acercaos', 'naturaleza', 'hadas-', 'peerybingle', 'danza', 'capítulo', 'cuello-', 'perdía', 'sospechar', 'g.', 'robinsón', 'tic', '-porque', 'sansón', 'sol', 'of', 'uh']


## Reference

<a name='link_one' href='https://en.wikipedia.org/wiki/Natural_language_processing' target='_blank' >[1]</a> Wikipedia - Natural language processing.  
<a name='link_two' href='https://spacy.io/' target='_blank' >[2]</a> spaCy website.  

<hr>
<p><a href="https://ansegura7.github.io/NLP/">« Home</a></p>