# Natural Language Processing with spaCy

- **Created by Andrés Segura Tinoco**
- **Created on June 04, 2019**

Natural language processing (NLP) is a discipline where computer science, artificial intelligence and cognitive logic are intercepted, with the objective that machines can read and understand our language for decision making.

## Example with a document in Spanish

In [1]:
# Load Python libraries
import io
from collections import Counter

In [2]:
# Load NLP libraries from spacy
import spacy

### Step 1 - Read natural text from a book

In [3]:
# Util function to read a plain text file
def read_text_file(file_path):
    text = ""
    with io.open(file_path, 'r', encoding = 'ISO-8859-1') as f:
        text = f.read()
    
    return text;

In [4]:
# Get text sample
file_path = "../data/es/El Grillo del Hogar - Charles Dickens.txt"
book_text = read_text_file(file_path)

In [5]:
# Show first 1000 characters of document
book_text[:1000]

'El grillo del hogar\n(The Cricket of the Heard)\nde\n\nCharles Dickens\nEste libro electrónico es cortesía de\n\nhttp://www.dominiopublico.es\nPrimer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nSegundo grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nTercer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\n\nPrimer grito\n- I -\nEmpezó el puchero. No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo. Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero. Tengo motivos para saberlo. El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.\n¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a 

### Step 2 - Create a NLP model

In [6]:
# Create NLP model for spanish language
nlp = spacy.load('es')
doc_es = nlp(book_text)

**Vocabulary:** unique words of the document.

In [7]:
# Get vocabulary
vocabulary_es = list(set(str(token).lower() for token in doc_es if not token.is_stop and token.is_alpha))
len(vocabulary_es)

5630

In [8]:
# Show vocabulary
print(vocabulary_es[0:200])

['destinado', 'examinase', 'cortante', 'repetir', 'carácter', 'servirían', 'arraigado', 'cediendo', 'superioridad', 'siquiera', 'perfectamente', 'retuvo', 'abierto', 'haceros', 'encargó', 'odiarla', 'duda', 'comérosla', 'gozosas', 'cogida', 'doméstico', 'ahorrarse', 'llame', 'sitiadas', 'vivientes', 'doméstica', 'vejez', 'ancianos', 'marchitas', 'llevase', 'supremo', 'hercúlea', 'constante', 'polvo', 'colgaba', 'lanza', 'congoja', 'rumor', 'blusa', 'satisface', 'reglas', 'hombre', 'miraba', 'ponerle', 'ponía', 'razones', 'abandonaban', 'granada', 'inclinada', 'cálido', 'lento', 'adorará', 'bolsillo', 'harta', 'libro', 'rostro', 'ventura', 'trabar', 'viola', 'pensionado', 'montón', 'modestia', 'ruiseñor', 'insensiblemente', 'llevarlos', 'cabellos', 'vanidades', 'cambiaron', 'arca', 'promesa', 'preguntándole', 'demonio', 'hablarme', 'convidado', 'concierne', 'paseando', 'améis', 'blancos', 'visita', 'acompañándole', 'ennoblece', 'bujía', 'cinta', 'barro', 'quedamos', 'mentalmente', 'entr

**Stopwords:** refers to the most common words in a language, which do not significantly affect the meaning of the text.

In [9]:
# Get unique stop-words
stop_words_es = list(set(str(token).lower() for token in doc_es if token.is_stop))
len(stop_words_es)

416

In [10]:
# Show unique stop-words
print(stop_words_es)

['propio', 'cuantos', 'vuestras', 'menos', 'ante', 'sólo', 'dos', 'soy', 'dio', 'cuantas', 'hacemos', 'ir', 'vosotros', 'partir', 'otro', 'dentro', 'les', 'tras', 'las', 'le', 'estará', 'explicó', 'buenas', 'ciertos', 'última', 'sería', 'cual', 'tal', 'tres', 'propia', 'mas', 'estos', 'claro', 'igual', 'dijo', 'tu', 'sido', 'pocos', 'próximos', 'demasiado', 'propios', 'al', 'podría', 'raras', 'consigo', 'estuvo', 'excepto', 'poder', 'casi', 'según', 'van', 'quién', 'además', 'ustedes', 'aunque', 'unos', 'nuevos', 'debido', 'deben', 'haber', 'nosotras', 'del', 'mucho', 'por', 'verdad', 'dice', 'puede', 'lado', 'todas', 'mucha', 'trabajan', 'suya', 'podemos', 'mismo', 'pesar', 'pocas', 'tercera', 'de', 'entonces', 'tenemos', 'nadie', 'cuenta', 'hizo', 'otros', 'podrá', 'propias', 'general', 'ha', 'ningunos', 'están', 'usar', 'saben', 'hacer', 'esto', 'temprano', 'tan', 'encuentra', 'fue', 'nuevas', 'aquella', 'ahora', 'quiénes', 'cerca', 'siempre', 'yo', 'gran', 'horas', 'otra', 'debajo'

In [11]:
# Returns a text with data quality
def text_quality(text):
    new_text = text.replace('\n', '')
    return new_text.strip('\r\n')

# Print out named first 50 entities
for ix in range(50):
    ent = doc_es.ents[ix]
    ent_text = text_quality(ent.text)
    
    if len(ent_text) > 3:
        print((ix + 1), '- Entity:', ent_text, ', Label:', ent.label_)

1 - Entity: The Cricket of the Heard , Label: MISC
2 - Entity: Charles DickensEste , Label: PER
3 - Entity: Capítulo ICapítulo IICapítulo IIICapítulo IV , Label: PER
4 - Entity: Primer grito , Label: MISC
6 - Entity: No necesito que me contéis , Label: MISC
7 - Entity: Peerybingle dijera , Label: MISC
8 - Entity: Dejad , Label: MISC
9 - Entity: Peerybingle , Label: MISC
10 - Entity: Tengo , Label: MISC
11 - Entity: El puchero empezó , Label: MISC
13 - Entity: Por nada del mundo opondría mi opinión , Label: MISC
14 - Entity: Peerybingle , Label: MISC
15 - Entity: Pero se trata de una cuestión de hecho , Label: MISC
16 - Entity: Si insistís , Label: MISC
17 - Entity: ¿cómo , Label: MISC
18 - Entity: Una lucha musical , Label: MISC
19 - Entity: Vais , Label: LOC
20 - Entity: Euclides , Label: PER
21 - Entity: La señora Peerybingle , Label: MISC
22 - Entity: De vuelta ya , Label: MISC
23 - Entity: Peerybingle , Label: MISC
24 - Entity: Entonces perdió su sangre fría , Label: MISC
25 - Enti

### Step 3 - Working with POS, NES and sentences

**POS:** the parts of speech explain how a word is used in a sentence.

In [12]:
# Part of speech (POS) used in this document
set(token.pos_ for token in doc_es)

{'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SPACE',
 'SYM',
 'VERB'}

**Sentences:** a set of words that is complete in itself and typically containing a subject and predicate.

In [13]:
# How many sentences are in this text?
sentences = [s for s in doc_es.sents]
len(sentences)

1621

In [14]:
# Show first 10 sentences
sentences[1:11]

[No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo.,
 Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero.,
 Tengo motivos para saberlo.,
 El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.,
 ¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a izquierda y luego de izquierda a derecha ante la fachada de su palacio morisco, no hubiese segado medio acre de césped imaginario antes que el grillo hubiese hecho notar su presencia!,
 A decir verdad, no fui nunca terco, como todo el mundo sabe.,
 Por nada del mundo opondría mi opinión personal a la opinión de la señora Peerybingle, si no estuviese perfectamente seguro de lo ocurrido.,
 «Nada me induciría a semejante cosa.,
 Pero se trata de una c

In [15]:
# Get the sentences in which the 'grillo' appears
cricket_sent = [sent for sent in doc_es.sents if 'grillo' in sent.string]
len(cricket_sent)

48

In [16]:
# Show the first 10 sentences in which the 'grillo' appears
cricket_sent[1:11]

[El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.,
 ¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a izquierda y luego de izquierda a derecha ante la fachada de su palacio morisco, no hubiese segado medio acre de césped imaginario antes que el grillo hubiese hecho notar su presencia!,
 Pero se trata de una cuestión de hecho, y el hecho es que el puchero empezó por lo menos cinco minutos antes que el grillo hubiese dado señal de vida.,
 Parecía que la vasija y el grillo luchaban.,
 La lluvia congelada hace resbaladizo el camino; más abajo el agua no se ha convertido del todo en hielo, pero ya no es libre; nada conserva su forma natural; pero ¡él viene, él viene, él viene!
 Aquí, precisamente en este punto, fue cuando el grillo entró en escena con un crrri, crrri, crrri, de magnífica potencia a coro con el pucher

**NER:** Named Entity Recognition.

In [17]:
# Returns the most common entities and their quantity
def find_entities(doc, ent_type, n):
    entities = Counter()
    
    for ent in doc.ents:
        if ent.label_ == ent_type:
            ent_name = text_quality(ent.lemma_)
            entities[ent_name] += 1
    
    return entities.most_common(n)

In [18]:
# Show entities of type PERSON
find_entities(doc_es, 'PER', 20)

[('John', 132),
 ('Dot', 82),
 ('May', 38),
 ('Tackleton', 38),
 ('Berta', 32),
 ('John Peerybingle', 16),
 ('Tilly', 14),
 ('Fielding', 10),
 ('Boxer', 8),
 ('Dots', 8),
 ('John !', 7),
 ('Caleb Plummer', 7),
 ('Eduardo', 7),
 ('Dios', 5),
 ('¿', 5),
 ('Gruff', 5),
 ('Dot-', 5),
 ('Pero', 4),
 ('Nada', 4),
 ('May Fielding', 4)]

In [19]:
# Returns persons adjectives
def get_person_adj(doc, person):
    adjectives = []
    
    for ent in doc.ents:
        if ent.lemma_ == person:
            for token in ent.subtree:
                if token.pos_ == 'ADJ': # Adjective
                    adjectives.append(token.lemma_)
    
    for ent in doc.ents:
        if ent.lemma_ == person:
            if ent.root.dep_ == 'nsubj': # Nominal subject
                for child in ent.root.head.children:
                    if child.dep_ == 'acomp': # Adjectival complement
                        adjectives.append(child.lemma_)
    
    return list(set(adjectives))

In [20]:
# Show the adjectives used for John (most common entity)
curr_person = 'John'
print(get_person_adj(doc_es, curr_person))

['llenar', 'alto', 'macizar', 'afectuoso', 'pobre', 'turbada-', '-Querido', 'cabizbajo', 'suplicar', 'amar', 'atentar', 'honrar', 'venturoso', 'lento']


In [21]:
# Returns the people who use a certain verb
def verb_persons(doc, verb, n):
    verb_count = Counter()
    
    for ent in doc.ents:
        if ent.label_ == 'PER' and ent.root.head.lemma_ == verb:
            verb_count[ent.text] += 1
    
    return verb_count.most_common(n)

In [22]:
# Show the people who use a certain verb
curr_verb = 'hacer'
verb_persons(doc_es, curr_verb, 10)

[('Dot', 2),
 ('Tackleton', 2),
 ('John', 1),
 ('Mal', 1),
 ('May', 1),
 ('Dios', 1),
 ('Nada', 1)]

In [23]:
# Get ADJ type labels
adj_tokens = list(set(str(token.orth_).lower() for token in doc_es if token.pos_ == 'ADJ'))
len(adj_tokens)

1390

In [24]:
# Show ADJ type labels
print(adj_tokens[:50])

['destinado', 'ofensiva', 'viejo', 'vagarosas', 'apasionado', 'cortante', 'espléndida', 'urnas', 'arraigado', 'refrigerio', 'preciso', 'enteras', 'tranquilizadora', 'prometo', 'abierto', 'congestionados', 'primeras', 'vegetal', 'ingenioso', 'gozosas', 'aterido', 'caoba', 'cogida', 'doméstico', 'iluminado', 'sitiadas', 'acompañado', 'franca', 'vivientes', 'doméstica', 'ancianos', 'igual', 'marchitas', 'moradas', 'supremo', 'terrorífica', 'suelta', 'constante', 'ojos', 'tiernas', 'amargo', 'raras', 'holandeses', 'inquieto', 'resuelta', 'lastimoso', 'hadas', 'inclinada', 'poquita', 'debido']


In [25]:
# Get PROPN type labels
propn_tokens = list(set(str(token.orth_).lower() for token in doc_es if token.pos_ == 'PROPN'))
len(adj_tokens)

1390

In [26]:
# Show PROPN type labels
print(propn_tokens[:50])

['bendito', 'tenerle', '-puede', 'john', '-os', 'parecía', 'may', 'juraría-', '-me', 'veros', 'formulando', 'veíanse', '-lo', '-o', 'eduardo', 'caleb-', 'shem', 'fin', 'slowboy', 'iv', '-al', 'miróle', '-oídme', '-¿qué', 'entrad', 'dots', 'regocijado-', 'venid', '-murmuró', 'ii', 'royal', 'inglaterra.-', 'detúvose', 'mirad', 'hombros-', 'experimenté', 'cricket', 'cuánto', 'fríamente-', 'boxer-', 'eduardo-', 'notábase', '-mirad', '-tilly', 'peerybingle', 'vámonos', 'dot-', 'podéis', '»', 'hiciéronle']


<hr>
<p><a href="https://ansegura7.github.io/NLP/">« Home</a></p>