# Natural Language Processing with spaCy

- **Created by Andrés Segura Tinoco**
- **Created on June 04, 2019**

Natural language processing (NLP) is a discipline where computer science, artificial intelligence and cognitive logic are intercepted, with the objective that machines can read and understand our language for decision making.

## Example with a document in Spanish

In [1]:
# Load Python libraries
import io
from collections import Counter

In [2]:
# Load NLP libraries from spacy
import spacy
from spacy import displacy
from spacy.lang.es.stop_words import STOP_WORDS

### Step 1 - Read natural text from a book

In [3]:
# Util function to read a plain text file
def read_text_file(file_path):
    text = ""
    with io.open(file_path, 'r', encoding = 'ISO-8859-1') as f:
        text = f.read()
    
    return text;

In [4]:
# Get text sample
file_path = "../data/es/El Grillo del Hogar - Charles Dickens.txt"
book_text = read_text_file(file_path)

In [5]:
# Show first 1000 characters of document
book_text[:1000]

'El grillo del hogar\n(The Cricket of the Heard)\nde\n\nCharles Dickens\nEste libro electrónico es cortesía de\n\nhttp://www.dominiopublico.es\nPrimer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nSegundo grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\nTercer grito\nCapítulo I\nCapítulo II\nCapítulo III\nCapítulo IV\nCapítulo V\nCapítulo VI\n\nPrimer grito\n- I -\nEmpezó el puchero. No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo. Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero. Tengo motivos para saberlo. El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.\n¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a 

### Step 2 - Create a NLP model

In [6]:
# Create NLP model for spanish language
nlp = spacy.load('es')
doc_es = nlp(book_text)

In [7]:
# Get vocabulary
vocabulary_es = list(set(str(token).lower() for token in doc_es if not token.is_stop and token.is_alpha))
len(vocabulary_es)

5630

In [8]:
# Show vocabulary
print(vocabulary_es[0:200])

['tortas', 'jovial', 'interrumpido', 'coloradote', 'antojo', 'quijada', 'sacudiendo', 'lejano', 'repertorio', 'retuvo', 'lugares', 'novelas', 'recobrando', 'leed', 'inocencias', 'vibrantes', 'docena', 'descubierto', 'lodo', 'viva', 'malignidad', 'vacuna', 'acompañándola', 'levantado', 'desencajada', 'estela', 'paciencia', 'imposibilidad', 'felicidades', 'moda', 'poniéndolas', 'vagarosas', 'apostaré', 'guardadoras', 'historia', 'consolarse', 'ayudar', 'puso', 'abandonando', 'consolaría', 'formaba', 'pájaro', 'oídme', 'ancianos', 'magnífica', 'desdicha', 'persuadido', 'carcomidas', 'causarán', 'contemplado', 'ansiado', 'enferma', 'guiña', 'siguiese', 'dejándose', 'ponía', 'estéis', 'oído', 'abejas', 'esplendidez', 'penetró', 'tendríais', 'sociales', 'largamente', 'encendido', 'asuntos', 'afirmación', 'empezando', 'cuento', 'mala', 'milagros', 'firme', 'festín', 'tranquilamente', 'vestidos', 'permanecer', 'sobrecogido', 'acre', 'vejez', 'viene', 'sedientos', 'cajita', 'indicando', 'tomase

In [9]:
# Get unique stop-words
stop_words_es = list(set(str(token).lower() for token in doc_es if token.is_stop))
len(stop_words_es)

416

In [10]:
# Show unique stop-words
print(stop_words_es)

['he', 'nueva', 'míos', 'luego', 'el', 'segunda', 'nadie', 'último', 'era', 'es', 'tras', 'solos', 'señaló', 'acuerdo', 'trabajar', 'nosotras', 'sus', 'unas', 'poder', 'lado', 'mediante', 'donde', 'respecto', 'va', 'largo', 'trabajan', 'son', 'cuando', 'que', 'buenos', 'tres', 'gran', 'hay', 'nuestro', 'dan', 'bueno', 'poca', 'esos', 'verdadero', 'sola', 'hacemos', 'llegó', 'vuestras', 'haciendo', 'ello', 'partir', 'general', 'tu', 'podrían', 'tal', 'lejos', 'mismo', 'esa', 'otra', 'otras', 'final', 'nada', 'breve', 'pues', 'nos', 'estará', 'manifestó', 'dejó', 'siempre', 'puede', 'otros', 'ver', 'trata', 'ahora', 'cual', 'sea', 'parte', 'hacia', 'incluso', 'días', 'excepto', 'cerca', 'temprano', 'están', 'eso', 'conmigo', 'mis', 'tarde', 'cada', 'sé', 'ayer', 'estas', 'trabajo', 'buenas', 'dijeron', 'alrededor', 'cuanto', 'adelante', 'ningún', 'algunos', 'podría', 'ella', 'fin', 'peor', 'muy', 'por', 'dado', 'consigo', 'lugar', 'aquel', 'cuatro', 'estaban', 'fui', 'aquellos', 'será', 

In [11]:
# Returns a text with data quality
def text_quality(text):
    new_text = text.replace('\n', '')
    return new_text.strip('\r\n')

# Print out named first 50 entities
for ix in range(50):
    ent = doc_es.ents[ix]
    ent_text = text_quality(ent.text)
    
    if len(ent_text) > 3:
        print((ix + 1), '- Entity:', ent_text, ', Label:', ent.label_)

1 - Entity: The Cricket of the Heard , Label: MISC
2 - Entity: Charles DickensEste , Label: PER
3 - Entity: Capítulo ICapítulo IICapítulo IIICapítulo IV , Label: PER
4 - Entity: Primer grito , Label: MISC
6 - Entity: No necesito que me contéis , Label: MISC
7 - Entity: Peerybingle dijera , Label: MISC
8 - Entity: Dejad , Label: MISC
9 - Entity: Peerybingle , Label: MISC
10 - Entity: Tengo , Label: MISC
11 - Entity: El puchero empezó , Label: MISC
13 - Entity: Por nada del mundo opondría mi opinión , Label: MISC
14 - Entity: Peerybingle , Label: MISC
15 - Entity: Pero se trata de una cuestión de hecho , Label: MISC
16 - Entity: Si insistís , Label: MISC
17 - Entity: ¿cómo , Label: MISC
18 - Entity: Una lucha musical , Label: MISC
19 - Entity: Vais , Label: LOC
20 - Entity: Euclides , Label: PER
21 - Entity: La señora Peerybingle , Label: MISC
22 - Entity: De vuelta ya , Label: MISC
23 - Entity: Peerybingle , Label: MISC
24 - Entity: Entonces perdió su sangre fría , Label: MISC
25 - Enti

### Step 3 - Work with sentences and POS

In [12]:
# How many sentences are in the text?
sentences = [s for s in doc_es.sents]
len(sentences)

1621

In [13]:
# Show the first 10 sentences
sentences[1:11]

[No necesito que me contéis lo que la señora Peerybingle dijera; yo me entiendo.,
 Dejad que la señora Peerybingle se pase hasta la consumación de los siglos asegurando la imposibilidad de decidir cuál empezó: yo digo que fue el puchero.,
 Tengo motivos para saberlo.,
 El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.,
 ¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a izquierda y luego de izquierda a derecha ante la fachada de su palacio morisco, no hubiese segado medio acre de césped imaginario antes que el grillo hubiese hecho notar su presencia!,
 A decir verdad, no fui nunca terco, como todo el mundo sabe.,
 Por nada del mundo opondría mi opinión personal a la opinión de la señora Peerybingle, si no estuviese perfectamente seguro de lo ocurrido.,
 «Nada me induciría a semejante cosa.,
 Pero se trata de una c

In [14]:
# Get the sentences in which the 'grillo' appears
cricket_sent = [sent for sent in doc_es.sents if 'grillo' in sent.string]
len(cricket_sent)

48

In [15]:
# Show the first 10 sentences in which the 'grillo' appears
cricket_sent[1:11]

[El puchero empezó cinco minutos antes que el grillo, según el relojito holandés de cuadrante barnizado situado en el rincón.,
 ¡Como si el reloj no hubiese cesado de tocar! ¡Como si el segadorcido de movimientos convulsivos y bruscos que lo remata, paseando la hoz de derecha a izquierda y luego de izquierda a derecha ante la fachada de su palacio morisco, no hubiese segado medio acre de césped imaginario antes que el grillo hubiese hecho notar su presencia!,
 Pero se trata de una cuestión de hecho, y el hecho es que el puchero empezó por lo menos cinco minutos antes que el grillo hubiese dado señal de vida.,
 Parecía que la vasija y el grillo luchaban.,
 La lluvia congelada hace resbaladizo el camino; más abajo el agua no se ha convertido del todo en hielo, pero ya no es libre; nada conserva su forma natural; pero ¡él viene, él viene, él viene!
 Aquí, precisamente en este punto, fue cuando el grillo entró en escena con un crrri, crrri, crrri, de magnífica potencia a coro con el pucher

In [16]:
# Returns the most common entities and their quantity
def find_entities(doc, ent_type):
    entities = Counter()
    
    for ent in doc.ents:
        if ent.label_ == ent_type:
            ent_name = text_quality(ent.lemma_)
            entities[ent_name] += 1
    
    return entities.most_common()

In [17]:
# Show entities of type PERSON
print(find_entities(doc_es, 'PER'))

[('John', 132), ('Dot', 82), ('May', 38), ('Tackleton', 38), ('Berta', 32), ('John Peerybingle', 16), ('Tilly', 14), ('Fielding', 10), ('Boxer', 8), ('Dots', 8), ('John !', 7), ('Caleb Plummer', 7), ('Eduardo', 7), ('Dios', 5), ('¿', 5), ('Gruff', 5), ('Dot-', 5), ('Pero', 4), ('Nada', 4), ('May Fielding', 4), ('He', 3), ('John ?', 3), ('Puedo', 3), ('Cuando', 3), ('Sol', 3), ('Pues', 3), ('¡ Cuán', 3), ('Sois', 2), ('Tenía', 2), ('Estoy', 2), ('Voy', 2), ('Además', 2), ('Ignoro', 2), ('Hay', 2), ('Caleb', 2), ('¿ Acaso', 2), ('Vos', 2), ('Charles Dickens  Este', 1), ('Capítulo I  Capítulo II  Capítulo III  Capítulo IV', 1), ('Euclides', 1), ('George', 1), ('Habríais', 1), ('¡ Crrri', 1), ('Daba', 1), ('John !  -¡Bah !', 1), ('¡ Mirad', 1), ('Estuve', 1), ('Decid', 1), ('Absorta', 1), ('Quería', 1), ('Esperaré', 1), ('Abrid', 1), ('Apodo', 1), ('N. del T. )', 1), ('G.', 1), ('Shem', 1), ('Hams', 1), ('Hela', 1), ('¡ Ojalá', 1), ('Vuestro', 1), ('Tal', 1), ('Caleb !', 1), ('Acabo', 1), 

In [18]:
# Part of speech (POS) used in the document
set(token.pos_ for token in doc_es)

{'ADJ',
 'ADP',
 'ADV',
 'AUX',
 'CONJ',
 'DET',
 'INTJ',
 'NOUN',
 'NUM',
 'PART',
 'PRON',
 'PROPN',
 'PUNCT',
 'SCONJ',
 'SPACE',
 'SYM',
 'VERB'}

<hr>
<p><a href="https://github.com/ansegura7/NLP/">« Home</a></p>