## Instalación de librerías
### MAC
```
pip install -U pip setuptools wheel
pip install -U 'spacy[apple]'
python -m spacy download es_dep_news_trf
```
### WINDOWS
```
pip install -U pip setuptools wheel
pip install -U spacy
python -m spacy download es_dep_news_trf
```

[https://spacy.io/usage](https://spacy.io/usage).

In [58]:
# Import spaCy
import spacy
import pathlib
from collections import Counter
from spacy import displacy
from spacy.matcher import Matcher

# Create a blank English nlp object
nlp = spacy.blank("en")

In [59]:
# Created by processing a string of text with the nlp object
doc = nlp("Hello world!")

# Iterate over tokens in a Doc
for token in doc:
    print(token.text)

Hello
world
!


In [60]:
# Index into the Doc to get a single Token
token = doc[1]

# Get the token text via the .text attribute
print(token.text)

world


In [61]:
# A slice from the Doc is a Span object
span = doc[1:3]

# Get the span text via the .text attribute
print(span.text)

world!


## Lexical attributes

In [62]:
doc = nlp("It costs $5.")
print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])
print("is_punct:", [token.is_punct for token in doc])
print("like_num:", [token.like_num for token in doc])

Index:    [0, 1, 2, 3, 4]
Text:     ['It', 'costs', '$', '5', '.']
is_alpha: [True, True, False, False, False]
is_punct: [False, False, False, False, True]
like_num: [False, False, False, True, False]


In [63]:
nlp = spacy.load("es_core_news_sm")

In [64]:
doc = nlp(
"Este ejemplo es sobre procesado de lenguaje natural con spaCy."
)
print(type(doc))
[token.text for token in doc]


<class 'spacy.tokens.doc.Doc'>


['Este',
 'ejemplo',
 'es',
 'sobre',
 'procesado',
 'de',
 'lenguaje',
 'natural',
 'con',
 'spaCy',
 '.']

In [65]:
file_name = "./docs/doc1.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))
print([token.text for token in doc])


['Este', 'ejemplo', 'es', 'sobre', 'procesado', 'de', 'lenguaje', 'natural', 'con', 'spaCy', '.']


## Detección de frases

In [66]:
about_text = (
    "Gustavo es un estudiante de Ciencia de datos"
    " que trabaja en una empresa"
    " internacional. Él está muy interesado"
    " en aprender procesado de lenguaje natural."
    " Gustavo estudia mucho"
)
about_doc = nlp(about_text)

# Add the 'sentencizer' component to the pipeline
nlp.add_pipe('sentencizer')
sentences = list(about_doc.sents)
len(sentences)
for sentence in sentences:
    print(f"{sentence[:10]}...")

Gustavo es un estudiante de Ciencia de datos que trabaja...
Él está muy interesado en aprender procesado de lenguaje natural...
Gustavo estudia mucho...


## Tokens

In [67]:
for token in about_doc:
    print (token, token.idx)

Gustavo 0
es 8
un 11
estudiante 14
de 25
Ciencia 28
de 36
datos 39
que 45
trabaja 49
en 57
una 60
empresa 64
internacional 72
. 85
Él 87
está 90
muy 95
interesado 99
en 110
aprender 113
procesado 122
de 132
lenguaje 135
natural 144
. 151
Gustavo 153
estudia 161
mucho 169


## Token attributes

[https://spacy.io/api/token#attributes](https://spacy.io/api/token#attributes)

In [68]:
print(
    f"{'Text with Whitespace':22}"
    f"{'Is Alphabetic?':20}"
    f"{'Is Punctuation?':18}"
    f"{'Is title Word?'}"
)
for token in about_doc:
    print(
        f"{str(token.text_with_ws):22}"
        f"{str(token.is_alpha):20}"
        f"{str(token.is_punct):18}"
        f"{str(token.is_title)}"
    )

Text with Whitespace  Is Alphabetic?      Is Punctuation?   Is title Word?
Gustavo               True                False             True
es                    True                False             False
un                    True                False             False
estudiante            True                False             False
de                    True                False             False
Ciencia               True                False             True
de                    True                False             False
datos                 True                False             False
que                   True                False             False
trabaja               True                False             False
en                    True                False             False
una                   True                False             False
empresa               True                False             False
internacional         True                False             False
.  

## Stop Words

Las "stop words" generalmente se definen como las palabras más comunes en un idioma. En español, algunos ejemplos de "stop words" son el, la, los, las, son, están, pero, ellos, ellas. La mayoría de las oraciones necesitan contener "stop words" para ser oraciones completas que tengan sentido gramatical.

En el procesamiento de lenguaje natural. las "stop words" generalmente se eliminan porque no son significativas y distorsionan en gran medida cualquier análisis de frecuencia de palabras. 

In [69]:
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS
print(len(spacy_stopwords))

for stop_word in list(spacy_stopwords)[:10]:
    print(stop_word)

521
mis
arriba
usas
adelante
conseguir
sabe
estados
haya
sabes
nos


In [70]:
print([token.text for token in about_doc if token.text.lower() not in spacy_stopwords])

['Gustavo', 'estudiante', 'Ciencia', 'datos', 'trabaja', 'empresa', 'internacional', '.', 'interesado', 'aprender', 'procesado', 'lenguaje', 'natural', '.', 'Gustavo', 'estudia']


# Lematización
La lematización es el proceso de reducir las formas flexionadas de una palabra mientras se asegura que la forma reducida pertenezca al idioma. Esta forma reducida, o palabra raíz, se llama "lemma".

In [71]:
for token in about_doc:
    if str(token) != str(token.lemma_):
        print(f"{str(token):>20} : {str(token.lemma_)}")

                  es : ser
                  un : uno
               datos : dato
             trabaja : trabajar
                 una : uno
                  Él : él
                está : estar
                 muy : mucho
             estudia : estudiar


# Frecuencia de palabras

In [72]:
words = [
    token.text
    for token in about_doc
    if not token.is_stop and not token.is_punct
]

print(Counter(words).most_common(5))

[('Gustavo', 2), ('estudiante', 1), ('Ciencia', 1), ('datos', 1), ('trabaja', 1)]


In [73]:
Counter(
    [token.text for token in about_doc
    if not token.is_punct]
).most_common(5)

[('de', 3), ('Gustavo', 2), ('en', 2), ('es', 1), ('un', 1)]

In [74]:
words = [
    str(token.lemma_)
    for token in about_doc
    if not token.is_stop and not token.is_punct
]

print(Counter(words).most_common(5))

[('Gustavo', 2), ('estudiante', 1), ('Ciencia', 1), ('dato', 1), ('trabajar', 1)]


# POS
Part-of-speech tagging

In [75]:
for token in about_doc:
    print(
        f"""
TOKEN: {str(token)}
=====
TAG: {str(token.tag_):10} POS: {token.pos_}
EXPLANATION: {spacy.explain(token.tag_)}"""
    )


TOKEN: Gustavo
=====
TAG: PROPN      POS: PROPN
EXPLANATION: proper noun

TOKEN: es
=====
TAG: AUX        POS: AUX
EXPLANATION: auxiliary

TOKEN: un
=====
TAG: DET        POS: DET
EXPLANATION: determiner

TOKEN: estudiante
=====
TAG: NOUN       POS: NOUN
EXPLANATION: noun

TOKEN: de
=====
TAG: ADP        POS: ADP
EXPLANATION: adposition

TOKEN: Ciencia
=====
TAG: PROPN      POS: PROPN
EXPLANATION: proper noun

TOKEN: de
=====
TAG: ADP        POS: ADP
EXPLANATION: adposition

TOKEN: datos
=====
TAG: NOUN       POS: NOUN
EXPLANATION: noun

TOKEN: que
=====
TAG: PRON       POS: PRON
EXPLANATION: pronoun

TOKEN: trabaja
=====
TAG: VERB       POS: VERB
EXPLANATION: verb

TOKEN: en
=====
TAG: ADP        POS: ADP
EXPLANATION: adposition

TOKEN: una
=====
TAG: DET        POS: DET
EXPLANATION: determiner

TOKEN: empresa
=====
TAG: NOUN       POS: NOUN
EXPLANATION: noun

TOKEN: internacional
=====
TAG: ADJ        POS: ADJ
EXPLANATION: adjective

TOKEN: .
=====
TAG: PUNCT      POS: PUNCT
EXPLANA

In [76]:
nouns = []
adjectives = []
for token in about_doc:
    if token.pos_ == "NOUN":
        nouns.append(token)
    if token.pos_ == "ADJ":
        adjectives.append(token)


print(nouns)
print('\n')
print(adjectives)

[estudiante, datos, empresa, lenguaje]


[internacional, interesado, procesado, natural]


## Visualization: Using displaCy

In [77]:
displacy.render(about_doc, style="dep", jupyter=True)

# Funciones de preprocesamiento

Se creará una función para limpiar texto, el resultado no contiene ninguna palabra de parada (stop words) ni símbolos de puntuación, y está compuesto únicamente por tokens lematizados en minúsculas.

In [78]:
file_name = "./docs/doc2.txt"
doc2 = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

In [79]:
complete_doc = nlp(doc2)

def is_token_allowed(token):
    allowed_conditions = (
        token,
        str(token).strip(),
        not token.is_stop,
        not token.is_punct
    )
    return all(allowed_conditions)

def preprocess_token(token):
    lemma = token.lemma_.strip().lower()
    return lemma

complete_filtered_tokens = [
    preprocess_token(token)
    for token in complete_doc
    if is_token_allowed(token)
]

print(complete_filtered_tokens)


['principito', 'domesticó', 'zorro', 'acercar', 'día', 'partida', 'ah', 'zorro', 'lloraré.', 'culpa', 'principito', 'queríar', 'hacerte', 'daño', 'tú', 'haber', 'querer', 'domesticar', 'ciertamente', 'zorro', 'ir', 'llorar', 'él', 'principito', 'seguro', 'ganar', 'gano', 'zorro', 'ganar', 'causa', 'color', 'trigo', 'añadió', 'vetir', 'rosa', 'comprenderás', 'única', 'mundo', 'volverás', 'decir yo', 'adió', 'regalaré', 'secreto', 'principito', 'rosa', 'parecer', 'rosa', 'domesticar', 'domesticar', 'zorro', 'diferenciar', 'cien', 'mil', 'zorro', 'hacer', 'amigo', 'único', 'mundo', 'rosa', 'sentíir', 'molesto', 'oir', 'principito', 'continuó', 'diciéndol', 'bello', 'están', 'vacía', 'daría', 'vida', 'cualquiera', 'ver', 'podrá', 'creer', 'indudablemente', 'mí', 'rosa', 'cualquiera', 'más', 'importante', 'regar', 'abrigué', 'fanal', 'maté', 'gusano', 'mariposa', 'oído', 'quejar él', 'alabar él', 'callar él', 'rosa', 'volvió', 'zorro', 'adiós', 'adiós', 'zorro'

In [87]:
file_name = "./docs/doc3.txt"
doc3 = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))
calaverita = nlp(doc3)

In [88]:
matcher = Matcher(nlp.vocab)

# Define the pattern outside the function
pattern = [{"POS": "PROPN"}, {"POS": "PROPN"}]
matcher.add("FULL_NAME", [pattern])

def extract_full_name(nlp_doc):
    matches = matcher(nlp_doc)
    for _, start, end in matches:
        span = nlp_doc[start:end]
        yield span.text

# Use the extract_full_name function
for full_name in extract_full_name(calaverita):
    print(full_name)

Victor Cuspinera
Miguel Ramirez


# Noun Chunks

In [89]:
for chunk in complete_doc.noun_chunks:
    print (chunk)

esta manera
el principito
zorro
el día
la partida
el zorro
Tuya
le
el principito
daño
el zorro
él principito
nada
Gano —
el zorro
causa del color
trigo
las rosas
la tuya
el mundo
adiós
yo
un secreto
El principito
las rosas
nada
mi rosa
Nadie
las
ni ustedes
nadie
Son como el zorro
nada
otros
yo
le
mi amigo
el mundo
Las rosas
principito
que
vacías
ustedes
Cualquiera
que
las
podrá
indudablemente
que cualquiera
ustedes
ella
más importante
todas
yo
la
la que
el fanal
yo
los gusanos
que
mariposas
es a ella
yo
y algunas veces
mi rosa
Y volvió
el zorro
Adiós
Adiós
el zorro
mi secreto
que
el corazón
los ojos
los ojos
el principito
que
más
tu rosa
que
tú
ella
—Es el tiempo
yo
ella
—repitió
el principito
Los hombres
esta verdad
el zorro
tú
que
Tú
tu rosa
Yo
mi rosa
—repitió
el principito


In [91]:
file_name = "./docs/doc4.txt"
doc4 = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))
doc4 = nlp(doc4)

# Named-Entity Recognition

In [92]:
for ent in doc4.ents:
    print(
        f"""
{ent.text = }
{ent.start_char = }
{ent.end_char = }
{ent.label_ = }
spacy.explain('{ent.label_}') = {spacy.explain(ent.label_)}"""
)


ent.text = 'Nikola Tesla'
ent.start_char = 0
ent.end_char = 12
ent.label_ = 'PER'
spacy.explain('PER') = Named person or family.

ent.text = 'Smiljan'
ent.start_char = 14
ent.end_char = 21
ent.label_ = 'LOC'
spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water

ent.text = 'Imperio austríaco'
ent.start_char = 23
ent.end_char = 40
ent.label_ = 'LOC'
spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water

ent.text = 'Croacia'
ent.start_char = 49
ent.end_char = 56
ent.label_ = 'LOC'
spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water

ent.text = 'York'
ent.start_char = 84
ent.end_char = 88
ent.label_ = 'LOC'
spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water

ent.text = 'Tesla'
ent.start_char = 311
ent.end_char = 316
ent.label_ = 'LOC'
spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water

ent.text = 'Imperio austríaco'
ent.start_char = 344
ent.end_char = 361
ent.label_ = 'LOC'
sp

In [97]:
displacy.serve(doc4, style="ent", port=5001)




Using the 'ent' visualizer
Serving on http://0.0.0.0:5001 ...

Shutting down server on port 5001.
