<h2 align="center">Spacy Tokenization</h2>

In [1]:
import spacy

Crear un objeto lingüístico en blanco y tokenizar las palabras de una frase

In [2]:
# Al crear un objeto de lenguaje vacío se obtiene un tokenizador y un canal vacío.
nlp = spacy.blank("es")

doc = nlp("Dr. Simi es un personaje le encanta comer tacos de canasta, ya que cuestan $10.00 pesos.")

for token in doc:
    print(token.text)

Dr.
Simi
es
un
personaje
le
encanta
comer
tacos
de
canasta
,
ya
que
cuestan
$
10.00
pesos
.


<h3>Utilizar el índice para capturar tokens</h3>

In [5]:
# Se obtiene el primer token de la frase
doc[0]

Dr.

In [6]:
# Se obtiene el indice 1 de la frase
token = doc[1]
token.text

'Simi'

In [7]:
# dir(token) muestra los atributos y métodos del token
dir(token)

['_',
 '__bytes__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 'ancestors',
 'check_flag',
 'children',
 'cluster',
 'conjuncts',
 'dep',
 'dep_',
 'doc',
 'ent_id',
 'ent_id_',
 'ent_iob',
 'ent_iob_',
 'ent_kb_id',
 'ent_kb_id_',
 'ent_type',
 'ent_type_',
 'get_extension',
 'has_dep',
 'has_extension',
 'has_head',
 'has_morph',
 'has_vector',
 'head',
 'i',
 'idx',
 'iob_strings',
 'is_alpha',
 'is_ancestor',
 'is_ascii',
 'is_bracket',
 'is_currency',
 'is_digit',
 'is_left_punct',
 'is_lower',
 'is_oov',
 'is_punct',
 'is_quote',
 'is_right_punct',
 'is_sent_end',
 'is_sent_start',
 'is_space',
 'is_stop',
 'is_title',
 'is_upper',
 'lang

In [8]:
# type/nlp) muestra el tipo de objeto del nlp
type(nlp)

spacy.lang.es.Spanish

In [9]:
# type(doc) muestra el tipo de objeto del documento
type(doc)

spacy.tokens.doc.Doc

In [10]:
# type(token) muestra el tipo de objeto del token
type(token)

spacy.tokens.token.Token

In [81]:
# nlp.pipe_names muestra los nombres de los componentes del pipeline
nlp.pipe_names

[]

<h3>Objeto span</h3>

In [82]:
span = doc[0:5]
span

Aguachile es un platillo

In [13]:
type(span)

spacy.tokens.span.Span

<h3>Atributos de los tokens</h3>

In [52]:
doc = nlp("Simi le dio $500 a su amigo para comprar tacos.")

In [53]:
# Aqui se obtiene el primer token de la frase (Simi) Token0
token0 = doc[0]
token0

Simi

In [54]:
# Es Alfabético el token0 (Simi)?
token0.is_alpha

True

In [55]:
# Es un número el token0 (Simi)?
token0.like_num

False

In [66]:
# Obtenemos el Token3 de la frase ($)
token3 = doc[3]
token3

$

In [67]:
# Es un número el token3 ($)?
token3.like_num

False

In [68]:
# Es una moneda el token3 ($)?
token3.is_currency

True

In [69]:
# Obtenemos el Token4 de la frase (500)
token4 = doc[4]
token4

500

In [70]:
token4.like_num

True

In [71]:
token4.is_currency

False

In [75]:
for token in doc:
    print(token, "==>", "index: ", token.i, "is_alpha (Alfabético):", token.is_alpha, 
          ", is_punct (Puntuación):", token.is_punct, 
          ", like_num (Numero):", token.like_num,
          ", is_currency (Divisa/Moneda):", token.is_currency, "\n"
         )

Simi ==> index:  0 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

le ==> index:  1 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

dio ==> index:  2 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

$ ==> index:  3 is_alpha (Alfabético): False , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): True 

500 ==> index:  4 is_alpha (Alfabético): False , is_punct (Puntuación): False , like_num (Numero): True , is_currency (Divisa/Moneda): False 

a ==> index:  5 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

su ==> index:  6 is_alpha (Alfabético): True , is_punct (Puntuación): False , like_num (Numero): False , is_currency (Divisa/Moneda): False 

amig

 <h3>Personalización del tokenizador</h3>

In [76]:
# ORTH es un atributo que se utiliza para personalizar el tokenizador
from spacy.symbols import ORTH

nlp = spacy.blank("es")
doc = nlp("Aguachile es un platillo un poco picoso")

# Aquí se obtiene los tokens de la frase
tokens = [token.text for token in doc]
tokens

['Aguachile', 'es', 'un', 'platillo', 'un', 'poco', 'picoso']

In [80]:
# Se personaliza el tokenizador para que divida la palabra Aguachile en dos palabras Agua y chile
nlp.tokenizer.add_special_case("Aguachile", [
    {ORTH: "Agua"},
    {ORTH: "chile"},
])

# Se tokeniza nuevamente la frase
doc = nlp("Aguachile es un platillo un poco picoso")
tokens = [token.text for token in doc]
tokens

['Agua', 'chile', 'es', 'un', 'platillo', 'un', 'poco', 'picoso']

<h3>Tokenización o segmentación de frases</h3>

In [89]:
nlp.pipeline

[('sentencizer', <spacy.pipeline.sentencizer.Sentencizer at 0x1d31844dc50>)]

In [99]:
# nlp.add_pipe('sentencizer') se agrega un componente al pipeline para poder segmentar las frases
try:
    nlp.add_pipe('sentencizer')
except ValueError:
    print("El componente ya está en el pipeline")

El componente ya está en el pipeline


In [97]:
doc = nlp("Dr. Simi le gusta comer tacos de canasta. Los tacos de canasta cuestan $10.00 pesos cada uno.")

for sentence in doc.sents:
    print(sentence)

Dr. Simi le gusta comer tacos de canasta.
Los tacos de canasta cuestan $10.00 pesos cada uno.


In [100]:
for token in doc:
    print(token)

Dr.
Simi
le
gusta
comer
tacos
de
canasta
.
Los
tacos
de
canasta
cuestan
$
10.00
pesos
cada
uno
.
