<img style="float: left;;" src='Figures/alinco.png' /></a>

# Modulo I: Tokenización


El primer paso para crear un objeto `Doc` es dividir el texto entrante en partes componentes o" tokens ".

In [1]:
# importar Spacy
import spacy
nlp = spacy.load('en_core_web_sm')

In [4]:
# Crear un string
mystring = '"We\'re moving to L.A.!"'
print(mystring)

"We're moving to L.A.!"


In [5]:
# crear un obj tipo doc
doc = nlp(mystring)

for token in doc:
    print(token.text, end = ' | ')

" | We | 're | moving | to | L.A. | ! | " | 

<img src="Figures/tokenization.png" width="600">

-  **Prefijos**:	Character(s) at the beginning &#9656; `$ ( “ ¿`
-  **Sufijos**:	Character(s) at the end &#9656; `km ) , . ! ”`
-  **Infijo**:	Character(s) in between &#9656; `- -- / ...`
-  **Excepción**: Special-case rule to split a string into several tokens or prevent a token from being split when punctuation rules are applied &#9656; `St. U.S.`

Notar que los tokens son partes del texto original.Los tokens son los bloques de construcción básicos de un objeto Doc: todo lo que ayuda a entender el significado del texto se deriva de los tokens y su relación entre sí.

## Prefijos, sufijos e infijos

spaCy aislará la puntuación que *no* forma parte integral de una palabra. A las comillas, comas y los puntos finales de una oración se les asignará su propio token. Sin embargo, la puntuación que existe como parte de una dirección de correo electrónico, sitio web o valor numérico se mantendrá como parte del token.

In [6]:
doc2 =  nlp(u"We're here to help! Send snail-mail, email support@oursite.com or visit us at http://www.oursite.com!")

for t in doc2:
    print(t)

We
're
here
to
help
!
Send
snail
-
mail
,
email
support@oursite.com
or
visit
us
at
http://www.oursite.com
!


<font color=green>Tenga en cuenta que los signos de exclamación, la coma y el guión en 'snail-mail' tienen asignados sus propios tokens, pero se conservan tanto la dirección de correo electrónico como el sitio web.</font>

In [8]:
doc3 = nlp(u'A 5km NYC cab ride costs $10.30')
for t in doc3:
    print(t)

A
5
km
NYC
cab
ride
costs
$
10.30


<font color=green>Aquí, a la unidad de distancia y al signo de dólar se les asignan sus propias fichas, pero se conserva la cantidad en dólares.</font>

## Excepciones
La puntuación que existe como parte de una abreviatura conocida se mantendrá como parte del token.

In [11]:
doc4 = nlp(u"Let's visit St. Louis in the U.S. next year.")
for t in doc4:
    print(t)


Let
's
visit
St.
Louis
in
the
U.S.
next
year
.


<font color=green>Aquí se conservan las abreviaturas de "Saint" y "United States".</font>

## Contando Tokens
Los objetos `Doc` tienen un número determinado de tokens:

In [12]:
len(doc)

8

## Contar entradas de vocabulario
¡Los objetos `Vocab` contienen una biblioteca completa de elementos!

In [13]:
len(doc.vocab)

791

<font color=green>NOTA: Este número cambia según la biblioteca de idiomas cargada al principio y cualquier lexema nuevo introducido en el `vocab` cuando se creó el` Doc`.</font>

## Recuperación de Tokens

Los objetos `Doc` se pueden considerar como listas de objetos `token`. Como tal, los tokens individuales se pueden recuperar por posición de índice, y los tramos de tokens se pueden recuperar mediante el corte: 

In [15]:
doc5 = nlp(u'It is better to give than to receive.')
doc5[5]


than

In [16]:
doc5[2:5]

better to give

In [18]:
doc5[-6:]

to give than to receive.

## Los tokens no se pueden reasignar
Aunque los objetos `Doc` pueden considerarse listas de tokens, *no* admiten la reasignación de elementos:

In [19]:
doc6 = nlp(u'My dinner was horrible.')
doc7 = nlp(u'Your dinner was delicious.')

In [20]:
doc6[3] = doc7[3]

TypeError: 'spacy.tokens.doc.Doc' object does not support item assignment

___
# Entidades nombradas
Yendo un paso más allá de los tokens, * entidades con nombre * agregan otra capa de contexto. El modelo de lenguaje reconoce que ciertas palabras son nombres de organizaciones mientras que otras son ubicaciones, y otras combinaciones se relacionan con dinero, fechas, etc. Las entidades nombradas son accesibles a través de la propiedad `ents` de un objeto` Doc`.

In [22]:
doc8 = nlp(u'Apple to build a Hong Kong factory for $6 million')

for token in doc8:
    print(token.text, end=' | ')
    
print('\n----')

for ent in doc8.ents:
    print(ent.text + ' - ' + ent.label_ + ' - ' +str(spacy.explain(ent.label_)))

Apple | to | build | a | Hong | Kong | factory | for | $ | 6 | million | 
----
Apple - ORG - Companies, agencies, institutions, etc.
Hong Kong - GPE - Countries, cities, states
$6 million - MONEY - Monetary values, including unit


<font color=green>Observe cómo dos tokens se combinan para formar la entidad "Hong Kong" y tres tokens se combinan para formar la entidad monetaria: "$ 6 millones".</font>

In [15]:
len(doc8.ents)

3

El reconocimiento de entidades con nombre (NER) es una importante herramienta de aprendizaje automático aplicada al procesamiento del lenguaje natural. <br> Haremos mucho más con ella en una próxima sección. Para obtener más información sobre **entidades nombradas**, visite https://spacy.io/usage/linguistic-features#named-entities

---
# Noun chunks

Similar a `Doc.ents`,` Doc.noun_chunks` son otra propiedad del objeto. *Noun chunks* son "frases sustantivas básicas": frases planas que tienen un sustantivo como encabezado. Puedes pensar en los fragmentos de sustantivo como un sustantivo más las palabras que describen el sustantivo, por ejemplo, en [la canción de Sheb Wooley de 1958] (https://en.wikipedia.org/wiki/The_Purple_People_Eater), un *"one-eyed, one-horned, flying, purple people-eater"* sería un fragmento de sustantivo largo.

In [23]:
doc9 = nlp(u"Autonomous cars shift insurance liability toward manufacturers.")

for chunk in doc9.noun_chunks:
    print(chunk.text)

Autonomous cars
insurance liability
manufacturers


Red cars
higher insurance rates


In [25]:
doc11 = nlp(u"He was a one-eyed, one-horned, flying, purple people-eater.")
for chunk in doc11.noun_chunks:
    print(chunk.text)


He
a one-eyed, one-horned, flying, purple people-eater
