<a href="https://colab.research.google.com/github/alfa7g7/Analisis-Cuantitativo-1er-semestre/blob/main/Sesion1/2-tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenization

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Ohtar10/icesi-nlp/blob/main/Sesion1/2-tokenization.ipynb)

## Referencias
* [NLP - Natural Language Processing With Python](https://www.udemy.com/course/nlp-natural-language-processing-with-python)
* [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action)

Cada cuerpo de texto se compone de unos "elementos", estos elementos son unidades individuales conocidas como "tokens". Dividir el corpus en tokens es importante porque cada uno juega un papel importante y diferente a nivel semántico en el texto.

En este notebook expliraremos este concepto y como implementarlo con spacy.

In [1]:
import pkg_resources
import warnings

warnings.filterwarnings('ignore')

installed_packages = [package.key for package in pkg_resources.working_set]
IN_COLAB = 'google-colab' in installed_packages

  import pkg_resources


In [2]:
!test '{IN_COLAB}' = 'True' && wget  https://github.com/Ohtar10/icesi-nlp/raw/refs/heads/main/requirements.txt && pip install -r requirements.txt

--2026-02-07 15:17:58--  https://github.com/Ohtar10/icesi-nlp/raw/refs/heads/main/requirements.txt
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/Ohtar10/icesi-nlp/refs/heads/main/requirements.txt [following]
--2026-02-07 15:17:58--  https://raw.githubusercontent.com/Ohtar10/icesi-nlp/refs/heads/main/requirements.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 349 [text/plain]
Saving to: ‘requirements.txt’


2026-02-07 15:17:58 (11.6 MB/s) - ‘requirements.txt’ saved [349/349]

Collecting pandas==2.1.1 (from -r requirements.txt (line 1))
  Downloading pandas-2.1.1-cp312-cp312-manylinux_2_17_

In [1]:
import spacy
nlp = spacy.load("en_core_web_sm")

mystring = '"We\'re moving to L.A.!"'
print(mystring)

"We're moving to L.A.!"


## Tokenization con Spacy

Al inicio hemos dicho que los tokens son unos "elementos" que usamos para dividir el corpus. He usado la palabra elementos porque un token no está restringido únicamente a palabras, un token pueden ser n-gramas o incluso cada letra puede ser considerado un token. Todo depende de la tarea y el nivel de especificidad.

Por defecto, spacy tokeniza por palabras y algunos signos de puntuación. Observemos lo que hace Spacy con la oración que hemos definido antes.

In [2]:
doc = nlp(mystring)
for token in doc:
    print(token)

"
We
're
moving
to
L.A.
!
"


Spacy es capaz de entender textos complejos como correos electrónicos y direcciones web, además del role que cada caracter juega en la oración.

In [3]:
doc2 = nlp(u"We're here to help! Send snail-mail, email support@oursite.com or visit us at http://www.oursite.com!")

for t in doc2:
    print(t)

We
're
here
to
help
!
Send
snail
-
mail
,
email
support@oursite.com
or
visit
us
at
http://www.oursite.com
!


Observemos que en este caso el caracter punto (.) es utilizado en el correo y la url pero no fue interpretado como un token independiente.

## Entidades
Spacy tiene el poder de inferir entidades o sustantivos.

In [4]:
doc = nlp("Apple to build a Hong Kong factory for $6 million.")
for entity in doc.ents:
    print(entity)
    print(entity.label_)
    print(str(spacy.explain(entity.label_)))
    print('\n')

Apple
ORG
Companies, agencies, institutions, etc.


Hong Kong
GPE
Countries, cities, states


$6 million
MONEY
Monetary values, including unit




Observemos como la libreria es capaz de pre-clasificar algunas palabras en cuanto a que posiblemente hacen referencia.

##  Trozos de sustantivos
Spacy es capaz de detectar sustantivos compuestos, es decir sustantivos que están compuestos por más de una palabra.

In [5]:
doc = nlp("Autonomous cars shift insurance liability toward manufacturers.")
for chunk in doc.noun_chunks:
    print(chunk)

Autonomous cars
insurance liability
manufacturers


Observemos que en el ejemplo anterior "Autonomous car" es un sustantivo compuesto y spacy es capaz de identificarlo como un trozo.

Este es un caso particular en el inglés, en los diccionarios en español podrían haber otras peculiaridades.

## Displaycy

Este es un modulo para visualizar objetos spacy. Resulta muy útil para dibujar la relación semantica detectada entre los tokens.

In [6]:
from spacy import displacy

doc = nlp("Apple is going to build a U.K. factory for $6 million.")
# dep for syntactic dependency
displacy.render(doc, style='dep', jupyter=True, options={'distance': 110})

In [7]:
doc = nlp("Over the last quarter Apple sold nearly 20 thousand iPds for  profit of $6 million.")
# dep for syntactic dependency
displacy.render(doc, style='ent', jupyter=True)