<a href="https://colab.research.google.com/github/isegura/PLN-tema1/blob/main/1_tokenization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicios sobre Tokenización


Implementa un código (en Python) que permita tokenizar el siguiente texto:

*Hello, how are you? I’m fine :) Email me at a isegura@inf.uc3m.es or visit https://hulat.inf.uc3m.es/nosotros/miembros/isegura.
*

Preguntas:

- ¿Qué problemas observas en los tokens obtenidos?
- ¿Qué pasa con la puntuación?
- ¿Cómo se tratan la URL y el email?


In [15]:
text = "Hello, how are you? I’m fine :) Email me at a isegura@inf.uc3m.es or visit https://hulat.inf.uc3m.es/nosotros/miembros/isegura."
tokens = text.split()
print(tokens)

['Hello,', 'how', 'are', 'you?', 'I’m', 'fine', ':)', 'Email', 'me', 'at', 'a', 'isegura@inf.uc3m.es', 'or', 'visit', 'https://hulat.inf.uc3m.es/nosotros/miembros/isegura.']


## Tokenización con nltk

NLTK es una biblioteca de Python para tareas básicas de PLN.

Preguntas:

- ¿Qué tokens aparecen ahora correctamente separados?
- ¿Cómo se tokeniza I’m?
- ¿El emoticono :) se trata como un token independiente?


In [22]:
import nltk

# Necesitamos descargar algunos modulos de nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [23]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
print(tokens)


['Hello', ',', 'how', 'are', 'you', '?', 'I', '’', 'm', 'fine', ':', ')', 'Email', 'me', 'at', 'a', 'isegura', '@', 'inf.uc3m.es', 'or', 'visit', 'https', ':', '//hulat.inf.uc3m.es/nosotros/miembros/isegura', '.']


NLTK es capaz de separar los signos de puntuación correctamente, pero sigue teniendo algunos problemas:
- No maneja correctamente los emojis
- No maneja correctamente los emails.
- No maneja correctamente las urls.

Podemos utilizar un tokenizador especial como TweetTokenizer, que si será capaz de tratar de forma correcta los emojis, emails y urls.

In [24]:
from nltk.tokenize import TweetTokenizer

tt = TweetTokenizer()
tokens = tt.tokenize(text)

print(tokens)


['Hello', ',', 'how', 'are', 'you', '?', 'I', '’', 'm', 'fine', ':)', 'Email', 'me', 'at', 'a', 'isegura@inf.uc3m.es', 'or', 'visit', 'https://hulat.inf.uc3m.es/nosotros/miembros/isegura', '.']


## Tokenización con Spacy



In [25]:
import spacy

# Cargar modelo en inglés (descargar antes si es necesario)
# python -m spacy download en_core_web_sm
nlp = spacy.load("en_core_web_sm")

text = "Hello, how are you? I’m fine :) Email me at isegura@inf.uc3m.es or visit https://hulat.inf.uc3m.es/nosotros/miembros/isegura."

doc = nlp(text)

tokens = [token.text for token in doc]
print(tokens)


['Hello', ',', 'how', 'are', 'you', '?', 'I', '’m', 'fine', ':)', 'Email', 'me', 'at', 'isegura@inf.uc3m.es', 'or', 'visit', 'https://hulat.inf.uc3m.es/nosotros/miembros/isegura', '.']
