# Tokenization 

This notebook focuses on word-based tokenization.

For sub-word tokenization, Please check [Hugging Face Tokenizers](https://huggingface.co/docs/tokenizers/quicktour) for an overview, and for easily training your own tokenizer.

In [None]:
%pip install nltk

In [2]:
import gzip
import re
import nltk

Caso esteja a utilizar o google colab, deve seguir as instruções disponíveis no moodle
e correr a célula seguinte

In [3]:
if 'google.colab' in str(get_ipython()):
    nltk.download('punkt')

In [4]:
text = """Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura.
"""

Quantas palavras diferentes podemos encontrar neste texto?

## Tokenização baseada em palavras


### Formas básicas de identificar os *tokens* de um texto
* Usar os espaços

In [None]:
tokens = text.split()
print(tokens)

Verificamos que há tokens que fazem pouco sentido: e.g. `"mosaico"`, `quadrados.`, ...

Uma forma de resolver o problema poderá envolver processamento do texto, por exemplo separando os carateres `"` e `.` das palavras à sua volta.

In [None]:
text2 = re.sub(r'([.\"])', ' \\1 ', text)
text2 = re.sub(r' +', ' ', text2)
print(text2)

Agora sim, já será possivel obter uma segmentação mais interessante...

In [None]:
print(text2.split())

Façamos agora algum pré-processamento básico inicial para juntar as várias frases numa única linha e transformar tudo em minúsculas

In [None]:
text2 = re.sub(r'[\n\r]', "", text2).lower()
print(text2)

Depois do pré-processamento inicial, calcular a frequência de cada token

In [None]:
import collections
freq = collections.Counter(text2.split())
print(freq)

In [None]:
freq["que"]

### (opcional) Uso de expressões regulares

As expresssões regulares têm inúmeras aplicações: filtragem, obtenção de padões, etc.

Options:
- `re.I`: perform case-insensitive matching
- `re.MULTILINE`: When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline)
- `re.DOTALL`: Make the '.' special character match any character at all, including a newline

In [None]:
matches = re.findall(r"^[A-Z][a-z]+", text, re.MULTILINE)
print(matches)

In [None]:
matches = re.findall(r"^\w+", text, re.MULTILINE)
print(matches)

In [None]:
# outros testes: por exemplo, identificar todas as sequências de letras ou números
print(text)
palavras = re.sub(r"(\w+)", '<\\1>', text)
print(palavras)

### Tokenização usando NLTK
Observe que para além dos sinais de pontuação, tais como "." e ",", as aspas também podem representar um problema. 

In [None]:
print(text)

In [None]:
tokens=nltk.word_tokenize(text)
print(tokens)

Tratamento de casos particulares, tais como abreviaturas, siglas, acrónimos e quantidades

In [None]:
text= "Dr. Peter mentioned that the U.S.A. poster-print costs $12.40..."
tokens=nltk.word_tokenize(text)
print(tokens)

### Tokenização de Tweets

O mesma solução não produz um bom resultado quando aplicada, por exemplo, a tweets

In [None]:
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"

print(nltk.word_tokenize(tweet))

In [None]:
from nltk.tokenize import TweetTokenizer
mytkzr = TweetTokenizer()
print(mytkzr.tokenize(tweet))

Outro exemplo ...

In [None]:
tweet = "Olá @manuel_silva, #text-mining rulezzzz. :)"
print(mytkzr.tokenize(tweet))

## Exemplos adicionais com ficheiros

Antes de continuar, certifique-se que fez o download dos dados previamente conforme instruções fornecidas em [download dos dados utilizados nos exemplos](./using-tm-data.ipynb)

In [None]:
import gzip
with gzip.open("../data/pt/tsf.selecionado/not_4180883.gz", "rt", encoding="utf-8") as f:
    lines = f.readlines()
    text  = "".join(lines)

print(text)

In [None]:
import nltk
words = nltk.word_tokenize(text)
print(" | ".join(words))