# Tokenization 

This notebook focuses on word-based tokenization.

For sub-word tokenization, Please check [Hugging Face Tokenizers](https://huggingface.co/docs/tokenizers/quicktour) for an overview, and for easily training your own tokenizer.

In [1]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [2]:
import gzip
import re
import nltk

In [27]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ASUS\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

Caso esteja a utilizar o google colab, deve seguir as instruções disponíveis no moodle
e correr a célula seguinte

In [3]:
if 'google.colab' in str(get_ipython()):
    nltk.download('punkt')

In [4]:
text = """Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura.
"""

Quantas palavras diferentes podemos encontrar neste texto?

## Tokenização baseada em palavras


### Formas básicas de identificar os *tokens* de um texto
* Usar os espaços

In [5]:
tokens = text.split()
print(tokens)

['Espirais', 'do', 'Polo', 'Norte', 'de', 'Marte', 'mostradas', 'em', 'detalhe', 'A', 'Agência', 'Espacial', 'Europeia', 'pegou', 'em', '32', '"tiras"', 'de', 'órbitas', 'registadas', 'pela', 'sonda', 'Mars', 'Express', 'entre', '2004', 'e', '2010', 'e', 'criou', 'um', '"mosaico"', 'que', 'cobre', 'uma', 'área', 'de', 'cerca', 'de', 'um', 'milhão', 'de', 'quilómetros', 'quadrados.', '"Esta', 'informação', 'é', 'muito', 'importante', 'para', 'perceber', 'como', 'evoluiu', 'o', 'clima', 'no', 'planeta', 'à', 'medida', 'que', 'a', 'sua', 'inclinação', 'e', 'órbita', 'variavam', 'ao', 'longo', 'de', 'centenas', 'ou', 'mesmo', 'milhares', 'de', 'anos",', 'refere', 'a', 'ESA.', 'A', 'Estação', 'Espacial', 'Europeia', 'acredita', 'que', 'são', 'os', 'ventos', 'fortes', 'da', 'região', 'os', 'responsáveis', 'por', 'moldarem', 'o', 'gelo,', 'já', 'que', 'sopram', 'desde', 'a', 'parte', 'central', 'mais', 'alta,', 'até', 'às', 'margens', 'inferiores', 'e', 'fazem', 'redemoinhos', 'empurrados', '

Verificamos que há tokens que fazem pouco sentido: e.g. `"mosaico"`, `quadrados.`, ...

Uma forma de resolver o problema poderá envolver processamento do texto, por exemplo separando os carateres `"` e `.` das palavras à sua volta.

In [6]:
text2 = re.sub(r'([.\"])', ' \\1 ', text)
text2 = re.sub(r' +', ' ', text2)
print(text2)

Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 " tiras " de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um " mosaico " que cobre uma área de cerca de um milhão de quilómetros quadrados . 
 " Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos " , refere a ESA . 
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra . 
Ainda que a calote polar seja um " elemento permanente " , durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma " capa extra " de até um metro de espessura . 



Agora sim, já será possivel obter uma segmentação mais interessante...

In [7]:
print(text2.split())

['Espirais', 'do', 'Polo', 'Norte', 'de', 'Marte', 'mostradas', 'em', 'detalhe', 'A', 'Agência', 'Espacial', 'Europeia', 'pegou', 'em', '32', '"', 'tiras', '"', 'de', 'órbitas', 'registadas', 'pela', 'sonda', 'Mars', 'Express', 'entre', '2004', 'e', '2010', 'e', 'criou', 'um', '"', 'mosaico', '"', 'que', 'cobre', 'uma', 'área', 'de', 'cerca', 'de', 'um', 'milhão', 'de', 'quilómetros', 'quadrados', '.', '"', 'Esta', 'informação', 'é', 'muito', 'importante', 'para', 'perceber', 'como', 'evoluiu', 'o', 'clima', 'no', 'planeta', 'à', 'medida', 'que', 'a', 'sua', 'inclinação', 'e', 'órbita', 'variavam', 'ao', 'longo', 'de', 'centenas', 'ou', 'mesmo', 'milhares', 'de', 'anos', '"', ',', 'refere', 'a', 'ESA', '.', 'A', 'Estação', 'Espacial', 'Europeia', 'acredita', 'que', 'são', 'os', 'ventos', 'fortes', 'da', 'região', 'os', 'responsáveis', 'por', 'moldarem', 'o', 'gelo,', 'já', 'que', 'sopram', 'desde', 'a', 'parte', 'central', 'mais', 'alta,', 'até', 'às', 'margens', 'inferiores', 'e', 'fa

Façamos agora algum pré-processamento básico inicial para juntar as várias frases numa única linha e transformar tudo em minúsculas

In [8]:
text2 = re.sub(r'[\n\r]', "", text2).lower()
print(text2)

espirais do polo norte de marte mostradas em detalhea agência espacial europeia pegou em 32 " tiras " de órbitas registadas pela sonda mars express entre 2004 e 2010 e criou um " mosaico " que cobre uma área de cerca de um milhão de quilómetros quadrados .  " esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos " , refere a esa . a estação espacial europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na terra . ainda que a calote polar seja um " elemento permanente " , durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma " capa extra " de até um metro de espessura . 


Depois do pré-processamento inicial, calcular a frequência de cada token

In [9]:
import collections
freq = collections.Counter(text2.split())
print(freq)

Counter({'de': 10, '"': 10, 'que': 7, 'a': 6, 'e': 4, 'um': 4, '.': 4, 'do': 3, 'o': 3, 'os': 3, 'em': 2, 'espacial': 2, 'europeia': 2, 'pela': 2, 'uma': 2, 'planeta': 2, ',': 2, 'são': 2, 'da': 2, 'até': 2, 'espirais': 1, 'polo': 1, 'norte': 1, 'marte': 1, 'mostradas': 1, 'detalhea': 1, 'agência': 1, 'pegou': 1, '32': 1, 'tiras': 1, 'órbitas': 1, 'registadas': 1, 'sonda': 1, 'mars': 1, 'express': 1, 'entre': 1, '2004': 1, '2010': 1, 'criou': 1, 'mosaico': 1, 'cobre': 1, 'área': 1, 'cerca': 1, 'milhão': 1, 'quilómetros': 1, 'quadrados': 1, 'esta': 1, 'informação': 1, 'é': 1, 'muito': 1, 'importante': 1, 'para': 1, 'perceber': 1, 'como': 1, 'evoluiu': 1, 'clima': 1, 'no': 1, 'à': 1, 'medida': 1, 'sua': 1, 'inclinação': 1, 'órbita': 1, 'variavam': 1, 'ao': 1, 'longo': 1, 'centenas': 1, 'ou': 1, 'mesmo': 1, 'milhares': 1, 'anos': 1, 'refere': 1, 'esa': 1, 'estação': 1, 'acredita': 1, 'ventos': 1, 'fortes': 1, 'região': 1, 'responsáveis': 1, 'por': 1, 'moldarem': 1, 'gelo,': 1, 'já': 1, 's

In [10]:
freq["que"]

7

### (opcional) Uso de expressões regulares

As expresssões regulares têm inúmeras aplicações: filtragem, obtenção de padões, etc.

Options:
- `re.I`: perform case-insensitive matching
- `re.MULTILINE`: When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline)
- `re.DOTALL`: Make the '.' special character match any character at all, including a newline

In [None]:
matches = re.findall(r"^[A-Z][a-z]+", text, re.MULTILINE)
#encontrar todas as palavras que começem com letra MAISCULA e as restantes são minusculas em cada linha
print(matches)

['Espirais', 'Ainda']


In [14]:
matches = re.findall(r"[A-Z][a-z]+", text, re.MULTILINE)
#encontrar todas as palavras que começem com letra MAISCULA e as restantes são minusculas em cada linha
print(matches)

['Espirais', 'Polo', 'Norte', 'Marte', 'Ag', 'Espacial', 'Europeia', 'Mars', 'Express', 'Esta', 'Esta', 'Espacial', 'Europeia', 'Terra', 'Ainda']


In [None]:
matches = re.findall(r"^\w+", text, re.MULTILINE)
#No inicio da linha \w (tudo o que seja um caracater q faça parte de uma palavra ,-.)
print(matches)

['Espirais', 'A', 'A', 'Ainda']


In [18]:
# outros testes: por exemplo, identificar todas as sequências de letras ou números
print(text)
palavras = re.sub(r"(\w+)", '<\\1>', text)
print(palavras)

Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura.

<Espirais> <do> <Polo> <Norte> <d

In [22]:
palavras = re.sub(r"(\w+)", '<\\1>', text)
print(palavras)

<Espirais> <do> <Polo> <Norte> <de> <Marte> <mostradas> <em> <detalhe>
<A> <Agência> <Espacial> <Europeia> <pegou> <em> <32> "<tiras>" <de> <órbitas> <registadas> <pela> <sonda> <Mars> <Express> <entre> <2004> <e> <2010> <e> <criou> <um> "<mosaico>" <que> <cobre> <uma> <área> <de> <cerca> <de> <um> <milhão> <de> <quilómetros> <quadrados>.
"<Esta> <informação> <é> <muito> <importante> <para> <perceber> <como> <evoluiu> <o> <clima> <no> <planeta> <à> <medida> <que> <a> <sua> <inclinação> <e> <órbita> <variavam> <ao> <longo> <de> <centenas> <ou> <mesmo> <milhares> <de> <anos>", <refere> <a> <ESA>.
<A> <Estação> <Espacial> <Europeia> <acredita> <que> <são> <os> <ventos> <fortes> <da> <região> <os> <responsáveis> <por> <moldarem> <o> <gelo>, <já> <que> <sopram> <desde> <a> <parte> <central> <mais> <alta>, <até> <às> <margens> <inferiores> <e> <fazem> <redemoinhos> <empurrados> <pela> <mesma> <força> <que> <faz> <os> <furacões> <girarem> <na> <Terra>.
<Ainda> <que> <a> <calote> <polar> <seja

### Tokenização usando NLTK
Observe que para além dos sinais de pontuação, tais como "." e ",", as aspas também podem representar um problema. 

In [25]:
print(text)

Espirais do Polo Norte de Marte mostradas em detalhe
A Agência Espacial Europeia pegou em 32 "tiras" de órbitas registadas pela sonda Mars Express entre 2004 e 2010 e criou um "mosaico" que cobre uma área de cerca de um milhão de quilómetros quadrados.
"Esta informação é muito importante para perceber como evoluiu o clima no planeta à medida que a sua inclinação e órbita variavam ao longo de centenas ou mesmo milhares de anos", refere a ESA.
A Estação Espacial Europeia acredita que são os ventos fortes da região os responsáveis por moldarem o gelo, já que sopram desde a parte central mais alta, até às margens inferiores e fazem redemoinhos empurrados pela mesma força que faz os furacões girarem na Terra.
Ainda que a calote polar seja um "elemento permanente", durante o inverno as temperaturas são tão baixas que 30% do dióxido de carbono da atmosfera do planeta precipita-se sobre a mesma, acrescentando-lhe uma "capa extra" de até um metro de espessura.



In [28]:
tokens=nltk.word_tokenize(text)
print(tokens)

['Espirais', 'do', 'Polo', 'Norte', 'de', 'Marte', 'mostradas', 'em', 'detalhe', 'A', 'Agência', 'Espacial', 'Europeia', 'pegou', 'em', '32', '``', 'tiras', "''", 'de', 'órbitas', 'registadas', 'pela', 'sonda', 'Mars', 'Express', 'entre', '2004', 'e', '2010', 'e', 'criou', 'um', '``', 'mosaico', "''", 'que', 'cobre', 'uma', 'área', 'de', 'cerca', 'de', 'um', 'milhão', 'de', 'quilómetros', 'quadrados', '.', '``', 'Esta', 'informação', 'é', 'muito', 'importante', 'para', 'perceber', 'como', 'evoluiu', 'o', 'clima', 'no', 'planeta', 'à', 'medida', 'que', 'a', 'sua', 'inclinação', 'e', 'órbita', 'variavam', 'ao', 'longo', 'de', 'centenas', 'ou', 'mesmo', 'milhares', 'de', 'anos', "''", ',', 'refere', 'a', 'ESA', '.', 'A', 'Estação', 'Espacial', 'Europeia', 'acredita', 'que', 'são', 'os', 'ventos', 'fortes', 'da', 'região', 'os', 'responsáveis', 'por', 'moldarem', 'o', 'gelo', ',', 'já', 'que', 'sopram', 'desde', 'a', 'parte', 'central', 'mais', 'alta', ',', 'até', 'às', 'margens', 'inferio

Tratamento de casos particulares, tais como abreviaturas, siglas, acrónimos e quantidades

In [29]:
text= "Dr. Peter mentioned that the U.S.A. poster-print costs $12.40..."
tokens=nltk.word_tokenize(text)
print(tokens)

['Dr.', 'Peter', 'mentioned', 'that', 'the', 'U.S.A.', 'poster-print', 'costs', '$', '12.40', '...']


### Tokenização de Tweets

O mesma solução não produz um bom resultado quando aplicada, por exemplo, a tweets

In [30]:
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"

print(nltk.word_tokenize(tweet))

['This', 'is', 'a', 'cooool', '#', 'dummysmiley', ':', ':', '-', ')', ':', '-P', '<', '3', 'and', 'some', 'arrows', '<', '>', '-', '>', '<', '--']


In [31]:
from nltk.tokenize import TweetTokenizer
mytkzr = TweetTokenizer()
print(mytkzr.tokenize(tweet))

['This', 'is', 'a', 'cooool', '#dummysmiley', ':', ':-)', ':-P', '<3', 'and', 'some', 'arrows', '<', '>', '->', '<--']


Outro exemplo ...

In [32]:
tweet = "Olá @manuel_silva, #text-mining rulezzzz. :)"
print(mytkzr.tokenize(tweet))

['Olá', '@manuel_silva', ',', '#text-mining', 'rulezzzz', '.', ':)']


## Exemplos adicionais com ficheiros

Antes de continuar, certifique-se que fez o download dos dados previamente conforme instruções fornecidas em [download dos dados utilizados nos exemplos](./using-tm-data.ipynb)

In [33]:
import gzip
with gzip.open("../data/pt/tsf.selecionado/not_4180883.gz", "rt", encoding="utf-8") as f:
    lines = f.readlines()
    text  = "".join(lines)

print(text)


Foi Francisco George , diretor-geral da Saúde , quem reconheceu que a situação na África Ocidental está descontrolada . O continente europeu está , por isso , vai exposto ao contágio .
As autoridades portuguesas estão atentas , mas , por agora , não vão elevar o nível de alerta do vírus ébola . No Parlamento , o diretor-geral da DGS admitiu , no entanto , elevar o nível «se houver problemas na Guiné-Bissau . O risco , nesse caso , é naturalmente importante para nós devido às ligações estreitas entre os dois países» , afirmou Francisco George .
Amanhã mesmo , ele parte para a Guiné-Bissau com o presidente do INEM . Os dois responsáveis vão oferecer ajuda ao país se vier a ser atingido pelo vírus do ébola , no âmbito da missão da ONU .
Francisco George diz que o país está a analisar diariamente a situação e que está preparado para alterar procedimentos se tal se justificar . O director-geral da Saúde revela , ainda , que tem estado em contacto permanente com os ministérios da Administra

In [34]:
import nltk
words = nltk.word_tokenize(text)
print(" | ".join(words))

Foi | Francisco | George | , | diretor-geral | da | Saúde | , | quem | reconheceu | que | a | situação | na | África | Ocidental | está | descontrolada | . | O | continente | europeu | está | , | por | isso | , | vai | exposto | ao | contágio | . | As | autoridades | portuguesas | estão | atentas | , | mas | , | por | agora | , | não | vão | elevar | o | nível | de | alerta | do | vírus | ébola | . | No | Parlamento | , | o | diretor-geral | da | DGS | admitiu | , | no | entanto | , | elevar | o | nível | « | se | houver | problemas | na | Guiné-Bissau | . | O | risco | , | nesse | caso | , | é | naturalmente | importante | para | nós | devido | às | ligações | estreitas | entre | os | dois | países | » | , | afirmou | Francisco | George | . | Amanhã | mesmo | , | ele | parte | para | a | Guiné-Bissau | com | o | presidente | do | INEM | . | Os | dois | responsáveis | vão | oferecer | ajuda | ao | país | se | vier | a | ser | atingido | pelo | vírus | do | ébola | , | no | âmbito | da 