# Exploring Tokenization

@author: Aman Kedia


Para construir um vocabulário, a primeira coisa a fazer é quebrar os documentos ou frases em blocos chamados tokens. Cada token carrega um significado semântico associado a ele. A tokenização é uma das coisas fundamentais a fazer em qualquer atividade de processamento de texto.
A tokenização pode ser considerada uma técnica de segmentação em que você tenta quebrar pedaços maiores de pedaços de texto em pedaços menores e significativos. Tokens em geral
compreendem palavras e números, mas podem ser estendidos para incluir sinais de pontuação, símbolos e, às vezes, emoticons compreensíveis.

### Exemplos

In [1]:
sentence = "The capital of China is Beijing"
sentence.split()

['The', 'capital', 'of', 'China', 'is', 'Beijing']

### Problemas com tokenização
Considere a frase e a divisão correspondente no exemplo a seguir:

In [2]:
sentence = "China's capital is Beijing"
sentence.split()

["China's", 'capital', 'is', 'Beijing']

No exemplo anterior, deveria ser China, Chinas ou China's? Um método de divisão geralmente não sabe como lidar com situações que contêm apóstrofos.

Nos próximos dois exemplos, como lidamos com **we'll** e **I'm**? **We'll** indica **we will** e **I'm** indica **I am**. Qual deve ser a forma tokenizada de **we'll**? Deve ficar **well ou we'll ou we e 'll** separadamente? Da mesma forma, como simbolizamos **I'm**? Uma tokenização ideal deve ser capaz de processar **we'll** em dois tokens, ***we e will**, e **I'm** em em dois tokens, **I e am**. Vamos ver como nosso método de divisão se sairia nessa situação. 

In [3]:
sentence = "Beijing is where we'll go"
sentence.split()

['Beijing', 'is', 'where', "we'll", 'go']

In [4]:
sentence = "I'm going to travel to Beijing"
sentence.split()

["I'm", 'going', 'to', 'travel', 'to', 'Beijing']

In [5]:
sentence = "Most of the times umm I travel"
sentence.split()

['Most', 'of', 'the', 'times', 'umm', 'I', 'travel']

In [6]:
sentence = "Let's travel to Hong Kong from Beijing"
sentence.split()

["Let's", 'travel', 'to', 'Hong', 'Kong', 'from', 'Beijing']

Aqui, idealmente, Hong Kong deveria ser um token, mas pense em outra frase: O nome do Rei é Kong. Em tais cenários, Kong deve ser um token individual. Em tais situações, o contexto pode desempenhar um papel importante na compreensão de como tratar representações de token semelhantes quando o contexto varia. Tokens de tamanho 1, como Kong, são chamados de unigramas, enquanto tokens de tamanho 2, como Hong Kong, são chamados de bigramas. Eles podem ser generalizados sob a asa de n-gramas, que discutiremos no final deste capítulo.

Como lidamos com os **periods**? Como entendemos se significam o fim de uma frase ou indicam uma abreviatura?
No seguinte trecho de código e na saída subsequente, o ponto entre M e S é, na verdade, indicativo de uma abreviatura:

In [7]:
sentence = "A friend is pursuing his M.S from Beijing"
sentence.split()

['A', 'friend', 'is', 'pursuing', 'his', 'M.S', 'from', 'Beijing']

No próximo exemplo, um token como **umm** tem algum significado? Não deveria ser removido?
Mesmo que um token como **umm** não faça parte do vocabulário em inglês, torna-se importante nos casos de uso em que a síntese de fala está envolvida, pois indica que a pessoa está tomando uma pausa aqui e tente pensar em algo. Novamente, assim como o contexto, a noção de caso de uso também importa ao entender onde algo deve ser tokenizado ou simplesmente removido como um fragmento de texto que não transmite nenhum significado:

In [8]:
sentence = "Most of the times umm I travel"
sentence.split()

['Most', 'of', 'the', 'times', 'umm', 'I', 'travel']

A ascensão das plataformas de mídia social resultou em um influxo maciço de dados do usuário, que é uma rica mina de informações para entender indivíduos e comunidades; no entanto, também contribuiu para o surgimento de um mundo de emoticons, formas curtas, novas abreviações (frequentemente chamadas de linguagem milenar) e assim por diante. É necessário entender esse tipo de texto sempre crescente, bem como aqueles casos em que, por exemplo, um caractere P usado com dois pontos (:) e hífen
(-) denota um rosto com a língua para fora. Hashtags são outra coisa muito comum nas mídias sociais que são principalmente indicativas de resumos ou emoções por trás de uma postagem no Facebook ou um tweet no Twitter. Um exemplo disso é mostrado no exemplo a seguir. Esse crescimento leva ao desenvolvimento de tokenizers como TweetTokenizer:

In [9]:
sentence = "Beijing is a cool place!!! :-P <3 #Awesome"
sentence.split()

['Beijing', 'is', 'a', 'cool', 'place!!!', ':-P', '<3', '#Awesome']

Na próxima seção, veremos TweetTokenizer e alguns outros tokenizadores padrão disponíveis na biblioteca nltk

### Diferentes tipos de tokenizadores

Com base no entendimento que desenvolvemos até agora, vamos discutir os diferentes tipos de tokenizadores que estão prontamente disponíveis para uso e ver como eles podem ser aproveitados para a tokenização adequada de texto.

### Expressões regulares

Expressões regulares são sequências de caracteres que definem um padrão de pesquisa. Eles são um dos primeiros e ainda são uma das ferramentas mais eficazes para identificar padrões em texto.

Imagine pesquisar por IDs de e-mail em um corpus de texto. Eles seguem o mesmo padrão e são guiados por um conjunto de regras, independentemente do domínio em que estejam hospedados. As expressões regulares são o caminho a percorrer para identificar essas coisas em dados de texto, em vez de experimentar técnicas orientadas para o aprendizado de máquina. Outros exemplos notáveis onde expressões regulares foram amplamente empregadas incluem  SUTime oferecida pela Stanford NLP, em que a tokenização com base em expressões regulares é usada para identificar a data, hora, duração e
definir entidades de tipo no texto. Observe a seguinte frase:

Last summer, they met every Tuesday afternoon, from 1:00 pm to 3:00 pm.

Para esta frase, a biblioteca SUTime retornaria expressões TIMEX onde cada expressão TIMEX indicaria a existência de uma das entidades acima mencionadas:

Last summer  ** 2019-SU**  <TIMEX3 tid="t1" type="DATE" value="2019-SU">Last summer</TIMEX3>

every Tuesday afternoon **XXXX-WXX-2TAF**  <TIMEX3 periodicity="P1W" quant="every"tid="t2" type="SET" value="XXXX-WXX-2TAF">every Tuesday afternoon</TIMEX3>

1:00 pm  **2020-01-06T13:00 **<TIMEX3 tid="t3" type="TIME" value="2020-01-06T13:00">1:00 pm</TIMEX3>

3:00 pm **2020-01-06T15:00** <TIMEX3 tid="t4" type="TIME" value="2020-01-06T15:00">3:00 pm</TIMEX3>

### Tokenizadores baseados em expressões regulares

O pacote nltk em Python fornece um método baseado em expressões regulares
funcionalidade de tokenizers (RegexpTokenizer). Ele pode ser usado para tokenizar ou dividir uma frase com base em uma expressão regular fornecida. Faça a seguinte frase:

*Um relógio Rolex custa na faixa de $ 3.000,0 - $ 8.000,0 nos EUA.*

Aqui, gostaríamos de ter expressões indicando dinheiro, sequências alfabéticas e abreviações juntas. Podemos definir uma expressão regular para fazer isso e passar a expressão ao objeto tokenizer correspondente, conforme mostrado no seguinte bloco de código:


In [None]:
from nltk.tokenize import RegexpTokenizer
s = "A Rolex watch costs in the range of $3000.0 - $8000.0 in USA."
tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
tokenizer.tokenize(s)

['A',
 'Rolex',
 'watch',
 'costs',
 'in',
 'the',
 'range',
 'of',
 '$3000.0',
 '-',
 '$8000.0',
 'in',
 'USA',
 '.']

# Regex Tokenizer

Agora, como isso funciona:

A expressão regular \w +|\$[\d\.] + |\S + permite três padrões alternativos:

Primeira alternativa: \w + que casa com qualquer caractere de palavra (igual a [a-zA-Z0-9_]).
O + é um quantificador e corresponde entre uma e ilimitadas vezes tantas vezes quanto possível.

Segunda alternativa: \$[\d\.] +. Aqui, \$ corresponde ao caractere $, \d corresponde a um dígito entre 0 e 9, \.corresponde ao.(ponto final) e + novamente atua como um quantificador combinando entre um e um número ilimitado de vezes.

Terceira alternativa: \S +. Aqui, \S aceita qualquer caractere diferente de espaço em branco e + novamente atua da mesma maneira que nas duas alternativas anteriores.

Existem outros tokenizers construídos sobre o RegexpTokenizer, como o tokenizer BlankLine, que simboliza uma string que trata as linhas em branco como delimitadores, onde as linhas em branco são aquelas que não contêm caracteres, exceto espaços ou tabulações.



# Blankline Tokenizer

In [None]:
from nltk.tokenize import BlanklineTokenizer
s = "A Rolex watch costs in the range of $3000.0 - $8000.0 in USA.\n\n I want a book as well"
tokenizer = BlanklineTokenizer()
tokenizer.tokenize(s)

['A Rolex watch costs in the range of $3000.0 - $8000.0 in USA.',
 'I want a book as well']

O tokenizer WordPunct é outra implementação no topo do RegexpTokenizer, que transforma um texto em uma sequência de caracteres alfabéticos e não alfabéticos usando a expressão regular \w+|[^ \ w \ s] +.

# WordPunct Tokenizer

In [None]:
from nltk.tokenize import WordPunctTokenizer
s = "A Rolex watch costs in the range of $3000.0 - $8000.0 in USA.\n I want a book as well"
tokenizer = WordPunctTokenizer()
tokenizer.tokenize(s)

['A',
 'Rolex',
 'watch',
 'costs',
 'in',
 'the',
 'range',
 'of',
 '$',
 '3000',
 '.',
 '0',
 '-',
 '$',
 '8000',
 '.',
 '0',
 'in',
 'USA',
 '.',
 'I',
 'want',
 'a',
 'book',
 'as',
 'well']

# TreebankWord Tokenizer

O tokenizer Treebank também usa expressões regulares para tokenizar texto de acordo com o Penn Treebank (https: // catalog. Ldc. Upenn. Edu / docs / LDC95T7 / cl93. Html). 
Aqui, as palavras são divididas principalmente com base na pontuação.

O tokenizer Treebank faz um ótimo trabalho em dividir as contrações como **doesn't** para **does** e **n't**. Além disso, identifica os pontos finais das linhas e os elimina. A pontuação, como vírgulas, é dividida se for seguida por espaços em branco.

Vejamos a seguinte frase e tokenize-a usando o tokenizer Treebank:


In [None]:
from nltk.tokenize import TreebankWordTokenizer
s = "I'm going to buy a Rolex watch which doesn't cost more than $3000.0"
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(s)

['I',
 "'m",
 'going',
 'to',
 'buy',
 'a',
 'Rolex',
 'watch',
 'which',
 'does',
 "n't",
 'cost',
 'more',
 'than',
 '$',
 '3000.0']

Como pode ser visto no exemplo e na saída correspondente, este tokenizer ajuda principalmente na análise de cada componente no texto separadamente. O **I'm** é dividido em dois componentes, a saber, o I, que corresponde a um sintagma nominal, e o 'm, que corresponde a um componente do verbo. Essa divisão nos permite trabalhar com tokens individuais que carregam informações significativas que seriam difíceis de analisar e analisar se fosse um único token.
Da mesma forma, **doesn't** é dividido em **does** e **n't**, ajudando a analisar e compreender melhor a semântica inerente associada ao **n't**, que indica a negação.

# Tweet Tokenizer

Conforme discutido anteriormente, o surgimento das mídias sociais deu origem a uma linguagem informal em que as pessoas marcam umas às outras usando seus identificadores de mídia social e usam muitos emoticons, hashtags e textos abreviados para se expressarem. Precisamos de tokenizadores que possam analisar esse texto e tornar as coisas mais compreensíveis. TweetTokenizer atende a este caso de uso significativamente. Vejamos a seguinte frase / tweet:

**@amankedia I'm going to buy a Rolexxxxxxxx watch!!! :-D #happiness #rolex
<3**

In [None]:
from nltk.tokenize import TweetTokenizer
s = "@amankedia I'm going to buy a Rolexxxxxxxx watch!!! :-D #happiness #rolex <3"
tokenizer = TweetTokenizer()
tokenizer.tokenize(s)

['@amankedia',
 "I'm",
 'going',
 'to',
 'buy',
 'a',
 'Rolexxxxxxxx',
 'watch',
 '!',
 '!',
 '!',
 ':-D',
 '#happiness',
 '#rolex',
 '<3']

Outra coisa comum com a escrita em mídia social é o uso de expressões como Rolexxxxxxxx. Aqui, muitos x's estão presentes além do normal; é uma tendência muito comum e deve ser tratada para que seja o mais próximo possível do normal.
O TweetTokenizer fornece dois parâmetros adicionais na forma de reduce_len, que tenta reduzir o excesso de caracteres em um token. A palavra Rolexxxxxxxx é na verdade tokenizada como Rolexxx em uma tentativa de reduzir o número de x's presentes:

In [None]:
from nltk.tokenize import TweetTokenizer
s = "@amankedia I'm going to buy a Rolexxxxxxxx watch!!! :-D #happiness #rolex <3"
tokenizer = TweetTokenizer(strip_handles=True, reduce_len=True)
tokenizer.tokenize(s)

["I'm",
 'going',
 'to',
 'buy',
 'a',
 'Rolexxx',
 'watch',
 '!',
 '!',
 '!',
 ':-D',
 '#happiness',
 '#rolex',
 '<3']

O parâmetro strip_handles, quando definido como True, remove as alças/arrobas mencionadas em um post / tweet. Como pode ser visto na saída anterior, @amankedia é removido, pois é um identificador.
Mais um parâmetro que está disponível com TweetTokenizer é preserve_case, que, quando definido como False, converte tudo para minúsculas a fim de normalizar o vocabulário. O valor padrão para este parâmetro é True.