# Apresentação:

O objetivo desse código é explorar um pouco sobre a Biblioteca NLTK utilizando o livro [Deep Learning forNatural Language Processing](https://oku.ozturkibrahim.com/docs_python/Deep_Learning_for_Natural_Language_Processing.pdf).

## NLTK:

O **NLTK (Natural Language Toolkit)** é uma plataforma líder em Python para trabalhar com dados de linguagem humana, oferecendo interfaces fáceis de usar para mais de 50 corpora e recursos lexicais, como o **WordNet**. Ele fornece uma ampla gama de bibliotecas para tarefas de processamento de texto, incluindo classificação, tokenização, stemming, etiquetagem, análise sintática e raciocínio semântico, além de integrações com bibliotecas NLP industriais. Adequado para linguistas, engenheiros, estudantes, educadores e pesquisadores, sendo uma ferramenta gratuita, open source e amplamente utilizada na área de linguística computacional.

## Documentação:

* https://www.nltk.org/
* https://scikit-learn.org/stable/
* https://keras.io/api/

In [20]:
# Importando nltk:
import nltk
#nltk.download()

# Aquisitando Textos:

Antes de qualquer coisa, precisamos aquisitar os textos. O arquivo de texto utilizado aqui já foi previamente montado, então basta lê-lo no código e já o suficiente.

In [4]:
# Abrindo Arquivos:
with open('Metamorphosis','r', encoding='utf-8') as arquivo:
    text = arquivo.read()

In [5]:
# Inicio do texto:
print(text[:500])

﻿The Project Gutenberg eBook of Metamorphosis

    

This ebook is for the use of anyone anywhere in the United States and

most other parts of the world at no cost and with almost no restrictions

whatsoever. You may copy it, give it away or re-use it under the terms

of the Project Gutenberg License included with this ebook or online

at www.gutenberg.org. If you are not located in the United States,

you will have to check the laws of the country where you are located

before using this eBook


# Limpando dados com o NLTK:

Computadores não lêem, computadores são máquinas de calcular, de computar. Deste modo, faz-se necessário tratar os textos, vetores de caracteres, de modo que eles possam ser codificados para computação. O primeiro passo desse processo até a codificação de *strings* é a etapa de tratamento do texto bruto, que aqui faremos utilizando o **NLTK**.

## Visão Geral:
Nessa parte veremos:
1. Como limpar os textos usando o NLTK;
2. Tokenização manual;
3. Tokenização e limpeza com o NLTK;
4. Considerações adicionais sobre limpeza de texto.

## Tokenização Manual:

Na prática, esse trecho trata de tratamento de *string*. A tokenização é o processo de separação do texto bruto em elementos codificáveis. Ela ainda não se trata de conversão de string em elementos numéritos propriamente dito, porém é a primeira etapa para. Esse processo é uma etapa bem importante onde já se existe muitas coisas sobre. A maioria das LLM's (*Large Language Models*) utilizam Redes Neurais nessa etapa, todavia aqui, a título de estudo, vamos fazer a mão a tokenização.

In [10]:
# Tokenizando por palavra:
worlds = text.split();print(worlds[:100])

['\ufeffThe', 'Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever.', 'You', 'may', 'copy', 'it,', 'give', 'it', 'away', 'or', 're-use', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www.gutenberg.org.', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States,', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook.', '***', 'This', 'is', 'a', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook.', 'Details', 'Below.', '***', '***']


Note que essa é uma forma um tanto rudimentar de subdividir, splitar, uma string. Uma outra forma de executar essa tarefa, de forma mais refinada é utilizando **Expressões Regulares**. As **expressões regulares (regex)** são uma sequência de caracteres que define um padrão de pesquisa e são usadas principalmente para correspondência de padrões com cadeias de caracteres. A ideia é utilizar o regex para dividir o documento em palavras por selecionando sequências de caracteres alfanuméricos (a-z, A-Z, 0-9 e "-")

In [11]:
# Importando classe de Regex:
import re

In [13]:
# splitando os dados apenas em palavras:
words = re.split(r'\W+', text)
print(words[:100]) # Resultado bem mais limpo.

['', 'The', 'Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 're', 'use', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www', 'gutenberg', 'org', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook', 'This', 'is', 'a', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook', 'Details']


### Retirando Pontuação e espaços:

A remoção de espaços em branco e pontuação foi, de fato, uma estratégia comum em etapas de **pré-processamento** em técnicas tradicionais, como **Bag of Words (BoW)** ou **TF-IDF**. No entanto, com o avanço dos modelos de linguagem baseados em redes neurais, como **Transformers** (por exemplo, BERT, GPT, etc.), essa prática tem se tornado menos relevante e até contraproducente em muitos casos. Todavia, seguindo o estudo do livro.

In [21]:
# Importando o modulo string
import string

o módulo `string` é um módulo da biblioteca padrão. Ele não é uma classe, mas sim um módulo que fornece várias constantes e funções relacionadas a strings, que são úteis para operações de manipulação de texto.

In [22]:
# Visualizando elementos:
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [28]:
# Instanciando estrutura de busca Regex:
re_punc = re.compile('[%s]' % re.escape(string.punctuation))

# Removendo pontuação de cada palavra:
stripped = [re_punc.sub('', w) for w in words];print(stripped[:100])

['', 'The', 'Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 're', 'use', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www', 'gutenberg', 'org', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook', 'This', 'is', 'a', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook', 'Details']


* `re.compile('[^%s]' % re.escape(string.punctuation))`: Compila uma expressão regular que corresponderá a qualquer caractere que não esteja em `string.punctuation`. O [^...] é um padrão de negação que corresponde a qualquer caractere que não está dentro dos colchetes. Ou `string.printable` como no caso abaixo.

* `re_print.sub('', w)`: Substitui todos os caracteres que não são imprimíveis (ou seja, que não estão em string.printable) em cada string w na lista words por uma string vazia (''), efetivamente removendo esses caracteres.

In [30]:
re_print = re.compile('[^%s]' % re.escape(string.printable))
result = [re_print.sub('', w) for w in words];print(result[:100])

['', 'The', 'Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 're', 'use', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www', 'gutenberg', 'org', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook', 'This', 'is', 'a', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook', 'Details']


* `string.printable`: É uma constante que contém todos os caracteres imprimíveis, incluindo letras, números, pontuação e espaços.

In [35]:
# Verificando se há diferenças:
for i in range(len(result)):
    if result[i] != stripped[i]:
        print(result[i], stripped[i])

faade façade


vemos que o método utilizando o `string.printable` gerou uma "não palavra", durante o processo de limpeza. Textos antigos, por vezes, possuem linguagem arcaica, ou seja, palavras estranhas, então é sempre bom verificar. De todo modo, a palavra por sí só é estranha, mas "façade" eu encontrei tradução, difente de "faade", sendo assim, vou prosseguir com o vetor de strings `stripped`.

### Normalizando Caso:

Esse é outro conceito que não é mais tão usando hoje em dia. A *case normalization* é o ato de nivelar as letras numa mesma caixa, geralmente tudo minúsculo. Ou seja, o modelo perde a capacidade de ser *case sensitive*, o que não há mais a necessidade de se fazer hoje em dia. Mas, seguindo a explicação do livro, vamos realizar a normalização com o método `.lower()`. 

In [38]:
# Normalizando palavras:
strippedLower =[word.lower() for word in stripped]
print(strippedLower[:100])

['', 'the', 'project', 'gutenberg', 'ebook', 'of', 'metamorphosis', 'this', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'united', 'states', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'you', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 're', 'use', 'it', 'under', 'the', 'terms', 'of', 'the', 'project', 'gutenberg', 'license', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www', 'gutenberg', 'org', 'if', 'you', 'are', 'not', 'located', 'in', 'the', 'united', 'states', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'ebook', 'this', 'is', 'a', 'copyrighted', 'project', 'gutenberg', 'ebook', 'details']


## Limpando e Tokenizando com o NLTK:

A ideia agora é limpar e tokenizar utilizando o **NLTK**. Não tera exatamente alteração das técnicas, que por sí só são arcaicas dado os modelos transformers, porém, em tese, o **NLTK** é muito útil para realizar o tratamento de *strings*, algo que é de fato penosos, até mesmo utilizando regex.ords.

### Dividindo em sentenças:

Um bom primeiro passo útil é dividir o texto em frases. Algumas tarefas de modelagem preferem que as entradas estejam na forma de parágrafos ou frases, como **Word2Vec**. Poderia-se primeiro dividir texto em frases, dividindo cada frase em palavras e salvando-as em arquivos, cada frase por linha. **NLTK** fornece a funçnão `tokenizer()` construída para dividir o texto em frases.

In [51]:
# Importando tokenizador por sentença:
from nltk import sent_tokenize

In [52]:
# split em sentenças
sentences = sent_tokenize(text)
print(sentences[0])

﻿The Project Gutenberg eBook of Metamorphosis

    

This ebook is for the use of anyone anywhere in the United States and

most other parts of the world at no cost and with almost no restrictions

whatsoever.


In [53]:
for i in range(5):
    print("#-------------------------------------------------------------------------#")
    print(sentences[i])
    print("#-------------------------------------------------------------------------#")

#-------------------------------------------------------------------------#
﻿The Project Gutenberg eBook of Metamorphosis

    

This ebook is for the use of anyone anywhere in the United States and

most other parts of the world at no cost and with almost no restrictions

whatsoever.
#-------------------------------------------------------------------------#
#-------------------------------------------------------------------------#
You may copy it, give it away or re-use it under the terms

of the Project Gutenberg License included with this ebook or online

at www.gutenberg.org.
#-------------------------------------------------------------------------#
#-------------------------------------------------------------------------#
If you are not located in the United States,

you will have to check the laws of the country where you are located

before using this eBook.
#-------------------------------------------------------------------------#
#-----------------------------------------

### Tokenizando por palavras:

Assim como tokenizamos por frases, poderiamos tokenizar por palavras, para isso usamos as função `word_tokenize()` que divide *strings* em tokens (nominalmente palavras). Ele divide os tokens com base em espaços em branco e pontuação. Por exemplo, vírgulas e os períodos são considerados tokens separados.

In [54]:
# Importando tokenizador por palavras:
from nltk.tokenize import word_tokenize

In [55]:
# splitando por palavras:
tokens = word_tokenize(text)
print(tokens[:100])

['\ufeffThe', 'Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', '.', 'You', 'may', 'copy', 'it', ',', 'give', 'it', 'away', 'or', 're-use', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'www.gutenberg.org', '.', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States', ',', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook', '.', '*', '*', '*', 'This', 'is', 'a', 'COPYRIGHTED']


###  Filtrando Pontuação:

Podemos filtrar todos os tokens nos quais não estamos interessados, como toda pontuação independente. Esse pode ser feito iterando todos os tokens e mantendo apenas os tokens que estão todos em ordem alfabética. Python tem a função `isalpha()` que pode ser usada para tal, (para mais informações, acesso a [página do método](https://docs.python.org/3/library/stdtypes.html)).

In [57]:
# splitando em palavras:
tokens = word_tokenize(text)

# Removendo tokens que não são alfabéticos:
words = [word for word in tokens if word.isalpha()]
print(words[:100])

['Project', 'Gutenberg', 'eBook', 'of', 'Metamorphosis', 'This', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'in', 'the', 'United', 'States', 'and', 'most', 'other', 'parts', 'of', 'the', 'world', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 'it', 'under', 'the', 'terms', 'of', 'the', 'Project', 'Gutenberg', 'License', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'If', 'you', 'are', 'not', 'located', 'in', 'the', 'United', 'States', 'you', 'will', 'have', 'to', 'check', 'the', 'laws', 'of', 'the', 'country', 'where', 'you', 'are', 'located', 'before', 'using', 'this', 'eBook', 'This', 'is', 'a', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook', 'Details', 'Below', 'Please', 'follow', 'the', 'copyright', 'guidelines', 'in']


### Filtrando palavras irrelevantes

Palavras irrelevantes são aquelas palavras que não contribuem para o significado mais profundo da frase. Eles
são as palavras mais comuns, como: the, a e is. Para algumas aplicações como documentação
classificação, pode fazer sentido remover palavras irrelevantes. NLTK fornece uma lista de comumente
concordaram em palavras de parada para uma variedade de idiomas, como o inglês.

É importante dizer que essa é mais uma importante página virada com a elaboração dos modelos de LLM, porque, devido ao mecânismo de atenção, todas essas questões são resolvidas no próprio modelo, sem que haja a necessidade de ser considerada no processo de pré-processamento.

In [58]:
# Importando:
from nltk.corpus import stopwords

In [61]:
# Separando por palavras:
stop_words = stopwords.words('english') # Funciona pra portugues também!
print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [64]:
# Filtrando palavras irrelevantes:
words = [w for w in words if not w in stop_words]
print(words[:100])

['Project', 'Gutenberg', 'eBook', 'Metamorphosis', 'This', 'ebook', 'use', 'anyone', 'anywhere', 'United', 'States', 'parts', 'world', 'cost', 'almost', 'restrictions', 'whatsoever', 'You', 'may', 'copy', 'give', 'away', 'terms', 'Project', 'Gutenberg', 'License', 'included', 'ebook', 'online', 'If', 'located', 'United', 'States', 'check', 'laws', 'country', 'located', 'using', 'eBook', 'This', 'COPYRIGHTED', 'Project', 'Gutenberg', 'eBook', 'Details', 'Below', 'Please', 'follow', 'copyright', 'guidelines', 'file', 'Title', 'Metamorphosis', 'Author', 'Franz', 'Kafka', 'Translator', 'David', 'Wyllie', 'Release', 'date', 'August', 'eBook', 'Most', 'recently', 'updated', 'April', 'Language', 'English', 'START', 'OF', 'THE', 'PROJECT', 'GUTENBERG', 'EBOOK', 'METAMORPHOSIS', 'Metamorphosis', 'Franz', 'Kafka', 'Translated', 'David', 'Wyllie', 'I', 'One', 'morning', 'Gregor', 'Samsa', 'woke', 'troubled', 'dreams', 'found', 'transformed', 'bed', 'horrible', 'vermin', 'He', 'lay', 'back', 'lift

### Reduzindo ao elemento morfológico fundamental:

***Stemming*** refere-se ao processo de reduzir cada palavra à sua **raiz (_Word Stem_)** ou base. Por exemplo, fishing (pescando), fished (pescou) e fisher (pescador) são todos reduzidos ao radical fish (peixe). Algumas aplicações, como a classificação de documentos, podem se beneficiar do *stemming* para reduzir o vocabulário e focar no sentido ou sentimento de um documento, em vez de um significado mais profundo. Existem muitos algoritmos de *stemming*, embora um método popular e de longa data seja o ***Porter Stemming Algorithm***. Esse método está disponível no NLTK através da classe `PorterStemmer`.

In [66]:
# Importando Classe que realiza a redução da palavra
from nltk.stem.porter import PorterStemmer

In [68]:
# Instanciando Classe:
porter = PorterStemmer()

# Resultado Final:
stemmed = [porter.stem(word) for word in words]
print(stemmed[:100])

['project', 'gutenberg', 'ebook', 'metamorphosi', 'thi', 'ebook', 'use', 'anyon', 'anywher', 'unit', 'state', 'part', 'world', 'cost', 'almost', 'restrict', 'whatsoev', 'you', 'may', 'copi', 'give', 'away', 'term', 'project', 'gutenberg', 'licens', 'includ', 'ebook', 'onlin', 'if', 'locat', 'unit', 'state', 'check', 'law', 'countri', 'locat', 'use', 'ebook', 'thi', 'copyright', 'project', 'gutenberg', 'ebook', 'detail', 'below', 'pleas', 'follow', 'copyright', 'guidelin', 'file', 'titl', 'metamorphosi', 'author', 'franz', 'kafka', 'translat', 'david', 'wylli', 'releas', 'date', 'august', 'ebook', 'most', 'recent', 'updat', 'april', 'languag', 'english', 'start', 'of', 'the', 'project', 'gutenberg', 'ebook', 'metamorphosi', 'metamorphosi', 'franz', 'kafka', 'translat', 'david', 'wylli', 'i', 'one', 'morn', 'gregor', 'samsa', 'woke', 'troubl', 'dream', 'found', 'transform', 'bed', 'horribl', 'vermin', 'he', 'lay', 'back', 'lift', 'head']


# Considerações Finais:

Podemos então resumir o processo como:

1. Carregar o texto bruto;
2. Dividir em tokens;
3. Converter para minúsculas;
4. Remover a pontuação de cada token;
5. Filtrar os tokens restantes que não são alfabéticos;
6. Filtrar tokens que são stop words;
7. Resumir ao elemento morfológico fundamental. (Opcional)

Note que o texto-fonte utilizado no estudo estava razoavelmente limpo desde o início, não havendo a necessidade então de passar por muitas preocupações com a limpeza de texto que pode-se precisar lidar em um projeto real. É valido listar alguns desses problemas:

* Lidar com documentos grandes e grandes coleções de documentos de texto que não cabem na memória.
* Extrair texto de marcações como HTML, PDF ou outros formatos de documentos estruturados.
* Transliteração de caracteres de outros idiomas para o inglês.
* Decodificação de caracteres Unicode em uma forma normalizada, como UTF-8.
* Tratamento de palavras, frases e siglas específicas de domínio.
* Tratamento ou remoção de números, como datas e quantias.
* Localização e correção de erros comuns de digitação e ortografia. E muito mais...

Uma dica profissional que o texto-base (livro) deixa, é revisar continuamente os tokens gerados após cada transformação. Idealmente, pode-se salvar um novo arquivo após cada transformação para que se possa passar um tempo com todos os dados na nova forma. As coisas sempre saltam aos olhos quando você toma o tempo para revisar seus dados.