<h1 align="center">How to Clean Text for Machine Learning with Python</h1>

Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro

É bem sabido que você não pode ir direto do texto bruto para o ajuste de um modelo de `aprendizado de máquina` ou `aprendizado profundo`.

Você deve limpar seu texto primeiro, o que significa dividi-lo em palavras e lidar com pontuação e maiúsculas e minúsculas.

Na verdade, há todo um conjunto de métodos de preparação de texto que você pode precisar usar, e a escolha dos métodos realmente depende de sua **tarefa** de processamento de linguagem natural.

Aqui aprenderemos a como limpar e preparar nosso texto pronto para modelagem com aprendizado de máquina. Os pontos a discutir são:

* como começar desenvolvendo suas próprias ferramentas simples de limpeza de texto.

* como dar um passo à frente e usar os "métodos mais sofisticados" da biblioteca `NLTK` (Aqui recomendamos, ver também, o Hugging face ... o último em tecnologia para NLP).

* como preparar texto ao usar **métodos modernos** de representação de texto, como `Word Embeddings`.

# Metamorfose de Franz Kafka

Vamos começar selecionando um conjunto de dados.

Neste tutorial, usaremos o texto do livro `Metamorfose de Franz Kafka`. Nenhuma razão específica, além de ser curto, eu gosto, e você pode gostar também. Espero que seja um daqueles clássicos que a maioria dos alunos tem que ler na escola.

O texto completo de Metamorphosis está disponível gratuitamente no Project Gutenberg.

* [Metamorfose de Franz Kafka sobre o Projeto Gutenberg](https://www.gutenberg.org/ebooks/5200).

Você pode baixar a versão em texto ASCII do texto aqui:

* [Metamorfose por Franz Kafka Texto simples UTF-8](https://www.gutenberg.org/cache/epub/5200/pg5200.txt) (pode ser necessário carregar a página duas vezes).

Baixe o arquivo e coloque-o em seu diretório de trabalho atual com o nome de arquivo `metamorphosis.txt`.

O arquivo contém informações de cabeçalho e rodapé nas quais não estamos interessados, especificamente informações sobre direitos autorais e licença. Abra o arquivo e exclua as informações de cabeçalho e rodapé e salve o arquivo como `metamorphosis_clean.txt`.

# A Limpeza de Texto é Específica da Tarefa

Depois de realmente obter seus dados de texto, o primeiro passo para limpar os dados de texto é ter uma ideia forte sobre o que você está tentando alcançar e, nesse contexto, revisar seu texto para ver o que exatamente pode ajudar.

Tome um momento para olhar para o texto. `O que você percebe?`

Aqui está o que eu vejo:


* É um texto simples, então não há marcação para analisar (yay!).

* A tradução do original alemão usa o inglês do Reino Unido (UK) (por exemplo, "travelling").

* As linhas são quebradas artificialmente com novas linhas em cerca de 70 caracteres (meh).

* Não há erros de digitação ou ortografia óbvios.

* Há pontuação como vírgulas, apóstrofos, aspas, pontos de interrogação e muito mais.

* Há descrições hifenizadas como “armour-like”.

* Há muito uso do traço ("-") para continuar as frases (talvez substituir por vírgulas?).

* Existem nomes (por exemplo: "Mr. Samsa")

* Não parece haver números que requeiram manipulação (por exemplo: 1999)

* Existem marcadores de seção (por exemplo, "II" e "III") e removemos o primeiro "I".



<font color="orange">Tenho certeza de que há muitas coisas mais acontecendo para o olho treinado.</font>


No entanto, considere alguns possíveis objetivos que podemos ter ao trabalhar com este documento de texto.

Por exemplo:

* Se estivéssemos interessados ​​em desenvolver um modelo de `linguagem Kafkiana`, podemos querer manter todas as maiúsculas e minúsculas, aspas e outras pontuações no lugar.

* Se estivéssemos interessados ​​em classificar documentos como "Kafka" e "Não Kafka", talvez devêssemos eliminar maiúsculas e minúsculas, pontuação e até mesmo **cortar as palavras de volta ao seu radical**.


# Tokenização manual

<font color="orange">A limpeza de texto é difícil</font>, mas o texto com o qual escolhemos trabalhar já está bem limpo.

Poderíamos apenas escrever algum código `Python` para limpá-lo manualmente, e este é um bom exercício para aqueles problemas simples que você encontrar. Ferramentas como expressões regulares e divisão de strings podem te ajudar bastante.

## 1. Carregar Dados

Vamos carregar os dados de texto para que possamos trabalhar com eles.

O texto é pequeno e será carregado rapidamente e caberá facilmente na memória. Isso nem sempre será o caso e você pode precisar escrever código para mapear a memória do arquivo. Ferramentas como `NLTK` (abordadas na próxima seção) facilitarão muito o trabalho com arquivos grandes.

Podemos carregar todo o “ metamorphosis_clean.txt ” na memória da seguinte forma

In [16]:
# load text
filename = 'metamorphosis_clean.txt'

file = open(filename, 'rt')
text = file.read()
file.close()

#print(text)
# A execução do exemplo carrega o arquivo inteiro na memória, pronto para trabalhar.

## 2. Dividir por espaço em branco

Texto limpo geralmente significa uma lista de palavras ou tokens com os quais podemos trabalhar em nossos modelos de aprendizado de máquina.

Isso significa converter o **texto bruto** em uma **lista de palavras** e salvá-lo novamente.

Uma maneira muito simples de fazer isso seria dividir o documento por espaço em branco, incluindo " ", novas linhas, tabulações e muito mais. Podemos fazer isso em Python com a função `split()` na string carregada.

In [20]:
# load text
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split into words by white space
words = text.split()
print(words[:100])

['\ufeffOne', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'He', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'His', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '"What\'s', 'happened', 'to', 'me?"', 'he', 'thought.', 'It', "wasn't", 'a', 'dream.', 'His', 'room,', 'a', 'proper', 'human']


A execução do exemplo divide o documento em uma longa lista de palavras e imprime as primeiras 100 para revisão.

Podemos ver que a pontuação é preservada (<font color="yellow">por exemplo:</font> "wasn't" e "armour-like"), o que é bom. Também podemos ver que a pontuação do final da frase é mantida com a última palavra (<font color="yellow">por exemplo:</font> "thought."), o que não é ótimo.

## 3. Selecione palavras

Outra abordagem pode ser usar o modelo regex (`re`) e dividir (split) o documento em palavras selecionando strings de caracteres alfanuméricos (`a-z`, `A-Z`, `0-9` e '`_`').

Por exemplo:

In [21]:
# load text
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split based on words only
import re
words = re.split(r'\W+', text)
print(words[:100])

['', 'One', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', 'He', 'lay', 'on', 'his', 'armour', 'like', 'back', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', 'His', 'many', 'legs', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', 'What', 's', 'happened', 'to', 'me', 'he', 'thought', 'It', 'wasn', 't', 'a', 'dream', 'His']
