<h1 align="center">How to Clean Text for Machine Learning with Python</h1>

Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro

Link de estudo:

* [Clean text for ML with Python](https://machinelearningmastery.com/clean-text-machine-learning-python/)

* [Guia definitivo para lidar com dados de texto (usando Python) – para cientistas e engenheiros de dados](https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/)

É bem sabido que você não pode ir direto do texto bruto para o ajuste de um modelo de `aprendizado de máquina` ou `aprendizado profundo`.

Você deve limpar seu texto primeiro, o que significa dividi-lo em palavras e lidar com pontuação e maiúsculas e minúsculas.

Na verdade, há todo um conjunto de métodos de preparação de texto que você pode precisar usar, e a escolha dos métodos realmente depende de sua **tarefa** de processamento de linguagem natural.

Aqui aprenderemos a como limpar e preparar nosso texto pronto para modelagem com aprendizado de máquina. Os pontos a discutir são:

* como começar desenvolvendo suas próprias ferramentas simples de limpeza de texto.

* como dar um passo à frente e usar os "métodos mais sofisticados" da biblioteca `NLTK` (Aqui recomendamos, ver também, o Hugging face ... o último em tecnologia para NLP).

* como preparar texto ao usar **métodos modernos** de representação de texto, como `Word Embeddings`.

# Metamorfose de Franz Kafka

Vamos começar selecionando um conjunto de dados.

Neste tutorial, usaremos o texto do livro `Metamorfose de Franz Kafka`. Nenhuma razão específica, além de ser curto, eu gosto, e você pode gostar também. Espero que seja um daqueles clássicos que a maioria dos alunos tem que ler na escola.

O texto completo de Metamorphosis está disponível gratuitamente no Project Gutenberg.

* [Metamorfose de Franz Kafka sobre o Projeto Gutenberg](https://www.gutenberg.org/ebooks/5200).

Você pode baixar a versão em texto ASCII do texto aqui:

* [Metamorfose por Franz Kafka Texto simples UTF-8](https://www.gutenberg.org/cache/epub/5200/pg5200.txt) (pode ser necessário carregar a página duas vezes).

Baixe o arquivo e coloque-o em seu diretório de trabalho atual com o nome de arquivo `metamorphosis.txt`.

O arquivo contém informações de cabeçalho e rodapé nas quais não estamos interessados, especificamente informações sobre direitos autorais e licença. Abra o arquivo e exclua as informações de cabeçalho e rodapé e salve o arquivo como `metamorphosis_clean.txt`.

# A Limpeza de Texto é Específica da Tarefa

Depois de realmente obter seus dados de texto, o primeiro passo para limpar os dados de texto é ter uma ideia forte sobre o que você está tentando alcançar e, nesse contexto, revisar seu texto para ver o que exatamente pode ajudar.

Tome um momento para olhar para o texto. `O que você percebe?`

Aqui está o que eu vejo:


* É um texto simples, então não há marcação para analisar (yay!).

* A tradução do original alemão usa o inglês do Reino Unido (UK) (por exemplo, "travelling").

* As linhas são quebradas artificialmente com novas linhas em cerca de 70 caracteres (meh).

* Não há erros de digitação ou ortografia óbvios.

* Há pontuação como vírgulas, apóstrofos, aspas, pontos de interrogação e muito mais.

* Há descrições hifenizadas como “armour-like”.

* Há muito uso do traço ("-") para continuar as frases (talvez substituir por vírgulas?).

* Existem nomes (por exemplo: "Mr. Samsa")

* Não parece haver números que requeiram manipulação (por exemplo: 1999)

* Existem marcadores de seção (por exemplo, "II" e "III") e removemos o primeiro "I".



<font color="orange">Tenho certeza de que há muitas coisas mais acontecendo para o olho treinado.</font>


No entanto, considere alguns possíveis objetivos que podemos ter ao trabalhar com este documento de texto.

Por exemplo:

* Se estivéssemos interessados ​​em desenvolver um modelo de `linguagem Kafkiana`, podemos querer manter todas as maiúsculas e minúsculas, aspas e outras pontuações no lugar.

* Se estivéssemos interessados ​​em classificar documentos como "Kafka" e "Não Kafka", talvez devêssemos eliminar maiúsculas e minúsculas, pontuação e até mesmo **cortar as palavras de volta ao seu radical**.


# Tokenização manual

<font color="orange">A limpeza de texto é difícil</font>, mas o texto com o qual escolhemos trabalhar já está bem limpo.

Poderíamos apenas escrever algum código `Python` para limpá-lo manualmente, e este é um bom exercício para aqueles problemas simples que você encontrar. Ferramentas como expressões regulares e divisão de strings podem te ajudar bastante.

## 1. Carregar Dados

Vamos carregar os dados de texto para que possamos trabalhar com eles.

O texto é pequeno e será carregado rapidamente e caberá facilmente na memória. Isso nem sempre será o caso e você pode precisar escrever código para mapear a memória do arquivo. Ferramentas como `NLTK` (abordadas na próxima seção) facilitarão muito o trabalho com arquivos grandes.

Podemos carregar todo o “ metamorphosis_clean.txt ” na memória da seguinte forma

In [16]:
# load text
filename = 'metamorphosis_clean.txt'

file = open(filename, 'rt')
text = file.read()
file.close()

#print(text)
# A execução do exemplo carrega o arquivo inteiro na memória, pronto para trabalhar.

## 2. Dividir por espaço em branco

Texto limpo geralmente significa uma lista de palavras ou tokens com os quais podemos trabalhar em nossos modelos de aprendizado de máquina.

Isso significa converter o **texto bruto** em uma **lista de palavras** e salvá-lo novamente.

Uma maneira muito simples de fazer isso seria dividir o documento por espaço em branco, incluindo " ", novas linhas, tabulações e muito mais. Podemos fazer isso em Python com a função `split()` na string carregada.

In [26]:
# load text
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split into words by white space
words = text.split()
print(words[:100])

['\ufeffOne', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'He', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'His', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '"What\'s', 'happened', 'to', 'me?"', 'he', 'thought.', 'It', "wasn't", 'a', 'dream.', 'His', 'room,', 'a', 'proper', 'human']


A execução do exemplo divide o documento em uma longa lista de palavras e imprime as primeiras 100 para revisão.

Podemos ver que a pontuação é preservada (<font color="yellow">por exemplo:</font> "wasn't" e "armour-like"), o que é bom. Também podemos ver que a pontuação do final da frase é mantida com a última palavra (<font color="yellow">por exemplo:</font> "thought."), o que não é ótimo.

## 3. Selecione palavras

Outra abordagem pode ser usar o modelo regex (`re`) e dividir (split) o documento em palavras selecionando strings de caracteres alfanuméricos (`a-z`, `A-Z`, `0-9` e '`_`').

Por exemplo:

In [22]:
# load text
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split based on words only
import re
words = re.split(r'\W+', text)
print(words[:100])

['', 'One', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', 'He', 'lay', 'on', 'his', 'armour', 'like', 'back', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', 'His', 'many', 'legs', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', 'What', 's', 'happened', 'to', 'me', 'he', 'thought', 'It', 'wasn', 't', 'a', 'dream', 'His']


Novamente, executando o exemplo, podemos ver que obtemos nossa lista de palavras. Desta vez, podemos ver que <font color="orange">"armour-like"</font> agora são duas palavras "armour" e "like" (fine), mas contrações como <font color="orange">"What's"</font> também são duas palavras "What" e "s" (não é ótimo não).

## 4. Dividir por espaço em branco e remover pontuação

Podemos querer as palavras, mas sem a pontuação como vírgulas e aspas. Também queremos manter as contrações juntas.

Uma maneira seria dividir o documento em palavras por espaço em branco (como em "2. Dividir por espaço em branco") e, em seguida, usar a tradução de strings para substituir toda a pontuação por nada (por exemplo, removê-la).

Python fornece uma constante chamada `string.punctuation` que fornece uma grande lista de caracteres de pontuação. Por exemplo:

In [40]:
import string

print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


O Python oferece uma função chamada [translate()](https://docs.python.org/3/library/stdtypes.html#str.translate) que mapeará um conjunto de caracteres para outro.

Podemos usar a função [maketrans()](https://docs.python.org/3/library/stdtypes.html#str.maketrans) para criar uma tabela de mapeamento. Podemos criar uma tabela de mapeamento vazia, mas o terceiro argumento dessa função nos permite listar todos os caracteres a serem removidos durante o processo de tradução. Por exemplo:

In [44]:
table = str.maketrans('', '', string.punctuation)

Podemos juntar tudo isso, carregar o arquivo de texto, dividi-lo em palavras por espaço em branco e traduzir cada palavra para remover a pontuação.

In [45]:
# load text
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split into words by white space
words = text.split()

# remove punctuation from each word
import string
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in words]
print(stripped[:100])

['\ufeffOne', 'morning', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin', 'He', 'lay', 'on', 'his', 'armourlike', 'back', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections', 'The', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment', 'His', 'many', 'legs', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him', 'waved', 'about', 'helplessly', 'as', 'he', 'looked', 'Whats', 'happened', 'to', 'me', 'he', 'thought', 'It', 'wasnt', 'a', 'dream', 'His', 'room', 'a', 'proper', 'human']


Podemos ver que isso teve o efeito desejado, principalmente.

Contrações como <font color="orange">"What's"</font> tornaram-se <font color="orange">"Whats"</font>, mas <font color="orange">"armour-like"</font> tornou-se <font color="orange">"armourlike"</font>.

Se você sabe alguma coisa sobre `regex`, sabe que as coisas podem ficar complexas a partir daqui.

## 5. Normalizando Caso (Normalizing Case)

É comum converter todas as palavras em um caso (case). Isso significa que o vocabulário diminuirá de tamanho, mas algumas distinções serão perdidas (por exemplo: <font color="orange">"Apple"</font> a empresa versus <font color="orange">"apple"</font> a fruta é um exemplo comumente usado).

Podemos converter todas as palavras para letras minúsculas chamando a função `lower()` em cada palavra.

Por exemplo:

In [46]:
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split into words by white space
words = text.split()

# convert to lower case
words = [word.lower() for word in words]
print(words[:100])


# Executando esta célula, podemos ver que todas as palavras agora estão em letras minúsculas.

['\ufeffone', 'morning,', 'when', 'gregor', 'samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', 'found', 'himself', 'transformed', 'in', 'his', 'bed', 'into', 'a', 'horrible', 'vermin.', 'he', 'lay', 'on', 'his', 'armour-like', 'back,', 'and', 'if', 'he', 'lifted', 'his', 'head', 'a', 'little', 'he', 'could', 'see', 'his', 'brown', 'belly,', 'slightly', 'domed', 'and', 'divided', 'by', 'arches', 'into', 'stiff', 'sections.', 'the', 'bedding', 'was', 'hardly', 'able', 'to', 'cover', 'it', 'and', 'seemed', 'ready', 'to', 'slide', 'off', 'any', 'moment.', 'his', 'many', 'legs,', 'pitifully', 'thin', 'compared', 'with', 'the', 'size', 'of', 'the', 'rest', 'of', 'him,', 'waved', 'about', 'helplessly', 'as', 'he', 'looked.', '"what\'s', 'happened', 'to', 'me?"', 'he', 'thought.', 'it', "wasn't", 'a', 'dream.', 'his', 'room,', 'a', 'proper', 'human']


<font color="red">Observação:</font>

A limpeza do texto é realmente difícil, específica do problema e cheia de compensações.

Lembre-se, <font color="orange">simples é melhor</font>.

Dados de texto mais simples, modelos mais simples, vocabulários menores. Você sempre pode tornar as coisas mais complexas depois para ver se isso resulta em uma melhor habilidade de modelo.

A seguir, veremos algumas das ferramentas da `biblioteca NLTK` que oferecem mais do que simples divisão de strings.

# Tokenização e limpeza com NLTK

O [Natural Language Toolkit](https://www.nltk.org/) , ou `NLTK` para abreviar, é uma biblioteca Python escrita para trabalhar e modelar texto.

Ele fornece boas ferramentas para carregar e limpar texto que podemos usar para preparar nossos dados para trabalhar com aprendizado de máquina e algoritmos de aprendizado profundo.


## 1. Instale o NLTK

In [6]:
# Você pode instalar o NLTK usando seu gerenciador de pacotes favorito, como o pip:

%pip install -U nltk

You should consider upgrading via the '/home/eddygiusepe/Documentos/Repasso_Python/venv_repasso/bin/python -m pip install --upgrade pip' command.[0m[33m
[0mNote: you may need to restart the kernel to use updated packages.


Após a instalação, você precisará instalar os dados usados ​​com a biblioteca, incluindo um grande conjunto de documentos que você pode usar posteriormente para testar outras ferramentas no NLTK.

Existem algumas maneiras de fazer isso, como de dentro de um script:

In [8]:
import nltk

nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Ou na linha de comando:

```
python -m nltk.downloader all
```

ver também os seguintes links, para Instalar e Configurar o NLTK:


* [Instalando o NLTK](https://www.nltk.org/install.html)

* [Instalando Dados NLTK](https://www.nltk.org/data.html)



## 2. Dividido em Sentenças

Um bom primeiro passo útil é dividir o texto em frases.

Algumas tarefas de modelagem preferem que a entrada esteja na forma de **parágrafos ou sentenças**, como `word2vec`. Você pode primeiro dividir seu texto em frases, dividir cada frase em palavras e salvar cada frase em um arquivo, uma por linha.

O `NLTK` fornece a função `sent_tokenize()` para dividir o texto em sentenças.

O exemplo abaixo carrega o arquivo `metamorphosis_clean.txt` na memória, divide-o em sentenças e imprime a primeira sentença.

In [None]:
# load data
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()

# split into sentences
from nltk import sent_tokenize
sentences = sent_tokenize(text)

print(sentences[0])
