#Extração de Features

Para representar dados textuais de forma que os mesmos possam ser usados por algoritmos de aprendizado de máquina, devemos representá-los numericamente. Mas antes de usarmos alguma técnica de representação devemos passar os dados por um pré-processamento com as etapas como tokenização, stemming, lematização e remoção de stopwords.

Dados podem ser divididos em três categorias com base na sua estrutura: estruturados, semi-estruturados e não estruturados.Mas os dados também podem ser dividios em quatro categorias com base no seu conteúdo: texto, imagem, áudio e vídeo. 

Sentenças escritas são uma forma de dados não estruturados com conteúdo de texto. Na maioria das vezes esses dados não podem ser usados da maneira que estão, pois possuem muitos elementos ruidosos. Por isso, é recomendado passar eles por processos de pré-processamento para que realizemos análises que obtenham resultados mais precisos.

Nesse caderno realizaremos a limpeza de dados textuais através de uma série de pré-processamentos.

## Limpeza de texto e tokenização

Processo de retirada de stopwords e pontuação para fazer os tokens serem mais significativos.

In [None]:
# Criando função que realizará a limpeza
import re
def limpeza(texto):
  return re.sub(r'([^\s\w]|_)+', ' ', texto).split()

In [None]:
# Nosso texto de trabalho será um tweet com emojis, pontuação e stopwords
texto = 'Sunil tweeted, "Witnessing 70th Republic Day of India from Rajpath, \
            New Delhi. Mesmerizing performance by Indian Army! Awesome airshow! @india_official \
            @indian_army #India #70thRepublic_Day. For more photos ping me sunil@photoking.com :)"'

In [None]:
# Limpando o texto
limpeza(texto)

['Sunil',
 'tweeted',
 'Witnessing',
 '70th',
 'Republic',
 'Day',
 'of',
 'India',
 'from',
 'Rajpath',
 'New',
 'Delhi',
 'Mesmerizing',
 'performance',
 'by',
 'Indian',
 'Army',
 'Awesome',
 'airshow',
 'india',
 'official',
 'indian',
 'army',
 'India',
 '70thRepublic',
 'Day',
 'For',
 'more',
 'photos',
 'ping',
 'me',
 'sunil',
 'photoking',
 'com']

## Extração de n-gramas

Extração de n-gramas através de três técnicas diferentes.

In [None]:
# Criando função que extrai n-gramas com n como parâmetro
import re
def ext_n_grama(texto, n):
  ngramas = []
  tokens = limpeza(texto)
  for i in range(len(tokens)-n+1):
    ngramas.append(tokens[i:i+n])
  return ngramas 

In [None]:
# Teste com 2-gramas
ext_n_grama('The cute little boy is playing with the kitten.', 2)

[['The', 'cute'],
 ['cute', 'little'],
 ['little', 'boy'],
 ['boy', 'is'],
 ['is', 'playing'],
 ['playing', 'with'],
 ['with', 'the'],
 ['the', 'kitten']]

In [None]:
# Teste com 3-gramas
ext_n_grama('The cute little boy is playing with the kitten.', 3)

[['The', 'cute', 'little'],
 ['cute', 'little', 'boy'],
 ['little', 'boy', 'is'],
 ['boy', 'is', 'playing'],
 ['is', 'playing', 'with'],
 ['playing', 'with', 'the'],
 ['with', 'the', 'kitten']]

In [None]:
# Vamos usar agora o pacote nltk
from nltk import ngrams

In [None]:
# Teste para 2-gramas
list(ngrams(limpeza('The cute little boy is playing with the kitten.'), 2))

[('The', 'cute'),
 ('cute', 'little'),
 ('little', 'boy'),
 ('boy', 'is'),
 ('is', 'playing'),
 ('playing', 'with'),
 ('with', 'the'),
 ('the', 'kitten')]

In [None]:
# Teste para 3-gramas
list(ngrams(limpeza('The cute little boy is playing with the kitten.'), 3))

[('The', 'cute', 'little'),
 ('cute', 'little', 'boy'),
 ('little', 'boy', 'is'),
 ('boy', 'is', 'playing'),
 ('is', 'playing', 'with'),
 ('playing', 'with', 'the'),
 ('with', 'the', 'kitten')]

In [None]:
# Instalando e importando biblioteca textblob
!pip install -U textblob
import nltk
nltk.download('punkt')
from textblob import TextBlob

Collecting textblob
  Downloading textblob-0.17.1-py2.py3-none-any.whl (636 kB)
[K     |████████████████████████████████| 636 kB 5.0 MB/s 
Installing collected packages: textblob
  Attempting uninstall: textblob
    Found existing installation: textblob 0.15.3
    Uninstalling textblob-0.15.3:
      Successfully uninstalled textblob-0.15.3
Successfully installed textblob-0.17.1
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# Criando objeto blob com a frase
blob = TextBlob("The cute little boy is playing with the kitten.")

In [None]:
# Testando para 2-gramas
blob.ngrams(n=2)

[WordList(['The', 'cute']),
 WordList(['cute', 'little']),
 WordList(['little', 'boy']),
 WordList(['boy', 'is']),
 WordList(['is', 'playing']),
 WordList(['playing', 'with']),
 WordList(['with', 'the']),
 WordList(['the', 'kitten'])]

In [None]:
# Testando para 3-gramas
blob.ngrams(n=3)

[WordList(['The', 'cute', 'little']),
 WordList(['cute', 'little', 'boy']),
 WordList(['little', 'boy', 'is']),
 WordList(['boy', 'is', 'playing']),
 WordList(['is', 'playing', 'with']),
 WordList(['playing', 'with', 'the']),
 WordList(['with', 'the', 'kitten'])]

## Tokenização usando bibliotecas

Agora, realizaremos a tokenização usando as bibliotecas Keras e TextBlob.

In [None]:
# Importando os módulos de ambas as bibliotecas usados na tokenização
from keras.preprocessing.text import text_to_word_sequence
from textblob import TextBlob

In [None]:
# Definindo a sentença com a qual trabalharemos
sentenca = 'Sunil tweeted, "Witnessing 70th Republic Day of India from Rajpath, \
New Delhi. Mesmerizing performancesby Indian Army! Awesome airshow! @india_official \
@indian_army #India #70thRepublic_Day. For more photos ping me sunil@photoking.com :)"'

In [None]:
# Criando função de tokenização usando Keras e testando
def keras_tokens(texto):
  return text_to_word_sequence(texto)
keras_tokens(sentenca)

['sunil',
 'tweeted',
 'witnessing',
 '70th',
 'republic',
 'day',
 'of',
 'india',
 'from',
 'rajpath',
 'new',
 'delhi',
 'mesmerizing',
 'performancesby',
 'indian',
 'army',
 'awesome',
 'airshow',
 'india',
 'official',
 'indian',
 'army',
 'india',
 '70threpublic',
 'day',
 'for',
 'more',
 'photos',
 'ping',
 'me',
 'sunil',
 'photoking',
 'com']

In [None]:
# Criando função de tokenização usando TextBlob e testando
def TextBlob_tokens(texto):
  blob = TextBlob(texto)
  return blob.words
TextBlob_tokens(sentenca)

WordList(['Sunil', 'tweeted', 'Witnessing', '70th', 'Republic', 'Day', 'of', 'India', 'from', 'Rajpath', 'New', 'Delhi', 'Mesmerizing', 'performancesby', 'Indian', 'Army', 'Awesome', 'airshow', 'india_official', 'indian_army', 'India', '70thRepublic_Day', 'For', 'more', 'photos', 'ping', 'me', 'sunil', 'photoking.com'])

## Removendo a conjugação das palavras

Vamos remover a terminação -ing usando o RegexStemmer.

In [None]:
# Importando função da NLTK que nos permitirá realizar a stemmização
from nltk.stem import RegexpStemmer

In [None]:
# Definindo função que usaremos para obter os stems
def cria_stems(texto):
  # Definindo stemmer que remove ing para palavras com mais de 4 letras
  stemmer = RegexpStemmer('ing$', min=4)
  # Refazendo a sentença, mas sem a conjugação
  return ' '.join([stemmer.stem(palavra) for palavra in texto.split()])

In [None]:
# Testando a função
sentenca = "I love playing football"
cria_stems(sentenca)

'I love play football'

## Usando stemmer de Porter

Agora, vamos realizar o stem usando o stemmer de Porter.

In [None]:
# Importando pacote necessário
from nltk.stem.porter import *

In [None]:
# Definindo função que usaremos
def cria_stems_porter(texto):
  stemmer = PorterStemmer()
  return ' '.join([stemmer.stem(palavra) for palavra in texto.split()])

In [None]:
# Testando função
texto = "Before eating, it would be nice to sanitize your hands with a sanitizer"
cria_stems_porter(texto)

'befor eating, it would be nice to sanit your hand with a sanit'

## Lematização

Vamos realizar o processo de lematização

In [None]:
# Importando dependências necessárias
import nltk
from nltk.stem import WordNetLemmatizer
from nltk import word_tokenize
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# Criando função de lematização
def lematizador(texto):
  lemmatizador = WordNetLemmatizer()
  return ' '.join([lemmatizador.lemmatize(palavra) for palavra in word_tokenize(texto)])

In [None]:
# Testando função
sentenca = "The products produced by the process today are far better than what it produces generally."
lematizador(sentenca)

'The product produced by the process today are far better than what it produce generally .'

## Singular e plural

Criando funções que substituem por plural ou por singular.

In [None]:
# Importando dependências
import nltk
nltk.download('punkt')
from textblob import TextBlob

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
# Tokens com os quais trabalharemos
sentenca = TextBlob('She sells seashells on the seashore')

In [None]:
# Criando singularizador e testando
def singularizador(palavra):
    return palavra.singularize()
for palavra in sentenca.words:
  print(singularizador(palavra))

She
sell
seashell
on
the
seashore


In [None]:
# Criando pluralizador e testando
def pluralizador(palavra):
    return palavra.pluralize()
for palavra in sentenca.words:
  print(pluralizador(palavra))

Shes
sellss
seashellss
ons
thes
seashores


## Tradução em Python

A biblioteca TextBlob nos fornece um recurso de tradução automática de uma sentença.

In [None]:
# Importando tradutor
from textblob import TextBlob

In [None]:
# Definindo função tradutora
def tradutor(texto, from_l, to_l):
    blob = TextBlob(texto)
    return blob.translate(from_lang=from_l, to=to_l)

In [None]:
# Testando
tradutor(texto='olá, bom dia', from_l='pt', to_l='en')

TextBlob("Hello good Morning")

## Removendo stopwords

Vamos remover as stopwords de um texto através da word_tokenizer da NLTK.

In [None]:
# Importando dependências
from nltk import word_tokenize

In [None]:
# Definindo função de remoção de stopwords
def remover_sw(texto,stopwords):
    return ' '.join([palavra for palavra in word_tokenize(texto) if palavra.lower() not in stopwords])

In [None]:
# Testando
sentenca = "She sells seashells on the seashore"
stopwords = ['she', 'on', 'the', 'am', 'is', 'not']
remover_sw(sentenca, stopwords)

'sells seashells seashore'