# Extração de Características para Texto


Documentos são apresentados em formato textual. Tal formato, não pode ser compreendido por uma máquina e portanto, deve ser adaptado. À esta adaptação, de um formato textual para um formato numérico, atribuímos o nome extração de características (_feature extraction_).

Antes de começarmos, alguns conceitos devem ser compreendidos:

* **Vocabulário:** Conjunto de palavras (tokens) únicos presentes no dataset.

## Preparando o Dataset

Antes de aplicarmos técnicas de extração de características devemos ter um conjunto de dados pré-processados.

In [15]:
import pandas

dataset = pandas.read_csv("../datasets/imbd-reviews/IMDB-reviews-dataset.csv", nrows=15)

### Remoção de Acentuação

In [18]:
import unidecode

def utf8_to_ascii(text):
    return unidecode.unidecode(text)

### Remoção de Tags HTML

In [21]:
import re

def delete_html_nodes(text):
    regex = re.compile("<.+>")
    
    return re.sub(regex, "", text)

### Tokenização

In [29]:
import spacy

def tokenize(corpus, deacc=True, trim_html=True, header="review"):
    nlp = spacy.load("en_core_web_md")
    
    tokens = []
    for index, row in corpus.iterrows():
        document = row[header]
        # remove accents
        if deacc:
            document = utf8_to_ascii(document)
        
        # remove HTML tags and its content
        if trim_html:
            document = delete_html_nodes(document)
        
        spacy_doc = nlp(document)
        
        tokens.append([token for token in spacy_doc])
            
    return tokens

### Remoção de Stop-Words

In [28]:
def remove_stop_words(corpus):
    _tokens = []
    index = -1
    for document in corpus:
        _tokens.append([])
        index += 1
        
        for token in document:
            if not token.is_stop:
                _tokens[index].append(token)
            
    return _tokens

### Lematização

In [33]:
def lemmatize(corpus, remove_punct=True, remove_digits=True):
    lemmatized = []
    index = -1
    for document in corpus:
        lemmatized.append([])
        index += 1
        
        for token in document:
            # punctuation removal
            if remove_punct and token.is_punct:
                continue
                
            # digits removal
            if remove_digits and token.is_digit:
                continue

            lemmatized[index].append(token.lemma_)    
        
    return lemmatized

In [35]:
lemmatize(
        remove_stop_words(tokenize(
                dataset,
                deacc=True, )),
        remove_punct=True, remove_digits=True)

[['reviewer',
  'mention',
  'watch',
  'oz',
  'episode',
  'hooked',
  'right',
  'exactly',
  'happen',
  'main',
  'appeal',
  'fact',
  'go',
  'show',
  'dare',
  'forget',
  'pretty',
  'picture',
  'paint',
  'mainstream',
  'audience',
  'forget',
  'charm',
  'forget',
  'romance',
  'OZ',
  'mess',
  'episode',
  'see',
  'strike',
  'nasty',
  'surreal',
  'ready',
  'watch',
  'develop',
  'taste',
  'Oz',
  'get',
  'accustomed',
  'high',
  'level',
  'graphic',
  'violence',
  'violence',
  'injustice',
  'crooked',
  'guard',
  'sell',
  'nickel',
  'inmate',
  'kill',
  'order',
  'away',
  'mannered',
  'middle',
  'class',
  'inmate',
  'turn',
  'prison',
  'bitch',
  'lack',
  'street',
  'skill',
  'prison',
  'experience',
  'watch',
  'Oz',
  'comfortable',
  'uncomfortable',
  'view',
  'thats',
  'touch',
  'dark'],
 ['wonderful',
  'little',
  'production',
  'realism',
  'come',
  'home',
  'little',
  'thing',
  'fantasy',
  'guard',
  'use',
  'traditiona

## Bag of Words



## Tf-Idf

## Word Embeddings

## Referências

- [Machine Learning — Text Processing](https://towardsdatascience.com/machine-learning-text-processing-1d5a2d638958)

- [NLP with Python: Text Feature Extraction](https://sanjayasubedi.com.np/nlp/nlp-feature-extraction/)