# Preparação de dados textuais para aplicações de NLP



Bem-vindo ao primeiro notebook de nosso curso! Neste notebook, vamos implementar as etapas mais comuns de pré-processamento em dados textuais para aplicações em NLP.



## Carregando os dados

Os dados que serão utilizados em nossos experimentos estão armazenados na pasta <i>isc-analise-de-dados-ml/dados</i>. Para obter uma referência a ela, indicaremos seu caminho a partir do diretório deste notebook.

Esta estratégia de armazenar os dados e os scripts (neste caso, notebook) em diretórios separados é muito comum para estruturar projetos de análise de dados. As funções disponíveis no pacote `os` e `os.path` são muito úteis para manipulação de nomes de arquivos e diretórios de forma independente de sistema operacional.

In [None]:
import os
import pandas as pd

# Diretório deste notebook
diretorio_notebook = os.getcwd()

# Diretório onde estão armazenados os dados
diretorio_dados = os.path.join(diretorio_notebook, os.path.pardir, 'dados')

# Arquivos com os dados de treino do Imdb
arquivo_imdb_treino = os.path.join(diretorio_dados, os.path.pardir, 'dados', 'imdb', 'treino.xlsx')

# Carrega arquivo do Excel em um data frame
df_treino = pd.read_excel(arquivo_imdb_treino)

# Imprime primeiras linhas do dataframe com os dados de treino
df_treino.head()

Após carregar os dados com o Pandas, iremos criar uma lista com os textos de cada review.

In [None]:
# Obtém lista de strings a partir 
textos = df_treino.texto.values

# Visualiza o primeiro item da lista
textos[0]

## Normalização do texto

Sua primeira tarefa será completar a função abaixo para que ela retorne os textos normalizados. Não há uma definição única de normalização, portanto sugerimos realizar as seguintes tarefas: remover pontuação, remover números, converter todas as letras em minúsculas, substituir os caracteres - (hífen) e / (barra) por espaços. Para muitos problemas reais, esta é uma boa primeira aproximação. Em projetos reais, recomenda-se implementar uma versão inicial do modelo preditivo tão simples o quanto possível e aos poucos melhorá-la iterativamente.


In [None]:
def normaliza_texto(textos):
    """
    Retorna lista de textos normalizados.
    """
    # Lista onde os textos normalizados serão salvos
    textos_normalizados = []
    
    # Para cada texto
    for texto in textos:
        
        # Realizar as transformações aqui (não precisa ser em uma linha!)
        # texto_normalizado = 
        # ...
        
        textos_normalizados.append(texto_normalizado)
        
    # Retorna textos normalizados
    return textos_normalizados

# Testa função com o primeiro texto do dataset de treino
normaliza_texto(textos[0])

## Remoção de stop words

Stop words são palavras muito comuns que, portanto, adicionam pouca informação ao texto, a exemplo de artigos, preposições, pronomes, advérvios, verbos auxiliares, etc. Neste notebook, utilizaremos a lista disponibilizada pela biblioteca NLTK (Natural Language Tool Kit), que fornece vários funções para execução de tarefas de NLP, assim como vários corpora (corpus = conjunto de textos).

Abaixo, realizamos o download das listas de stopwrods, um dos corpora disponíveis no NLTK:

In [8]:
import nltk

# Realiza o download do corpus de stopwords (de vários idiomas, dentro os quais inglês e português)
nltk.download('stopwords')

# Obtém lista de stop words
stopwords = nltk.corpus.stopwords.words('english') # Em português, trocar para 'portuguese'

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\saul\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [7]:
# Imprime lista de stopwords
print(stopwords)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Agora é sua vez! Complete a função abaixo, que, assim como a anterior, recebe uma lista de textos e retorna uma lista de textos com stopwords removidas. 

In [None]:
def remove_stopwords(textos):
    """
    Retorna lista de textos sem as palavras comuns ('stopwords').
    """
    
    # Obtém lista de palavras comuns
    stopwords = nltk.corpus.stopwords.words('english')
    
    # Remover as stopwords aqui 
    # Desafio! Você consegue remover tudo em uma única linha utilizando list comprehension?
    # ...
    
    # Retorna textos sem stopwords
    return textos_sem_stopwords

## "Stemização" (<i>stemming</i>)

A stemização é um procedimento comum de pré-processamento, que consiste em remover os sufixos. Assim, obtemos somente o radical das palavras, que é a parte da palavra carrega a parte mais importante do seu significado.

Na maior parte das tarefas de NLP, os métodos "baseados em regras", que eram muito comuns até poucoss anos atrás, deram lugar a métodos estatísticos. A "stemização" é uma das poucas tarefas que o método predocuminante ainda é baseado em regras.

Em inglês, os stemmers mais utilizados são o Porter e o Snowball. Em português, o mais utilizado é o RSLP (Removedor de Sufixos da Lingua Portuguesa), que é composto por 8 regras, detalhadas no artigo do link:
http://www.inf.ufrgs.br/~viviane/rslp/.

Para utilizar o RSLP, é necessário instalá-lo, similarmente ao que foi feito com o corpora de stopwords.

In [18]:
# Download do RSLP
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\saul\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [19]:
# Exemplo de uso
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('stemização') # Repare que o algoritmo funciona mesmo com neologismos!

'stemiz'

O NLTK já disponibiliza instalado por padrão o Porter Stemmer. Para utilizá-lo, basta instanciar a classe correta.

Agora é com você! Complete a função abaixo para que retorne os textos "stamizados", similarmente às tarefas anteriores. 

In [14]:
def stemiza(textos):
    """
    Retorna lista de textos com as palavras 'stemizadas'.    
    """
    
    #
    # It's up to you now
    #
    
    return textos_stemizados

# Instancia o "Stemizador" Porter
stemmer = nltk.stem.PorterStemmer()



'when the snows fall and the white winds blow, the lone wolf dies but the pack surv'