# Pré-Processamento


Algumas ferramentas de pré-processsamento de texto usando técnicas de processamento de linguagem natural.

Este notebook é um guia! Você vai precisar rodar localmente o código, mas não pule essa etapa, é muito importante entender como funciona a ferramenta para tratar seus dados corretamente.

Os métodos disponíveis podem ser chamados em outro código que você criar.

Para ter acesso clone o repositório: git@github.com:tcruzfranca/portugueseTextPreprocessor.git

Você vai precisar dos seguintes arquivos para usar os métodos listados nesse notebook:
1. Preprocessor.py
2. removeStopWords.py

Não esqueça de conferir localmente e comparar com o notebook.

## Stop words

As *stop words* são palavras curtas que geralmente não alteram de forma substancial o sentido de um texto ou uma frase. Em nossa ferramenta, temos um arquivo "txt" com uma lista de palavras do português(do Brasil) que podem ser consideradas *stop words*. Caso você queira adicionar ou retirar alguma, basta editar esse arquivo(stopwords_pt.txt).

Abaixo nós iremos usar algumas funções para tratar as stopwords, e mais adiante no código, removê-las quando necessário.

Nem sempre é interessante seguir essa abordagem. Por exemplo, caso seu produto final seja uma análise de sentimento, não é muito útil remover palavras como *"bem"* e *"não"* que são curtas, mas podem ser cruciais para o sentido do texto.

O ideal é remover as *stop words* apenas quando elas não possuem relevância no texto para o seu objetivo(classificação de temas por exemplo). Existe um artigo rápido e interessante sobre isso(achei apenas em inglês):https://medium.com/@wilamelima/why-is-removing-stop-words-not-always-a-good-idea-c8d35bd77214


In [1]:
def _list_de_stopWords(arquivo):
    
    lista = []

    for stop_word in arquivo:
        stop_word = stop_word.lower()
        stop_word = stop_word.replace('\n','')
        stop_word = stop_word.replace('\r','')
        lista.append(str(stop_word))

    return lista  

In [2]:
def listStopWords(language="pt-br", f="stopwords_pt.txt"):

    arquivo = ""
    if language == "pt-br":
        arquivo = open(f)
    else:
        print("Inclua a lista e altere o método listStopWords em removeStopWords")

    return _list_de_stopWords(arquivo)

# Bibliotecas


### *removeStopWords*

No arquivo removeStopWords.py estão as funções que fizemos acima! No notebook a biblioteca está comentada, mas não faça isso no arquivo local.

## ptstemmer
    
É a biblioteca que irá nos fornecer os algoritmos de stemização. O OrengoStemmer apresentou um desempenho superior aos outros e por isso foi definido como padrão, mas você pode usar os outros caso queira.

Stemização é um processo de redução das palavras flexionadas sem se preocupar com preservar o sentido original delas, as palavras são reduzidas ao seu "stem" removendo acentos, sufixos, prefixos e outros morfemas.

E como isso é útil? Se seu corpus textual for muito grande e você precisa diminuir a dimensão dele, a stemização irá retornar palavras muitas vezes idênticas(escritas de forma diferente, ex: "Porta" e "poRtA") ao seu stem,
reduzindo a quantidade de palavras e mantendo o corpus.

#### Instalação

    1) Clone esse repositório para qualquer diretório do seu computador: https://github.com/edumangabeira/ptstemmer
    
    2) Pelo terminal, vá até a pasta onde está a versão para Python ptstemmer/Python ou clique com o botão direito na pasta e abra o terminal
    
    3) Digite no seu terminal python3 setup.py install(ou apenas python setup.py dependendo da versão na sua máquina) 


## unicodedata

Ela vai nos garantir que o nosso formato padrão(utf-8) se mantenha por todo o texto.

## re

Para remover alguns caracteres especiais e padronizar os tweets vamos fazer uso de expressões regulares(regex). Mais à frente serão explicadas as escolhas de remoção.

Se conhece pouco do tópico e está interessado em saber mais, esse guia rápido pode ser de ajuda: http://mindbending.org/pt/brincando-expressoes-regulares-no-python

também há um canal no youtube excelente falando sobre isso(e mais sobre python em geral), mas o conteúdo é em inglês: https://www.youtube.com/watch?v=sa-TUpSx1JA


## Spacy

Essa biblioteca oferece diversas ferramentas de processamento de linguagem natural, entre elas a lematização, processo similar ao de stemização, mas em vez de reduzir as palavras sem se importar com preservar a semântica, lematizar faz com que a palavra seja reduzida ao seu radical.(ex: "comemos", "comeram", "comem": todos podem ser reduzidas a "comer". 

Assim como o processo de stemming, aqui o objetivo é diminuir a variação morfológica do texto, mas de forma bem mais sofisticada por levar em conta o contexto em que a palavra foi inserida e a classificação do morfema, o único problema é tornar confiável a acurácia para classificar um morfema. 

Atualmente o Spacy conta com um modelo da língua portuguesa baseado em textos jornalísticos e artigos da wikipédia, ou seja, seu uso para tratar discursos na primeira pessoa pode encontrar muitos erros.

Apesar de ser um procedimento complicado você pode treinar seu próprio modelo. Os desenvolvedores disponibilizam um tutorial com todos os recursos da biblioteca que se enconta em : https://course.spacy.io/

   #### Instalação
       1) Instalação rápida
       
       pip install -U spacy
   
       2) Caso queira instalar num ambiente virtual:
           
           - python -m venv .env
           - source .env/bin/activate
           - pip install spacy
           
       3) Se você tiver o anaconda:
         
         conda install -c conda-forge spacy
      
   #### ATENÇÃO
     
   Também é preciso baixar o modelo da língua portuguesa:
   python3 -m spacy download pt
      
   para mais detalhes visite a página:  https://spacy.io/models



In [2]:
# -*- coding: utf-8 -*-
import re
# import removeStopWords
import spacy
#import csv
from unicodedata import normalize
from ptstemmer.implementations.OrengoStemmer import OrengoStemmer
from ptstemmer.implementations.SavoyStemmer import SavoyStemmer
from ptstemmer.implementations.PorterStemmer import PorterStemmer

'''
    @authors
        Tiago Cruz de França
        Eduardo Freire Mangabeira
    @since
        03-23-2015
    @version 
        1.0.0
    @see
        https://github.com/tcruzfranca/annotatedDatasetBrazilianProtests
        This is a specific version made for turn easy the retrival of tweets from the Brazilian protests Golden Dataset.
        For a more generic version for retrival of tweets by id, access https://github.com/tcruzfranca/scripts.
    License (BSD 2): Available in https://github.com/tcruzfranca/annotatedDatasetBrazilianProtests/blob/master/LICENSE.txt.
    
    description 
                This code is useful for retrieval tweets usin list of tweet's IDs. Such list must be a file in which each ID is in a different line.
                In the end of this file you can see the main function and the instructions for set correctly the configurations needed.
    
    Please access the git address and cite at least one: our paper or the git account if we want use this script.
'''


"\n    @authors\n        Tiago Cruz de França\n        Eduardo Freire Mangabeira\n    @since\n        03-23-2015\n    @version \n        1.0.0\n    @see\n        https://github.com/tcruzfranca/annotatedDatasetBrazilianProtests\n        This is a specific version made for turn easy the retrival of tweets from the Brazilian protests Golden Dataset.\n        For a more generic version for retrival of tweets by id, access https://github.com/tcruzfranca/scripts.\n    License (BSD 2): Available in https://github.com/tcruzfranca/annotatedDatasetBrazilianProtests/blob/master/LICENSE.txt.\n    \n    description \n                This code is useful for retrieval tweets usin list of tweet's IDs. Such list must be a file in which each ID is in a different line.\n                In the end of this file you can see the main function and the instructions for set correctly the configurations needed.\n    \n    Please access the git address and cite at least one: our paper or the git account if we wan

# Métodos


Temos diversos métodos na classe do Pré-Processador que a seguir serão comentados em mais detalhes.

### replaceNonASCIIcharacter(self, text, codif='utf-8')

Remove todos os caracteres que não estão na tabela de codificação ASCII e não alfa-numéricos
(ex: bullets, travessões, caracteres acentuados, etc.).

### removeNonAlphaNumericValues(self, text)
Remove todos os caracteres que não são alfa-numéricos.

### textFilter(self, text)
Este método foi criado pensando especificamente no texto de um Tweet, ele remove retweets, menções, url, espaços multiplo, tabulações, etc.

### replaceTwoOrMore(self, text)
Remove caracteres repetidos de um texto.
(Falta incluir exceções: ss, rr, ee e oo)

### removeSmallWords(self, tweet, minSize = 2)
Remove qualquer string menhor ou igual ao tamanho mínimo informado

### _getStopWords(self,language="pt-br")
Nesse Método já estamos chamando aquele outro código mencionado anteriormente(removeStopWords.py). Ele inicia o atributo stopWords da classe Preprocessor com as stop words do arquivo texto.


### stopWordsWithoutNonASCIICharacteres(self,onlyASCII = True,language="pt-br")
Carrega stop words removendo todos os caracteres que não estão na tabela de codificação ASCII.

### remove_stopWords(self, tweet, language="pt-br", list_stopWords=[]):
Outro método feito pensando no Twitter, mas se estende para qualquer texto genérico.
Remove stopwords do tweet com base na lista_stopWords criada em lista_de_stopWords(arquivo).
Usado depois de remover pontuacoes do tweet.

### _getStemmerObject(self, language="pt-br", approach="orengo")
Inicializa o Stemmer a ser utilizado. O stemmer padrão e recomendado é o Orengo.


### stemming(self,palavras,language="pt-br", approach="orengo")
Stemiza uma lista com uma ou mais palavra e retorna a lista com as palavras stemizadas.

### stemmingFrase(self,frase,language="pt-br", approach="orengo")
Stemiza uma frase inteira e retorna o texto stemizado.

### lemmatizePhraseWithoutStopwords(self, frase, language="pt-br"):
Lematiza uma frase ignorando stopwords, os lemas são salvos(individualmente) numa lista em que estão indicadas as identidades de cada morfema.
Para saber mais sobre o que significa cada identidade: https://spacy.io/usage/linguistic-features#pos-tagging

### lemmatizePhraseWithoutStopwordsandPOS(self, frase, language="pt-br")
Lematiza uma frase ignorando stopwords e a análise morfológica das palavras(Part-of-Speech Tagging - POS).

### lemmatizePhrase(self, frase, language="pt")
Lematiza uma frase e inclui os lemas numa lista.

# Pré-Processador

In [13]:
class PreProcessor(object):

    def __init__(self):
        self.stopWords = []
        self.stopWordsOnlyASCIICharacteres = False
        self.stemmer = OrengoStemmer()
        self.stemmerType = "orengo"

    def removeNonAlphaNumericValues(self, text):

        text = re.sub('[^a-zA-Z0-9@]',' ',text)
        text = re.sub('\s{2,}',' ',text)
        return text


    def replaceNonASCIIcharacter(self, text, codif='utf-8'):
 
        return normalize('NFKD', text).encode('ASCII','ignore').decode(codif)


    def textFilter(self, text):
   
        text = text.lower()
        text = re.sub('([RT]|[rt]*\s*@[a-z]+)|(http([!a-z]|[^ \t\n\r\f\v]*))|([^a-zA-ZÀ-ú0-9\s])',' ',text)
        '''
        o intervalo À-ú para englobar todos os acentuados, ou ainda À-Ú e à-ú caso se queria só maiúsculas ou minúsculas.
            [[:lower:]]	[a-zà-ú]
            [[:upper:]]	[A-ZÀ-Ú]
            [[:alpha:]]	[A-Za-zÀ-ú]
        '''   
        return text.strip()


    def replaceTwoOrMore(self, text):
        
        pattern = re.compile(r"(.)\1{1,}", re.DOTALL)
        findings = pattern.findall(text)
        #print (findings)
        return pattern.sub(r"\1", text)

    def removeSmallWords(self, tweet, minSize = 2):
        
        palavras = tweet.split()
        palavra = ""
        for pal in palavras:
            if len(pal) > minSize:
                palavra += pal+" "
        return palavra.strip()


    def _getStopWords(self,language="pt-br"):
        
        if len(self.stopWords) == 0:
            self.stopWords = removeStopWords.listStopWords(language)
        return self.stopWords


    def stopWordsWithoutNonASCIICharacteres(self,onlyASCII = True,language="pt-br"):
        
        if (self.stopWordsOnlyASCIICharacteres and onlyASCII):            
            pass
        elif (not(self.stopWordsOnlyASCIICharacteres) and onlyASCII):
            stop_words = self._getStopWords(language)
            self.stopWords = [self.replaceNonASCIIcharacter(str(i.encode("utf-8"))) for i in stop_words]
            self.stopWordsOnlyASCIICharacteres = True            
        elif (self.stopWordsOnlyASCIICharacteres and not onlyASCII):            
            self.stopWords = []
            self.stopWords = self._getStopWords(language)
            self.stopWordsOnlyASCIICharacteres = False
        else:
            self.stopWords = self._getStopWords(language)
        
        return onlyASCII

        

    def remove_stopWords(self, tweet, language="pt-br", list_stopWords=[]):
        
        listStopWords = []
        if len(list_stopWords) == 0:     
            listStopWords = self._getStopWords(language)
        else:
            listStopWords = list_stopWords

        listTokensTweet = tweet.split()
        text = ''
        for i in listTokensTweet:
            #print(i) 
            i.strip()    
            if i not in listStopWords:
                text += i+' '
        return text.strip()
    
    def _getStemmerObject(self, language="pt-br", approach="orengo"):

        if (approach != self.stemmerType):
        
            self.stemmerType = approach
            if approach == "orengo":
                self.stemmer = OrengoStemmer()
                
            if approach == "porter":
                self.stemmer = PorterStemmer()        

            if approach == "savoy":
                self.stemmer = SavoyStemmer()        

        return self.stemmer
            

    def stemming(self,palavras,language="pt-br", approach="orengo"):

        stemmer = self._getStemmerObject(language, approach)
        if type(palavras) is str:
            return stemmer.getWordStem(palavras)

        lista = []        
        for palavra in palavras:
            lista.append(stemmer.getWordStem(palavra))

        return lista


    def stemmingFrase(self,frase,language="pt-br", approach="orengo"):
        palavras = frase.split()
        palavras = self.stemming(palavras)
        text=""
        listStopWords = self._getStopWords(language)
        for i in palavras:
            # print (i)
            i.strip()    
            if i not in listStopWords:
                text += i+' '

        return text.strip()


    '''
    A partir daqui há a possibilidade de mais de uma abordagem por conta do problema de ambiguidade
    presente na língua portuguesa em diversos casos. Identificar o morfema pode ser uma forma eficaz
    de fazer nossa lista de stopwords mais inteligente. Em casos como o verbo "comer" na primeira pessoa 
    do singular("como"), um lema que pode ser importante é confundindo com uma stopword, nesse caso 
    a conjunção "como".

    '''
    
    def lemmatizePhraseWithoutStopwords(self, frase, language="pt-br"):
        # é preciso baixar o modelo --> python3 -m spacy download pt

        languageAdapter = "pt"
        if language != "pt-br":
            languageAdapter = language

        frase = self.remove_stopWords(frase)
        nlp = spacy.load(languageAdapter)
        frase = nlp(frase)
        # listStopWords = self._getStopWords(language)
        lista = [palavra.lemma_ + ":" + palavra.pos_ for palavra in frase]
        # lista = [palavra.lemma_ for palavra in frase for stopword in listStopWords if palavra not in stopword]

        return lista

    def lemmatizePhraseWithoutStopwordsandPOS(self, frase, language="pt-br"):
        # é preciso baixar o modelo --> python3 -m spacy download pt

        languageAdapter = "pt"
        if language != "pt-br":
            languageAdapter = language

        frase = self.remove_stopWords(frase)
        # disable=['tagger']
        nlp = spacy.load(languageAdapter, disable=['tagger'])
        frase = nlp(frase)
        #listStopWords = self._getStopWords(language)
        lista = [palavra.lemma_ for palavra in frase]
        # lista = [palavra.lemma_ for palavra in frase for stopword in listStopWords if palavra not in stopword]

        return lista
        
    def lemmatizePhrase(self, frase, language="pt"):
        # é preciso baixar o modelo --> python3 -m spacy download pt
        nlp = spacy.load('pt')
        frase = nlp(frase)

        lista = [palavra.lemma_ for palavra in frase]

        return lista


# Exemplo de uso 


Tente rodar na sua máquina!


In [11]:
from Preprocessor import PreProcessor

prep = PreProcessor()

frase = "Eu como aquela batata como os ingleses comem aquela batata sintática."
k = prep.remove_stopWords(frase)
print(k)
w = prep.lemmatizePhraseWithoutStopwordsandPOS(frase)
print(w)
z = prep.lemmatizePhraseWithoutStopwords(frase)
print(z)
j = prep.lemmatizePhrase(frase)
print(j)

NameError: name 'removeStopWords' is not defined