#### Removendo stopwords de uma base de frases

###### prof. Davi Rocha

Stop words são palavras que não tem significado na nossa análise de dados de texto. No wikipédia há a seguinte definição:

"Na computação, uma palavra vazia (ou stop word, em inglês) é uma palavra que é removida antes ou após o processamento de um texto em linguagem natural."

Será utilizado aqui o pacote **NLTK** do Python que tem várias ferramentas para lidarmos com texto e com processamento de linguagem natural para removermos as stopwords de uma base de dados de frases colocadas manualmente.

In [43]:
import nltk

Vamos agora pegar algumas frases:

In [44]:
dados = [('eu sou admirada por muitos'),
        ('me sinto completamente amado'),
        ('amar e maravilhoso'),
        ('estou me sentindo muito animado novamente'),
        ('eu estou muito bem hoje'),
        ('que belo dia para dirigir um carro novo'),
        ('o dia está muito bonito'),
        ('estou contente com o resultado do teste que fiz no dia de ontem'),
        ('o amor e lindo'),
        ('nossa amizade e amor vai durar para sempre'),
        ('estou amedrontado'),
        ('ele esta me ameacando a dias'),
        ('isso me deixa apavorada'),
        ('este lugar e apavorante'),
        ('se perdermos outro jogo seremos eliminados e isso me deixa com pavor'),
        ('tome cuidado com o lobisomem'),
        ('se eles descobrirem estamos encrencados'),
        ('estou tremendo de medo'),
        ('eu tenho muito medo dele'),
        ('estou com medo do resultado dos meus testes')]

In [45]:
print(dados)

['eu sou admirada por muitos', 'me sinto completamente amado', 'amar e maravilhoso', 'estou me sentindo muito animado novamente', 'eu estou muito bem hoje', 'que belo dia para dirigir um carro novo', 'o dia está muito bonito', 'estou contente com o resultado do teste que fiz no dia de ontem', 'o amor e lindo', 'nossa amizade e amor vai durar para sempre', 'estou amedrontado', 'ele esta me ameacando a dias', 'isso me deixa apavorada', 'este lugar e apavorante', 'se perdermos outro jogo seremos eliminados e isso me deixa com pavor', 'tome cuidado com o lobisomem', 'se eles descobrirem estamos encrencados', 'estou tremendo de medo', 'eu tenho muito medo dele', 'estou com medo do resultado dos meus testes']


Vamos agora acessar a base de stopwords do NLTK:

In [46]:
stopwordsnltk = nltk.corpus.stopwords.words('portuguese')

Vamos verificar essas stopwords:

In [47]:
print(stopwordsnltk)

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

Vamos agora remover as stopwords da nossa base de frases. Para isso vamos definir uma função que realizará esse trabalho:

In [48]:
def remove_stop_words(texto):
    frases=[]
    for palavras in texto:
        sem_stop_word=[p for p in palavras.split() if p not in stopwordsnltk]
        frases.append(sem_stop_word)
    return frases

Vamos agora aplicar a funcão que remove stopwords na nossa base de dados de frases.

In [49]:
print(remove_stop_words(dados))

[['admirada', 'muitos'], ['sinto', 'completamente', 'amado'], ['amar', 'maravilhoso'], ['sentindo', 'animado', 'novamente'], ['bem', 'hoje'], ['belo', 'dia', 'dirigir', 'carro', 'novo'], ['dia', 'bonito'], ['contente', 'resultado', 'teste', 'fiz', 'dia', 'ontem'], ['amor', 'lindo'], ['amizade', 'amor', 'vai', 'durar', 'sempre'], ['amedrontado'], ['ameacando', 'dias'], ['deixa', 'apavorada'], ['lugar', 'apavorante'], ['perdermos', 'outro', 'jogo', 'eliminados', 'deixa', 'pavor'], ['tome', 'cuidado', 'lobisomem'], ['descobrirem', 'encrencados'], ['tremendo', 'medo'], ['medo'], ['medo', 'resultado', 'testes']]


Observe que a função funcionou muito bem e retornou as frases sem as stopwords.

Esse é geralmente o primeiro passo para uma análise de dados de texto. 
Uma observação importante é que o NLTK não tem todas as stopwords da lingua portuguesa, logo se após usar o NLTK ainda houveram stopwords você pode retirar acrescentando essas stopwords na lista "**stopwordsnltk**"

O próximo passo de pré-processamento seria deixar as palavras somente com os seus radicais para diminuir a sua dimensionalidade.

Era isso!
**Keep calm and analysing data!**