# Usando list, set e str para análise de um texto

Nesta lição vamos exercitar uso de listas, conjuntos e strings com uma análise de texto simples. Temos um texto baixado da internet e gostariamos de fazer algumas análises tais como listar as palavras significativas (talvez para montar um índice) ou fazer estatísticas de ocorrências delas.


Vamos ler o texto, que está no arquivo 'cienciapolitica.txt'.

In [1]:
import os
os.getcwd()

'C:\\Users\\ps\\Desktop\\Blog'

In [2]:
with open('cienciapolitica.txt', 'r') as f:
    texto = f.read()

In [3]:
texto

'A Ciência Política surgiu como disciplina e instituição em meados do século XIX, período em que avançou como "Ciência do Estado" principalmente na Alemanha, Itália e França. De maneira mais ampla, a Ciência Política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. Nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como Noberto Bobbio* esclarece em seu Dicionário de Política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."\n\nTrata-se, portanto, de uma disciplina das Ciências Sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. Ela cuida, principalmente, dos ato

Observe que o texto lido contem palavras sem relevância para montar um índice, tais como "a", "e", "em" e similares. Para eliminar tais palavras usaremos listas de *stopwords*. 

Procurando na internet baixamos três arquivos de *stopwords* para Português. São arquivos texto contendo listas de palavras julgadas irrelevantes em conteúdo (conectivos, proposições, etc):
1. stopwords.txt
2. stopwords1.txt
3. stopwords2.txt

As listas tem tamanhos diferentes. A primeira tarefa é fazer uma união das listas para obter uma única lista com todas palavras sem repetições.

Começaremos lendo o conteúdo dos arquivos texto com as listas:

In [4]:
with open('stopwords.txt','r') as f:
    s0 = f.read()

Vejamos o que foi lido. Repare que **s0** é um string, logo podemos examinar só os primeiros caracteres lidos:

In [5]:
s0[:50]

'de\na\no\nque\ne\ndo\nda\nem\num\npara\ncom\nnão\numa\nos\nno\nse'

Certo. Está cheio de caracteres nova-linha (\n). Vamos eliminar estes caracteres usando o método **split()** de strings.

In [6]:

s = s0.split('\n')
s

['de',
 'a',
 'o',
 'que',
 'e',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera',
 'es

Repare que s *é uma lista*, não um string como s0. É como funciona o comando **split()**

In [7]:
len(s)

203

Repetimos o procedimento para os outros dois arquivos texto:

In [8]:
with open('stopwords1.txt','r') as f:
    s0 = f.read()
s1 = s0.split('\n')

len(s1)

300

In [9]:
s1

['a',
 'à',
 'acordo',
 'afirma',
 'afirmou',
 'agora',
 'ainda',
 'além',
 'alguns',
 'ano',
 'anos',
 'antes',
 'ao',
 'aos',
 'apenas',
 'após',
 'aqui',
 'área',
 'as',
 'às',
 'assim',
 'até',
 'aumento',
 'banco',
 'bem',
 'bilhões',
 'bom',
 'brasil',
 'brasileira',
 'brasileiro',
 'brasília',
 'cada',
 'câmara',
 'campanha',
 'candidato',
 'carlos',
 'casa',
 'caso',
 'central',
 'centro',
 'cerca',
 'cidade',
 'cinco',
 'cinema',
 'coisa',
 'com',
 'como',
 'congresso',
 'conta',
 'contra',
 'da',
 'dar',
 'das',
 'de',
 'depois',
 'deputado',
 'desde',
 'deve',
 'dia',
 'dias',
 'dinheiro',
 'direito',
 'diretor',
 'disse',
 'diz',
 'do',
 'dois',
 'dos',
 'duas',
 'durante',
 'e',
 'é',
 'economia',
 'econômica',
 'ela',
 'ele',
 'eles',
 'em',
 'empresa',
 'empresas',
 'enquanto',
 'então',
 'entre',
 'equipe',
 'era',
 'especial',
 'essa',
 'esse',
 'esta',
 'está',
 'estado',
 'estados',
 'estão',
 'estava',
 'este',
 'eu',
 'eua',
 'exemplo',
 'falta',
 'fato',
 'faz',
 

In [10]:
with open('stopwords2.txt','r') as f:
    s0 = f.read()
s2 = s0.split('\n')

len(s2)

145

In [11]:
s2

['último',
 'é',
 'acerca',
 'agora',
 'algmas',
 'alguns',
 'ali',
 'ambos',
 'antes',
 'apontar',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'atrás',
 'bem',
 'bom',
 'cada',
 'caminho',
 'cima',
 'com',
 'como',
 'comprido',
 'conhecido',
 'corrente',
 'das',
 'debaixo',
 'dentro',
 'desde',
 'desligado',
 'deve',
 'devem',
 'deverá',
 'direita',
 'diz',
 'dizer',
 'dois',
 'dos',
 'e',
 'ela',
 'ele',
 'eles',
 'em',
 'enquanto',
 'então',
 'está',
 'estão',
 'estado',
 'estar \testará',
 'este',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiveram',
 'eu',
 'fará',
 'faz',
 'fazer',
 'fazia',
 'fez',
 'fim',
 'foi',
 'fora',
 'horas',
 'iniciar',
 'inicio',
 'ir',
 'irá',
 'ista',
 'iste',
 'isto',
 'ligado',
 'maioria',
 'maiorias',
 'mais',
 'mas',
 'mesmo',
 'meu',
 'muito',
 'muitos',
 'nós',
 'não',
 'nome',
 'nosso',
 'novo',
 'o',
 'onde',
 'os',
 'ou',
 'outro',
 'para',
 'parte',
 'pegar',
 'pelo',
 'pessoas',
 'pode',
 'poderá \tpodia',
 'por',
 'porque

Em **s2** aparecem algumas tabulações (\t) espúrias. Podemos eliminar elas usando o comando **replace()**.

In [12]:
s0 = s0.replace('\t','\n')
s2 = s0.split('\n')
s2

['último',
 'é',
 'acerca',
 'agora',
 'algmas',
 'alguns',
 'ali',
 'ambos',
 'antes',
 'apontar',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'atrás',
 'bem',
 'bom',
 'cada',
 'caminho',
 'cima',
 'com',
 'como',
 'comprido',
 'conhecido',
 'corrente',
 'das',
 'debaixo',
 'dentro',
 'desde',
 'desligado',
 'deve',
 'devem',
 'deverá',
 'direita',
 'diz',
 'dizer',
 'dois',
 'dos',
 'e',
 'ela',
 'ele',
 'eles',
 'em',
 'enquanto',
 'então',
 'está',
 'estão',
 'estado',
 'estar ',
 'estará',
 'este',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiveram',
 'eu',
 'fará',
 'faz',
 'fazer',
 'fazia',
 'fez',
 'fim',
 'foi',
 'fora',
 'horas',
 'iniciar',
 'inicio',
 'ir',
 'irá',
 'ista',
 'iste',
 'isto',
 'ligado',
 'maioria',
 'maiorias',
 'mais',
 'mas',
 'mesmo',
 'meu',
 'muito',
 'muitos',
 'nós',
 'não',
 'nome',
 'nosso',
 'novo',
 'o',
 'onde',
 'os',
 'ou',
 'outro',
 'para',
 'parte',
 'pegar',
 'pelo',
 'pessoas',
 'pode',
 'poderá ',
 'podia',
 'por',
 '

In [13]:
len(s2)

147

Observe que a soma dos números de palavras das listas dá:

In [14]:
147 + 300 + 203

650

Examinando as listas vê-se que diversas palavras repetem-se nelas. Precisamos fazer uma uniâo de listas como conjuntos de palavras, eliminando repetições. Isto é exatamente o que **sets** (conjuntos) fazem, por definição. 

Vamos portanto transformar as três listas **s, s1, s2** em três conjuntos, **S, S1, S2**, após o que faremos a sua uniâo:

In [None]:
S = set(s)
S

In [16]:
len(S)

203

In [17]:
S1 = set(s1)
len(S1)

300

In [18]:
S2 = set(s2)
len(s2)

147

OK, temos os três conjuntos de palavras e cada um deles por definição não tem palavras repetidas. Agora é só fazer a sua união:

In [19]:
X = S.union(S1)
len(X)

420

In [20]:
X

{'a',
 'acordo',
 'afirma',
 'afirmou',
 'agora',
 'ainda',
 'alguns',
 'além',
 'ano',
 'anos',
 'antes',
 'ao',
 'aos',
 'apenas',
 'após',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aqui',
 'aquilo',
 'as',
 'assim',
 'até',
 'aumento',
 'banco',
 'bem',
 'bilhões',
 'bom',
 'brasil',
 'brasileira',
 'brasileiro',
 'brasília',
 'cada',
 'campanha',
 'candidato',
 'carlos',
 'casa',
 'caso',
 'central',
 'centro',
 'cerca',
 'cidade',
 'cinco',
 'cinema',
 'coisa',
 'com',
 'como',
 'congresso',
 'conta',
 'contra',
 'câmara',
 'da',
 'dar',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'deputado',
 'desde',
 'deve',
 'dia',
 'dias',
 'dinheiro',
 'direito',
 'diretor',
 'disse',
 'diz',
 'do',
 'dois',
 'dos',
 'duas',
 'durante',
 'e',
 'economia',
 'econômica',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'empresa',
 'empresas',
 'enquanto',
 'entre',
 'então',
 'equipe',
 'era',
 'eram',
 'especial',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estado',
 

In [21]:
SW = X.union(S2)
len(SW)

477

Repare que o número de palavras deste conjunto final é 477, bem menos que a soma dos três conjuntos originais, 650. 

Vamos salvar o conjunto final de **stopwords** em arquivo texto:

In [22]:
with open('stopwd.txt','w') as f:
    f.write('\n'.join(SW))

O comando **write(string)** de objetos **file** escreve no arquivo dado um string fornecido como argumento. 

No caso criamos o string da seguinte forma: iniciando com uma simples nova-linha (\n) e usando o comando **join()** de objetos string para unir o conjunto SW ao string inicial '\n'. 

O **join()** itera os elementos de SW e concatena num string adequado.

Muito bem, temos o texto lido e obtivemos uma lista de *stopwords*. Vamos usar esta lista para extrair do texto todas as palavras que ocorrem em SW.

Primeiro limpamos um pouco o texto substituindo caracteres especiais como nova-linhas \n por espaços:

In [23]:
text = texto.replace('\n',' ')
text

'A Ciência Política surgiu como disciplina e instituição em meados do século XIX, período em que avançou como "Ciência do Estado" principalmente na Alemanha, Itália e França. De maneira mais ampla, a Ciência Política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. Nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como Noberto Bobbio* esclarece em seu Dicionário de Política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."  Trata-se, portanto, de uma disciplina das Ciências Sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. Ela cuida, principalmente, dos atos 

Vamos trocar letras maiúsculas por minúsculas (num índice real não fariamos isto!). É fácil:

In [24]:
ltext = text.lower()
ltext

'a ciência política surgiu como disciplina e instituição em meados do século xix, período em que avançou como "ciência do estado" principalmente na alemanha, itália e frança. de maneira mais ampla, a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática, sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. nesse sentido, a palavra "ciência" é usada como ideia oposta à noção de "opinião", de forma que, como noberto bobbio* esclarece em seu dicionário de política, "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo, não formular juízos com base em dados imprecisos, mas apoiar-se nas provas dos fatos."  trata-se, portanto, de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo, análises de comportamento político e de atividades políticas em geral. ela cuida, principalmente, dos atos 

É necessário eliminar pontuação. Isto é feito muito facilmente usando *Expressões Regulares* mas como não vimos este tópico ainda faremos a eliminação por força bruta:

In [25]:
text1 = ltext.replace(',','')
text1

'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança. de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais. nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos."  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral. ela cuida principalmente dos atos e dos atores qu

In [26]:
text2 = text1.replace('.','')
text2

'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que pa

In [27]:
text3 = text2.replace(':','')
text3

'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio* esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que pa

Mais alguns caracteres espúrios do texto devem ser eliminados: *  e "

In [28]:
text4 = text3.replace('*','')
text4

'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como "ciência do estado" principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra "ciência" é usada como ideia oposta à noção de "opinião" de forma que como noberto bobbio esclarece em seu dicionário de política "ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos"  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que par

In [29]:
text5 = text4.replace('"', '')
text5

'a ciência política surgiu como disciplina e instituição em meados do século xix período em que avançou como ciência do estado principalmente na alemanha itália e frança de maneira mais ampla a ciência política pode ser entendida como a disciplina que se volta para o estudo de qualquer fenômeno ligado às estruturas políticas de maneira sistemática sempre apoiado na observação empírica rigorosa e fundamentado em argumentos racionais nesse sentido a palavra ciência é usada como ideia oposta à noção de opinião de forma que como noberto bobbio esclarece em seu dicionário de política ocupar-se cientificamente de política significa não se abandonar a opiniões e crenças do vulgo não formular juízos com base em dados imprecisos mas apoiar-se nas provas dos fatos  trata-se portanto de uma disciplina das ciências sociais que lida com o estudo de sistemas de governo análises de comportamento político e de atividades políticas em geral ela cuida principalmente dos atos e dos atores que participam 

Agora que o texto está razoavelmente limpo e uniforme, podemos eliminar todas as *stopwords*. 

Primeiro transformamos o texto de string em lista de palavras:

In [30]:
ltxt = text5.split()
ltxt

['a',
 'ciência',
 'política',
 'surgiu',
 'como',
 'disciplina',
 'e',
 'instituição',
 'em',
 'meados',
 'do',
 'século',
 'xix',
 'período',
 'em',
 'que',
 'avançou',
 'como',
 'ciência',
 'do',
 'estado',
 'principalmente',
 'na',
 'alemanha',
 'itália',
 'e',
 'frança',
 'de',
 'maneira',
 'mais',
 'ampla',
 'a',
 'ciência',
 'política',
 'pode',
 'ser',
 'entendida',
 'como',
 'a',
 'disciplina',
 'que',
 'se',
 'volta',
 'para',
 'o',
 'estudo',
 'de',
 'qualquer',
 'fenômeno',
 'ligado',
 'às',
 'estruturas',
 'políticas',
 'de',
 'maneira',
 'sistemática',
 'sempre',
 'apoiado',
 'na',
 'observação',
 'empírica',
 'rigorosa',
 'e',
 'fundamentado',
 'em',
 'argumentos',
 'racionais',
 'nesse',
 'sentido',
 'a',
 'palavra',
 'ciência',
 'é',
 'usada',
 'como',
 'ideia',
 'oposta',
 'à',
 'noção',
 'de',
 'opinião',
 'de',
 'forma',
 'que',
 'como',
 'noberto',
 'bobbio',
 'esclarece',
 'em',
 'seu',
 'dicionário',
 'de',
 'política',
 'ocupar-se',
 'cientificamente',
 'de',
 '

Lembre que nossa lista final de *stopwords* ficou guardada no conjunto SW. Vamos transformar SW numa lista de palavras tambem, após o que fica fácil proceder a eliminação:

In [31]:
lsw = list(SW)
lsw

['coisa',
 'como',
 'dinheiro',
 'dia',
 'outros',
 'houvermos',
 'houvéramos',
 'porque',
 'promeiro',
 'mês',
 'isto',
 'hão',
 'fora',
 'fim',
 'mesma',
 'saber',
 'us',
 'cada',
 'segundo',
 'poder',
 'fossem',
 'estivéssemos',
 'estivermos',
 'então',
 'tivermos',
 'tiverem',
 'paulo',
 'hei',
 'brasileiro',
 'iste',
 'rio',
 'central',
 'nova',
 'devem',
 'temos',
 'congresso',
 'minhas',
 'próprio',
 'nossa',
 'estou',
 'economia',
 'direito',
 'umas',
 'delas',
 'menos',
 'problema',
 'aqueles',
 'corrente',
 'países',
 'seríamos',
 'o',
 'estava',
 'pode',
 'pontos',
 'teus',
 'assim',
 'lhe',
 'houveriam',
 'dois',
 'vos',
 'era',
 'comprido',
 'mil',
 'vão',
 'seu',
 'essa',
 'bilhões',
 'fosse',
 'empresa',
 'período',
 'houvesse',
 'jogo',
 'real',
 'lugar',
 'falta',
 'tua',
 'teria',
 'dos',
 'debaixo',
 'de',
 'antes',
 'ao',
 'fomos',
 'especial',
 'eu',
 'apenas',
 'lado',
 'política',
 'sociedade',
 'minha',
 'havemos',
 'tinha',
 'me',
 'milhões',
 'houvéssemos',
 '

In [32]:
palavras = [x for x in ltxt if x not in lsw]
palavras

['ciência',
 'surgiu',
 'disciplina',
 'instituição',
 'meados',
 'século',
 'xix',
 'avançou',
 'ciência',
 'principalmente',
 'alemanha',
 'itália',
 'frança',
 'maneira',
 'ampla',
 'ciência',
 'entendida',
 'disciplina',
 'volta',
 'estudo',
 'fenômeno',
 'estruturas',
 'políticas',
 'maneira',
 'sistemática',
 'apoiado',
 'observação',
 'empírica',
 'rigorosa',
 'fundamentado',
 'argumentos',
 'racionais',
 'nesse',
 'sentido',
 'palavra',
 'ciência',
 'usada',
 'ideia',
 'oposta',
 'noção',
 'opinião',
 'noberto',
 'bobbio',
 'esclarece',
 'dicionário',
 'ocupar-se',
 'cientificamente',
 'significa',
 'abandonar',
 'opiniões',
 'crenças',
 'vulgo',
 'formular',
 'juízos',
 'base',
 'dados',
 'imprecisos',
 'apoiar-se',
 'provas',
 'fatos',
 'trata-se',
 'portanto',
 'disciplina',
 'ciências',
 'sociais',
 'lida',
 'estudo',
 'sistemas',
 'análises',
 'comportamento',
 'político',
 'atividades',
 'políticas',
 'geral',
 'cuida',
 'principalmente',
 'atos',
 'atores',
 'participam'

Fica claro olhando esta lista que muitas outras palavras poderiam ser eliminadas. Verbos, adverbios, etc. Isto ilustra que uma lista básica de *stopwords* vai ser sempre expandida com palavras adicionais dependentes da aplicação no caso.

Por exemplo poderiamos usar um dicionário para eliminar verbos, etc. 

Alem disso fica claro que termos como "Ciências Sociais" deveriam permanecer como tais e não ser desmembrados em duas (ou mais) palavras isoladas.

Neste exemplo símples vamos só fazer a contagem de ocorrências de cada palavra em **palavras** e listar o resultado em ordem decrescente. Como fazer tal contagem?

Objetos da classe **list** possuem um método **count()** que conta as ocorrências de cada elemento. Vamos usa-lo para este exemplo. Observe que antes de mais nada precisamos de uma lista de todas palavras do texto sem repetições, o que fazemos com a técnica de conversão em conjuntos vista acima:


In [33]:
slist = set(palavras)
lista = list(slist)
lista

['psicologia',
 'estudo',
 'poderes',
 'relações',
 'palavra',
 'mesmos',
 'jean-jacques',
 'importantes',
 'tomadas',
 'principalmente',
 'hobbes',
 'hegel',
 'acompanhando',
 'alemanha',
 'avançou',
 'remontam',
 'serviram',
 'ações',
 'nesse',
 'oposta',
 'cientificamente',
 'progresso',
 'chanakya',
 'atividades',
 'xviii',
 'xiv',
 'provas',
 'primeiros',
 'político',
 'entendida',
 'usada',
 'fazem',
 'surgido',
 'kant',
 'antiga',
 'sociologia',
 'empírica',
 'frança',
 'serem',
 'cenário',
 'disciplinas',
 'diversos',
 'filosofia',
 'apoiado',
 'trata-se',
 'contextos',
 'base',
 'disciplina',
 'geral',
 'sistemas',
 'fundamentado',
 'teórico',
 'formular',
 'esclarece',
 'crenças',
 'estudos',
 'considerando',
 'utilizados',
 'arcabouço',
 'científico',
 'racionais',
 'volta',
 'abandonar',
 'portanto',
 'históricos',
 'pública',
 'fenômeno',
 'metodologicamente',
 'séculos',
 'surgiu',
 'contribuíram',
 'realidades',
 'documentos',
 'lida',
 'ideia',
 'maneira',
 'grécia',
 '

In [34]:
len(lista)

172

In [35]:
contagem = [palavras.count(x) for x in lista]
contagem

[1,
 5,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 2,
 1,
 1,
 1,
 2,
 5,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 3,
 1,
 3,
 2,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 4,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 8,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 1,
 3]

Estes números estão na mesma ordem das palavras em **palavras**. Para obtermos pares (pal, conta) com cada palavra e sua contagem podemos usar **zip()** juntando a lista de palavras sem repetição e sua contagem respectiva.

In [36]:
cont = list(zip(lista,contagem))
cont

[('psicologia', 1),
 ('estudo', 5),
 ('poderes', 1),
 ('relações', 1),
 ('palavra', 1),
 ('mesmos', 1),
 ('jean-jacques', 1),
 ('importantes', 1),
 ('tomadas', 1),
 ('principalmente', 2),
 ('hobbes', 1),
 ('hegel', 1),
 ('acompanhando', 1),
 ('alemanha', 1),
 ('avançou', 1),
 ('remontam', 1),
 ('serviram', 1),
 ('ações', 2),
 ('nesse', 1),
 ('oposta', 1),
 ('cientificamente', 1),
 ('progresso', 1),
 ('chanakya', 1),
 ('atividades', 2),
 ('xviii', 1),
 ('xiv', 1),
 ('provas', 1),
 ('primeiros', 1),
 ('político', 2),
 ('entendida', 1),
 ('usada', 1),
 ('fazem', 1),
 ('surgido', 1),
 ('kant', 1),
 ('antiga', 1),
 ('sociologia', 1),
 ('empírica', 1),
 ('frança', 1),
 ('serem', 1),
 ('cenário', 1),
 ('disciplinas', 1),
 ('diversos', 2),
 ('filosofia', 2),
 ('apoiado', 1),
 ('trata-se', 1),
 ('contextos', 1),
 ('base', 2),
 ('disciplina', 5),
 ('geral', 2),
 ('sistemas', 1),
 ('fundamentado', 1),
 ('teórico', 1),
 ('formular', 1),
 ('esclarece', 1),
 ('crenças', 1),
 ('estudos', 2),
 ('consi