# Contando Palavras
Neste capítulo iremos começar a interagir com os textos no nível da linguagem, por meio das ferramentas do Processamento de Linguagem Natural (PLN). Vamos progredir gradualmente nossa representação da linguagem a partir da morfologia, passando pela sintaxe e chegando à semântica. 

Nesta etapa, faremos uso de biliotecas especializadas em PLN como o [NLTK](https://www.nltk.org/) e a [Spacy](https://spacy.io/). 

In [11]:
import nltk
import spacy
import pandas as pd

Bibliotecas de PLN requerem o carregamento de modelos de liguagem para funcionar de maneira apropriada: para este capitulo iremos carregar os modelos específicos da lingua portuguesa. Para isso precisamos executar comandos no terminal do sistema operacional:

In [2]:
!python3 -m spacy download pt

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')
[38;5;1m✘ Couldn't link model to 'pt'[0m
Creating a symlink in spacy/data failed. Make sure you have the required
permissions and try re-running the command as admin, or use a virtualenv. You
can still import the model as a module and call its load() method, or create the
symlink manually.
/usr/local/lib/python3.6/dist-packages/pt_core_news_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/pt
[38;5;3m⚠ Download successful but linking failed[0m
Creating a shortcut link for 'pt' didn't work (maybe you don't have admin
permissions?), but you can still load the model via its full package name: nlp =
spacy.load('pt_core_news_sm')


In [4]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Para contar as palavras de um texto, é preciso primeiro separá-las uma a uma. A este processo dá-se o nome de tokenização, e é típicamente fácil de fazer mal-feito e difícil de fazer bem-feito.

Primeiramente precisaremos carregar os verbetes com a função que criamos no capítulo 1.

In [15]:
import glob, os
caminho = "../../dhbb/text/*.text"
arquivos  = glob.glob(caminho)

def tabula_verbete(n=None):
    """
    Carrega todos os verbetes disponíveis, ou os primeiros n.
    n:  número de verbetes a tabular
    """
    if n is None:
        n = len(arquivos)
    linhas = []
    for a in arquivos[:n]:
        with open (a, 'r') as f:
            verbete = f.read()
        cabeçalho = verbete.split('---')[1]
        campos = {l.split(':')[0].strip() :l.split(':')[1].strip() for l in cabeçalho.split('\n')[:4] if l}
        campos['arquivo'] = os.path.split(a)[1]
        campos['cargos'] = cabeçalho.split('cargos:')[1]
        campos['corpo'] = verbete.split('---')[2]
        linhas.append(campos)
    tabela = pd.DataFrame(data = linhas, columns=['arquivo','title', 'natureza', 'sexo', 'cargos', 'corpo'])
    return tabela

## Tokenização com o nltk

In [16]:
tabela = tabula_verbete(n=10)

In [19]:
palavras = nltk.word_tokenize(tabela.corpo[0])
palavras[:10]

['«',
 'José',
 'Machado',
 'Coelho',
 'de',
 'Castro',
 '»',
 'nasceu',
 'em',
 'Lorena',
 '(',
 'SP',
 ')',
 '.',
 'Estudou',
 'no',
 'Ginásio',
 'Diocesano',
 'de',
 'São',
 'Paulo',
 'e',
 'bacharelou-se',
 'em',
 '1910',
 'pela',
 'Faculdade',
 'de',
 'Ciências',
 'Jurídicas',
 'e',
 'Sociais',
 '.',
 'Dedicando-se',
 'à',
 'advocacia',
 ',',
 'foi',
 'promotor',
 'público',
 'em',
 'Cunha',
 '(',
 'SP',
 ')',
 'e',
 'depois',
 'delegado',
 'de',
 'polícia',
 'no',
 'Rio',
 'de',
 'Janeiro',
 ',',
 'então',
 'Distrito',
 'Federal',
 '.',
 'Iniciou',
 'sua',
 'vida',
 'política',
 'como',
 'deputado',
 'federal',
 'pelo',
 'Distrito',
 'Federal',
 ',',
 'exercendo',
 'o',
 'mandato',
 'de',
 '1927',
 'a',
 '1929',
 '.',
 'Reeleito',
 'para',
 'a',
 'legislatura',
 'iniciada',
 'em',
 'maio',
 'de',
 '1930',
 ',',
 'ocupava',
 'sua',
 'cadeira',
 'na',
 'Câmara',
 'quando',
 ',',
 'em',
 '3',
 'de',
 'outubro',
 ',',
 'foi',
 'deflagrado',
 'o',
 'movimento',
 'revolucionário',
 'li