<a href="https://colab.research.google.com/github/WLAraujo/python_PLN/blob/main/3_tokens_nltk_analitica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenização



Nesse caderno trabalharemos com os conceitos de tokenização e vocabulário aplicados em alguns textos. 

Lembrando que o processo de criação de **tokens e vocabulários** consiste em contar e identificar a quantidade e a diversidade das palavras em um texto. A quantidade de tokens em um texto é a quantidade de palavras que ele contém, já a quantidade de vocabulários de um texto é quantidade de palavras diferentes que ele contém.

Também veremos a NLTK. O **Natural Language Toolkit**, ou mais comumente o **NLTK**, é um conjunto de bibliotecas e programas para processamento simbólico e estatístico da linguagem natural, escrito na linguagem de programação Python.

Ele fornece interfaces fáceis de usar para mais de 50 corpora e recursos lexicais, como WordNet, junto com um conjunto de bibliotecas de processamento de texto para classificação, tokenização, lematização, marcação, análise e raciocínio semântico etc.

Por fim, veremos sobre **analítica de texto** básica, lembrando que analítica de teto refere-se a métodos de extrair percepções significativas e responder perguntas sobre os dados do texto analisado. Já a PLN nos auxilia a entrar na parte de análise semântica do texto. 

In [None]:
# Importando bibliotecas
import re

## 1. Tokenização de palavras

### 1.1 Texto

In [None]:
# Vamos calcular quantos tokens o seguinte texto possui
texto = ("""A capivara (nome científico: Hydrochoerus hydrochaeris) é uma espécie
         de mamífero roedor da família Caviidae e subfamília Hydrochoerinae. 
         Alguns autores consideram que deva ser classificada em uma família própria. 
         Está incluída no mesmo grupo de roedores ao qual se classificam as pacas, 
         cutias, os preás e o porquinho-da-índia. Ocorre por toda a América do Sul 
         ao leste dos Andes em habitats associados a rios, lagos e pântanos, 
         do nível do mar até 1 300 m de altitude. Extremamente adaptável, 
         pode ocorrer em ambientes altamente alterados pelo ser humano. (d'água)""")

In [None]:
# Regex para identificar qualquer palavra
regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ]+"

In [None]:
# Construindo vetor de tokens através da função finditer que devolve um iterável
tokens = re.findall(regex, texto)

In [None]:
# Definindo um conjunto para ser a estrutura de vocabulário
# Lembrando que conjuntos em python não armazenam duas vezes os mesmo elemento
vocabulario = set([])

In [None]:
# Adicionando palavras ao vocabulário
for token in tokens:
  vocabulario.add(token)

In [None]:
# Verificando a quantidade de tokens e o tamanho do vocabulário
print (f"T={i+1}, V={len(vocabulario)}")

N=86, V=74


### 1.2 Livro

In [None]:
# Criando regex que será usada
regex = r"[-'a-zA-ZÀ-ÖØ-öø-ÿ0-9]+" 

In [None]:
# Abrindo o documento que será usado
with open("/content/dom_casmurro.txt",'r') as doc:
  conteudo = doc.read()
  tokens = re.findall(regex, conteudo)
  print(f"Total de tokens = {len(tokens)}")

Total de tokens = 69049


### 1.3 Frequência das palavras no livro

In [None]:
# Reaproveitando o regex do último item vamos calcular a frequência de cada palavra
with open("/content/dom_casmurro.txt",'r') as doc:
    conteudo  = doc.read()
    # Identificando as palavras usando um dicionário
    palavras = re.findall(regex, conteudo)
    frequencias = dict([])
    # Contando a quantidade de vezes no documento através dos valores no dicionário
    for palavra in palavras:
        # Colocando as letras das palavras em minúsculo
        palavra = palavra.lower()
        # Verificando se a palavra já foi adicionada no dicionário
        if palavra not in frequencias:
            frequencias[palavra] = 0
        frequencias[palavra] += 1
    # Mostrando a quantidade de tokens e o tamanho do vocabulário
    print (f"Tokens: {len(palavras)}, Vocabulario: {len(frequencias)}")
    # Vendo as 20 palavras mais frequentes
    freq_ord = sorted(frequencias, key=frequencias.get, reverse=True)
    for i in range(0,20):
        print (f"--> {frequencias[freq_ord[i]]} : {freq_ord[i]}")

Tokens: 69049, Vocabulario: 10404
--> 2635 : que
--> 2558 : a
--> 2194 : e
--> 1975 : de
--> 1704 : o
--> 1428 : não
--> 783 : um
--> 698 : é
--> 666 : os
--> 640 : do
--> 629 : da
--> 567 : mas
--> 562 : se
--> 550 : era
--> 547 : as
--> 539 : para
--> 535 : com
--> 518 : eu
--> 489 : me
--> 462 : em


### 1.4 Removendo stop words do texto

In [None]:
# Como vimos na nossa análise de frequência
# a maioria das palavras mais frequentes são stopwords
# vamos remover as stopwords da nossa análise

# Também vamos reaproveitar a regex já definida

# Leitura das stopwords de um arquivo
stopwords = set([])
with open("/content/stopwords_pt.txt",'r') as stopwords_txt:
    for linha in stopwords_txt.readlines():
        stopwords.add(linha.strip().lower())

# Repetindo o processo do último item mas removendo as stopwords
with open("/content/dom_casmurro.txt",'r') as doc:
    conteudo  = doc.read()
    palavras = re.findall(regex, conteudo)
    frequencias = dict([])
    for palavra in palavras:
        palavra = palavra.lower()
        # Verificando se a palavra não é uma stopword
        if palavra not in stopwords:
          if palavra not in frequencias:
              frequencias[palavra] = 0
          frequencias[palavra] += 1
    print (f"Tokens: {len(palavras)}, Vocabulario: {len(frequencias)}")
    freq_ord = sorted(frequencias, key=frequencias.get, reverse=True)
    for i in range(0,20):
        print (f"--> {frequencias[freq_ord[i]]} : {freq_ord[i]}")

Tokens: 69049, Vocabulario: 10001
--> 340 : capitú
--> 262 : á
--> 237 : elle
--> 229 : mãe
--> 191 : dias
--> 188 : the
--> 186 : ella
--> 170 : casa
--> 166 : olhos
--> 162 : mim
--> 158 : josé
--> 123 : of
--> 119 : disse
--> 111 : padre
--> 106 : escobar
--> 104 : --não
--> 97 : cousa
--> 89 : ia
--> 88 : project
--> 85 : seminario


## 2. NLTK

In [None]:
# Importando o NLTK
import nltk

O NLTK possui uma série de pacotes adicionais ou corpora que podem ser facilmente adicionados à instalação básica da biblioteca.

Um dos corpora disponibilizados pelo NLTK é a obra completa de Machado de Assis. O nome desse pacote é "machado".




In [None]:
# Importando o corpus de Machado de Assis
from nltk.corpus import machado

In [None]:
# Uma outra forma de baixar esse corpus seria através de
nltk.download("machado")

[nltk_data] Downloading package machado to /root/nltk_data...
[nltk_data]   Package machado is already up-to-date!


True

In [None]:
# Extraindo arquivos e mudando a pasta deles
!unzip /root/nltk_data/corpora/machado.zip
!mv /content/machado /root/nltk_data/corpora

In [None]:
# Obtendo algumas informações sobre o corpus
print(f"Número de arquivos no corpus: {len(machado.fileids())}")
print(f"Primeiros cinco textos do corpus: {machado.fileids()[0:10]}")
print(f"Quantas palavras existem nesse corpus: {len(machado.words())}")

Número de arquivos no corpus: 246
Primeiros cinco textos do corpus: ['contos/macn001.txt', 'contos/macn002.txt', 'contos/macn003.txt', 'contos/macn004.txt', 'contos/macn005.txt', 'contos/macn006.txt', 'contos/macn007.txt', 'contos/macn008.txt', 'contos/macn009.txt', 'contos/macn010.txt']
Quantas palavras existem nesse corpus: 3121944


In [None]:
# Retornando um texto como uma lista de tokens através do método words
texto_tk = machado.words('romance/marm05.txt')
# Vendo os tokens e a quantidade deles
print(texto_tk)
print(len(texto_tk))

['Romance', ',', 'Memórias', 'Póstumas', 'de', 'Brás', ...]
77098


In [None]:
# Uma outra forma de extrair essas informações é através da classe Text
# Para usar a clase Text é necessário importá-la
from nltk.text import Text

In [None]:
# Com a classe Text podemos encontrar os tokens através da mesma função words
bras = Text(machado.words('romance/marm05.txt'))
bras[0:10]

['Romance',
 ',',
 'Memórias',
 'Póstumas',
 'de',
 'Brás',
 'Cubas',
 ',',
 '1880',
 'Memórias']

In [None]:
# Além disso também podemos verificar quais os contextos que uma palavra se encontra
# Para isso usamos a função concordande, passando a palavra desejada como parâmetro
bras.concordance('praça')

Displaying 1 of 1 matches:
era um preto que vergalhava outro na praça . O outro não se atrevia a fugir ; g


In [None]:
# Também podemos remover as stopwords do português com a NLTK
# Para fazer isso temos que baixar o pacote da NLTK 
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
# Verificando algumas das stop words e a quantidade de stopwords
stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords[:10])
print(len(stopwords))

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um']
204


## 3. Analítica do texto

Vamos fazer algumas funções que nos auxiliam a realizar análises de texto básicas nos baseando nos dados de alguns textos.

In [None]:
frase = 'The quick brown fox jumps over the lazy dog'

In [None]:
# Função que verifica se palavra pertence a uma sentença
def encontra_palavra(palavra, frase):
    return palavra in frase

In [None]:
encontra_palavra('quick', frase)

True

In [None]:
# Função que retorna o índice em que uma palavra começa na frase
def encontra_ind(palavra, texto):
    return texto.index(palavra)

In [None]:
encontra_ind('fox', frase)

16

In [None]:
# Retornando qual a posição de uma palavra dentre as outras palavras da frase
# Para isso vamos reaproveitar a função que já criamos para identificar índice de letras
encontra_ind('lazy', frase.split())

7

In [None]:
# Função para encontrar palavra em uma determinada posição da frase a nível de palavras
def encontra_palavra(frase, ind):
  return frase.split()[ind]

In [None]:
encontra_palavra(frase, 3)

'fox'

In [None]:
# Função que concatena a primeira e a última palavra do texto
def concat_palavras(texto):
    palavras = texto.split()
    pp = palavras[0]
    up = palavras[len(palavras)-1]
    return pp + up

In [None]:
concat_palavras(frase)

'Thedog'