# Processamento de Linguagem Natural - Faculdade Descomplica
# Aula 10 - Linguagem Natural com NLTK

Prof. Elvis de Souza

# Baixando e importando NLTK e corpus

In [None]:
! pip3 install nltk

In [None]:
import nltk
nltk.download("machado")

In [None]:
print(nltk.corpus.machado.readme())

In [None]:
corpus = nltk.corpus.machado.raw("romance/marm08.txt")

In [None]:
type(corpus)

In [None]:
print(corpus[:1000])

# Pré-processando o corpus

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
nltk.download("punkt")

In [None]:
tokens = word_tokenize(corpus)

In [None]:
print(tokens)

In [None]:
type(tokens)

In [None]:
tokens.count("Casmurro")

In [None]:
tokens.count("Capitu")

# Explorando os personagens do corpus

In [None]:
personagens = "Bentinho,Santiago,Casmurro,Capitu,Escobar,Glória,José,Cosme,Justina"
personagens = personagens.split(",")
personagens

In [None]:
for personagem in personagens:
    print(personagem, ":", tokens.count(personagem))

# Usando o objeto Text do NLTK

In [None]:
texto = nltk.Text(tokens)

In [None]:
type(texto)

In [None]:
texto.concordance("Capitu", width=120)

In [None]:
texto.similar("Capitu")

In [None]:
nltk.download("stopwords")

In [None]:
texto.collocations(40)

In [None]:
texto.dispersion_plot(["Capitu"])

In [None]:
texto.dispersion_plot(personagens)

# Explorando o dicionário de frequências do NLTK

In [None]:
freq = nltk.FreqDist(tokens)

In [None]:
freq

In [None]:
freq.plot(20)

# Removendo stopwords e normalizando

In [None]:
import string

In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [None]:
print(stopwords)

In [None]:
string.punctuation

In [None]:
tokens_sem_stopwords = [x for x in tokens if x.lower() not in stopwords and x not in string.punctuation]

In [None]:
freq_sem_stopwords = nltk.FreqDist(tokens_sem_stopwords)

In [None]:
freq_sem_stopwords

In [None]:
freq_sem_stopwords.plot(20)

# Vídeo 3: Treinando um modelo de classificação usando NLTK

In [None]:
nltk.download("mac_morpho")

In [None]:
print(nltk.corpus.mac_morpho.readme())

# Explorando o dataset MacMorpho

In [None]:
frases_anotadas = nltk.corpus.mac_morpho.tagged_sents()

In [None]:
frases_anotadas[0]

In [None]:
len(frases_anotadas)

In [None]:
tokens_anotados = nltk.corpus.mac_morpho.tagged_words()

In [None]:
len(tokens_anotados)

In [None]:
tokens_anotados[0]

In [None]:
tokens_anotados[0][0]

In [None]:
tokens_anotados[0][0].title()

In [None]:
tokens_anotados[0][0] == tokens_anotados[0][0].title()

In [None]:
tokens_anotados[1]

In [None]:
tokens_anotados[1][0][-3]

In [None]:
tokens_anotados[1][0][-3:]

In [None]:
"Viagem".endswith("m")

In [None]:
"Viagem".endswith("im")

# Calculando os sufixos mais frequentes das palavras

In [None]:
freq_sufixos = nltk.FreqDist()
for token in tokens_anotados:
    palavra = token[0]

    ultima_letra = palavra[-1:].lower()
    duas_ultimas = palavra[-2:].lower()
    tres_ultimas = palavra[-3:].lower()

    freq_sufixos[ultima_letra] += 1
    if duas_ultimas != ultima_letra:
        freq_sufixos[duas_ultimas] += 1
        if tres_ultimas != duas_ultimas:
            freq_sufixos[tres_ultimas] += 1

In [None]:
freq_sufixos

In [None]:
sufixos_mais_comuns = [x[0] for x in freq_sufixos.most_common(100)]

In [None]:
print(sufixos_mais_comuns)

# Criando função para extrair features das palavras

In [None]:
def extrair_features(token):
    features = {}
    features["inicial_maiúscula"] = token == token.title()
    for sufixo in sufixos_mais_comuns:
        features["sufixo_" + sufixo] = token.lower().endswith(sufixo)
    return features

In [None]:
extrair_features("Venham")

# Criando dataset de treino e de teste

In [None]:
len(tokens_anotados)

In [None]:
# Reduzindo tokens para poupar memória RAM
conjunto_features = []
for token, classe in tokens_anotados[:100000]:
    conjunto_features.append((extrair_features(token), classe))

In [None]:
print(conjunto_features[0])

In [None]:
print(conjunto_features[1])

In [None]:
len(conjunto_features)

In [None]:
tamanho_teste = int(len(conjunto_features) * 0.1)
tamanho_teste

In [None]:
conjunto_teste = conjunto_features[:tamanho_teste]
conjunto_treino = conjunto_features[tamanho_teste:]

In [None]:
len(conjunto_treino)

In [None]:
len(conjunto_teste)

# Treinando o classificador

In [None]:
classificador = nltk.NaiveBayesClassifier.train(conjunto_treino)

In [None]:
classificador.classify(extrair_features("venham"))

In [None]:
classificador.classify(extrair_features("Venham"))

In [None]:
# ATENÇÃO: Demora alguns minutos
nltk.classify.accuracy(classificador, conjunto_teste)

# Vídeo 4: Avaliando um modelo de classificação usando NLTK

# Entendendo os erros do classificador

In [None]:
tokens_anotados[0]

In [None]:
for token in tokens_anotados[:50]:
    palavra = token[0]
    classe = token[1]
    previsao = classificador.classify(extrair_features(palavra))
    if classe != previsao:
        print((palavra, classe, previsao))

# Melhorando a função de extração de features das palavras, inserindo contexto para as palavras (palavras à esquerda e à direita)

In [None]:
def extrair_features_contextuais(frase_tokenizada):
    features_da_frase = []
    for i, token in enumerate(frase_tokenizada):
        features = {}
        features["inicial_maiúscula"] = token == token.title()
        for sufixo in sufixos_mais_comuns:
            features["sufixo_" + sufixo] = token.lower().endswith(sufixo)

        if i == 0:
            token_anterior = "<INÍCIO>"
        else:
            token_anterior = frase_tokenizada[i-1]
        features["anterior_maiúscula"] = token_anterior == token_anterior.title()
        for sufixo in sufixos_mais_comuns:
            features["anterior_" + sufixo] = token_anterior.lower().endswith(sufixo)

        if (i+1) == len(frase_tokenizada):
            token_proximo = "<FIM>"
        else:
            token_proximo = frase_tokenizada[i+1]
        features["proximo_maiusculo"] = token_proximo == token_proximo.title()
        for sufixo in sufixos_mais_comuns:
            features["proximo_" + sufixo] = token_proximo.lower().endswith(sufixo)

        features_da_frase.append(features)
    return features_da_frase

# Criando dataset de treino e teste

In [None]:
frases_anotadas[0]

In [None]:
len(frases_anotadas)

In [None]:
# Reduzindo frases para poupar RAM
frases_sem_anotacao = []
etiquetas_apenas = []
for frase in frases_anotadas[:5000]:
    etiquetas = []
    tokens = []
    for token in frase:
        tokens.append(token[0])
        etiquetas.append(token[1])
    frases_sem_anotacao.append(tokens)
    etiquetas_apenas.append(etiquetas)

In [None]:
frases_sem_anotacao[0]

In [None]:
etiquetas_apenas[0]

In [None]:
extrair_features_contextuais(frases_sem_anotacao[0])

In [None]:
conjunto_features = []
for i, frase in enumerate(frases_sem_anotacao):
    features_da_frase = extrair_features_contextuais(frase)
    for t, features_do_token in enumerate(features_da_frase):
        conjunto_features.append((features_do_token, etiquetas_apenas[i][t]))

In [None]:
print(conjunto_features[0])

In [None]:
print(conjunto_features[1])

In [None]:
len(conjunto_features)

In [None]:
tamanho_teste = int(len(conjunto_features) * 0.1)
tamanho_teste

In [None]:
conjunto_teste = conjunto_features[:tamanho_teste]
conjunto_treino = conjunto_features[tamanho_teste:]

In [None]:
len(conjunto_treino)

In [None]:
len(conjunto_teste)

# Treinando o classificador

In [None]:
classificador_contextual = nltk.NaiveBayesClassifier.train(conjunto_treino)

In [None]:
extrair_features_contextuais(["venham", "ver", "o", "sol", "!"])

In [None]:
frase1 = ["venham", "ver", "o", "sol", "!"]

In [None]:
frase2 = ["Venham", "ver", "o", "Sol", "!"]

In [None]:
for frase in [frase1, frase2]:
    features = extrair_features_contextuais(frase)
    for i, token in enumerate(features):
        classificacao = classificador_contextual.classify(token)
        print(frase[i], classificacao)

In [None]:
# ATENÇÃO: Demora 4 minutos
nltk.classify.accuracy(classificador_contextual, conjunto_teste)