# Sumarização com algoritimo LUHN

O algoritmo de LUHN
- Seleciona palavras de amiro importancia baseado na frequencia
- Pesos maiores são associados á palavras no inicio do documento
- Para calcular a nota de uma sentença: 4 elevado 2/6=2,7

In [1]:
import re
import nltk
import string

In [2]:
nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [7]:

def preprocessamento(texto):
    stopwords = nltk.corpus.stopwords.words("portuguese")
    # deixando o texto em minusculo
    texto_formatado = texto.lower()
    tokens = []
    
    # tokenizando o texto
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    # removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords]
    
    # removendo a pontuação
    tokens = [palavra for palavra in tokens if palavra not in string.punctuation]
    
    # formatando a lista em string
    texto_formatado = " ".join([str(elemento) for elemento in tokens if not elemento.isdigit()])
    
    return texto_formatado

#### Função para calcular a nota das sentenças

In [42]:
def calcular_nota_sentenca(sentencas,palavras_importantes, distancia):
    notas = []
    indice_sentenca = 0
    
    for sentenca in [nltk.word_tokenize(sentenca.lower()) for sentenca in sentencas]:
        print("-------")
        print(sentenca)
        indice_palavra = []
        for palavras in palavras_importantes:
            try:
                indice_palavra.append(sentenca.index(palavras))
            except ValueError:
                pass
        indice_palavra.sort()
        print(indice_palavra)

#### Função pra sumarizar os textos

In [32]:
def sumarizar(texto, top_n_palavra, distancia):
    sentencas_originais = [sentenca for sentenca in nltk.sent_tokenize(texto)]
    sentencas_formatadas = [preprocessamento(sentenca) for sentenca in sentencas_originais]
  
    palavra = [palavra for sentenca in sentencas_formatadas for palavra in nltk.word_tokenize(sentenca)]
    frequencia = nltk.FreqDist(palavra)
 
    top_palavras = [palavra[0] for palavra in frequencia.most_common(top_n_palavra)]
    calcular_nota_sentenca(sentencas_formatadas, top_palavras, distancia)
    return top_palavras

In [33]:
texto_original = """A inteligência artificial é a inteligência similar à humana. Definem como
o estudo de agente artificial com inteligência. Ciência e engenharia de
produzir máquinas com inteligência. Resolver problemas e possuir
inteligência. Relacionada ao comportamento inteligente. Construção de
máquinas para raciocinar. Aprender com os erros e acertos. Inteligência
artificial é raciocinar nas situações do cotidiano."""


In [43]:
sumarizar(texto_original,5, 3)

-------
['inteligência', 'artificial', 'inteligência', 'similar', 'humana']
[0, 1, 3]
-------
['definem', 'estudo', 'agente', 'artificial', 'inteligência']
[3, 4]
-------
['ciência', 'engenharia', 'produzir', 'máquinas', 'inteligência']
[3, 4]
-------
['resolver', 'problemas', 'possuir', 'inteligência']
[3]
-------
['relacionada', 'comportamento', 'inteligente']
[]
-------
['construção', 'máquinas', 'raciocinar']
[1, 2]
-------
['aprender', 'erros', 'acertos']
[]
-------
['inteligência', 'artificial', 'raciocinar', 'situações', 'cotidiano']
[0, 1, 2]


['inteligência', 'artificial', 'máquinas', 'raciocinar', 'similar']