In [71]:
import re
import nltk
import string
import heapq

nltk.download('stopwords')
nltk.download('rslp')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\diham\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [93]:
texto_original = """A inteligência artificial é a inteligência similar à humana. 
                    Definem como o estudo de agente artificial com inteligência. 
                    Ciência e engenharia de produzir máquinas com inteligência. 
                    Resolver problemas e possuir inteligência. 
                    Relacionada ao comportamento inteligente. 
                    Construção de máquinas para raciocinar. 
                    Aprender com os erros e acertos. 
                    Inteligência artificial é raciocinar nas situações do cotidiano."""

In [15]:
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [49]:
def pre_processamento(texto):
    texto_formatado = texto.lower()
    tokens = []
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    stop_words = nltk.corpus.stopwords.words('portuguese')
    tokens = [palavra for palavra in tokens if palavra not in stop_words and palavra not in string.punctuation] 
    texto_formatado = " ".join([str(elemento) for elemento in tokens])
    return texto_formatado

In [50]:
texto_formatado = pre_processamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

In [51]:
frequencia = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
frequencia

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [55]:
frequencia.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

In [57]:
frequencia_maxima = max(frequencia.values())
frequencia_maxima

6

In [58]:
for palavra in frequencia.keys():
    frequencia[palavra] = frequencia[palavra] / frequencia_maxima

In [59]:
frequencia

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [60]:
lista_sent = nltk.sent_tokenize(texto_original)
lista_sent

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

In [64]:
notas_sent = {}
for sent in lista_sent:
    for palavra in nltk.word_tokenize(sent.lower()):
        if palavra in frequencia.keys():
            if sent not in notas_sent.keys():
                notas_sent[sent] = frequencia[palavra]
            else:
                notas_sent[sent] += frequencia[palavra]

In [65]:
notas_sent

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 2.0,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.8333333333333333,
 'Resolver problemas e possuir inteligência.': 1.5,
 'Relacionada ao comportamento inteligente.': 0.5,
 'Construção de máquinas para raciocinar.': 0.8333333333333333,
 'Aprender com os erros e acertos.': 0.5,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 2.1666666666666665}

In [69]:
melhores_sent = heapq.nlargest(3, notas_sent, key=notas_sent.get)
melhores_sent

['A inteligência artificial é a inteligência similar à humana.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.',
 'Definem como o estudo de agente artificial com inteligência.']

In [70]:
resumo = ' '.join(melhores_sent)
resumo

'A inteligência artificial é a inteligência similar à humana. Inteligência artificial é raciocinar nas situações do cotidiano. Definem como o estudo de agente artificial com inteligência.'

In [72]:
from IPython.core.display import HTML

In [80]:
texto = ''
display(HTML(f'<h1>Resumo do Texto</h1>'))

for sent in lista_sent:
    if sent in melhores_sent:
        texto += str(sent).replace(sent, f"<mark>{sent}</mark>")
    else:
        texto += sent
display(HTML(f"""{texto}"""))