## Sumarização de textos com Processamento de linguagem natural

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

#### Baixando os pacotes do nltk

In [24]:
nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana. Definem como
o estudo de agente artificial com inteligência. Ciência e engenharia de
produzir máquinas com inteligência. Resolver problemas e possuir
inteligência. Relacionada ao comportamento inteligente. Construção de
máquinas para raciocinar. Aprender com os erros e acertos. Inteligência
artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como\no estudo de agente artificial com inteligência. Ciência e engenharia de\nproduzir máquinas com inteligência. Resolver problemas e possuir\ninteligência. Relacionada ao comportamento inteligente. Construção de\nmáquinas para raciocinar. Aprender com os erros e acertos. Inteligência\nartificial é raciocinar nas situações do cotidiano.'

In [4]:
# removendo espaços em branco
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

#### Stopwords

In [5]:
stopwords = nltk.corpus.stopwords.words("portuguese")
print("Qtd:",len(stopwords))
print("\n",stopwords)

Qtd: 204

 ['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiv

#### Função de pre-processamento

In [6]:

def preprocessamento(texto):
    # deixando o texto em minusculo
    texto_formatado = texto.lower()
    tokens = []
    
    # tokenizando o texto
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    # removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords]
    
    # removendo a pontuação
    tokens = [palavra for palavra in tokens if palavra not in string.punctuation]
    
    # formatando a lista em string
    texto_formatado = " ".join([str(elemento) for elemento in tokens])
    
    return texto_formatado

In [7]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'


#### Frequência das palavras

In [11]:
from pprint import pprint
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
pprint(frequencia_palavras)

{'acertos': 1,
 'agente': 1,
 'aprender': 1,
 'artificial': 3,
 'ciência': 1,
 'comportamento': 1,
 'construção': 1,
 'cotidiano': 1,
 'definem': 1,
 'engenharia': 1,
 'erros': 1,
 'estudo': 1,
 'humana': 1,
 'inteligente': 1,
 'inteligência': 6,
 'máquinas': 2,
 'possuir': 1,
 'problemas': 1,
 'produzir': 1,
 'raciocinar': 2,
 'relacionada': 1,
 'resolver': 1,
 'similar': 1,
 'situações': 1}


#### Frequência proporcional

In [14]:
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [16]:
for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra]) / frequencia_maxima

In [19]:
pprint(frequencia_palavras)

{'acertos': 0.16666666666666666,
 'agente': 0.16666666666666666,
 'aprender': 0.16666666666666666,
 'artificial': 0.5,
 'ciência': 0.16666666666666666,
 'comportamento': 0.16666666666666666,
 'construção': 0.16666666666666666,
 'cotidiano': 0.16666666666666666,
 'definem': 0.16666666666666666,
 'engenharia': 0.16666666666666666,
 'erros': 0.16666666666666666,
 'estudo': 0.16666666666666666,
 'humana': 0.16666666666666666,
 'inteligente': 0.16666666666666666,
 'inteligência': 1.0,
 'máquinas': 0.3333333333333333,
 'possuir': 0.16666666666666666,
 'problemas': 0.16666666666666666,
 'produzir': 0.16666666666666666,
 'raciocinar': 0.3333333333333333,
 'relacionada': 0.16666666666666666,
 'resolver': 0.16666666666666666,
 'similar': 0.16666666666666666,
 'situações': 0.16666666666666666}


#### Tokenização das Sentenças

In [22]:
# Exemplo, abordagem errada
frase = "o dr. joão foi para casa. Ele chegou cedo".split(".")
frase

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [24]:
nltk.word_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [25]:
nltk.sent_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [41]:
lista_sentenca = nltk.sent_tokenize(texto_original)
lista_sentenca

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

#### Geração do resumo(nota para as sentenças)

In [43]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [46]:
nota_sentencas = {}

for sentenca in lista_sentenca:
    for palavra in nltk.word_tokenize(sentenca):
        if palavra in frequencia_palavras.keys():
            if sentenca not in nota_sentencas.keys():
                nota_sentencas[sentenca] = frequencia_palavras[palavra]
            else:
                nota_sentencas[sentenca] += frequencia_palavras[palavra]
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 1.8333333333333333,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.6666666666666665,
 'Resolver problemas e possuir inteligência.': 1.3333333333333333,
 'Relacionada ao comportamento inteligente.': 0.3333333333333333,
 'Construção de máquinas para raciocinar.': 0.6666666666666666,
 'Aprender com os erros e acertos.': 0.3333333333333333,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 1.1666666666666665}

#### As melhores sentenças

In [49]:
import heapq
melhores_sentencas = heapq.nlargest(3,nota_sentencas, key=nota_sentencas.get)
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.']

In [50]:
resumo = " ".join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência.'

#### Visualição do resumo

In [53]:
from IPython.core.display import HTML
texto = ""

display(HTML(f"<h1>Resumo do texto</h1>"))
for sentenca in lista_sentenca:
    if sentenca in melhores_sentencas:
        texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
    else:
        texto += sentenca
display(HTML(f"""{texto}"""))

#### Extração de texto de internet

In [54]:
!pip install goose3

Defaulting to user installation because normal site-packages is not writeable
Collecting goose3
  Downloading goose3-3.1.10-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 432 kB/s eta 0:00:01
Collecting cssselect
  Using cached cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting jieba
  Downloading jieba-0.42.1.tar.gz (19.2 MB)
[K     |████████████████████████████████| 19.2 MB 2.4 MB/s eta 0:00:01
Building wheels for collected packages: jieba
  Building wheel for jieba (setup.py) ... [?25ldone
[?25h  Created wheel for jieba: filename=jieba-0.42.1-py3-none-any.whl size=19314478 sha256=9b65258df9aa06a9511e1dcf0007d717bad82437b424c240b6eedd8f57166f05
  Stored in directory: /home/derpy/.cache/pip/wheels/24/aa/17/5bc7c72e9a37990a9620cc3aad0acad1564dcff6dbc2359de3
Successfully built jieba
Installing collected packages: cssselect, jieba, goose3
Successfully installed cssselect-1.1.0 goose3-3.1.10 jieba-0.42.1
You should consider upgrading via the '/usr/local/

In [55]:
from goose3 import Goose

ModuleNotFoundError: No module named 'goose3'