## Sumarização de textos com Processamento de linguagem natural

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

#### Baixando os pacotes do nltk

In [24]:
nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana. Definem como
o estudo de agente artificial com inteligência. Ciência e engenharia de
produzir máquinas com inteligência. Resolver problemas e possuir
inteligência. Relacionada ao comportamento inteligente. Construção de
máquinas para raciocinar. Aprender com os erros e acertos. Inteligência
artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como\no estudo de agente artificial com inteligência. Ciência e engenharia de\nproduzir máquinas com inteligência. Resolver problemas e possuir\ninteligência. Relacionada ao comportamento inteligente. Construção de\nmáquinas para raciocinar. Aprender com os erros e acertos. Inteligência\nartificial é raciocinar nas situações do cotidiano.'

In [4]:
# removendo espaços em branco
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

#### Stopwords

In [5]:
stopwords = nltk.corpus.stopwords.words("portuguese")
print("Qtd:",len(stopwords))
print("\n",stopwords)

Qtd: 204

 ['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiv

#### Função de pre-processamento

In [6]:

def preprocessamento(texto):
    # deixando o texto em minusculo
    texto_formatado = texto.lower()
    tokens = []
    
    # tokenizando o texto
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    # removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords]
    
    # removendo a pontuação
    tokens = [palavra for palavra in tokens if palavra not in string.punctuation]
    
    # formatando a lista em string
    texto_formatado = " ".join([str(elemento) for elemento in tokens])
    
    return texto_formatado

In [7]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'


#### Frequência das palavras

In [11]:
from pprint import pprint
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
pprint(frequencia_palavras)

{'acertos': 1,
 'agente': 1,
 'aprender': 1,
 'artificial': 3,
 'ciência': 1,
 'comportamento': 1,
 'construção': 1,
 'cotidiano': 1,
 'definem': 1,
 'engenharia': 1,
 'erros': 1,
 'estudo': 1,
 'humana': 1,
 'inteligente': 1,
 'inteligência': 6,
 'máquinas': 2,
 'possuir': 1,
 'problemas': 1,
 'produzir': 1,
 'raciocinar': 2,
 'relacionada': 1,
 'resolver': 1,
 'similar': 1,
 'situações': 1}
