## Sumarização de textos com Processamento de linguagem natural

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

#### Baixando os pacotes do nltk

In [2]:
nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
texto_original = """A inteligência artificial é a inteligência similar à humana. Definem como
o estudo de agente artificial com inteligência. Ciência e engenharia de
produzir máquinas com inteligência. Resolver problemas e possuir
inteligência. Relacionada ao comportamento inteligente. Construção de
máquinas para raciocinar. Aprender com os erros e acertos. Inteligência
artificial é raciocinar nas situações do cotidiano."""

In [4]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como\no estudo de agente artificial com inteligência. Ciência e engenharia de\nproduzir máquinas com inteligência. Resolver problemas e possuir\ninteligência. Relacionada ao comportamento inteligente. Construção de\nmáquinas para raciocinar. Aprender com os erros e acertos. Inteligência\nartificial é raciocinar nas situações do cotidiano.'

In [5]:
# removendo espaços em branco
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

#### Stopwords

In [6]:
stopwords = nltk.corpus.stopwords.words("portuguese")
print("Qtd:",len(stopwords))
print("\n",stopwords)

Qtd: 204

 ['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiv

#### Função de pre-processamento

In [64]:

def preprocessamento(texto):
    # deixando o texto em minusculo
    texto_formatado = texto.lower()
    tokens = []
    
    # tokenizando o texto
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    # removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords]
    
    # removendo a pontuação
    tokens = [palavra for palavra in tokens if palavra not in string.punctuation]
    
    # formatando a lista em string
    texto_formatado = " ".join([str(elemento) for elemento in tokens if not elemento.isdigit()])
    
    return texto_formatado

In [8]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'


#### Frequência das palavras

In [9]:
from pprint import pprint
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
pprint(frequencia_palavras)

{'acertos': 1,
 'agente': 1,
 'aprender': 1,
 'artificial': 3,
 'ciência': 1,
 'comportamento': 1,
 'construção': 1,
 'cotidiano': 1,
 'definem': 1,
 'engenharia': 1,
 'erros': 1,
 'estudo': 1,
 'humana': 1,
 'inteligente': 1,
 'inteligência': 6,
 'máquinas': 2,
 'possuir': 1,
 'problemas': 1,
 'produzir': 1,
 'raciocinar': 2,
 'relacionada': 1,
 'resolver': 1,
 'similar': 1,
 'situações': 1}


#### Frequência proporcional

In [10]:
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [11]:
for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra]) / frequencia_maxima

In [12]:
pprint(frequencia_palavras)

{'acertos': 0.16666666666666666,
 'agente': 0.16666666666666666,
 'aprender': 0.16666666666666666,
 'artificial': 0.5,
 'ciência': 0.16666666666666666,
 'comportamento': 0.16666666666666666,
 'construção': 0.16666666666666666,
 'cotidiano': 0.16666666666666666,
 'definem': 0.16666666666666666,
 'engenharia': 0.16666666666666666,
 'erros': 0.16666666666666666,
 'estudo': 0.16666666666666666,
 'humana': 0.16666666666666666,
 'inteligente': 0.16666666666666666,
 'inteligência': 1.0,
 'máquinas': 0.3333333333333333,
 'possuir': 0.16666666666666666,
 'problemas': 0.16666666666666666,
 'produzir': 0.16666666666666666,
 'raciocinar': 0.3333333333333333,
 'relacionada': 0.16666666666666666,
 'resolver': 0.16666666666666666,
 'similar': 0.16666666666666666,
 'situações': 0.16666666666666666}


#### Tokenização das Sentenças

In [13]:
# Exemplo, abordagem errada
frase = "o dr. joão foi para casa. Ele chegou cedo".split(".")
frase

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [14]:
nltk.word_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [15]:
nltk.sent_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [16]:
lista_sentenca = nltk.sent_tokenize(texto_original)
lista_sentenca

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

#### Geração do resumo(nota para as sentenças)

In [17]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [18]:
nota_sentencas = {}

for sentenca in lista_sentenca:
    for palavra in nltk.word_tokenize(sentenca):
        if palavra in frequencia_palavras.keys():
            if sentenca not in nota_sentencas.keys():
                nota_sentencas[sentenca] = frequencia_palavras[palavra]
            else:
                nota_sentencas[sentenca] += frequencia_palavras[palavra]
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 1.8333333333333333,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.6666666666666665,
 'Resolver problemas e possuir inteligência.': 1.3333333333333333,
 'Relacionada ao comportamento inteligente.': 0.3333333333333333,
 'Construção de máquinas para raciocinar.': 0.6666666666666666,
 'Aprender com os erros e acertos.': 0.3333333333333333,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 1.1666666666666665}

#### As melhores sentenças

In [19]:
import heapq
melhores_sentencas = heapq.nlargest(3,nota_sentencas, key=nota_sentencas.get)
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.']

In [20]:
resumo = " ".join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência.'

#### Visualição do resumo

In [21]:
from IPython.core.display import HTML
texto = ""

display(HTML(f"<h1>Resumo do texto</h1>"))
for sentenca in lista_sentenca:
    if sentenca in melhores_sentencas:
        texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
    else:
        texto += sentenca
display(HTML(f"""{texto}"""))

## Extração de texto de internet

In [22]:
#!pip install goose3

In [23]:
from goose3 import Goose

In [24]:
g = Goose()

In [38]:
artigo =g.extract(url="https://iaexpert.academy/2021/10/25/ia-atinge-novo-patamar-geracao-imagens-corpo-inteiro-a-partir-uma-unica-foto/")

In [39]:
artigo.infos

{'meta': {'description': '',
  'lang': 'pt',
  'keywords': '',
  'favicon': 'https://cdn.shortpixel.ai/spai/q_+ret_img/https://iaexpert.academy/wp-content/uploads/2020/06/cropped-favicon-1-32x32.png',
  'canonical': 'https://iaexpert.academy/2021/10/25/ia-atinge-novo-patamar-geracao-imagens-corpo-inteiro-a-partir-uma-unica-foto/',
  'encoding': 'UTF-8'},
 'image': None,
 'domain': 'iaexpert.academy',
 'title': 'IA atinge novo patamar para geração de imagens de corpo inteiro a partir de uma única foto – IA Expert Academy',
 'cleaned_text': 'A geração de imagens humanas fotorrealistas tem aplicações que incluem a criação de avatares virtuais, provadores virtuais, transferência de movimentos e a chamada síntese de posicionamento, onde várias imagens são usadas para gerar uma imagem de um novo ponto de vista. No caso de pessoas, esta tarefa é particularmente complicada para as abordagens tradicionais de processamento gráfico porque ela envolve a geometria tridimensional do corpo e das roup

In [40]:
artigo.title

'IA atinge novo patamar para geração de imagens de corpo inteiro a partir de uma única foto – IA Expert Academy'

In [41]:
artigo.links

['https://arxiv.org/pdf/2109.06166.pdf']

In [43]:
len(artigo.cleaned_text)

1963

### Pre processamento do artigo

In [45]:
# Add artigo em uma variavel
artigo_original = artigo.cleaned_text

In [47]:
# aplicando função preprocessamento
artigo_formatado = preprocessamento(artigo_original)
artigo_formatado

'geração imagens humanas fotorrealistas aplicações incluem criação avatares virtuais provadores virtuais transferência movimentos chamada síntese posicionamento onde várias imagens usadas gerar imagem novo ponto vista caso pessoas tarefa particularmente complicada abordagens tradicionais processamento gráfico porque envolve geometria tridimensional corpo roupas controle poses limitado estrutura física corpos causa deformações forma síntese padrões dobra ocorrem exemplo roupas largas recentemente métodos baseados inteligência artificial mostraram resultados promissores utilizando redes generativas adversariais aplicações particulares atingindo grau generalização necessário uso indiscriminado partindo destes métodos pesquisadores virginia tech estados unidos parceria adobe apresentaram sistema capaz gerar renderizações humanas fotorrealistas novas posições mantendo detalhes partir única imagem original modelo usa rede generativa chamada stylegan transferência estilo abordagem condicionad

In [65]:
def sumarilzar(texto, quantidade_sentenca):
    texto_original = texto
    texto_formatado = preprocessamento(texto_original)
    
    frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
    frequencia_maxima = max(frequencia_palavras.values())
    
    for palavra in frequencia_palavras.keys():
        frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)
    lista_sentencas = nltk.sent_tokenize(texto_original)
    
    nota_sentencas = {}
    for sentenca in lista_sentencas:
        for palavra in nltk.word_tokenize(sentenca):
            if palavra in frequencia_palavras.keys():
                if sentenca not in nota_sentencas.keys():
                    nota_sentencas[sentenca] = frequencia_palavras[palavra]
                else:
                    nota_sentencas[sentenca] += frequencia_palavras[palavra]
    melhores_sentencas = heapq.nlargest(quantidade_sentenca, nota_sentencas, key=nota_sentencas.get)
    
    return lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas
        

In [66]:
 lista_sentencas, melhores_sentencas, frequencia_palavras, nota_sentencas = sumarilzar(artigo_original,5)

In [67]:
lista_sentencas

['A geração de imagens humanas fotorrealistas tem aplicações que incluem a criação de avatares virtuais, provadores virtuais, transferência de movimentos e a chamada síntese de posicionamento, onde várias imagens são usadas para gerar uma imagem de um novo ponto de vista.',
 'No caso de pessoas, esta tarefa é particularmente complicada para as abordagens tradicionais de processamento gráfico porque ela envolve a geometria tridimensional do corpo e das roupas; o controle das poses que é limitado pela estrutura física dos corpos e que causa deformações na forma; e a síntese de padrões de dobra que ocorrem, por exemplo, com roupas largas.',
 'Recentemente, métodos baseados em inteligência artificial mostraram resultados promissores utilizando redes generativas adversariais, mas para aplicações muito particulares, não atingindo o grau de generalização necessário para seu uso indiscriminado.',
 'Partindo destes métodos, pesquisadores da Virginia Tech, nos Estados Unidos, em parceria com a A

In [68]:
melhores_sentencas

['A geração de imagens humanas fotorrealistas tem aplicações que incluem a criação de avatares virtuais, provadores virtuais, transferência de movimentos e a chamada síntese de posicionamento, onde várias imagens são usadas para gerar uma imagem de um novo ponto de vista.',
 'No caso de pessoas, esta tarefa é particularmente complicada para as abordagens tradicionais de processamento gráfico porque ela envolve a geometria tridimensional do corpo e das roupas; o controle das poses que é limitado pela estrutura física dos corpos e que causa deformações na forma; e a síntese de padrões de dobra que ocorrem, por exemplo, com roupas largas.',
 'Os detalhes da imagem original são mantidos modulando a rede geradora através técnicas computacionais baseadas em superfície, que garantem a correta transferência da informação de um pixel dadas as restrições impostas pela nova posição.',
 'Partindo destes métodos, pesquisadores da Virginia Tech, nos Estados Unidos, em parceria com a Adobe, apresenta

In [69]:
from pprint import pprint
pprint(frequencia_palavras)

{'abaixo': 0.25,
 'abordagem': 0.25,
 'abordagens': 0.25,
 'adobe': 0.25,
 'adversariais': 0.25,
 'alternativas': 0.25,
 'aplicações': 0.5,
 'apresentaram': 0.25,
 'artificial': 0.25,
 'atingindo': 0.25,
 'através': 0.25,
 'atributos': 0.25,
 'atualmente': 0.25,
 'avaliado': 0.25,
 'avanço': 0.25,
 'avatares': 0.25,
 'baseadas': 0.25,
 'baseados': 0.25,
 'capaz': 0.25,
 'caso': 0.5,
 'causa': 0.25,
 'chamada': 0.5,
 'complicada': 0.25,
 'computacionais': 0.25,
 'condicionada': 0.25,
 'controle': 0.25,
 'corpo': 0.25,
 'corporal': 0.25,
 'corpos': 0.25,
 'correta': 0.25,
 'criação': 0.25,
 'dadas': 0.25,
 'deformações': 0.25,
 'demonstra': 0.25,
 'desempenho': 0.25,
 'destes': 0.25,
 'detalhamento': 0.25,
 'detalhes': 0.5,
 'disponíveis': 0.25,
 'dobra': 0.25,
 'envolve': 0.25,
 'estados': 0.25,
 'estilo': 0.25,
 'estrutura': 0.25,
 'exemplo': 0.25,
 'figura': 0.25,
 'forma': 0.25,
 'fotorrealistas': 0.5,
 'física': 0.25,
 'físicos': 0.25,
 'garantem': 0.25,
 'generalização': 0.25,
 'ge

In [70]:
nota_sentencas

{'A geração de imagens humanas fotorrealistas tem aplicações que incluem a criação de avatares virtuais, provadores virtuais, transferência de movimentos e a chamada síntese de posicionamento, onde várias imagens são usadas para gerar uma imagem de um novo ponto de vista.': 10.25,
 'No caso de pessoas, esta tarefa é particularmente complicada para as abordagens tradicionais de processamento gráfico porque ela envolve a geometria tridimensional do corpo e das roupas; o controle das poses que é limitado pela estrutura física dos corpos e que causa deformações na forma; e a síntese de padrões de dobra que ocorrem, por exemplo, com roupas largas.': 9.5,
 'Recentemente, métodos baseados em inteligência artificial mostraram resultados promissores utilizando redes generativas adversariais, mas para aplicações muito particulares, não atingindo o grau de generalização necessário para seu uso indiscriminado.': 5.25,
 'Partindo destes métodos, pesquisadores da Virginia Tech, nos Estados Unidos, e

In [74]:
def visualiza_resumo(titulo, lista_sentencas, melhores_sentencas):

    from IPython.core.display import HTML
    texto = ""

    display(HTML(f"<h1>Resumo do texto</h1>"))
    for sentenca in lista_sentencas:
        if sentenca in melhores_sentencas:
            texto += str(sentenca).replace(sentenca, f"<mark>{sentenca}</mark>")
        else:
            texto += sentenca
    display(HTML(f"""{texto}"""))

In [75]:
visualiza_resumo("", lista_sentencas, melhores_sentencas)