## Sumarização de textos com Processamento de linguagem natural

## Pré-processamento do texto

In [1]:
import re
import nltk
import string

#### Baixando os pacotes do nltk

In [24]:
nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to /home/derpy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/derpy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
texto_original = """A inteligência artificial é a inteligência similar à humana. Definem como
o estudo de agente artificial com inteligência. Ciência e engenharia de
produzir máquinas com inteligência. Resolver problemas e possuir
inteligência. Relacionada ao comportamento inteligente. Construção de
máquinas para raciocinar. Aprender com os erros e acertos. Inteligência
artificial é raciocinar nas situações do cotidiano."""

In [3]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como\no estudo de agente artificial com inteligência. Ciência e engenharia de\nproduzir máquinas com inteligência. Resolver problemas e possuir\ninteligência. Relacionada ao comportamento inteligente. Construção de\nmáquinas para raciocinar. Aprender com os erros e acertos. Inteligência\nartificial é raciocinar nas situações do cotidiano.'

In [4]:
# removendo espaços em branco
texto_original = re.sub(r'\s+', ' ', texto_original)
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

#### Stopwords

In [5]:
stopwords = nltk.corpus.stopwords.words("portuguese")
print("Qtd:",len(stopwords))
print("\n",stopwords)

Qtd: 204

 ['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiv

#### Função de pre-processamento

In [6]:

def preprocessamento(texto):
    # deixando o texto em minusculo
    texto_formatado = texto.lower()
    tokens = []
    
    # tokenizando o texto
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)
    # removendo as stopwords
    tokens = [palavra for palavra in tokens if palavra not in stopwords]
    
    # removendo a pontuação
    tokens = [palavra for palavra in tokens if palavra not in string.punctuation]
    
    # formatando a lista em string
    texto_formatado = " ".join([str(elemento) for elemento in tokens])
    
    return texto_formatado

In [7]:
texto_formatado = preprocessamento(texto_original)
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'


#### Frequência das palavras

In [11]:
from pprint import pprint
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))
pprint(frequencia_palavras)

{'acertos': 1,
 'agente': 1,
 'aprender': 1,
 'artificial': 3,
 'ciência': 1,
 'comportamento': 1,
 'construção': 1,
 'cotidiano': 1,
 'definem': 1,
 'engenharia': 1,
 'erros': 1,
 'estudo': 1,
 'humana': 1,
 'inteligente': 1,
 'inteligência': 6,
 'máquinas': 2,
 'possuir': 1,
 'problemas': 1,
 'produzir': 1,
 'raciocinar': 2,
 'relacionada': 1,
 'resolver': 1,
 'similar': 1,
 'situações': 1}


#### Frequência proporcional

In [14]:
frequencia_maxima = max(frequencia_palavras.values())
frequencia_maxima

6

In [16]:
for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra]) / frequencia_maxima

In [19]:
pprint(frequencia_palavras)

{'acertos': 0.16666666666666666,
 'agente': 0.16666666666666666,
 'aprender': 0.16666666666666666,
 'artificial': 0.5,
 'ciência': 0.16666666666666666,
 'comportamento': 0.16666666666666666,
 'construção': 0.16666666666666666,
 'cotidiano': 0.16666666666666666,
 'definem': 0.16666666666666666,
 'engenharia': 0.16666666666666666,
 'erros': 0.16666666666666666,
 'estudo': 0.16666666666666666,
 'humana': 0.16666666666666666,
 'inteligente': 0.16666666666666666,
 'inteligência': 1.0,
 'máquinas': 0.3333333333333333,
 'possuir': 0.16666666666666666,
 'problemas': 0.16666666666666666,
 'produzir': 0.16666666666666666,
 'raciocinar': 0.3333333333333333,
 'relacionada': 0.16666666666666666,
 'resolver': 0.16666666666666666,
 'similar': 0.16666666666666666,
 'situações': 0.16666666666666666}


#### Tokenização das Sentenças

In [22]:
# Exemplo, abordagem errada
frase = "o dr. joão foi para casa. Ele chegou cedo".split(".")
frase

['o dr', ' joão foi para casa', ' Ele chegou cedo']

In [24]:
nltk.word_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o', 'dr.', 'joão', 'foi', 'para', 'casa', '.', 'Ele', 'chegou', 'cedo']

In [25]:
nltk.sent_tokenize("o dr. joão foi para casa. Ele chegou cedo")

['o dr. joão foi para casa.', 'Ele chegou cedo']

In [38]:
# outro exemplo
texto =  "Processo Nº ROT-0024063-97.2018.5.24.0056,\nRelator FRANCISCO DAS CHAGAS LIMA\nFILHO\nRECORRENTE TAQUIONS TURISMO LTDA\nADVOGADO Claudemir Liuti júnior(OAB: 10636/MS)\nRECORRIDO MACIEL ALVES PEREIRA\nADVOGADO ROBINSON CASTILHO VIEIRA(OAB:\n19713/MS)\nIntimado(s)/Citado(s):\n- MACIEL ALVES PEREIRA\nPODER JUDICIÁRIO\nJUSTIÇA DO TRABALHO\nRecurso de Revista\nRecorrente(s): MACIEL ALVES PEREIRA\nAdvogado(a)(s): ROBINSON CASTILHO VIEIRA\nRecorrido(a)(s): TAQUIONS TURISMO LTDA\nAdvogado(a)(s): CLAUDEMIR LIUTI JÚNIOR\nRegistre-se, inicialmente, que os pressupostos de admissibilidade\nserão analisados de acordo com os novos parâmetros\nestabelecidos pela Lei n. 13.015/2014, regulamentada pelo Tribunal\nSuperior do Trabalho por meio do Ato n. 491/14, e pela Lei n.\n13.467/2017 (publicada no DOU de 14.7.2017, com vigência a partir\nde 11.11.2017, nos termos do artigo 6º, da referida Lei).\nRegistre-se, ainda, que o presente recurso foi interposto em face de\ndecisão proferida a partir da entrada em vigor da Lei n.\n13.467/2017, com vigência a partir de 11.11.2017, conforme\nsolicitado pelo Colendo Tribunal Superior do Trabalho, por meio do\nOFÍCIO-CIRCULAR SEGJUD.GP N. 003, de 16 de fevereiro de\n2018.\nPRESSUPOSTOS EXTRÍNSECOS\nTempestivo o recurso (acórdão publicado em 30/07/2019 - f. 540 -\nLei 11.419/2006, art. 4º, § 3º); interposto em 08/08/2019 - f. 524, por\nmeio do Sistema PJe.\nRegular a representação, f. 20.\nDispensado o preparo. Beneficiário(a) da Justiça Gratuita, conforme\nf. 501.\nPRESSUPOSTOS INTRÍNSECOS\nCódigo para aferir autenticidade deste caderno: 145553\n2889/2020 Tribunal Regional do Trabalho da 24ª Região 2\nData da Disponibilização: Quinta-feira, 09 de Janeiro de 2020\nDuração do Trabalho / Turno Ininterrupto de Revezamento\nResponsabilidade Civil do Empregador/Empregado /\nIndenização por Dano Moral\nAlegação(ões):\n- violação aos artigos 5º, XXXVI, e 7º, XIV, da CF;\n- violação do artigo 482, \"e\", da CLT;\n- divergência jurisprudencial.\nNestes tópicos, as insurgências encontram-se desfundamentadas,\nporquanto o recorrente não se reporta aos pressupostos específicos\ndo recurso de revista, nos termos do art. 896 da CLT.\nDispõe o artigo 896, §1º-A, da CLT, com redação dada pela Lei n.\n13.015/2014:\n\"Sob pena de não conhecimento, é ônus da parte:\nI - indicar o trecho da decisão recorrida que consubstancia o\nprequestionamento da controvérsia objeto do recurso de revista.\n(...)\nIII - expor as razões do pedido de reforma, impugnando todos os\nfundamentos jurídicos da decisão recorrida, inclusive mediante\ndemonstração analítica de cada dispositivo de lei, da Constituição\nFederal, de súmula ou orientação jurisprudencial cuja contrariedade\naponte.\"\nNo caso, a parte recorrente, quanto aos capítulos impugnados do\nacórdão, não transcreveu, \"in litteris\", os trechos da decisão\nrecorrida que consubstanciam o prequestionamento da\ncontrovérsia, objeto do recurso de revista, ou indicou,\ntopograficamente, a localização das partes da decisão que se\npretende modificar, o que impede a exata verificação das questões\ncontrovertidas.\nRessalte-se que a transcrição de trechos do acórdão trazida no\ninício das razões recursais não supre a necessidade de transcrevê-\nlo, novamente, no respectivo capítulo recursal com o cotejo analítico\nentre o decidido pela Turma e a argumentação trazida pela parte\nrecorrente.\nNesse sentido é a jurisprudência iterativa, notória e atual do\nColendo TST: AIRR 24241-76.2016.5.24.0004, Ac. 3ª T., Rel. Min.\nAlberto Luiz Bresciani de Fontan Pereira, in DEJT 07.12.2018; AIRR\n24027-41.2017.5.24.0072, Ac. 3ª T., Rel. Min. Alexandre de Souza\nAgra Belmonte, in DEJT 15.03.2019; RR 24437-23.2014.5.24.0002,\nAc. 6ª T., Rel. Min. Augusto César Leite de Carvalho, in DEJT\n29.03.2019; Ag-AIRR 161600-38.2013.5.17.0014, Ac. 7ª T., Rel.\nMin. Cláudio Mascarenhas Brandão, in DEJT 03.05.2019.\nNão preenchido, portanto, pressuposto específico do recurso de\nrevista.\nCONCLUSÃO\nDENEGO seguimento ao recurso de revista.\nInclua-se o indicador \"Lei 13.015/2014\", conforme ofício\ncircular SEGJUD/TST n. 051/2014.\nInclua-se o indicador \"Lei 13.467/2017\", conforme solicitado\npelo C. TST, por meio do OFÍCIO-CIRCULAR SEGJUD.GP N.\n003, de 16 de fevereiro de 2018.\nPublique-se e intime-se.\nCAMPO GRANDE, 28 de Novembro de 2019\nNICANOR DE ARAUJO LIMA\nDesembargador Federal do Trabalho\nCódigo para aferir autenticidade deste caderno: 145553\n2889/2020 Tribunal Regional do Trabalho da 24ª Região 3\nData da Disponibilização: Quinta-feira, 09 de Janeiro de 2020\n1ª Vara do Trabalho de Campo Grande\nEdital\nEdital"
texto = texto.replace("\n", " ")
texto = re.sub(r"\.(\s)\d+", "$1", texto)
texto

'Processo Nº ROT-0024063-97.2018.5.24.0056, Relator FRANCISCO DAS CHAGAS LIMA FILHO RECORRENTE TAQUIONS TURISMO LTDA ADVOGADO Claudemir Liuti júnior(OAB: 10636/MS) RECORRIDO MACIEL ALVES PEREIRA ADVOGADO ROBINSON CASTILHO VIEIRA(OAB: 19713/MS) Intimado(s)/Citado(s): - MACIEL ALVES PEREIRA PODER JUDICIÁRIO JUSTIÇA DO TRABALHO Recurso de Revista Recorrente(s): MACIEL ALVES PEREIRA Advogado(a)(s): ROBINSON CASTILHO VIEIRA Recorrido(a)(s): TAQUIONS TURISMO LTDA Advogado(a)(s): CLAUDEMIR LIUTI JÚNIOR Registre-se, inicialmente, que os pressupostos de admissibilidade serão analisados de acordo com os novos parâmetros estabelecidos pela Lei n$1.015/2014, regulamentada pelo Tribunal Superior do Trabalho por meio do Ato n$1/14, e pela Lei n$1.467/2017 (publicada no DOU de 14.7.2017, com vigência a partir de 11.11.2017, nos termos do artigo 6º, da referida Lei). Registre-se, ainda, que o presente recurso foi interposto em face de decisão proferida a partir da entrada em vigor da Lei n$1.467/2017,

In [40]:
nltk.sent_tokenize(texto)

['Processo Nº ROT-0024063-97.2018.5.24.0056, Relator FRANCISCO DAS CHAGAS LIMA FILHO RECORRENTE TAQUIONS TURISMO LTDA ADVOGADO Claudemir Liuti júnior(OAB: 10636/MS) RECORRIDO MACIEL ALVES PEREIRA ADVOGADO ROBINSON CASTILHO VIEIRA(OAB: 19713/MS) Intimado(s)/Citado(s): - MACIEL ALVES PEREIRA PODER JUDICIÁRIO JUSTIÇA DO TRABALHO Recurso de Revista Recorrente(s): MACIEL ALVES PEREIRA Advogado(a)(s): ROBINSON CASTILHO VIEIRA Recorrido(a)(s): TAQUIONS TURISMO LTDA Advogado(a)(s): CLAUDEMIR LIUTI JÚNIOR Registre-se, inicialmente, que os pressupostos de admissibilidade serão analisados de acordo com os novos parâmetros estabelecidos pela Lei n$1.015/2014, regulamentada pelo Tribunal Superior do Trabalho por meio do Ato n$1/14, e pela Lei n$1.467/2017 (publicada no DOU de 14.7.2017, com vigência a partir de 11.11.2017, nos termos do artigo 6º, da referida Lei).',
 'Registre-se, ainda, que o presente recurso foi interposto em face de decisão proferida a partir da entrada em vigor da Lei n$1.467/

In [41]:
lista_sentenca = nltk.sent_tokenize(texto_original)
lista_sentenca

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.',
 'Resolver problemas e possuir inteligência.',
 'Relacionada ao comportamento inteligente.',
 'Construção de máquinas para raciocinar.',
 'Aprender com os erros e acertos.',
 'Inteligência artificial é raciocinar nas situações do cotidiano.']

#### Geração do resumo(nota para as sentenças)

In [43]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})

In [46]:
nota_sentencas = {}

for sentenca in lista_sentenca:
    for palavra in nltk.word_tokenize(sentenca):
        if palavra in frequencia_palavras.keys():
            if sentenca not in nota_sentencas.keys():
                nota_sentencas[sentenca] = frequencia_palavras[palavra]
            else:
                nota_sentencas[sentenca] += frequencia_palavras[palavra]
nota_sentencas

{'A inteligência artificial é a inteligência similar à humana.': 2.833333333333333,
 'Definem como o estudo de agente artificial com inteligência.': 1.8333333333333333,
 'Ciência e engenharia de produzir máquinas com inteligência.': 1.6666666666666665,
 'Resolver problemas e possuir inteligência.': 1.3333333333333333,
 'Relacionada ao comportamento inteligente.': 0.3333333333333333,
 'Construção de máquinas para raciocinar.': 0.6666666666666666,
 'Aprender com os erros e acertos.': 0.3333333333333333,
 'Inteligência artificial é raciocinar nas situações do cotidiano.': 1.1666666666666665}

#### As melhores sentenças

In [49]:
import heapq
melhores_sentencas = heapq.nlargest(3,nota_sentencas, key=nota_sentencas.get)
melhores_sentencas

['A inteligência artificial é a inteligência similar à humana.',
 'Definem como o estudo de agente artificial com inteligência.',
 'Ciência e engenharia de produzir máquinas com inteligência.']

In [50]:
resumo = " ".join(melhores_sentencas)
resumo

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência.'