<a href="https://www.kaggle.com/code/gabrielluizone/automatic-text-summarization?scriptVersionId=170145703" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

## Automatic Text Summarization

> Apr, 03 2024

#### [Faculdade de Tecnologia (Fatec) Baixada Santista](https://fatecrl.edu.br/)
- Natural Language Processing

In [1]:
from urllib.request import Request, urlopen # Web Scraping
from nltk.tokenize import word_tokenize # Tokenização dos paragrafos
from nltk.tokenize import sent_tokenize # Tokenização das sentenças
from bs4 import BeautifulSoup # Análise de documentos HTML e XML
from nltk.corpus import stopwords # Remoção de stopwords
from string import punctuation # e pontuações
from nltk.probability import FreqDist # Frequência de palavras

import nltk
nltk.download('punkt');

[nltk_data] Downloading package punkt to /usr/share/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
link = Request("http://ultimosegundo.ig.com.br/politica/2017-04-25/reforma-da-previdencia.html", headers={"User-Agent": "Mozilla/5.0"})
pagina = urlopen(link).read().decode('utf-8', 'ignore')

In [3]:
pagina = urlopen(link).read().decode('utf-8', 'ignore')

soup = BeautifulSoup(pagina, "lxml")
texto = soup.find(id="noticia").text
texto

'\n  \n\n\n Lúcio Bernardo Junior/Câmara dos Deputados - 19.4.17\nDeputados discutem na Comissão da Reforma da Previdência; com gravata roxa, o presidente do colegiado, Carlos Marun\n\n\n\nA comissão especial que analisa a proposta de reforma da Previdência na Câmara dos Deputados inicia na tarde desta terça-feira (25) a discussão do relatório apresentado na semana passada pelo relator\n, deputado Arthur Maia (PPS-BA).\nDepois de fechar acordo com parlamentares da oposição, que tentavam obstruir a sessão de leitura do parecer do relator, o presidente da comissão da reforma da Previdência\n, deputado Carlos Marun (PMDB-MS), designou que todas as reuniões desta semana sejam para discutir o relatório e apresentar pedido de vista.\nO acordo com a oposição ainda definiu que a votação do relatório pelos membros da comissão deve ocorrer na próxima semana, dia 2 de maio. Já a partir do dia 8, o relatório estaria pronto para ser votado no plenário da Câmara dos Deputados. Para que isso aconteça

In [4]:
sentencas = sent_tokenize(texto)
palavras = word_tokenize(texto.lower())

sentencas[2]

'O acordo com a oposição ainda definiu que a votação do relatório pelos membros da comissão deve ocorrer na próxima semana, dia 2 de maio.'

In [5]:
nltk.download('stopwords')
stopwords = set(stopwords.words('portuguese') + list(punctuation))
palavras_sem_stopwords = [palavra for palavra in palavras if palavra not in stopwords]

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
frequencia = FreqDist(palavras_sem_stopwords)
frequencia

FreqDist({'anos': 10, 'comissão': 8, 'reforma': 8, 'previdência': 7, 'relatório': 6, 'semana': 6, 'plenário': 6, 'deputados': 5, 'especial': 5, 'proposta': 5, ...})

In [7]:
from collections import defaultdict
sentencas_importantes = defaultdict(int) # Vazia por enquanto

# Inserindo os valores
for i, sentenca in enumerate(sentencas):
    for palavra in word_tokenize(sentenca.lower()):
        if palavra in frequencia:
            sentencas_importantes[i] += frequencia[palavra]

In [8]:
str(sentencas_importantes)

"defaultdict(<class 'int'>, {0: 126, 1: 70, 2: 42, 3: 31, 4: 19, 5: 24, 6: 63, 7: 24, 8: 50, 9: 58, 10: 24, 11: 20, 12: 59, 13: 34, 14: 6, 15: 25, 16: 23, 17: 8, 18: 7, 19: 45, 20: 49, 21: 13, 22: 60, 23: 17, 24: 64, 25: 16, 26: 24})"

In [9]:
from heapq import nlargest
idx_sentencas_importantes = nlargest(4, sentencas_importantes, sentencas_importantes.get)

In [10]:
for i in sorted(idx_sentencas_importantes): print(sentencas[i])


  


 Lúcio Bernardo Junior/Câmara dos Deputados - 19.4.17
Deputados discutem na Comissão da Reforma da Previdência; com gravata roxa, o presidente do colegiado, Carlos Marun



A comissão especial que analisa a proposta de reforma da Previdência na Câmara dos Deputados inicia na tarde desta terça-feira (25) a discussão do relatório apresentado na semana passada pelo relator
, deputado Arthur Maia (PPS-BA).
Depois de fechar acordo com parlamentares da oposição, que tentavam obstruir a sessão de leitura do parecer do relator, o presidente da comissão da reforma da Previdência
, deputado Carlos Marun (PMDB-MS), designou que todas as reuniões desta semana sejam para discutir o relatório e apresentar pedido de vista.
O relatório de Arthur Maia fixa a idade mínima de aposentadoria em 62 anos para as mulheres e em 65 anos para os homens após um período de transição de 20 anos.
Para se tornar lei, a proposta de reforma da Previdência precisa, após ser aprovada na comissão especial, também pa

### Deputados discutem na Comissão da Reforma da Previdência

---

> A comissão especial que analisa a proposta de reforma da Previdência na Câmara dos Deputados inicia na tarde desta terça-feira (25) a discussão do relatório apresentado na semana passada pelo relator, deputado Arthur Maia (PPS-BA). Depois de fechar acordo com parlamentares da oposição, que tentavam obstruir a sessão de leitura do parecer do relator, o presidente da comissão da reforma da Previdência, deputado Carlos Marun (PMDB-MS), designou que todas as reuniões desta semana sejam para discutir o relatório e apresentar pedido de vista. O relatório de Arthur Maia fixa a idade mínima de aposentadoria em 62 anos para as mulheres e em 65 anos para os homens após um período de transição de 20 anos. Para se tornar lei, a proposta de reforma da Previdência precisa, após ser aprovada na comissão especial, também passar por votação em dois turnos no plenário da Câmara e depois receber o aval do Senado.