<a href="https://colab.research.google.com/github/JuliaoAmaral/doutorado/blob/main/resumos_artigos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

O código abaixo tem a finalidade de fazer resumos dos artigos analisados na pesquisa. Os textos analisados são provenientes de arquivos .pdf que foram convertidos em .docx usando a ferramento do Google Drive. Uma vez em posse dos arquivos .docx, os textos foram resumidos usando a biblioteca Sumy.

In [None]:
# Montar o Google Drive no Google Colab:

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Instalação das bibliotecas necessárias
!pip install python-docx
!pip install sumy
!pip install nltk

# Importações necessárias
from docx import Document
import os
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.luhn import LuhnSummarizer
from nltk.tokenize import sent_tokenize
import nltk
nltk.download('punkt')



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# Caminho da pasta no Google Drive
folder_path = '/content/drive/MyDrive/Doutorado/Análise/Artigos para Análise'  # Substitua pelo caminho da sua pasta no Google Drive

In [None]:
# Função para processar e resumir um documento Word e salvar o resumo em outro arquivo Word
def process_and_save_summary(file_path, output_folder):
    # Carrega o documento Word
    doc = Document(file_path)

    # Extraí o texto do documento
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"

    # Tokenizar o texto por sentenças
    sentencas = sent_tokenize(text)
    num_sentencas = len(sentencas)
    sc = max(1, num_sentencas // 4)  # Quantidade de sentenças no resumo (aproximadamente 1/4 do texto)

    # Configurar o parser e sumarizador
    parser = PlaintextParser.from_string(text, Tokenizer('portuguese'))
    sumarizador = LuhnSummarizer()

    # Gerar o resumo
    resumo = sumarizador(parser.document, sc)

    # Cria um novo arquivo Word para salvar o resumo
    resumo_doc = Document()

    # Adiciona cada sentença do resumo ao novo documento Word
    for sentenca in resumo:
        resumo_doc.add_paragraph(str(sentenca))

    # Nome do arquivo de saída
    base_name = os.path.basename(file_path).replace('.docx', '_resumo.docx')
    output_path = os.path.join(output_folder, base_name)

    # Salvar o resumo no arquivo Word
    resumo_doc.save(output_path)
    print(f"Resumo salvo em: {output_path}")

In [None]:
# Função para iterar sobre todos os arquivos Word na pasta
def summarize_and_save_all_word_files_in_folder(folder_path, output_folder):
    # Verifica se a pasta de saída existe, se não, cria
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Iterar sobre todos os arquivos na pasta especificada
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.docx'):
            file_path = os.path.join(folder_path, file_name)
            print(f"Processando arquivo: {file_name}")

            # Resumir e salvar o conteúdo do arquivo Word
            process_and_save_summary(file_path, output_folder)

In [None]:
# Caminho da pasta de saída para salvar os resumos
output_folder = '/content/drive/MyDrive/SUA_PASTA_RESUMOS'  # Substitua pelo caminho desejado para salvar os resumos

In [None]:
# Chamar a função para resumir todos os arquivos e salvar os resumos
summarize_and_save_all_word_files_in_folder(folder_path, output_folder)

Processando arquivo: “Que Possamos Ser o que Somos” Memórias sobre o Movimento Gay de Alfenas no processo de luta pelos direitos de cidadania LGBT (2000-2018).docx
Resumo salvo em: /content/drive/MyDrive/SUA_PASTA_RESUMOS/“Que Possamos Ser o que Somos” Memórias sobre o Movimento Gay de Alfenas no processo de luta pelos direitos de cidadania LGBT (2000-2018)_resumo.docx
Processando arquivo: “semente para luta” - Ativismos, direito à saúde e enfrentamentos de pessoas lgbti na pandemia da covid-1.docx
Resumo salvo em: /content/drive/MyDrive/SUA_PASTA_RESUMOS/“semente para luta” - Ativismos, direito à saúde e enfrentamentos de pessoas lgbti na pandemia da covid-1_resumo.docx
Processando arquivo: “Sou gay e o movimento LGBTQI+ não me representa”_ mapeando a emergência de um ativismo gay à direita no Brasil.docx
Resumo salvo em: /content/drive/MyDrive/SUA_PASTA_RESUMOS/“Sou gay e o movimento LGBTQI+ não me representa”_ mapeando a emergência de um ativismo gay à direita no Brasil_