In [None]:
import os

# Diretórios de entrada e saída
diretorio_entrada = 'data/nlp'
diretorio_saida_normalizado = 'data/nlp_normalized'

# Percorrer arquivos de texto no diretório de entrada
for pasta_raiz, _, arquivos in os.walk(diretorio_entrada):
    for arquivo in arquivos:
        if arquivo.endswith('.txt'):
            caminho_completo_entrada = os.path.join(pasta_raiz, arquivo)
            caminho_completo_saida = os.path.join(pasta_raiz.replace(diretorio_entrada, diretorio_saida_normalizado), arquivo)

            # Verificar se o arquivo já foi normalizado
            if os.path.exists(caminho_completo_saida):
                print(f"O arquivo '{arquivo}' já foi normalizado. Pulando para o próximo arquivo.")
                continue

            print(f"Normalizando arquivo: {caminho_completo_entrada}")

            # Ler o conteúdo do arquivo de entrada
            with open(caminho_completo_entrada, 'r', encoding='utf-8') as arquivo_entrada:
                texto = arquivo_entrada.read()

            # Remover quebras de linha e normalizar o texto
            texto_normalizado = texto.replace('\n', ' ')

            # Criar diretório de saída se não existir
            os.makedirs(os.path.dirname(caminho_completo_saida), exist_ok=True)

            # Escrever o texto normalizado no arquivo de saída
            with open(caminho_completo_saida, 'w', encoding='utf-8') as arquivo_saida:
                arquivo_saida.write(texto_normalizado)

            print(f"Arquivo '{arquivo}' normalizado e salvo em: {caminho_completo_saida}")


In [1]:
import os
import re
import nltk
import pandas as pd
from nltk.tokenize import sent_tokenize

# Download NLTK resources (if not already downloaded)
nltk.download('punkt')

# Input and output directories
input_directory = 'data/nlp_normalized_english'
output_directory = 'data/nltk-sentences_output'

# Função para extrair as frases de um texto
def get_sentences_from_text(text):
    # Dividir o texto em frases usando NLTK's sent_tokenize
    sentences = sent_tokenize(text)

    # Remover caracteres especiais de cada frase e verificar condições
    cleaned_sentences = []
    for sentence in sentences:
        if len(sentence.split()) >= 10 and not sentence[0].isdigit() and sentence.endswith('.'):
            cleaned_sentences.append(sentence)

    return cleaned_sentences

# Percorrer os arquivos de texto no diretório de entrada
for root_dir, _, files in os.walk(input_directory):
    for file in files:
        if file.endswith('.txt'):
            full_input_path = os.path.join(root_dir, file)
            output_subdirectory = os.path.join(root_dir.replace(input_directory, output_directory), file.split('.')[0])
            os.makedirs(output_subdirectory, exist_ok=True)

            print(f"Processing file: {full_input_path}")

            # Ler o conteúdo do arquivo de entrada
            with open(full_input_path, 'r', encoding='utf-8') as input_file:
                text = input_file.read()

            # Extrair frases do texto
            sentences = get_sentences_from_text(text)

            # Salvar cada frase em um arquivo separado
            for i, sentence in enumerate(sentences):
                output_file_path = os.path.join(output_subdirectory, f'{i}.txt')
                with open(output_file_path, 'w', encoding='utf-8') as output_file:
                    output_file.write(sentence)

            print(f"File '{file}' processed and saved at: {output_subdirectory}")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mjzag\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Processing file: data/nlp_normalized_english\CC SICREDI COOMAMP\ago-age_de_04042023_-_sicredi_coomamp.txt
File 'ago-age_de_04042023_-_sicredi_coomamp.txt' processed and saved at: data/nltk-sentences_output\CC SICREDI COOMAMP\ago-age_de_04042023_-_sicredi_coomamp
Processing file: data/nlp_normalized_english\CC SICREDI COOMAMP\ata_age_digital_2020-10906245163955933242.txt
File 'ata_age_digital_2020-10906245163955933242.txt' processed and saved at: data/nltk-sentences_output\CC SICREDI COOMAMP\ata_age_digital_2020-10906245163955933242
Processing file: data/nlp_normalized_english\CC SICREDI COOMAMP\ata_ago-age_2020_-_sicredi_coomamp-14269571789062083743.txt
File 'ata_ago-age_2020_-_sicredi_coomamp-14269571789062083743.txt' processed and saved at: data/nltk-sentences_output\CC SICREDI COOMAMP\ata_ago-age_2020_-_sicredi_coomamp-14269571789062083743
Processing file: data/nlp_normalized_english\CC SICREDI COOMAMP\ata_agoage_2022_-_sicredi_coomamp.txt
File 'ata_agoage_2022_-_sicredi_coomamp.txt

In [2]:
import os

def rename_files(root_folder):
    file_count = 1
    for root, dirs, files in os.walk(root_folder):
        for filename in files:
            if filename.endswith('.txt'):
                old_path = os.path.join(root, filename)
                new_filename = str(file_count) + '.txt'
                new_path = os.path.join(root, new_filename)
                
                # Verifica se o novo nome já está em uso
                while os.path.exists(new_path):
                    file_count += 1
                    new_filename = str(file_count) + '.txt'
                    new_path = os.path.join(root, new_filename)
                
                try:
                    os.rename(old_path, new_path)
                except FileExistsError:
                    pass  # Ignora se o arquivo com o novo nome já existir
                    
                file_count += 1

# Insira o caminho da pasta raiz que contém todas as subpastas e arquivos a serem renomeados
root_folder = 'data/nltk-sentences_output'

rename_files(root_folder)
