In [5]:
import nltk
from nltk.tokenize import word_tokenize
# Especificar manualmente o caminho do nltk_data no ambiente virtual
nltk.data.path.append('./.venv/nltk_data')  # Ajuste esse caminho conforme necessário

# Agora tente baixar novamente os pacotes
nltk.download('punkt', download_dir='./.venv/nltk_data')
nltk.download('stopwords', download_dir='./.venv/nltk_data')
nltk.download('punkt_tab', download_dir='./.venv/nltk_data')


[nltk_data] Downloading package punkt to ./.venv/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to ./.venv/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to ./.venv/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
import re
import unicodedata

def limpeza_texto(texto):
    # 1. Corrigir quebras de linha excessivas
    texto = re.sub(r'\n+', '\n', texto.strip())
    
    # 2. Corrigir múltiplos espaços
    texto = re.sub(r'[ \t]+', ' ', texto)
    
    # 3. Remover pontuação desnecessária (mas manter . , ? — e aspas)
    texto = re.sub(r'[!;:()*[\]{}<>]', '', texto)
    
    # 4. Converter para minúsculas
    texto = texto.lower()
    
    # 5. Remover acentos
    texto = unicodedata.normalize('NFKD', texto)
    texto = ''.join(c for c in texto if not unicodedata.combining(c))
    
    return texto

def limpar_e_tokenizar_texto(texto):
    # Limpa o texto primeiro
    texto_limpo = limpeza_texto(texto)
    
    # Tokeniza usando o NLTK
    tokens = word_tokenize(texto_limpo, language='portuguese')
    
    return tokens

def extrair_titulo_autor(nome_arquivo):
    # Remove "preprocessado_" e ".txt" ou ".json"
    nome_limpo = re.sub(r'^preprocessado_', '', nome_arquivo)
    nome_limpo = re.sub(r'\.(txt|json)$', '', nome_limpo)
    
    # Separar título e autor
    match = re.match(r'(.+?) \((.+?)\)', nome_limpo)
    if match:
        titulo, autor = match.groups()
        return titulo.strip(), autor.strip()
    else:
        return nome_limpo.strip(), None  # Se não bater, só retorna o título

## Forma 1 de tokenizar salvando em txt e espaçando as linhas

In [None]:
import os
import json
from funcoes_preprocessamento import limpar_e_tokenizar_texto

# Caminhos
caminho_txts = "data/txts"
caminho_saida_pasta = "data/txts_processados"
os.makedirs(caminho_saida_pasta, exist_ok=True)

for arquivo_nome in os.listdir(caminho_txts):
    caminho_arquivo = os.path.join(caminho_txts, arquivo_nome)
    if os.path.isfile(caminho_arquivo):
        with open(caminho_arquivo, 'r', encoding='utf-8') as arquivo:
            texto_pre = arquivo.read()
            
            # Dividir em parágrafos
            paragrafos = texto_pre.split('\n')
            todos_tokens = []
            
            for paragrafo in paragrafos:
                paragrafo = paragrafo.strip()
                if paragrafo:
                    tokens = limpar_e_tokenizar_texto(paragrafo)
                    todos_tokens.append(tokens)
            
            caminho_saida = os.path.join(caminho_saida_pasta, "preprocessado_" + arquivo_nome.replace('.txt', '.json'))
            with open(caminho_saida, 'w', encoding='utf-8') as arquivo_saida:
                json.dump(todos_tokens, arquivo_saida, ensure_ascii=False, indent=2)
            
            print(f"\nTokens estruturados salvos em: {caminho_saida}")



Tokens estruturados salvos em: data/txts_processados\preprocessado_A Cartomante (Machado de Assis).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_Dom Casmurro (Machado de Assis).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_O Cortiço (Aluisio de Azevedo).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_O Mulato (Aluisio Azevedo).json


## Forma 2 salvando uma lista de listas em que cada lista interna é uma linha

In [15]:
import os
import json

# Caminhos
caminho_txts = "data/txts"
caminho_saida_pasta = "data/txts_processados"
os.makedirs(caminho_saida_pasta, exist_ok=True)

for arquivo_nome in os.listdir(caminho_txts):
    caminho_arquivo = os.path.join(caminho_txts, arquivo_nome)
    if os.path.isfile(caminho_arquivo):
        with open(caminho_arquivo, 'r', encoding='utf-8') as arquivo:
            texto_pre = arquivo.read()
            
            # Dividir em parágrafos
            paragrafos = texto_pre.split('\n')
            todos_tokens = []
            
            for paragrafo in paragrafos:
                paragrafo = paragrafo.strip()
                if paragrafo:
                    tokens = limpar_e_tokenizar_texto(paragrafo)
                    todos_tokens.append(tokens)
            
            caminho_saida = os.path.join(caminho_saida_pasta, "preprocessado_" + arquivo_nome.replace('.txt', '.json'))
            with open(caminho_saida, 'w', encoding='utf-8') as arquivo_saida:
                json.dump(todos_tokens, arquivo_saida, ensure_ascii=False, indent=2)
            
            print(f"\nTokens estruturados salvos em: {caminho_saida}")



Tokens estruturados salvos em: data/txts_processados\preprocessado_A Cartomante (Machado de Assis).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_Dom Casmurro (Machado de Assis).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_O Cortiço (Aluisio de Azevedo).json

Tokens estruturados salvos em: data/txts_processados\preprocessado_O Mulato (Aluisio Azevedo).json
