In [76]:
import wikipedia
import os
import re
import random
import nltk
from nltk.tokenize import sent_tokenize
from joblib import Parallel, delayed
from tqdm import tqdm
import sys

nltk.download("punkt")
wikipedia.set_lang("pt")

PASTA_DESTINO = r'C:\Users\Administrator\Desktop\Repositórios\SimCSE\textos_wikipedia'
os.makedirs(PASTA_DESTINO, exist_ok=True)

# Garante que o nome do arquivo seja válido
def limpar_nome_arquivo(nome):
    return re.sub(r"[^\w\s-]", "", nome).strip().replace(" ", "_") + ".txt"

def contar_total_linhas_txt(diretorio):
    total_linhas = 0
    total_arquivos = 0

    for root, dirs, files in os.walk(diretorio):
        for nome_arquivo in files:
            if nome_arquivo.endswith(".txt"):
                caminho_arquivo = os.path.join(root, nome_arquivo)
                try:
                    with open(caminho_arquivo, "r", encoding="utf-8") as f:
                        linhas = f.readlines()
                        total_linhas += len([l for l in linhas if l.strip()])
                        total_arquivos += 1
                except Exception as e:
                    print(f"Erro ao ler {caminho_arquivo}: {e}")
    return total_linhas

# Salva frases de uma página, retorna o número de frases
def processar_pagina(titulo):
    wikipedia.set_lang("pt")
    try:
        conteudo = wikipedia.page(titulo).content
        conteudo = re.split(r"==+\s*(Ligações externas|Referências|Ver também|Bibliografia)\s*==+", conteudo)[0]
        # Remove subtítulos do tipo === Seção === ou == Seção ==
        conteudo = re.sub(r"^={2,}.*?={2,}$", "", conteudo, flags=re.MULTILINE)      
        # Tokeniza em frases
        frases = sent_tokenize(conteudo, language="portuguese")
        # Remove frases que só contêm espaços, tabs ou caracteres invisíveis
        frases = [re.sub(r"\s+", " ", f.strip()) for f in frases if f.strip() and not re.match(r"^={2,}.*={2,}$", f.strip())]
        if len(frases) < 3:
            return 0  # ignora textos muito curtos

        nome_arquivo = limpar_nome_arquivo(titulo)
        caminho = os.path.join(PASTA_DESTINO, nome_arquivo)

        with open(caminho, "w", encoding="utf-8") as f:
            for frase in frases:
                f.write(frase + "\n")
        return len(frases)
    except Exception as e:
        print(f"Erro ao processar '{titulo}': {e}")
        # pass
        # sys.exit(1)
        return 0
# Obtém títulos aleatórios relacionados
def expandir_titulos(temas_base, limite=5000):
    titulos = set()
    for tema in temas_base:
        try:
            relacionados = wikipedia.search(tema, results=500)
            titulos.update(relacionados)
        except Exception:
            continue
        if len(titulos) >= limite:
            break
    return list(titulos)

def save_list_to_txt(data_list, filename):
    with open(filename, 'w') as file:
        for item in data_list:
            file.write(str(item) + '\n')

# Geração e salvamento de frases
def coletar_frases_ate_limite(temas_base,meta_frases=1_000_000, n_jobs=-1):
    total_frases = contar_total_linhas_txt(PASTA_DESTINO)
    while total_frases < meta_frases:
        titulos_processados = []
        for _,_, temas in os.walk(PASTA_DESTINO):
            for temaa in temas:
                titulos_processados.append(temaa.replace('.txt',''))
        titulos_processados = [t.replace('_',' ') for t in titulos_processados]

        for tema in tqdm(temas_base):
            candidatos = sorted(expandir_titulos([tema], limite=1000))            
            candidatos = [t for t in candidatos if t not in titulos_processados]
            print(f"Processando {len(candidatos)} títulos para '{tema}'") # len()

            resultados = Parallel(n_jobs=n_jobs)(
                delayed(processar_pagina)(titulo) for titulo in candidatos
            )
            total_frases += sum(resultados)
            print(f"Total de frases coletadas: {total_frases}")
            if tema==temas_base[-1]:
                print(f"\n✅ Coleta finalizada com {total_frases} frases.")
                sys.exit(1)    

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [78]:
import os

def concatenate_txt_files(directory, output_file):
    # Abre o arquivo de saída em modo de escrita
    with open(output_file, 'w', encoding='utf-8') as outfile:
        # Itera sobre todos os arquivos no diretório
        for filename in os.listdir(directory):
            # Verifica se o arquivo tem a extensão .txt
            if filename.endswith('.txt'):
                file_path = os.path.join(directory, filename)
                # Abre o arquivo .txt em modo de leitura
                with open(file_path, 'r', encoding='utf-8') as infile:
                    # Lê o conteúdo do arquivo e escreve no arquivo de saída
                    outfile.write(infile.read())
                    # Adiciona uma linha em branco entre os arquivos
                    outfile.write('\n')

# Exemplo de uso
concatenate_txt_files(PASTA_DESTINO, 'arquivo_geral.txt')

In [93]:
def clean_file(input_file, output_file):
    # Abre o arquivo de entrada para leitura e o arquivo de saída para escrita
    with open(input_file, 'r', encoding='utf-8') as infile, open(output_file, 'w', encoding='utf-8') as outfile:
        # Itera sobre cada linha do arquivo de entrada
        for line in infile:
            # Remove espaços em branco no início e no final da linha
            stripped_line = line.strip()
            # Verifica se a linha não está vazia e não contém a palavra 'displaystyle'
            keywords = ['displaystyle', 'textstyle', 'sqrt', 'fract','=','Γ', 'Δ', 'Ε', 'Ζ', 'Η', 'Θ',
                        'Ι', 'Κ', 'Λ', 'Μ', 'Ν', 'Ξ', 'Ο', 'Π', 'Ρ',
                        'Σ', 'Τ', 'Υ', 'Φ', 'Χ', 'Ψ', 'Ω','alpha', 'gamma', 'epsilon', 'zeta', 'theta',
                        'iota', 'kappa', 'lambda', 'omicron','rho',
                        'sigma','upsilon', 'phi','φ']
            if all(keyword not in stripped_line for keyword in keywords) and len(stripped_line)>50:
                # Se nenhuma das strings estiver presente em stripped_line, execute o código aqui
                outfile.write(line)
                

# Exemplo de uso
clean_file('arquivo_geral.txt', 'arquivo_limpo.txt')

In [77]:
temas_base = [
    "Ciência", "História", "Tecnologia", "Educação", "Geografia",
    "Matemática", "Física", "Brasil", "Saúde", "Economia", "Literatura",
    "Arte", "Política", "Religião", "Música", "Cinema", "Esportes",
    "Meio ambiente", "Biologia", "Química", "Filosofia", "Sociologia",
    "Psicologia", "Astronomia", "Direito", "Engenharia", "Antropologia",
    "Computação", "Ecologia", "Medicina", "Linguística", "Arquitetura",
    "Mitologia", "Guerra", "Agricultura", "Climatologia", "Demografia",
    "Genética", "Robótica", "Educação física", "Paleontologia", "Geologia"
]
coletar_frases_ate_limite(temas_base)

  0%|          | 0/42 [00:00<?, ?it/s]

Processando 177 títulos para 'Ciência'


  2%|▏         | 1/42 [00:11<08:10, 11.98s/it]

Total de frases coletadas: 766015
Processando 181 títulos para 'História'


  5%|▍         | 2/42 [00:25<08:37, 12.93s/it]

Total de frases coletadas: 790099
Processando 210 títulos para 'Tecnologia'


  7%|▋         | 3/42 [00:39<08:39, 13.32s/it]

Total de frases coletadas: 799525
Processando 201 títulos para 'Educação'


 10%|▉         | 4/42 [00:52<08:30, 13.42s/it]

Total de frases coletadas: 809251
Processando 232 títulos para 'Geografia'


 12%|█▏        | 5/42 [01:07<08:37, 13.99s/it]

Total de frases coletadas: 818892
Processando 287 títulos para 'Matemática'


 14%|█▍        | 6/42 [01:25<09:07, 15.21s/it]

Total de frases coletadas: 826769
Processando 193 títulos para 'Física'


 17%|█▋        | 7/42 [01:38<08:22, 14.35s/it]

Total de frases coletadas: 833784
Processando 219 títulos para 'Brasil'


 19%|█▉        | 8/42 [01:53<08:20, 14.72s/it]

Total de frases coletadas: 852704
Processando 202 títulos para 'Saúde'


 21%|██▏       | 9/42 [02:07<07:56, 14.44s/it]

Total de frases coletadas: 860438
Processando 186 títulos para 'Economia'


 24%|██▍       | 10/42 [02:20<07:28, 14.01s/it]

Total de frases coletadas: 872551
Processando 192 títulos para 'Literatura'


 26%|██▌       | 11/42 [02:32<07:00, 13.55s/it]

Total de frases coletadas: 878706
Processando 205 títulos para 'Arte'


 29%|██▊       | 12/42 [02:46<06:50, 13.67s/it]

Total de frases coletadas: 895245
Processando 197 títulos para 'Política'


 31%|███       | 13/42 [03:03<06:59, 14.48s/it]

Total de frases coletadas: 917157
Processando 185 títulos para 'Religião'


 33%|███▎      | 14/42 [03:17<06:46, 14.53s/it]

Total de frases coletadas: 927529
Processando 251 títulos para 'Música'


 36%|███▌      | 15/42 [03:34<06:47, 15.07s/it]

Total de frases coletadas: 943978
Processando 247 títulos para 'Cinema'


 38%|███▊      | 16/42 [03:49<06:34, 15.16s/it]

Total de frases coletadas: 949583
Processando 234 títulos para 'Esportes'


 40%|████      | 17/42 [04:04<06:18, 15.14s/it]

Total de frases coletadas: 961319
Processando 197 títulos para 'Meio ambiente'


 43%|████▎     | 18/42 [04:18<05:50, 14.61s/it]

Total de frases coletadas: 978295
Processando 291 títulos para 'Biologia'


 45%|████▌     | 19/42 [04:35<05:55, 15.47s/it]

Total de frases coletadas: 985206
Processando 251 títulos para 'Química'


 48%|████▊     | 20/42 [04:50<05:40, 15.46s/it]

Total de frases coletadas: 991420
Processando 254 títulos para 'Filosofia'


 50%|█████     | 21/42 [05:06<05:27, 15.59s/it]

Total de frases coletadas: 1005205
Processando 211 títulos para 'Sociologia'


 52%|█████▏    | 22/42 [05:20<05:02, 15.11s/it]

Total de frases coletadas: 1018852
Processando 251 títulos para 'Psicologia'


 55%|█████▍    | 23/42 [05:36<04:48, 15.20s/it]

Total de frases coletadas: 1029780
Processando 250 títulos para 'Astronomia'


 57%|█████▋    | 24/42 [05:51<04:32, 15.15s/it]

Total de frases coletadas: 1035200
Processando 217 títulos para 'Direito'


 60%|█████▉    | 25/42 [06:06<04:15, 15.03s/it]

Total de frases coletadas: 1048220
Processando 226 títulos para 'Engenharia'


 62%|██████▏   | 26/42 [06:20<03:59, 14.98s/it]

Total de frases coletadas: 1054619
Processando 221 títulos para 'Antropologia'


 64%|██████▍   | 27/42 [06:35<03:42, 14.81s/it]

Total de frases coletadas: 1062028
Processando 288 títulos para 'Computação'


 67%|██████▋   | 28/42 [06:52<03:39, 15.66s/it]

Total de frases coletadas: 1069716
Processando 239 títulos para 'Ecologia'


 69%|██████▉   | 29/42 [07:08<03:24, 15.71s/it]

Total de frases coletadas: 1078470
Processando 213 títulos para 'Medicina'


 71%|███████▏  | 30/42 [07:22<02:59, 14.98s/it]

Total de frases coletadas: 1083214
Processando 231 títulos para 'Linguística'


 74%|███████▍  | 31/42 [07:36<02:42, 14.74s/it]

Total de frases coletadas: 1089666
Processando 273 títulos para 'Arquitetura'


 76%|███████▌  | 32/42 [07:53<02:34, 15.41s/it]

Total de frases coletadas: 1099234
Processando 353 títulos para 'Mitologia'


 79%|███████▊  | 33/42 [08:14<02:33, 17.03s/it]

Total de frases coletadas: 1109532
Processando 207 títulos para 'Guerra'


 81%|████████  | 34/42 [08:29<02:12, 16.54s/it]

Total de frases coletadas: 1144693
Processando 204 títulos para 'Agricultura'


 83%|████████▎ | 35/42 [08:42<01:47, 15.35s/it]

Total de frases coletadas: 1152033
Processando 218 títulos para 'Climatologia'


 86%|████████▌ | 36/42 [08:56<01:29, 14.98s/it]

Total de frases coletadas: 1166871
Processando 195 títulos para 'Demografia'


 88%|████████▊ | 37/42 [09:08<01:10, 14.19s/it]

Total de frases coletadas: 1173775
Processando 203 títulos para 'Genética'


 90%|█████████ | 38/42 [09:21<00:55, 13.84s/it]

Total de frases coletadas: 1183846
Processando 224 títulos para 'Robótica'


 93%|█████████▎| 39/42 [09:36<00:42, 14.14s/it]

Total de frases coletadas: 1200982
Processando 203 títulos para 'Educação física'


 95%|█████████▌| 40/42 [09:49<00:27, 13.96s/it]

Total de frases coletadas: 1208993
Processando 244 títulos para 'Paleontologia'


 98%|█████████▊| 41/42 [10:04<00:14, 14.22s/it]

Total de frases coletadas: 1215028
Processando 257 títulos para 'Geologia'


 98%|█████████▊| 41/42 [10:20<00:15, 15.13s/it]

Total de frases coletadas: 1220899

✅ Coleta finalizada com 1220899 frases.





SystemExit: 1

Total de arquivos .txt: 995
Total de frases (linhas não vazias): 134118


134118

In [None]:
titulos_processados = []
for _,_, temas in os.walk(r'C:\Users\Administrator\Desktop\Repositórios\SimCSE\textos_wikipedia'):
    for temaa in temas:
        titulos_processados.append(temaa.replace('.txt',''))