# NLP Capstone - Task 1: Tokenização e Filtro de Profanidade (News)
Este notebook realiza a leitura, amostragem, tokenização e limpeza de texto com remoção de palavras ofensivas usando o dataset *en_US.news.txt*.

In [None]:
import random
import re

# Caminho do arquivo
file_path = "final/en_US/en_US.news.txt"

# Lista de palavras ofensivas (pode ser estendida ou carregada de arquivo)
profanity_list = ["damn", "hell", "shit", "fuck", "bitch"]

In [None]:
def sample_lines(file_path, sample_size=10000, prob=0.05):
    sampled = []
    with open(file_path, 'r', encoding='utf-8', errors='ignore') as file:
        for line in file:
            if len(sampled) >= sample_size:
                break
            if random.random() < prob:
                sampled.append(line.strip())
    return sampled

In [None]:
def tokenize(text):
    tokens = re.findall(r'\b\w+\b', text.lower())
    return tokens

In [None]:
def remove_profanity(tokens, profanity_list):
    clean_tokens = [word for word in tokens if word not in profanity_list]
    return clean_tokens

In [None]:
def process_text(lines, profanity_list):
    all_tokens = []
    for line in lines:
        tokens = tokenize(line)
        clean_tokens = remove_profanity(tokens, profanity_list)
        all_tokens.extend(clean_tokens)
    return all_tokens

In [None]:
# Amostragem das linhas
sampled_lines = sample_lines(file_path, sample_size=10000, prob=0.03)

# Processamento
cleaned_tokens = process_text(sampled_lines, profanity_list)

print("Exemplo de tokens limpos:", cleaned_tokens[:30])
print(f"Total de palavras após limpeza: {len(cleaned_tokens)}")

In [None]:
# Salvando tokens limpos em arquivo
output_path = "cleaned_tokens_news.txt"
with open(output_path, "w", encoding="utf-8") as f:
    f.write(" ".join(cleaned_tokens))

print(f"Tokens limpos salvos em: {output_path}")