# 0. 데이터 후처리

In [1]:
import pickle
import re
from pathlib import Path
from collections import Counter

PROJECT_ROOT = Path('..').resolve()
DATA_DIR = PROJECT_ROOT / 'data'

print("데이터 로드 중")
with open(DATA_DIR / 'corpus.pkl', 'rb') as f:
    corpus = pickle.load(f)

print(f"총 문서 수: {len(corpus):,}개")

데이터 로드 중
총 문서 수: 50,222개


## 0-1. 한글 자모 (ㅋㅋ, ㅎㅎ, ㅠㅠ, ㅏㅏ 등) 찾기

In [8]:
jamo_pattern = re.compile(r'[ㄱ-ㅎㅏ-ㅣ]+')
count = 0

for doc in corpus[:5000]: # 앞 5000개만 확인
    text = doc['text']
    matches = jamo_pattern.findall(text)

    if matches:
        count += 1
        if count <= 10: # 샘플 10개만 출력
            print(f"\n[Doc ID: {doc['_id']}] {doc['title']}")
            for match in set(matches):
                if len(match) > 1:
                    idx = text.find(match)
                    start = max(0, idx - 20)
                    end = min(len(text), idx + 20)
                    print(f"발견: '{match}' -> ...{text[start:end]}...")

print(f"\n샘플 5000개 중 자모 포함 문서 수: {count}개 (약 {count/5000*100:.1f}%)")


[Doc ID: 휘핑크림] 휘핑크림

[Doc ID: taboo tears you up] taboo tears you up

[Doc ID: 오현민] 오현민
발견: 'ㅜㅜ' -> ... 이현우가 아닌 키이스트의 이현우였어ㅜㅜ`라는 희대의 드립을 치기도......

[Doc ID: 최건우] 최건우
발견: 'ㅋㅋㅋㅋㅋㅋ' -> ...본에선 아니키(형님) 분위기 좀 읽어ㅋㅋㅋㅋㅋㅋ 같은 반응이 많이 나온 ...

[Doc ID: 마쿠노우치 잇포] 마쿠노우치 잇포

[Doc ID: 로아인(그랑블루 판타지 Versus)] 로아인(그랑블루 판타지 Versus)
발견: 'ㅎㅎ' -> ... 있다. 승부처 ※G·M·J 해제됨다ㅎㅎ : 초일기당천 도중 ↓→→ + ...

[Doc ID: 집파리] 집파리

[Doc ID: 진주동명고등학교] 진주동명고등학교

[Doc ID: 소닉 더 헤지혹] 소닉 더 헤지혹
발견: 'ㅋㅋ' -> ...를 넘어섰다. "움직일 수 없다니? ㅋㅋ 움직이고 있잖아! 애초에 지구는...

[Doc ID: 정경두(프로게이머)] 정경두(프로게이머)

샘플 5000개 중 자모 포함 문서 수: 466개 (약 9.3%)


## 0-2. 특수문자 과도한 반복 (!!!!, ...., ~~~) 찾기

In [9]:
import re

punct_pattern = re.compile(r'[\.\!\?~\-]{3,}')
count = 0

for doc in corpus[:5000]:
    text = doc['text']
    matches = punct_pattern.findall(text)

    if matches:
        count += 1
        if count <= 10:
            print(f"\n[Doc ID: {doc['_id']}] {doc['title']}")
            for match in set(matches):
                if len(match) > 0:
                    idx = text.find(match)
                    start = max(0, idx - 20)
                    end = min(len(text), idx + 20)
                    print(f"발견: '{match}' -> ...{text[start:end]}...")

print(f"\n샘플 5000개 중 반복 부호 포함 문서 수: {count}개 (약 {count/5000*100:.1f}%)")


[Doc ID: 방관하는 초월자] 방관하는 초월자
발견: '...' -> ...저게 사실인 건지 아니면 핑계인 건지... 수퍼내추럴 - 신 스타크래프트...

[Doc ID: 제이드(스타크래프트)] 제이드(스타크래프트)
발견: '...' -> ...터진 메카닉 병력은 별로 안 좋아하니... 그래서 이 맵을 기피하는 테란...

[Doc ID: 개척시대(스타크래프트)] 개척시대(스타크래프트)
발견: '...' -> ...기를 참고할 것. 당연히 스타 명경기...까지는 아니고 기네스에 등재되었...

[Doc ID: 테란맵] 테란맵
발견: '...' -> ... 핵 사일로는 어쨌든 고스트를 뽑아야... 모든 종족이 멀티를 먹기 힘든...

[Doc ID: 라그나로크(스타크래프트)] 라그나로크(스타크래프트)
발견: '...' -> ...호는 어쩌면 질 운명이었는지도 모른다... 사실 그 운명을 극복할 수도 ...

[Doc ID: 스파클(스타크래프트)] 스파클(스타크래프트)
발견: '...' -> ...쳐질 여지는 적다는 전망이 우세했으나... 3월 4일 최종 버전 패치 이...

[Doc ID: REDALiCE] REDALiCE
발견: '...' -> ... 시 작곡가 본인이 "DJ NAGAI... 대체 누구냐..." 라는 트윗...

[Doc ID: CENSORED!!] CENSORED!!
발견: '...' -> ...틀을 자유로이 사용해도 좋다며 뿌렸다... 2020년에 토파조 유튜브 구...

[Doc ID: 오현민] 오현민
발견: '...' -> ...있었다고 했으면서 유튜브에선 4~5명...? 1월, 페이스북에 오랜만에 ...
발견: '...?' -> ...있었다고 했으면서 유튜브에선 4~5명...? 1월, 페이스북에 오랜만에 ...

[Doc ID: 포테토칩] 포테토칩
발견: '...' -> ... 돌아왔다. 건강스낵 더위까지 날려요...고구마·콩등 재료에 저칼로리제품...

샘플 5000개 중 반복 부호 포함 문서 수: 2817개 (약 56.3%)


## 0-3. 취소선 내용 확인

In [11]:
strike_pattern = re.compile(r'~~(.*?)~~')
count = 0

for doc in corpus[:5000]:
    text = doc['text']
    matches = list(strike_pattern.finditer(text))

    if matches:
        count += 1
        if count <= 10:
            print(f"\n[Doc ID: {doc['_id']}] {doc['title']}")

            for match in matches[:3]:
                content = match.group(1)

                if len(content.strip()) > 0:
                    start_idx = match.start()
                    end_idx = match.end()

                    context_start = max(0, start_idx - 30)
                    context_end = min(len(text), end_idx + 30)

                    context_text = text[context_start:context_end]
                    context_text = context_text.replace('\n', ' ')

                    print(f"발견: '{match}' -> ...{text[start:end]}...")

print(f"\n샘플 5000개 중 취소선 포함 문서 수: {count}개 (약 {count/5000*100:.1f}%)")


샘플 5000개 중 취소선 포함 문서 수: 0개 (약 0.0%)


## 0-4. 불용어 후보 탐색

In [15]:
from kiwipiepy import Kiwi
from collections import Counter
from tqdm.notebook import tqdm

kiwi = Kiwi(num_workers=-1)
token_counter = Counter()

# 1000개만 샘플링해서 토큰화
for doc in tqdm(corpus[:1000], desc="Tokenizing Sample"):
    tokens = kiwi.tokenize(doc['text'])
    useful_tags = ['NNG', 'NNP', 'VV', 'VA', 'MAG']

    # 형태소만 추출해서 카운트
    for t in tokens:
        if t.tag in useful_tags and len(t.form) > 1:
            token_counter[t.form] += 1

print("\n가장 많이 등장한 단어 Top 20")
for i, (word, count) in enumerate(token_counter.most_common(20), 1):
    print(f"{i}위: {word} ({count}회)")

Tokenizing Sample:   0%|          | 0/1000 [00:00<?, ?it/s]


가장 많이 등장한 단어 Top 20
1위: 나오 (4330회)
2위: 보이 (3781회)
3위: 경기 (3308회)
4위: 자신 (3258회)
5위: 경우 (3210회)
6위: 이후 (3209회)
7위: 공격 (3066회)
8위: 사용 (2982회)
9위: 정도 (2953회)
10위: 사람 (2943회)
11위: 만들 (2511회)
12위: 등장 (2493회)
13위: 위하 (2428회)
14위: 사실 (2325회)
15위: 대하 (2280회)
16위: 가능 (2253회)
17위: 게임 (2004회)
18위: 상대 (1931회)
19위: 모습 (1896회)
20위: 시작 (1852회)


In [14]:
import pickle
import math
import os
from pathlib import Path
from kiwipiepy import Kiwi
from tqdm.notebook import tqdm

PROJECT_ROOT = Path('..').resolve()
DATA_DIR = PROJECT_ROOT / 'data'

# 5000개 샘플 데이터 로드
with open(DATA_DIR / 'corpus.pkl', 'rb') as f:
    full_corpus = pickle.load(f)
    corpus = full_corpus[:5000]

print(f"검증 대상 문서 수(N): {len(corpus):,}개")

# 불용어 후보 리스트
candidate_stopwords = [
    # 1. 진단 결과 상위 랭크
    '나오', '보이', '자신', '경우', '이후', '정도', '사람',
    '만들', '등장', '위하', '사실', '대하', '가능', '모습', '시작',
    # 2. 일반적인 불용어
    '있다', '없다', '하다', '되다', '않다', '그렇다', '아니',
    '때문', '이것', '저것', '그것', '부분', '가지', '문제'
]

# 비교용 키워드
candidate_stopwords.extend(['대학교', '인공지능', '자연'])

# 빈도(DF) 카운팅
kiwi = Kiwi(num_workers=-1)
doc_freq = {word: 0 for word in candidate_stopwords}

print("문서 스캔 중")
for doc in tqdm(corpus, desc="Scanning"):
    try:
        tokens = kiwi.tokenize(doc['text'])
        # 한 문서 내 중복 제거
        unique_tokens = set(t.form for t in tokens)

        for word in candidate_stopwords:
            if word in unique_tokens:
                doc_freq[word] += 1
    except:
        continue

# IDF 계산 및 결과 출력
print("\n" + "="*70)
print(f"{'순위':<4} | {'단어':<10} | {'DF (등장 문서 수)':<15} | {'IDF 점수':<10} | {'판정'}")
print("="*70)

results = []
N = len(corpus)

for word, df in doc_freq.items():
    if df == 0:
        idf = 0.0
    else:
        # IDF = log(N / DF)
        idf = math.log(N / df)
    results.append((word, df, idf))

# IDF 점수 낮은 순(쓸모없는 순)으로 정렬
results.sort(key=lambda x: x[2])

for i, (word, df, idf) in enumerate(results, 1):
    if word in ['반도체', '인공지능', '손흥민']:
        judgement = "키워드"
    elif idf < 1.5:  # 기준점: 1.5점 미만이면 불용어로 간주
        judgement = "삭제"
    else:
        judgement = "애매"

    print(f"{i:<4} | {word:<10} | {df:<15} | {idf:.4f}     | {judgement}")

print("="*70)

검증 대상 문서 수(N): 5,000개
문서 스캔 중


Scanning:   0%|          | 0/5000 [00:00<?, ?it/s]


순위   | 단어         | DF (등장 문서 수)    | IDF 점수     | 판정
1    | 있다         | 0               | 0.0000     | 삭제
2    | 없다         | 0               | 0.0000     | 삭제
3    | 그렇다        | 0               | 0.0000     | 삭제
4    | 때문         | 3914            | 0.2449     | 삭제
5    | 아니         | 3884            | 0.2526     | 삭제
6    | 나오         | 3799            | 0.2747     | 삭제
7    | 보이         | 3594            | 0.3302     | 삭제
8    | 이후         | 3548            | 0.3431     | 삭제
9    | 정도         | 3431            | 0.3766     | 삭제
10   | 위하         | 3309            | 0.4128     | 삭제
11   | 가지         | 3267            | 0.4256     | 삭제
12   | 경우         | 3238            | 0.4345     | 삭제
13   | 사실         | 3204            | 0.4450     | 삭제
14   | 만들         | 3188            | 0.4500     | 삭제
15   | 사람         | 3134            | 0.4671     | 삭제
16   | 시작         | 3020            | 0.5042     | 삭제
17   | 가능         | 2977            | 0.5185     | 삭제
18   | 대하         | 2917   