In [2]:
from pathlib import Path
import re
from collections import Counter

In [None]:
# blog 글들 전처리 함수

EMOJI_PATTERN = re.compile(r"[\U00010000-\U0010FFFF]", flags=re.UNICODE)
URL_PATTERN = re.compile(r"https?://\S+|www\.\S+")
EMAIL_PATTERN = re.compile(r"\S+@\S+")

def clean_blog_block(block: str) -> str:
    text = block

    # 1) URL 제거
    text = URL_PATTERN.sub(" ", text)

    # 2) 이메일 제거
    text = EMAIL_PATTERN.sub(" ", text)

    # 3) 이모지 제거
    text = EMOJI_PATTERN.sub(" ", text)

    # 4) 줄바꿈을 공백으로
    text = text.replace("\r", " ").replace("\n", " ")

    # 5) 여러 공백 → 하나로
    text = re.sub(r"\s+", " ", text)

    # 6) 앞뒤 공백 제거
    text = text.strip()

    return text

In [None]:
# blog 글들 전처리
raw_path = Path("../corpus/blog/blog.txt")
raw_text = raw_path.read_text(encoding="utf-8")

# "asdfasdf" 기준으로 글 단위 나누기
raw_blocks = [b.strip() for b in raw_text.split("asdfasdf") if b.strip()]

cleaned_blocks = []
for b in raw_blocks:
    cleaned = clean_blog_block(b)
    cleaned_blocks.append(cleaned)

print("전처리 후 남은 글 수:", len(cleaned_blocks))
print("예시:\n", cleaned_blocks[0])

In [None]:
# 새로운 파일로 작성
out_path = Path("../corpus/blogs_corpus.txt")

with out_path.open("w", encoding="utf-8") as f:
    for line in cleaned_blocks:
        f.write(line + "\n")

print("저장 완료:", out_path)

## 잘 찍혔는지 봐보자

In [4]:
# 1) 코퍼스 파일 다시 읽기
path = Path("../corpus/blogs_corpus.txt")
lines = path.read_text(encoding="utf-8").splitlines()

# 공백 줄 제거 + 좌우 공백 제거
lines = [ln.strip() for ln in lines if ln.strip()]

print("문장(메시지) 수:", len(lines))

# 2) 토큰 나누기 (띄어쓰기 기준)
tokens = []
for ln in lines:
    tokens.extend(ln.split())

print("전체 토큰 개수:", len(tokens))
print("서로 다른 단어 개수:", len(set(tokens)))

# 3) 가장 많이 나온 단어 50개만 찍어보기
counter = Counter(tokens)
for w, c in counter.most_common(50):
    print(w, c)

문장(메시지) 수: 159
전체 토큰 개수: 78546
서로 다른 단어 개수: 26931
수 1142
싸피 528
있는 368
있습니다. 308
인공지능 280
것 262
가장 242
더 242
프로젝트 237
이 233
저는 222
통해 213
많이 198
그 197
함께 197
그리고 186
한 177
정말 175
싸피에서 171
취업 171
프로젝트를 171
잘 167
많은 165
어떤 164
큰 161
할 160
알고리즘 159
때 158
있었습니다. 153
싸피에 150
개발 148
하는 144
같은 141
것이 132
직접 127
문제를 125
어떻게 124
제가 122
합니다. 121
다양한 120
좋은 119
- 116
도움이 115
싸피셜 114
다른 112
바로 110
것을 110
특히 109
되었습니다. 109
실제 108
