In [1]:
from collections import Counter
import re

# 예시 질문 모음
texts = [
    "지하철이 연착됐어요. 어떻게 하죠?",
    "신호등이 고장 났어요",
    "미세먼지 너무 심해요",
    "공원에 쓰레기가 많아요"
]

# 특수문자 제거 + 공백 기준 분리
tokens = []
for text in texts:
    clean = re.sub(r'[^\w\s]', '', text)  # 특수문자 제거
    tokens.extend(clean.split())          # 공백 기준 분리

# 빈도 계산
freq = Counter(tokens)
print(freq.most_common())


[('지하철이', 1), ('연착됐어요', 1), ('어떻게', 1), ('하죠', 1), ('신호등이', 1), ('고장', 1), ('났어요', 1), ('미세먼지', 1), ('너무', 1), ('심해요', 1), ('공원에', 1), ('쓰레기가', 1), ('많아요', 1)]


In [6]:
from kiwipiepy import Kiwi
from collections import Counter

kiwi = Kiwi()
kiwi.add_user_word("미세먼지", "NNG")
texts = [
    "지하철이 연착됐어요. 어떻게 하죠?",
    "신호등이 고장 났어요",
    "미세먼지 너무 심해요",
    "공원에 쓰레기가 많아요",
]

nouns = []
for text in texts:
    result = kiwi.analyze(text)
    for token in result[0][0]:
        if token.tag in ["NNG", "NNP"]:  # 일반명사, 고유명사
            nouns.append(token.form)

print(Counter(nouns).most_common())


[('지하철', 1), ('연착', 1), ('신호등', 1), ('고장', 1), ('미세먼지', 1), ('공원', 1), ('쓰레기', 1)]


In [4]:
from kiwipiepy import Kiwi
from collections import Counter

kiwi = Kiwi()
texts = [
    "지하철이 연착됐어요. 어떻게 하죠?",
    "신호등이 고장 났어요",
    "미세먼지 너무 심해요",
    "공원에 쓰레기가 많아요",
]

nouns = []
for text in texts:
    result = kiwi.analyze(text)
    tokens = [token.form for token in result[0][0] if token.tag in ["NNG", "NNP"]]
    
    # 연속된 명사 병합: "미세" + "먼지" -> "미세먼지"
    i = 0
    while i < len(tokens):
        if i + 1 < len(tokens):
            merged = tokens[i] + tokens[i + 1]
            nouns.append(merged)
            i += 2
        else:
            nouns.append(tokens[i])
            i += 1

print(Counter(nouns).most_common())


[('지하철연착', 1), ('신호등고장', 1), ('미세먼지', 1), ('공원쓰레기', 1)]


In [5]:
kiwi.add_user_word("미세먼지", "NNG")
result = kiwi.analyze("미세먼지 너무 심해요")
print(result[0][0])

[Token(form='미세먼지', tag='NNG', start=0, len=4), Token(form='너무', tag='MAG', start=5, len=2), Token(form='심하', tag='VA', start=8, len=2), Token(form='어요', tag='EF', start=9, len=2)]
