In [106]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 샘플 데이터
text_data = [
    "This product is great", 
    "Bad quality, not satisfied", 
    "Happy with the purchase", 
    "Not a good product", 
    "Excellent quality and fast shipping", 
    "Terrible customer service, I'm disappointed", 
    "Very comfortable and fits well", 
    "The material feels cheap and it broke easily", 
    "I love it! Would definitely recommend", 
    "Not what I expected, returning it", 
    "Well worth the price", 
    "Product did not match the description", 
    "So happy with this purchase, five stars!", 
    "One star, the product stopped working after a week", 
    "Size was perfect and I like the color", 
    "Too small and the color is different from the picture", 
    "Amazing experience, I'm very satisfied with the product", 
    "It's okay, but I expected better quality", 
    "Received the wrong item, not happy", 
    "Fantastic! Better than I expected"
]

labels = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(text_data)
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2)
# 모델 훈련
model = MultinomialNB()
model.fit(X_train, y_train)
# 예측 및 평가
predictions = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, predictions))

new_text = ["I am not satisfied with this"]
new_t_vec = vectorizer.transform(new_text)
predict = model.predict(new_t_vec)
print("P" if predict[0] == 1 else "N")


Accuracy: 0.75
N


In [110]:
from konlpy.tag import Okt
from collections import Counter

# 텍스트 데이터
text_data = [
    "미국의 중앙은행인 연방준비제도(Fed·연준)가 지난달 31일(현지 시각) 기준금리를 4연속 동결한 가운데 크리스탈리나 게오르기에바 국제통화기금(IMF) 총재가 “연준 등 주요국 중앙은행이 기준금리를 일찍 내리는 것보다 다소 늦게 내리는 것이 낫다”는 입장을 내놓았다. 1일 블룸버그에 따르면 게오르기에바 총재는 이날 기자 브리핑에서 “중앙은행은 시장의 과도한 기대가 아닌 데이터에 따라 움직여야 한다”며 “지금 시점에선 통화정책이 조기에 완화할 위험이 있다”며 이같이 말했다. 시장에선 연준이 기준금리를 인하할 것이라는 전망이 우세하지만, 연준이 금리를 동결한 것을 긍정적으로 해석한 발언으로 풀이된다.", 
    "블룸버그는 “게오르기에바 총재의 발언은 제롬 파월 연준 의장이 이르면 다음 달 기준금리를 인하할 것이라는 시장의 기대를 낮추려고 노력하고 있다는 신호를 보낸 지 하루 만에 나왔다”고 짚었다. 연준은 지난달 31일, 기준금리를 5.25~5.50%로 재차 동결했다. 지난해 9월, 11월, 12월에 이어 4번째 동결이다.", 
    "시장에선 연준이 이르면 3월부터 금리를 인하하고, 올해 최대 6~7차례에 걸쳐 금리를 인하할 것이라고 전망한다. 연준은 지난해 12월 FOMC 정례회의 직후 발표한 전망에서 올해 말 기준금리가 현재보다 0.65~0.90%포인트(P) 낮은 4.6%에 이를 것으로 예측한 바 있기에 시장에선 최소 3차례 금리를 인하할 것으로 본다. 하지만 파월 연준 의장은 지난달 31일 회의 직후 가진 기자회견에서 “”올해 어느 시점에서 긴축 정책을 완화하는 일을 시작하는 것이 적절할 것”이라면서도 3월에 금리를 인하할 것이란 전망에 대해선 “금리 인하를 보증할 수준의 확신을 얻을 것으로 생각하지 않는다”며 부정적인 입장을 내놓았다.", 
    "이와 관련 게오르기에바 총재는 연준의 금리 인하 시점에 대해 “몇 달이 걸릴 것이냐의 문제”라며 “금리 인하가 약간 늦는 것보다 조기 완화로 인한 위험이 더 높다고 본다”고 말했다. 이어 “너무 빨리 금리를 인하하면 물가가 안정될 것이라는 소비자나 투자자의 신뢰가 떨어지고, 지금까지 취해진 인플레이션 하락이 역전될 수 있다”고 말했다.",
    "다만, 게오르기에바 총재는 높은 금리를 너무 오래 유지할 경우 “미국 경제가 둔화하고, 달러에 다소 부정적인 영향을 미쳐 신흥 시장에 해를 끼칠 위험이 너무 높다”고 경고했다. 그러면서 “필요가 없을 때는 꽉 붙잡고 있지 말아야 한다”며 “지표를 보고 지표에 따라 행동해야 한다”고 말했다."
]

# Okt 객체 생성
okt = Okt()
stop_words = ["것", "준", "이", "그", "저", "에바"]

# 명사 추출
nouns = []
for sentence in text_data:
    for noun in okt.nouns(sentence):
        if noun not in stop_words and len(noun) > 1:
            nouns.append(noun)

# 가장 빈번한 명사 찾기
noun_counts = Counter(nouns)
most_common_nouns = noun_counts.most_common(5)  # 상위 5개 명사

print("Most common nouns:", most_common_nouns)


Most common nouns: [('인하', 10), ('금리', 10), ('기준금리', 6), ('시장', 6), ('총재', 5)]
