In [5]:
import pandas as pd
import numpy as np
import re
from sklearn.preprocessing import OneHotEncoder
from IPython.core import display 

reviews = [
    "제품이 훌륭한 것 같다. 훌륭한 물건 사려면 바로 이거",
    "제품이 좋지 않음.",
    "이 제품을 사랑한다",
    "다시 이 제품을 구매할 것이다",
    "제품이 한 번 사용 후 고장났다",
    "훌륭한 제품과 빠른 배송",
    "제품에 만족하지 못했다",
    "배송이 지연되었다",
    "이 구매에 매우 만족한다",
    "제품은 가격만큼의 가치가 있다"
]

# 구두점 제거 (한글은 소문자가 없으므로, 구두점 제거만 수행)
reviews = [re.sub(r'[^\w\s]', '', review) for review in reviews]

# 토큰화 (공백 분할)
tokens = [review.split() for review in reviews]
print("Tokens:\n", tokens)
print(len(tokens))

# 어휘집 생성 과정 
# 1. 평탄화 
all_tokens = sum(tokens, [])
print("\nAll Tokens:\n", all_tokens)
print(len(all_tokens))

# 2. 중복 단어 제거 
unique_words = list(set(all_tokens)) # 어휘집 
print("\nUnique Words:\n", unique_words)
print(len(unique_words))

Tokens:
 [['제품이', '훌륭한', '것', '같다', '훌륭한', '물건', '사려면', '바로', '이거'], ['제품이', '좋지', '않음'], ['이', '제품을', '사랑한다'], ['다시', '이', '제품을', '구매할', '것이다'], ['제품이', '한', '번', '사용', '후', '고장났다'], ['훌륭한', '제품과', '빠른', '배송'], ['제품에', '만족하지', '못했다'], ['배송이', '지연되었다'], ['이', '구매에', '매우', '만족한다'], ['제품은', '가격만큼의', '가치가', '있다']]
10

All Tokens:
 ['제품이', '훌륭한', '것', '같다', '훌륭한', '물건', '사려면', '바로', '이거', '제품이', '좋지', '않음', '이', '제품을', '사랑한다', '다시', '이', '제품을', '구매할', '것이다', '제품이', '한', '번', '사용', '후', '고장났다', '훌륭한', '제품과', '빠른', '배송', '제품에', '만족하지', '못했다', '배송이', '지연되었다', '이', '구매에', '매우', '만족한다', '제품은', '가격만큼의', '가치가', '있다']
43

Unique Words:
 ['사랑한다', '물건', '만족하지', '가격만큼의', '이', '한', '제품을', '고장났다', '제품에', '제품과', '매우', '훌륭한', '만족한다', '같다', '제품은', '배송', '있다', '다시', '제품이', '못했다', '사용', '번', '가치가', '바로', '이거', '것', '좋지', '빠른', '배송이', '지연되었다', '사려면', '구매할', '것이다', '않음', '구매에', '후']
36


In [7]:
# 원핫 인코더 실행 
one_hot_encoder = OneHotEncoder(categories=[unique_words], sparse_output=False)
one_hot_encoder.fit(np.array(unique_words).reshape(-1, 1))

# 각 리뷰에 대해 원핫 인코딩 실행 
one_hot_encoded_reviews = [one_hot_encoder.transform(np.array(review).reshape(-1, 1)).sum(axis=0) for review in tokens]
print(one_hot_encoded_reviews)

one_hot_encoded_reviews = np.clip(one_hot_encoded_reviews, 0, 1)
print("\nClipped:\n", one_hot_encoded_reviews)

[array([0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 2., 0., 1., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 1., 1., 1., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1.,
       0., 0.]), array([1., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0.]), array([0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0.,
       0., 0.]), array([0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 1.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
       0., 0.]

In [10]:
from IPython.display import display
# dataframe 생성 
df = pd.DataFrame(one_hot_encoded_reviews, columns=unique_words).astype(int)

display(df)

Unnamed: 0,사랑한다,물건,만족하지,가격만큼의,이,한,제품을,고장났다,제품에,제품과,...,좋지,빠른,배송이,지연되었다,사려면,구매할,것이다,않음,구매에,후
0,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,1,0,0
2,1,0,0,0,1,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,1,0,1,0,0,0,...,0,0,0,0,0,1,1,0,0,0
4,0,0,0,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,1
5,0,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,0
6,0,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,1,1,0,0,0,0,0,0
8,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
9,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [17]:
# 0번째 문장과 df의 0번째 행 비교 
first_review_tokens = tokens[0]
first_review_encoding = df.iloc[0]

print("Tokens in the first review:")
print(first_review_tokens)
print(len(first_review_tokens))

first_review_encoding2 = first_review_encoding[first_review_encoding==1].index.tolist()
print("\nencoded words in the first review:")
print(first_review_encoding2)
print(len(first_review_encoding2))

Tokens in the first review:
['제품이', '훌륭한', '것', '같다', '훌륭한', '물건', '사려면', '바로', '이거']
9

encoded words in the first review:
['물건', '훌륭한', '같다', '제품이', '바로', '이거', '것', '사려면']
8


In [24]:
print(first_review_encoding==1)
print()
print(first_review_encoding[first_review_encoding==1])
print()
print(first_review_encoding[first_review_encoding==1].index)
print()
first_review_encoding[first_review_encoding==1].index.tolist()

사랑한다     False
물건        True
만족하지     False
가격만큼의    False
이        False
한        False
제품을      False
고장났다     False
제품에      False
제품과      False
매우       False
훌륭한       True
만족한다     False
같다        True
제품은      False
배송       False
있다       False
다시       False
제품이       True
못했다      False
사용       False
번        False
가치가      False
바로        True
이거        True
것         True
좋지       False
빠른       False
배송이      False
지연되었다    False
사려면       True
구매할      False
것이다      False
않음       False
구매에      False
후        False
Name: 0, dtype: bool

물건     1
훌륭한    1
같다     1
제품이    1
바로     1
이거     1
것      1
사려면    1
Name: 0, dtype: int64

Index(['물건', '훌륭한', '같다', '제품이', '바로', '이거', '것', '사려면'], dtype='object')



['물건', '훌륭한', '같다', '제품이', '바로', '이거', '것', '사려면']