In [88]:
import pandas as pd
import numpy as np
import re
from sklearn.preprocessing import OneHotEncoder
from IPython.core import display as ICD

reviews = [
    "제품이 훌륭한 것 같다. 훌륭한 물건 사려면 바로 이거",
    "제품이 좋지 않음.",
    "이 제품을 사랑한다",
    "다시 이 제품을 구매할 것이다",
    "제품이 한 번 사용 후 고장났다",
    "훌륭한 제품과 빠른 배송",
    "제품에 만족하지 못했다",
    "배송이 지연되었다",
    "이 구매에 매우 만족한다",
    "제품은 가격만큼의 가치가 있다"
]

# 구두점 제거 (한글은 소문자가 없으므로, 구두점 제거만 수행)
reviews = [review for review in reviews if re.sub('\w', '',review)]

# 토큰화 (간단하게 공백으로 분할)
tokens = [review.split() for review in reviews]

# 리스트 평탄화
unique_tokens = sum(tokens, [])

# 중복 단어 제거
unique_tokens = list(set(unique_tokens))
print(unique_tokens)

['바로', '만족하지', '배송이', '사려면', '것이다', '만족한다', '제품과', '제품을', '제품에', '있다', '구매할', '빠른', '사용', '않음.', '이', '번', '제품이', '같다.', '사랑한다', '이거', '가치가', '지연되었다', '구매에', '한', '좋지', '물건', '다시', '배송', '제품은', '후', '못했다', '매우', '가격만큼의', '고장났다', '것', '훌륭한']


In [None]:
# 원핫 인코더
encoder = OneHotEncoder(sparse_output=False)
naravi = np.array(unique_tokens).reshape(-1,1) # 일렬로 세우기
encoder.fit_transform(naravi)                  # 밀집행렬 형태로 변환

# 각 리뷰에 대해 원핫 인코딩 수행
one_hot_encoded_reviews = [encoder.transform(np.array(token).reshape(-1,1)).sum(axis=0) for token in tokens] # sum(axis=0)은 한 문서의 값을 1열로 축소
print("\nOne-Hot Encoded Reviews (Raw):\n", one_hot_encoded_reviews)

# 원핫 인코딩은 각 단어가 등장하면 1로 표시해야 하므로, 1보다 큰 값을 1로 수정
one_hot_encoded_reviews = np.clip(one_hot_encoded_reviews,0,1)
print("\nOne-Hot Encoded Reviews (Clipped):\n", one_hot_encoded_reviews)


One-Hot Encoded Reviews (Raw):
 [array([0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 2.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0.,
       0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       0., 0.]), array([0., 0., 0., 0., 1., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       0., 0.]), array([0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1.,
       1., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0

In [89]:
# 4. 데이터프레임 생성 및 정수형으로 변환
df_one_hot = pd.DataFrame(one_hot_encoded_reviews, columns=unique_tokens)
df_one_hot = df_one_hot.astype(int)

# 결과 출력
print("\nOne-Hot Encoded DataFrame:")
ICD.display(df_one_hot)


One-Hot Encoded DataFrame:


Unnamed: 0,바로,만족하지,배송이,사려면,것이다,만족한다,제품과,제품을,제품에,있다,...,다시,배송,제품은,후,못했다,매우,가격만큼의,고장났다,것,훌륭한
0,0,0,1,1,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,1,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3,0,0,0,0,1,0,0,1,1,0,...,0,0,0,1,0,0,0,0,0,0
4,0,0,0,0,0,1,0,0,0,0,...,0,0,0,0,1,0,0,1,1,0
5,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,1
6,0,0,0,0,0,0,0,0,0,1,...,0,1,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
8,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,1,1,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0


In [None]:
# 6. 0번째 문장과 데이터프레임의 0번째 행 비교
print(f'0번 째 문장 : {reviews[0]}')
print(df_one_hot.iloc[0])

# 실제 0번째 문장에 있는 단어들 출력
print(f'0번 째 문장 단어 : {tokens[0]}')

# 데이터프레임에서 0번째 행의 값이 1인 단어들 출력
df_one_hot.iloc[0][df_one_hot.iloc[0] == 1].index.tolist()

0번 째 문장 : 제품이 훌륭한 것 같다. 훌륭한 물건 사려면 바로 이거
바로       0
만족하지     0
배송이      1
사려면      1
것이다      0
만족한다     0
제품과      0
제품을      0
제품에      0
있다       0
구매할      0
빠른       0
사용       0
않음.      1
이        1
번        0
제품이      0
같다.      0
사랑한다     0
이거       0
가치가      1
지연되었다    0
구매에      0
한        0
좋지       1
물건       0
다시       0
배송       0
제품은      0
후        0
못했다      1
매우       0
가격만큼의    0
고장났다     0
것        0
훌륭한      1
Name: 0, dtype: int64
0번 째 문장 단어 : ['제품이', '훌륭한', '것', '같다.', '훌륭한', '물건', '사려면', '바로', '이거']


['배송이', '사려면', '않음.', '이', '가치가', '좋지', '못했다', '훌륭한']