# 단어의 표현 (Word Representation)


기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환


# 1.원-핫 인코딩 (One-Hot Encoding)

## 1.1. 직접 구현

In [44]:
from collections import defaultdict 
import numpy as np 

In [45]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','개', '고양이']


In [46]:
# 예시) 고유 단어와 인덱스 매칭
test_defaultdict = defaultdict(lambda: len(test_defaultdict))
test_defaultdict['원숭이']
test_defaultdict['바나나']
test_defaultdict['바나나']
test_defaultdict['개']
print(dict(test_defaultdict))

{'원숭이': 0, '바나나': 1, '개': 2}


In [47]:
word_ls = ['원숭이','바나나','사과','개', '고양이']

def one_hot_encode(word_ls):
    # 고유 단어와 인덱스(열 인덱스로 쓰임)를 매칭시켜주는 dict 생성 
    word2dict_dic = defaultdict(lambda: len(word2dict_dic))

    # {단어: 인덱스} 어휘 사전 구축 
    for word in word_ls:
        word2dict_dic[word]

    n_unique_words = len(word2dict_dic) # 고유 단어 갯수 
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words), int) # 원핫벡터를 만들기 위한 비어있는 벡터 생성 (행=문서 개수, 열=고유토큰 개수)

    # 해당 단어의 고유 인덱스에만 값을 1로 변경 
    for i, word in enumerate(word_ls):
        index = word2dict_dic[word] # 해당 단어의 고유 인덱스 
        one_hot_vectors[i, index] = 1  # 해당 단어의 고유 인덱스에만 값을 1로 변경 (i행에 index 열에 해당하는 요소 값을 1로 변경)
    
    return one_hot_vectors

- 함수 풀이 

In [48]:
# 비어있는 벡터행렬 생성하는 함수 
# np.identity(n): 단위행렬을 생성해주는 메서드 (n: 행렬의 크기를 결정)
# 단위행렬: 대각 요소가 모두 1인 정방행렬 
# 정방행렬: 행과 열의 개수가 똑같은 행렬 

def one_hot_encode(word_ls):
    one_hot_vectors = np.identity(len(word_ls), dtype=int)
    return one_hot_vectors

print(one_hot_encode(word_ls))

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


In [6]:
# 고유 단어와 인덱스를 매칭시켜주는 사전 생성
word2id_dic = defaultdict(lambda: len(word2id_dic))

In [7]:
# {단어 : 인덱스} 사전 구축
# word_ls=말뭉치(corpus), word=문서 
for word in word_ls:
    word2id_dic[word] 

print(dict(word2id_dic)) # 어휘 사전 생성 

{'원숭이': 0, '바나나': 1, '사과': 2, '개': 3, '고양이': 4}


In [9]:
# 고유한 단어(토큰)의 개수 
n_unique_words = len(word2id_dic)

# 원핫벡터 만들기 위해서 비어있는 벡터 생성 
one_hot_vectors = np.zeros((len(word_ls), n_unique_words))
print(n_unique_words)
print(one_hot_vectors)

5
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [11]:
for i, word in enumerate(word_ls):
    index = word2id_dic[word] # 해당 단어의 고유 인덱스 (열 인덱스)
    one_hot_vectors[i, index] = 1 # 해당 단어의 고유 인덱스에만 값을 1로 변경 

print(one_hot_vectors)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [None]:
example_corpus = ['마우스', '오리온', '연필', '커피', '핸드폰', '애플', '노트북', '알약']

## 1.2. sklearn 구현

함수명 | 설명
--|--
fit(X[, y])	| Fit OneHotEncoder to X.
fit_transform(X[, y])	| Fit OneHotEncoder to X, then transform X.
inverse_transform(X)	| Convert the back data to the original representation.
transform(X)	| Transform X using one-hot encoding.

In [None]:
! pip install scikit-learn 

In [13]:
# sklearn을 활용한 one-hot encoding
from sklearn.preprocessing import OneHotEncoder 
import pandas as pd 

word_ls = ['원숭이','바나나','사과','개', '고양이']

# 예제 데이터 배열
values = np.array(word_ls)
print(type(values))
print(values, values.shape, values.ndim)

<class 'numpy.ndarray'>
['원숭이' '바나나' '사과' '개' '고양이'] (5,) 1


In [15]:
# 1차원 리스트를 2차원으로 변환 (n, 1) 형태로
values_reshaped = np.array(values).reshape(-1, 1)
print(values_reshaped)


[['원숭이']
 ['바나나']
 ['사과']
 ['개']
 ['고양이']]


In [16]:
# 원-핫 인코더 생성
encoder = OneHotEncoder(sparse_output=False)
one_hot_encoded = encoder.fit_transform(values_reshaped)
print(one_hot_encoded)

[[0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]


In [17]:
# 고유 어휘 뽑기 
encoder.get_feature_names_out()

array(['x0_개', 'x0_고양이', 'x0_바나나', 'x0_사과', 'x0_원숭이'], dtype=object)

In [18]:
# 인덱스와 컬럼명 설정
df = pd.DataFrame(one_hot_encoded, index=word_ls, columns=encoder.get_feature_names_out())
df

Unnamed: 0,x0_개,x0_고양이,x0_바나나,x0_사과,x0_원숭이
원숭이,0.0,0.0,0.0,0.0,1.0
바나나,0.0,0.0,1.0,0.0,0.0
사과,0.0,0.0,0.0,1.0,0.0
개,1.0,0.0,0.0,0.0,0.0
고양이,0.0,1.0,0.0,0.0,0.0


In [19]:
# 희소 행렬로 생성
encoder = OneHotEncoder(sparse_output=True)
one_hot_encoded = encoder.fit_transform(values_reshaped)
print(one_hot_encoded)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 5 stored elements and shape (5, 5)>
  Coords	Values
  (0, 4)	1.0
  (1, 2)	1.0
  (2, 3)	1.0
  (3, 0)	1.0
  (4, 1)	1.0


# 2.텍스트 데이터 실습

In [40]:
import pandas as pd
import numpy as np
import re
from sklearn.preprocessing import OneHotEncoder


## 1.텍스트 데이터 확인

In [49]:
# reviews = corpus(말뭉치)
# 한 개의 문장 = 하나의 문서 

reviews = [
    "The product is great",
    "The product is not good",
    "I love this product",
    "I will buy this product again",
    "The product broke after one use",
    "Great product and fast delivery",
    "Not satisfied with the product",
    "The delivery was delayed",
    "I am very happy with this purchase",
    "The product is worth the price"
]

## 2.텍스트 전처리
- 소문자 변환
- 구두점 제거
# re : 정규표현식을 사용하여 문자열을 처리하는 도구

## ‘[ ]‘ 문자 - 문자 클래스
  - 문자 클래스로 만들어진 정규식은 ‘[  ]’ 사이의 문자들과 매치’라는 의미를 가짐.
    - 안에 포함된 문자열 중 하나라도 매치되면 해당 문자열이 선택 됨 

  - 문자 클래스를 만드는 메타 문자인 [ ] 사이에는 어떤 문자도 들어갈 수 있다.

  - 정규 표현식이 [abc]라면 이 표현식의 의미는 ‘a, b, c 중 한 개의 문자와 매치’를 뜻함. 
      - 이해를 돕기 위해 문자열 "a", "before", "dude"가 정규식 [abc]와 어떻게 매치되는지 살펴보자. \
        "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치된다. \
        "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치된다. \
        "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않는다.
- [] 안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미한다. 예를 들어 [a-c]라는 정규 표현식은 [abc]와 동일하고 [0-5]는 [012345]와 동일하다.

- 다음은 하이픈(-)을 사용한 문자 클래스의 사용 예이다.

      [a-zA-Z] : 모든 알파벳
      [0-9] : 모든 숫자
- 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미를 갖는다. 예를 들어 [^0-9]라는 정규 표현식은 숫자가 아닌 문자만 매치된다.

## 자주 사용되는 정규표현식
    - \d - 숫자와 매치된다. [0-9]와 동일한 표현식.
    - \D - 숫자가 아닌 것과 매치된다. [^0-9]와 동일한 표현식.
    - \s - 화이트스페이스(whitespace) 문자와 매치된다. (스페이스, 탭, 줄바꿈과 같은 빈공간을 의미)
    - \S - 화이트스페이스 문자가 아닌 것과 매치된다.
    - \w - 문자+숫자(alphanumeric)와 매치된다. [a-zA-Z0-9_]와 동일한 표현식이다.
    - \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치된다. [^a-zA-Z0-9_]와 동일한 표현식이다.



In [50]:
# 소문자 변환 / 구두점 제거
# 정규표현식: 단어 문자(\w)와 공백 문자(\s)가 아닌 문자들과 매치 됨 (즉, 알파멧, 숫자, 밑줄, 공백을 제외한 모든 문자에 해당)
reviews = [re.sub(r'[^\w\s]', '', review.lower()) for review in reviews] 
reviews

['the product is great',
 'the product is not good',
 'i love this product',
 'i will buy this product again',
 'the product broke after one use',
 'great product and fast delivery',
 'not satisfied with the product',
 'the delivery was delayed',
 'i am very happy with this purchase',
 'the product is worth the price']

## 3.토큰화

In [51]:
reviews[0].split()

['the', 'product', 'is', 'great']

In [52]:
# 토큰화 (간단하게 공백으로 분할)
tokens = [review.split() for review in reviews]
print(tokens)

[['the', 'product', 'is', 'great'], ['the', 'product', 'is', 'not', 'good'], ['i', 'love', 'this', 'product'], ['i', 'will', 'buy', 'this', 'product', 'again'], ['the', 'product', 'broke', 'after', 'one', 'use'], ['great', 'product', 'and', 'fast', 'delivery'], ['not', 'satisfied', 'with', 'the', 'product'], ['the', 'delivery', 'was', 'delayed'], ['i', 'am', 'very', 'happy', 'with', 'this', 'purchase'], ['the', 'product', 'is', 'worth', 'the', 'price']]


In [53]:
# 리스트 평탄화
all_tokens = sum(tokens, [])
print(all_tokens)

['the', 'product', 'is', 'great', 'the', 'product', 'is', 'not', 'good', 'i', 'love', 'this', 'product', 'i', 'will', 'buy', 'this', 'product', 'again', 'the', 'product', 'broke', 'after', 'one', 'use', 'great', 'product', 'and', 'fast', 'delivery', 'not', 'satisfied', 'with', 'the', 'product', 'the', 'delivery', 'was', 'delayed', 'i', 'am', 'very', 'happy', 'with', 'this', 'purchase', 'the', 'product', 'is', 'worth', 'the', 'price']


In [54]:
[token for sublist in tokens for token in sublist]

['the',
 'product',
 'is',
 'great',
 'the',
 'product',
 'is',
 'not',
 'good',
 'i',
 'love',
 'this',
 'product',
 'i',
 'will',
 'buy',
 'this',
 'product',
 'again',
 'the',
 'product',
 'broke',
 'after',
 'one',
 'use',
 'great',
 'product',
 'and',
 'fast',
 'delivery',
 'not',
 'satisfied',
 'with',
 'the',
 'product',
 'the',
 'delivery',
 'was',
 'delayed',
 'i',
 'am',
 'very',
 'happy',
 'with',
 'this',
 'purchase',
 'the',
 'product',
 'is',
 'worth',
 'the',
 'price']

## 4.고유 단어 리스트 생성

In [55]:
# 중복 단어 제거
unique_words = list(set(all_tokens))
print(unique_words) # 어휘집 (고유 토큰으로만 이루어진 어휘 사전)

['delivery', 'price', 'this', 'satisfied', 'i', 'delayed', 'again', 'buy', 'and', 'good', 'not', 'broke', 'am', 'product', 'love', 'will', 'was', 'happy', 'is', 'the', 'fast', 'use', 'with', 'one', 'worth', 'great', 'after', 'very', 'purchase']


In [56]:
print(set(all_tokens))

{'delivery', 'price', 'this', 'satisfied', 'i', 'delayed', 'again', 'buy', 'and', 'good', 'not', 'broke', 'am', 'product', 'love', 'will', 'was', 'happy', 'is', 'the', 'fast', 'use', 'with', 'one', 'worth', 'great', 'after', 'very', 'purchase'}


## 4.One-Hot Encoding
- categories
    - 원핫 인코딩에서 사용할 고유 값(범주)의 목록 지정
    - 기본적으로 입력 데이터에서 고유 값을 자동으로 감지하여 카테고리 생성하지만,
    - categories를 명시적으로 제공하면 특정 카테고리를 직접 설정할 수 있음 
    - 리스트를 사용하는 이유: 데이터가 다차원일 경우, 각 열마다 고유값을 지정할 수 있기 때문 
- reshape하는 이유: 각 단어를 개별 샘플로 인식하고 원핫 인코딩을 수행할 수 있음 

In [57]:
# 원핫 인코더 실행
one_hot_encoder = OneHotEncoder(categories=[unique_words], sparse_output=False)
one_hot_encoder.fit(np.array(unique_words).reshape(-1, 1))

In [58]:
tokens[0]

['the', 'product', 'is', 'great']

In [59]:
# toeken[0] 리뷰에 대해 원핫 인코딩 실행 
# reshape
one_hot_encoder.transform(np.array(tokens[0]).reshape(-1, 1)) # 하나의 문서에 대한 원핫벡터 반환 

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.]])

In [60]:
test = one_hot_encoder.transform(np.array(tokens[0]).reshape(-1, 1)) 
test.shape # 4=첫 번째 문장의(문서의)토큰 개수, 29=어휘집의 고유 토큰 개수 

(4, 29)

- sum(axis=) : axis에 명시된 차원으로 값을 더함

In [61]:
# 3차원 배열 생성 (shape = (2, 3, 4))
array_3d = np.array([
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 10, 11, 12]],

    [[13, 14, 15, 16],
     [17, 18, 19, 20],
     [21, 22, 23, 24]]
])

print("3차원 배열:")
print(array_3d)

# axis=0을 기준으로 합계
sum_axis_0 = array_3d.sum(axis=0)
sum_axis_1 = array_3d.sum(axis=1)
sum_axis_2 = array_3d.sum(axis=2)
print("\naxis=0을 기준으로 합계:")
print(sum_axis_0)
print("\naxis=1을 기준으로 합계:")
print(sum_axis_1)
print("\naxis=2을 기준으로 합계:") # 가장 안쪽 축(깊이)"**을 따라 계산
print(sum_axis_2)


3차원 배열:
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

axis=0을 기준으로 합계:
[[14 16 18 20]
 [22 24 26 28]
 [30 32 34 36]]

axis=1을 기준으로 합계:
[[15 18 21 24]
 [51 54 57 60]]

axis=2을 기준으로 합계:
[[10 26 42]
 [58 74 90]]


In [62]:
# sum(axis=0)
one_hot_encoder.transform(np.array(tokens[0]).reshape(-1, 1)).sum(axis=0) # 하나의 행이 하나의 문서를 표현하도록 함 

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 1., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0.])

In [64]:
# 예제 
"The product is worth the price"
one_hot_encoder.transform(np.array(tokens[-1]).reshape(-1, 1))

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [65]:
# 각 리뷰에 대해 원핫 인코딩 수행
one_hot_encoded_reviews = [one_hot_encoder.transform(np.array(review).reshape(-1, 1)).sum(axis=0) for review in tokens]
print(one_hot_encoded_reviews)

[array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 1., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 1., 0., 0., 0.,
       0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 1., 0., 1., 0., 1., 1., 0., 0., 0., 0., 0., 1., 0., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0.,
       0., 0., 1., 0., 1., 0., 1., 0., 0., 1., 0., 0.]), array([1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0.]), array([0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0.,
       0., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0.]), array([1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,


In [66]:
# 원핫 인코딩은 각 단어가 등장하면 1로 표시해야 하므로, 1보다 큰 값을 1로 수정
# (마지막 리뷰는 the가 두 개 있어서 원소에 2가 들어가있음  -> 1로 바꿔줘야 함)
# clip(a, a_min, a_max)는 배열 a의 값을 지정된 범위 [a_min, a_max]로 자르는(clipping) 함수
# a_min: 최소값. 배열의 값이 이보다 작으면 a_min으로 변경 됨 
# a_max: 최대값. 배열의 값이 이보다 크면 a_max로 변경됨 
one_hot_encoded_reviews = np.clip(one_hot_encoded_reviews, 0, 1)
print(type(one_hot_encoded_reviews))
print(one_hot_encoded_reviews)

<class 'numpy.ndarray'>
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.
  0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.
  0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 1. 0. 1.
  0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
  0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0.
  0. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0.
  0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0.
  0. 0. 0. 1. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.
  1. 0. 0. 0. 0.]]


In [68]:
# 4. 데이터프레임 생성 및 정수형으로 변환
df_one_hot = pd.DataFrame(one_hot_encoded_reviews, columns=unique_words).astype(int)

# 출력
print(df_one_hot)

   delivery  price  this  satisfied  i  ...  worth  great  after  very  purchase
0         0      0     0          0  0  ...      0      1      0     0         0
1         0      0     0          0  0  ...      0      0      0     0         0
2         0      0     1          0  1  ...      0      0      0     0         0
3         0      0     1          0  1  ...      0      0      0     0         0
4         0      0     0          0  0  ...      0      0      1     0         0
5         1      0     0          0  0  ...      0      1      0     0         0
6         0      0     0          1  0  ...      0      0      0     0         0
7         1      0     0          0  0  ...      0      0      0     0         0
8         0      0     1          0  1  ...      0      0      0     1         1
9         0      1     0          0  0  ...      1      0      0     0         0

[10 rows x 29 columns]


In [69]:
# 6. 0번째 문장과 데이터프레임의 0번째 행 비교
first_review_tokens = tokens[0] # 0번째 문자의 토큰들 
first_review_encoding = df_one_hot.iloc[0]

print(first_review_encoding)

delivery     0
price        0
this         0
satisfied    0
i            0
delayed      0
again        0
buy          0
and          0
good         0
not          0
broke        0
am           0
product      1
love         0
will         0
was          0
happy        0
is           1
the          1
fast         0
use          0
with         0
one          0
worth        0
great        1
after        0
very         0
purchase     0
Name: 0, dtype: int64


In [70]:
# 실제 0번째 문장에 있는 단어들 출력
print("\nTokens in the first review:")
print(first_review_tokens)

# 데이터프레임에서 0번째 행의 값이 1인 단어들 출력
encoded_words = first_review_encoding[first_review_encoding == 1].index.tolist()
print("\nEncoded words in the first review from DataFrame:")
print(encoded_words)


Tokens in the first review:
['the', 'product', 'is', 'great']

Encoded words in the first review from DataFrame:
['product', 'is', 'the', 'great']


In [31]:
print(type(first_review_encoding[first_review_encoding == 1]))
first_review_encoding[first_review_encoding == 1]

<class 'pandas.core.series.Series'>


is         1
product    1
great      1
the        1
Name: 0, dtype: int64

---

In [33]:
one_hot_encoder = OneHotEncoder(categories=[unique_words], sparse_output=False)

# fit_transform으로 한 번에 처리하는 경우 -> 입력 데이터가 동일할 경우 결과도 동일 

# 각 리뷰에 대해 원핫 인코딩 수행 (학습과 적용 동시 진행)
one_hot_encoded_reviews = [one_hot_encoder.fit_transform(np.array(review).reshape(-1, 1)).sum(axis=0) for review in tokens]
print(one_hot_encoded_reviews)
print()

# 각 리뷰에 대해 원핫 인코딩 수행 (학습과 적용을 따로 수행)
one_hot_encoder.fit(np.array(unique_words).reshape(-1, 1))
one_hot_encoded_reviews = [one_hot_encoder.transform(np.array(review).reshape(-1, 1)).sum(axis=0) for review in tokens]
print(one_hot_encoded_reviews)

[array([0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 1., 1., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
       0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1.]), array([0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
       0., 0., 1., 0., 0., 1., 0., 1., 0., 0., 0., 0.]), array([1., 0., 1., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0.,
       1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.]), array([0., 0., 1., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
