# 단어의 표현 (Word Representation)


기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환


# 1.원-핫 인코딩 (One-Hot Encoding)

##1.1. 직접 구현

In [1]:
from collections import defaultdict
import numpy as np

In [2]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','개', '고양이']

In [3]:
# 고유 단어와 인덱스 매칭
test_defaultdict = defaultdict(lambda : len(test_defaultdict))
test_defaultdict['사과']
test_defaultdict['바나나']
test_defaultdict['개']
print(test_defaultdict)

defaultdict(<function <lambda> at 0x7909677e4040>, {'사과': 0, '바나나': 1, '개': 2})


In [4]:
def one_hot_encode(word_ls):
    word2id_dict = defaultdict(lambda : len(word2id_dict))

    # 단어 : 인덱스 dict 구축
    for word in word_ls:
        word2id_dict[word]

    n_unique_words = len(word2id_dict) # 유니크 단어 개수
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # 빈벡터

    for i, word in enumerate(word_ls):
        index = word2id_dict[word]    # 각 인덱스 찾기
        one_hot_vectors[i, index] = 1 # 각 인덱스 값 1로 변경


    return one_hot_vectors

In [5]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [6]:
# 단위 행렬 더 쉽게 만드는 법
def one_hot_encode(word_ls):
    one_hot_vectors = np.identity(len(word_ls), dtype=np.int8)
    return one_hot_vectors

In [7]:
# 고유 단어와 인덱스를 매칭시켜주는 사전 생성
test_word2id_dict = defaultdict(lambda : len(test_word2id_dict))

In [8]:
# {단어 : 인덱스} 사전 구축
for word in word_ls:
    test_word2id_dict[word]

In [9]:
print(dict(test_word2id_dict))

{'원숭이': 0, '바나나': 1, '사과': 2, '개': 3, '고양이': 4}


In [10]:
test_word2id_dict

defaultdict(<function __main__.<lambda>()>,
            {'원숭이': 0, '바나나': 1, '사과': 2, '개': 3, '고양이': 4})

In [11]:
n_unique_words = len(test_word2id_dict)
one_hot_vectors = np.zeros((len(word_ls), n_unique_words))
print(n_unique_words)
print(one_hot_vectors)

5
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [12]:
for i, word in enumerate(word_ls):
    index = test_word2id_dict[word]
    one_hot_vectors[i, index] = 1

print(one_hot_vectors)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


## 1.2. sklearn 구현

함수명 | 설명
--|--
fit(X[, y])	| Fit OneHotEncoder to X.
fit_transform(X[, y])	| Fit OneHotEncoder to X, then transform X.
inverse_transform(X)	| Convert the back data to the original representation.
transform(X)	| Transform X using one-hot encoding.

In [24]:
# sklearn을 활용한 one-hot encoding
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
word_ls = ['원숭이','바나나','사과','개', '고양이']

# 예제 데이터 배열
values = np.array(word_ls)
print(values, values.shape, values.ndim)

['원숭이' '바나나' '사과' '개' '고양이'] (5,) 1


In [27]:
# 1차원 리스트를 2차원으로 변환 (n, 1) 형태로
reshape_values = values.reshape(-1,1)
print(reshape_values, reshape_values.shape)

[['원숭이']
 ['바나나']
 ['사과']
 ['개']
 ['고양이']] (5, 1)


In [29]:
# 원-핫 인코더 생성
encoder = OneHotEncoder(sparse_output=False) #sparse_output은 행렬형태로 보여줄건지, 1의좌표값만 찍어줄 건지
one_hot_encoded = encoder.fit_transform(reshape_values)
print(one_hot_encoded)

[[0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]


In [31]:
#컬럼 확인
encoder.get_feature_names_out()

array(['x0_개', 'x0_고양이', 'x0_바나나', 'x0_사과', 'x0_원숭이'], dtype=object)

In [33]:
# 인덱스와 컬럼명 설정
df = pd.DataFrame(one_hot_encoded, index = word_ls, columns=encoder.get_feature_names_out())
df

Unnamed: 0,x0_개,x0_고양이,x0_바나나,x0_사과,x0_원숭이
원숭이,0.0,0.0,0.0,0.0,1.0
바나나,0.0,0.0,1.0,0.0,0.0
사과,0.0,0.0,0.0,1.0,0.0
개,1.0,0.0,0.0,0.0,0.0
고양이,0.0,1.0,0.0,0.0,0.0


In [35]:
# 희소 행렬로 생성(True로 설정하여 0이 아닌 좌표만 출력)
encoder = OneHotEncoder(sparse_output=True)
one_hot_encoded = encoder.fit_transform(reshape_values)
print(one_hot_encoded)

  (0, 4)	1.0
  (1, 2)	1.0
  (2, 3)	1.0
  (3, 0)	1.0
  (4, 1)	1.0


# 2.텍스트 데이터 실습

In [36]:
import pandas as pd
import numpy as np
import re
from sklearn.preprocessing import OneHotEncoder

## 1.텍스트 데이터 확인

In [44]:
reviews = [
    "The product is great",
    "The product is not good",
    "I love this product",
    "I will buy this product again",
    "The product broke after one use",
    "Great product and fast delivery",
    "Not satisfied with the product",
    "The delivery was delayed",
    "I am very happy with this purchase",
    "The product is worth the price"
]

## 2.텍스트 전처리
- 소문자 변환
- 구두점 제거
# re : 정규표현식을 사용하여 문자열을 처리하는 도구

## ‘[ ]‘ 문자 - 문자 클래스
  - 문자 클래스로 만들어진 정규식은 ‘[  ]’ 사이의 문자들과 매치’라는 의미를 가짐.

  - 문자 클래스를 만드는 메타 문자인 [ ] 사이에는 어떤 문자도 들어갈 수 있다.

  - 정규 표현식이 [abc]라면 이 표현식의 의미는 ‘a, b, c 중 한 개의 문자와 매치’를 뜻함. 이해를 돕기 위해 문자열 "a", "before", "dude"가 정규식 [abc]와 어떻게 매치되는지 살펴보자.
        "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치된다.
        "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치된다.
        "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않는다.
- [] 안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미한다. 예를 들어 [a-c]라는 정규 표현식은 [abc]와 동일하고 [0-5]는 [012345]와 동일하다.

- 다음은 하이픈(-)을 사용한 문자 클래스의 사용 예이다.

      [a-zA-Z] : 모든 알파벳
      [0-9] : 모든 숫자
- 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미를 갖는다. 예를 들어 [^0-9]라는 정규 표현식은 숫자가 아닌 문자만 매치된다.

## 자주 사용되는 정규표현식
    - \d - 숫자와 매치된다. [0-9]와 동일한 표현식.
    - \D - 숫자가 아닌 것과 매치된다. [^0-9]와 동일한 표현식.
    - \s - 화이트스페이스(whitespace) 문자와 매치된다. (스페이스, 탭, 줄바꿈과 같은 빈공간을 의미)
    - \S - 화이트스페이스 문자가 아닌 것과 매치된다.
    - \w - 문자+숫자(alphanumeric)와 매치된다. [a-zA-Z0-9_]와 동일한 표현식이다.
    - \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치된다. [^a-zA-Z0-9_]와 동일한 표현식이다.



In [45]:
# 소문자 변환 / 구두점 제거
reviews = [re.sub(r'[^\w\s]', '', review.lower()) for review in reviews]
reviews

['the product is great',
 'the product is not good',
 'i love this product',
 'i will buy this product again',
 'the product broke after one use',
 'great product and fast delivery',
 'not satisfied with the product',
 'the delivery was delayed',
 'i am very happy with this purchase',
 'the product is worth the price']

## 3.토큰화

In [46]:
# 토큰화
tokens = [word.split() for word in reviews ]
tokens

[['the', 'product', 'is', 'great'],
 ['the', 'product', 'is', 'not', 'good'],
 ['i', 'love', 'this', 'product'],
 ['i', 'will', 'buy', 'this', 'product', 'again'],
 ['the', 'product', 'broke', 'after', 'one', 'use'],
 ['great', 'product', 'and', 'fast', 'delivery'],
 ['not', 'satisfied', 'with', 'the', 'product'],
 ['the', 'delivery', 'was', 'delayed'],
 ['i', 'am', 'very', 'happy', 'with', 'this', 'purchase'],
 ['the', 'product', 'is', 'worth', 'the', 'price']]

In [49]:
# 내부의 모든 리스트 제거
all_tokens = sum(tokens,[])
all_tokens

['the',
 'product',
 'is',
 'great',
 'the',
 'product',
 'is',
 'not',
 'good',
 'i',
 'love',
 'this',
 'product',
 'i',
 'will',
 'buy',
 'this',
 'product',
 'again',
 'the',
 'product',
 'broke',
 'after',
 'one',
 'use',
 'great',
 'product',
 'and',
 'fast',
 'delivery',
 'not',
 'satisfied',
 'with',
 'the',
 'product',
 'the',
 'delivery',
 'was',
 'delayed',
 'i',
 'am',
 'very',
 'happy',
 'with',
 'this',
 'purchase',
 'the',
 'product',
 'is',
 'worth',
 'the',
 'price']

## 4.고유 단어 리스트 생성

In [52]:
# 중복 단어 제거
unique_words = list(set(all_tokens))
unique_words

['the',
 'will',
 'delayed',
 'very',
 'happy',
 'am',
 'this',
 'product',
 'again',
 'with',
 'i',
 'price',
 'purchase',
 'fast',
 'buy',
 'love',
 'worth',
 'one',
 'delivery',
 'good',
 'is',
 'great',
 'broke',
 'not',
 'and',
 'after',
 'satisfied',
 'use',
 'was']

## 5.One-Hot Encoding

In [57]:
# 원핫 인코더 실행
one_hot_encoder = OneHotEncoder(categories=[unique_words], sparse_output=False)
one_hot_encoder.fit(np.array(unique_words).reshape(-1,1))

In [58]:
tokens[0]

['the', 'product', 'is', 'great']

In [75]:
# reshape
one_hot_encoder.transform(np.array(tokens[0]).reshape(-1,1))

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.]])

- sum(axis=) : axis에 명시된 차원으로 값을 더함(axis 설명 예시임 넘어가도 됨)

In [None]:
# 3차원 배열 생성 (shape = (2, 3, 4))
array_3d = np.array([
    [[1, 2, 3, 4],
     [5, 6, 7, 8],
     [9, 10, 11, 12]],

    [[13, 14, 15, 16],
     [17, 18, 19, 20],
     [21, 22, 23, 24]]
])

print("3차원 배열:")
print(array_3d)

# axis=0을 기준으로 합계
sum_axis_0 = array_3d.sum(axis=0)
sum_axis_1 = array_3d.sum(axis=1)
sum_axis_2 = array_3d.sum(axis=2)
print("\naxis=0을 기준으로 합계:")
print(sum_axis_0)
print("\naxis=1을 기준으로 합계:")
print(sum_axis_1)
print("\naxis=2을 기준으로 합계:")
print(sum_axis_2)


문서 하나를 원핫인코딩 하여 한줄로 만들기

In [89]:
# 문서 하나의 단어
tokens[0]

['the', 'product', 'is', 'great']

In [92]:
# 각 열에 1을 표기 하기 위해서 나열
np.array(tokens[0]).reshape(-1,1)

array([['the'],
       ['product'],
       ['is'],
       ['great']], dtype='<U7')

In [93]:
# 원핫인코딩
one_hot_encoder.transform(np.array(tokens[0]).reshape(-1,1))

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.]])

In [76]:
# 원핫 인코딩 한 줄에 합치기
one_hot_encoder.transform(np.array(tokens[0]).reshape(-1,1)).sum(axis=0)

array([1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0.])

In [81]:
# 각 문서를 원핫 인코딩
one_hot_encoded_reviews = [one_hot_encoder.transform(np.array(review).reshape(-1,1)).sum(axis=0) for review in tokens]
print(one_hot_encoded_reviews)

[array([1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0.]), array([1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0., 1., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 1., 0., 0., 0., 0., 1., 1., 1., 0., 1., 0., 0., 0., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]), array([1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1., 0.]), array([0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 1., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0.]), array([1., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0.]), array([1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,


In [84]:
# 원핫 인코딩은 각 단어가 등장하면 1로 표시해야 하므로, 1보다 큰 값을 1로 수정
one_hot_encoded_reivews = np.clip(one_hot_encoded_reviews, 0, 1)
one_hot_encoded_reivews

array([[1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 1., 0., 0., 0., 0., 1.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 1., 1., 1., 0., 1., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0.,
        0., 0., 1., 0., 0., 1., 0., 0., 1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 0., 0.],
       [1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0

In [85]:
# 4. 데이터프레임 생성 및 정수형으로 변환
df_one_hot = pd.DataFrame(one_hot_encoded_reviews, columns=unique_words).astype(int)

# 결과 출력
print("\nOne-Hot Encoded DataFrame:")
display(df_one_hot)


One-Hot Encoded DataFrame:


Unnamed: 0,the,will,delayed,very,happy,am,this,product,again,with,...,good,is,great,broke,not,and,after,satisfied,use,was
0,1,0,0,0,0,0,0,1,0,0,...,0,1,1,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,1,0,0,...,1,1,0,0,1,0,0,0,0,0
2,0,0,0,0,0,0,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,1,0,0,0,0,1,1,1,0,...,0,0,0,0,0,0,0,0,0,0
4,1,0,0,0,0,0,0,1,0,0,...,0,0,0,1,0,0,1,0,1,0
5,0,0,0,0,0,0,0,1,0,0,...,0,0,1,0,0,1,0,0,0,0
6,1,0,0,0,0,0,0,1,0,1,...,0,0,0,0,1,0,0,1,0,0
7,1,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
8,0,0,0,1,1,1,1,0,0,1,...,0,0,0,0,0,0,0,0,0,0
9,2,0,0,0,0,0,0,1,0,0,...,0,1,0,0,0,0,0,0,0,0


In [86]:
# 6. 0번째 문장과 데이터프레임의 0번째 행 비교
first_review_tokens = tokens[0]  # 0번째 문장의 토큰들
first_review_encoding = df_one_hot.iloc[0]  # 데이터프레임의 0번째 행

print(first_review_encoding)

the          1
will         0
delayed      0
very         0
happy        0
am           0
this         0
product      1
again        0
with         0
i            0
price        0
purchase     0
fast         0
buy          0
love         0
worth        0
one          0
delivery     0
good         0
is           1
great        1
broke        0
not          0
and          0
after        0
satisfied    0
use          0
was          0
Name: 0, dtype: int64


In [87]:
# 실제 0번째 문장에 있는 단어들 출력
print("\nTokens in the first review:")
print(first_review_tokens)

# 데이터프레임에서 0번째 행의 값이 1인 단어들 출력
encoded_words = first_review_encoding[first_review_encoding == 1].index.tolist()
print("\nEncoded words in the first review from DataFrame:")
print(encoded_words)


Tokens in the first review:
['the', 'product', 'is', 'great']

Encoded words in the first review from DataFrame:
['the', 'product', 'is', 'great']
