# 1. 인코딩

In [13]:
sentences = [
    "나는 오늘 기분이 좋다",
    "오늘 날씨가 좋다",
    "나는 기분이 나쁘다"
]

## 1) 정수 인코딩

In [14]:
# sentences ->단어 집합
word_list = []
for sent in sentences:
    # STEP1. 문장을 스페이스기준으로 쪼갠다.
    words = sent.split()
    print(sent)
    # STEP2. 쪼갠 단어들을 word_list에포함시킨다.
    word_list.extend(words) 
print(word_list)

word_set = set(word_list)

나는 오늘 기분이 좋다
오늘 날씨가 좋다
나는 기분이 나쁘다
['나는', '오늘', '기분이', '좋다', '오늘', '날씨가', '좋다', '나는', '기분이', '나쁘다']


In [15]:
# 단어를 아무 의미 없이 단순히 숫자 매칭
from sklearn.preprocessing import LabelEncoder

lavel_encoder = LabelEncoder()
encoded = lavel_encoder.fit_transform(list(word_set)) # 단어리스트 : 단어의 집합
print(encoded)
print(lavel_encoder.classes_)

[3 0 4 1 5 2]
['기분이' '나는' '나쁘다' '날씨가' '오늘' '좋다']


In [16]:
# 딕셔너리 {단어:인덱스},{인덱스:단어}
label_dic={}
for idx,word in zip(encoded,lavel_encoder.classes_):
    print(idx,word)
    label_dic[word] = idx
print(label_dic)

3 기분이
0 나는
4 나쁘다
1 날씨가
5 오늘
2 좋다
{np.str_('기분이'): np.int64(3), np.str_('나는'): np.int64(0), np.str_('나쁘다'): np.int64(4), np.str_('날씨가'): np.int64(1), np.str_('오늘'): np.int64(5), np.str_('좋다'): np.int64(2)}


## 2)원-핫 인코딩

In [11]:
# 단어를 0과 1로 이루어진 벡터로 표현
from sklearn.preprocessing import OneHotEncoder
import numpy as np

# STEP1. 단어 집합을 배열로 바꾼다.
word_arr = np.array(list(word_set))
print(word_arr)

#S STEP2. reshape를 통해 배열 형태를 바꾼다.
word_arr_reshape = word_arr.reshape(-1,1) # 행은 몇개가 될지는 모르지만, 열을 1로 맞춘다.
print(word_arr_reshape)

['날씨가' '기분이' '오늘' '나는' '좋다' '좋다.' '나쁘다']
[['날씨가']
 ['기분이']
 ['오늘']
 ['나는']
 ['좋다']
 ['좋다.']
 ['나쁘다']]


In [12]:
oh_encoder = OneHotEncoder()
endoded = oh_encoder.fit_transform(word_arr_reshape)
print(endoded)
print(endoded.toarray())

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 7 stored elements and shape (7, 7)>
  Coords	Values
  (0, 3)	1.0
  (1, 0)	1.0
  (2, 4)	1.0
  (3, 1)	1.0
  (4, 5)	1.0
  (5, 6)	1.0
  (6, 2)	1.0
[[0. 0. 0. 1. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0.]]


# 2. 벡터라이징

In [35]:
sentences = [
    "나는 좋다 오늘 기분이 좋다",
    "오늘 날씨가 좋다",
    "나는 기분이 나쁘다",
    "집에 가고 싶다 집 좋다"
]

In [31]:
# 단어 리스트 만들기
word_list = []
for sent in sentences : 
    word_list.extend(sent.split())
print(word_list)

['나는', '좋다', '오늘', '기분이', '좋다', '오늘', '날씨가', '좋다', '나는', '기분이', '나쁘다']


In [32]:
from collections import Counter

counter = Counter(word_list)
print(counter)

Counter({'좋다': 3, '나는': 2, '오늘': 2, '기분이': 2, '날씨가': 1, '나쁘다': 1})


## 1) CountVectorizere

In [33]:
# 길이를 똑같이 만들고, 의미를 더한다.
# 행 : 문장, 열:등장 단어, 값: 문장에 단어가 들어간 갯수
from sklearn.feature_extraction.text import CountVectorizer

print(sentences)
vectorizer = CountVectorizer()
feat_vac = vectorizer.fit_transform(sentences)
print(vectorizer.vocabulary_)
print("기분이 나는 나쁘다 날씨가 오늘 좋다")
print(feat_vac.toarray())
# "나는 오늘 기분이 좋다"[1 1 0 0 1 1] -> 기분이 1개 나는1개,오늘 12개,좋다1개
# "오늘 날씨가 좋다"[0 0 0 1 1 1] => 날씨가 1개, 오늘 1개,좋다 1개

['나는 좋다 오늘 기분이 좋다', '오늘 날씨가 좋다', '나는 기분이 나쁘다']
{'나는': 1, '좋다': 5, '오늘': 4, '기분이': 0, '날씨가': 3, '나쁘다': 2}
기분이 나는 나쁘다 날씨가 오늘 좋다
[[1 1 0 0 1 2]
 [0 0 0 1 1 1]
 [1 1 1 0 0 0]]


## 2) TF-IDF Vectorizer

In [None]:
# 많이 등장한 단어는 중요한 단어일까?
# Point: 너무 많이 등장하는 일반적인 단어는 중요도가 낮다라는 것을 반영하는 지표
# TF = 특정 문서 d에서 단어 t가 나타나는 빈도 
# IDF = 단어가 전체 문서에서 얼마나 희귀한지를 나타내는 값

In [None]:
# 공식으로 이해하기
# tf(d,t) = d번 문장에서 단어 t가 등장한 횟수
# df(t) = 전체ㅐ 문장들에ㅐ서 t가 등장한 문장의 수
# idf(t) = log(n/(1+df(t)))

# 예제
# d=0, t="기분이" | 0번째 문장 "기분이" 단어
# tf(d,t) = 1
# df(t) = 2
# idf(t) = log(3/2) = 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
# 일반적인 단어보다 중요한 단어에 더 점수를 주겠다

vectorizer = TfidfVectorizer()
tfidf_vec = vectorizer.fit_transform(sentences)
print(vectorizer.vocabulary_)
print("기분이 나는 나쁘다 날씨가 오늘 좋다")
print(tfidf_vec.toarray())

{'나는': 2, '좋다': 7, '오늘': 6, '기분이': 1, '날씨가': 4, '나쁘다': 3, '집에': 8, '가고': 0, '싶다': 5}
기분이 나는 나쁘다 날씨가 오늘 좋다
[[0.         0.42176004 0.42176004 0.         0.         0.
  0.42176004 0.6829022  0.        ]
 [0.         0.         0.         0.         0.70203482 0.
  0.55349232 0.44809973 0.        ]
 [0.         0.52640543 0.52640543 0.66767854 0.         0.
  0.         0.         0.        ]
 [0.5417361  0.         0.         0.         0.         0.5417361
  0.         0.34578314 0.5417361 ]]


In [None]:
sentences = [
    "나는 좋다 오늘 기분이 좋다",
    "오늘 날씨가 좋다",
    "나는 기분이 나쁘다",
    "집에 가고 싶다 집 좋다"
]

# 3. 유사도 분석

In [37]:
# 코사인 유사도 계산
from sklearn.metrics.pairwise import cosine_similarity

similarity = cosine_similarity(tfidf_vec)
print(similarity)

[[1.         0.53944923 0.44403355 0.23613607]
 [0.53944923 1.         0.         0.15494533]
 [0.44403355 0.         1.         0.        ]
 [0.23613607 0.15494533 0.         1.        ]]


# 4. 임베딩

In [None]:
# 어순, 문맥을 잘 이해할 수 있도록 텍스트를 수치화 하는데 동일한 길이의 벡터로 만든다.(Point:어순, 문맥)
# 이때 가지고 있는 모든 문장을 학습시키면서 비슷한 문장은 비슷한 벡터로 수치화 한다.
# 학습이 잘 되어있는 모델일수록 새로운 문장이 오더라도 벡터화를 잘 할 수 있다.
# OpenAI Embeding 모델(유료) / BGE-m3(무료)를 많이 사용한다.