# **워드 임베딩 + 클러스터링**

In [1]:
# 기본 패키지 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 데이터 파일 불러오기
df_1 = pd.read_csv('book.csv', encoding='euc-kr')
# df_1.head()

In [3]:
df_1.tail()

Unnamed: 0.1,Unnamed: 0,ID,Title,Rating,Author,Price,Pdate,Publisher,Btype,Salseindex
3305,3305,97046591,죽음이 삶에게 보내는 편지,,에크낫 이스워런,7200.0,2005년 06월 23일,예문,old,
3306,3306,97046592,,,,,,,new,
3307,3307,97046593,,,,,,,new,
3308,3308,97046594,부모-자녀 함께 가는 멋진 세상,,삼성사회정신건강연구소,7000.0,2009년 01월 10일,교육과학사,old,
3309,3309,97046595,,,,,,,new,


In [4]:
# 전처리 - price  object => 수치형
# df['Price'] = pd.to_numeric(df['Price'].str.replace('[^\d.]', ''), errors='coerce')

# 'Pdate' 컬럼을 날짜 타입으로 변환 (한국어 날짜 형식에 맞춤)
# df['Pdate'] = pd.to_datetime(df['Pdate'], format='%Y년 %m월 %d일', errors='coerce')


In [5]:
# 전처리 - 공백 제거
df_1 = df_1.dropna(subset=['Title'])
df_1 = df_1[df_1['Title'].str.strip() != '']

# df_2 = df_1.dropna(subset=['Publisher'])
# df_2 = df_2[df_2['Publisher'].str.strip() != '']

In [6]:
# 전처리 - 언어별 구분
# df = df_2[df_1['Title'].str.contains('[A-Za-z]', regex=True)]
# 한국어 [가-힣]
# 영어[A-Za-z]
# 일본어 [ぁ-んァ-ン]


In [7]:
# 전처리 - 언어별 구분
import re

# 영어 제목만
def is_english_title(text):
    # 영어 알파벳, 공백, 일부 특수문자(예: ',!?.)만 허용
    return bool(re.match(r'^[a-zA-Z0-9 .,\-\'!?]+$', text))

# 영어로만 구성된 책 제목만 가져옴
df_e = df_1[df_1['Title'].apply(is_english_title)]

# 한국 제목만
def is_korean_title(text):
    # 영어 알파벳, 공백, 일부 특수문자(예: ',!?.)만 허용
    return bool(re.match(r'^[가-힣0-9 .,\-\'!?]+$', text))

# 한국어로만 구성된 책 제목만 가져옴
df_k = df_1[df_1['Title'].apply(is_korean_title)]


## df_k,   df_e  변수명 변경 시... 관련된 부분 모두 수정해 주어야 함

In [8]:
df_k

Unnamed: 0.1,Unnamed: 0,ID,Title,Rating,Author,Price,Pdate,Publisher,Btype,Salseindex
5,5,97043290,해저 2만리,,쥘 베른,1400,2001년 12월 31일,지경사,old,
6,6,97043291,자기관리 손자병법,,,3500,2002년 11월 30일,인디북,old,
12,12,97043297,우리 민족 문화 상징 100 2,,김찬곤,990,2007년 05월 10일,한솔수북,old,
18,18,97043303,엄마 없어서 슬펐니?,,김미경,1000,2002년 01월 31일,이프,old,
19,19,97043304,만화 박은식 한국통사,,윤민정,3450,2009년 03월 11일,주니어김영사,old,
...,...,...,...,...,...,...,...,...,...,...
3272,3272,97046558,파이낸스 커리어 바이블,,이혁재,23000,2009년 05월 11일,매일경제신문사,old,
3274,3274,97046560,지도로 보는 한국사,,김용만,7500,2004년 07월 27일,수막새,old,
3288,3288,97046574,내 안에 행복을 담는 지혜,,,2000,1996년 06월 30일,보성출판사,old,
3305,3305,97046591,죽음이 삶에게 보내는 편지,,에크낫 이스워런,7200,2005년 06월 23일,예문,old,


In [9]:
# 벡터화 + 클러스터링을 위한 패키지
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans


**Tf-idf** <br>
단어의 출현 빈도 및 상대 빈도 활용

In [10]:
tfidf_vectorizer = TfidfVectorizer(max_features=100) # 전체 단어 집합에서 TF-IDF 값이 가장 높은 상위 n개의 단어만을 선택하여 특성 벡터를 생성
X_tfidf = tfidf_vectorizer.fit_transform(df_k)

In [11]:
# 클러스터링 수행
kmeans = KMeans(n_clusters=10, random_state=42)
kmeans.fit(X_tfidf)

### 이후 아래 #123 코드 셀로 이동하여 코드 실행

**Word2Vec** <br>
주변단어들을 학습에 사용 <br> <br>
CBOW<br>
주변 단어들(문맥)-타겟 단어의 앞뒤에 위치한 단어들-을 기반으로 타겟 단어 예측<br>
ex "The cat sits on the ___" 빈칸에 들어갈 단어(타겟 단어) 예측<br><br>
Skip-gram<br>
특정 단어를 입력으로 받아, 그 단어 주변의 문맥 단어를 예측<br>
ex "cat"이라는 단어가 주어졌을 때, 이 단어 주변에 위치할 가능성이 높은 단어("The", "sits", "on") 예측

In [14]:
################# Word2Vec  #################
from gensim.models import Word2Vec
import pandas as pd
import numpy as np

# 책 제목을 단어 리스트로 변환
sentences = [title.split() for title in df_k['Title']]

# Word2Vec 모델 학습
word2vec_model = Word2Vec(sentences, vector_size=64, window=5, min_count=1)
   # 책 제목에서 각 단어의 벡터 표현 학습
   # 학습을 통해 책 제목을 구성하는 단어들 간의 관계와 문맥을 바탕으로 각 단어의 의미를 반영하는 벡터 생성


In [15]:
# 책 제목 -> 벡터값 조회 및 제목단위 평균값 산출
# 학습된 word2vec 모델을 사용하여 각 책 제목을 구성하는 단어들의 벡터 값 조회
def vectorize_w_word2vec(text):
    words = text.split()
    word_vectors = [word2vec_model.wv[word] for word in words if word in word2vec_model.wv]
    if len(word_vectors) == 0:
        return np.zeros(word2vec_model.vector_size)
    return np.mean(word_vectors, axis=0)

# 각 책 제목을 벡터화
title_vectors_k = np.array([vectorize_w_word2vec(title) for title in df_k['Title']])

### 이 후 아래 클러스터링 코드 실행하여 결과 확인

**FastText** <br>
주변 단어들을 학습에 사용 =  word2vec <br>
서브 워드 사용 <br>

In [16]:
################# FastText  #################
from gensim.models import FastText
from sklearn.cluster import KMeans
import pandas as pd
import numpy as np

# FastText 모델 학습 (로컬 데이터)
# sentences = [title.split() for title in df_e['Title']]
sentences = [title.split() for title in df_k['Title']]
fasttext_model = FastText(sentences, vector_size=64, window=5, min_count=1)
   # 책 제목에서 각 단어와 서브워드(subword)의 벡터 표현 학습
   # 학습을 통해 책 제목을 구성하는 단어들 간의 관계와 문맥을 바탕으로 각 단어의 의미를 반영하는 벡터 생성

In [17]:
# 책 제목 -> 벡터값 조회 및 제목단위 평균값 산출
# 학습된 FastText 모델을 사용하여 각 책 제목을 구성하는 단어들의 벡터 값 조회
def vectorize_w_fasttext(text):
    words = text.split()
    word_vectors = [fasttext_model.wv[word] for word in words if word in fasttext_model.wv]
    if len(word_vectors) == 0:
        return np.zeros(fasttext_model.vector_size)
    return np.mean(word_vectors, axis=0)

# 제목 벡터화
title_vectors_k = np.array([vectorize_w_fasttext(title) for title in df_k['Title']])

**아래 클러스터링 과정은 동일**

In [18]:
# K-평균 클러스터링 수행
kmeans = KMeans(n_clusters=10, random_state=42)
kmeans.fit(title_vectors_k)

# 클러스터 할당 결과
df_k['Cluster'] = kmeans.labels_

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_k['Cluster'] = kmeans.labels_


In [19]:
# 123 코드 셀
# 클러스터 별로 데이터 확인
for cluster in range(10): # 클러스터의 수에 따라 범위 조정
    print(f"Cluster {cluster}:")
    print(df_k[df_k['Cluster'] == cluster]['Title'].head(), '\n') # 각 클러스터에 속한 책 제목 출력


Cluster 0:
344          조금만 조금만 더
701    21세기 먼나라 이웃나라 5
755               몽구 5
768             십팔사략 5
775               설원 5
Name: Title, dtype: object 

Cluster 1:
24                  한국사의 새로운 이해
72                   그 여자의 재즈일기
92                    내가 안아 줄게!
111                 자연의 진짜 마술사 
149    잠수네 아이들의 소문난 영어공부법 실천로드맵
Name: Title, dtype: object 

Cluster 2:
6               자기관리 손자병법
18            엄마 없어서 슬펐니?
52               러셀 서양철학사
59            통기초 영어 생활회화
64    꼭 필요한 분야별 영어단어 4000
Name: Title, dtype: object 

Cluster 3:
88       평가원 코드 1
95       인간의 굴레 1
269      노마의 발견 1
389      너를 만나다 1
395    사랑에 무너지다 1
Name: Title, dtype: object 

Cluster 4:
12     우리 민족 문화 상징 100 2
90              평가원 코드 2
180         떴다! 지식 탐험대 2
201        이탈리아에서 보물찾기 2
291             중학생 소설 2
Name: Title, dtype: object 

Cluster 5:
26        타이거수사대-13권 
27            톰소여의 모험
37           바이바이 베스파
57    한국사회의 불평등과 정치변동
76        마음의 샘터 명심보감
Name: Title, dtype: object 

Cluster 6:
5                  

In [20]:
similar_words = fasttext_model.wv.most_similar('국민')

for word, similarity in similar_words:
    print(f"Word: {word}, similarity : {similarity}")

Word: 일본, similarity : 0.4520092010498047
Word: 박순미, similarity : 0.3950727880001068
Word: 시장, similarity : 0.3791258633136749
Word: 무엇을, similarity : 0.37433990836143494
Word: 고노스케의, similarity : 0.3738960027694702
Word: 멋대로, similarity : 0.3720515966415405
Word: 제자훈련, similarity : 0.37027448415756226
Word: 예수,, similarity : 0.35683536529541016
Word: 궤도를, similarity : 0.3531113564968109
Word: 50, similarity : 0.3523656725883484


In [21]:
# 유사한 단어
fasttext_model.wv.most_similar('바바')

[('일본', 0.41915804147720337),
 ('직원을', 0.3948049247264862),
 ('있어요', 0.392761766910553),
 ('영어일기,', 0.38540709018707275),
 ('물리', 0.3838128447532654),
 ('이야기가', 0.37746554613113403),
 ('드레스', 0.3677915334701538),
 ('대구', 0.36562275886535645),
 ('방법을', 0.36259883642196655),
 ('러셀', 0.35696732997894287)]