In [38]:
import joblib

# 1. 임베딩된 벡터 불러오기 (이미 저장된 임베딩 파일)
app_embeddings = joblib.load('app_embeddings.pkl')

# 2. 저장된 K-Means 모델 불러오기
kmeans = joblib.load('kmeans_model.pkl')

In [39]:
# 임베딩 벡터와 K-Means 모델이 올바르게 로드되었는지 확인
print(f"임베딩된 데이터 크기: {app_embeddings.shape}")

임베딩된 데이터 크기: (2, 384)


In [40]:
from sentence_transformers import SentenceTransformer

# 3. Sentence-BERT 모델 로드 (추출할 때 사용한 동일한 모델 사용)
model = SentenceTransformer('all-MiniLM-L6-v2')

# 4. 새로운 텍스트 데이터 임베딩 (예: 새로운 앱 설명)
new_app_descriptions = ["Facebook is Social Network Application"]
new_app_embeddings = model.encode(new_app_descriptions)

In [41]:
# 새로운 임베딩 크기 확인
print(f"새로운 데이터 임베딩 크기: {new_app_embeddings.shape}")

새로운 데이터 임베딩 크기: (1, 384)


In [43]:
import numpy as np

# 기존 임베딩과 새로운 임베딩을 결합
combined_embeddings = np.vstack((app_embeddings, new_app_embeddings))

# 결합된 임베딩 크기 확인
print(f"결합된 임베딩 크기: {combined_embeddings.shape}")

결합된 임베딩 크기: (3, 384)


In [44]:
# 결합된 임베딩으로 K-Means 모델을 다시 학습시키거나 클러스터링 수행
kmeans.fit(combined_embeddings)

# 클러스터링 결과 확인
print(kmeans.labels_)

  super()._check_params_vs_input(X, default_n_init=10)


[0 0 1]


In [45]:
descriptions = [
    "카카오톡은 무료 메시징 앱입니다.",
    "네이버는 한국의 대표 포털 사이트입니다."
]

In [46]:

# Sentence-BERT로 임베딩 생성
embeddings = model.encode(descriptions)

# 임베딩된 데이터 크기 확인
print(embeddings.shape)  # (2, 384)

(2, 384)


In [47]:
import pandas as pd
from sentence_transformers import SentenceTransformer

# 1. CSV 파일에서 앱 설명 데이터 불러오기
file_path = 'Free_apps.csv'  # CSV 파일 경로
apps_data = pd.read_csv(file_path)

# 2. 데이터 확인 (Description 열이 있는지 확인)
print(apps_data.head())

   Rank                          App ID                           Name  \
0     1  com.ss.android.ugc.tiktok.lite                    TikTok Lite   
1     2                      kr.or.nhiq                      모바일 건강보험증   
2     3            com.einnovation.temu  Temu: Shop Like a Billionaire   
3     4         com.instagram.barcelona      Threads, an Instagram app   
4     5                com.kakaopay.app                          카카오페이   

                  Category                                        Description  \
0  Video Players & Editors  TikTok Lite is a global video community that i...   
1         Health & Fitness  1. The mobile health insurance card app is a p...   
2                 Shopping  Shop on Temu for exclusive offers. \n\nNo matt...   
3                   Social  Say more with Threads — Instagram’s text-based...   
4                  Finance  With Kakao Pay\nSo that everyone can finance\n...   

                                            Icon URL  
0  https://pl

In [48]:
# 3. Sentence-BERT 모델 로드
model = SentenceTransformer('all-MiniLM-L6-v2')




In [49]:
# 4. 앱 설명을 임베딩 (Description 열을 사용)
app_descriptions = apps_data['Description'].tolist()  # 앱 설명을 리스트로 변환
embeddings = model.encode(app_descriptions)  # 임베딩 생성

In [50]:
# 임베딩 차원 확인
print(f"임베딩된 데이터 크기: {embeddings.shape}")

임베딩된 데이터 크기: (100, 384)


In [51]:
import numpy as np

# 5. 임베딩 결과를 데이터프레임에 추가
# 임베딩 결과는 각 앱 설명에 해당하는 384차원 벡터입니다
embeddings_df = pd.DataFrame(embeddings)

# 6. 원본 데이터에 임베딩 벡터 추가 (임베딩 벡터를 각 열로 추가)
result_df = pd.concat([apps_data, embeddings_df], axis=1)

# 7. 결과 확인 (임베딩 벡터가 추가된 결과)
print(result_df.head())

   Rank                          App ID                           Name  \
0     1  com.ss.android.ugc.tiktok.lite                    TikTok Lite   
1     2                      kr.or.nhiq                      모바일 건강보험증   
2     3            com.einnovation.temu  Temu: Shop Like a Billionaire   
3     4         com.instagram.barcelona      Threads, an Instagram app   
4     5                com.kakaopay.app                          카카오페이   

                  Category                                        Description  \
0  Video Players & Editors  TikTok Lite is a global video community that i...   
1         Health & Fitness  1. The mobile health insurance card app is a p...   
2                 Shopping  Shop on Temu for exclusive offers. \n\nNo matt...   
3                   Social  Say more with Threads — Instagram’s text-based...   
4                  Finance  With Kakao Pay\nSo that everyone can finance\n...   

                                            Icon URL         0      

In [52]:
# 8. 임베딩 결과를 포함한 데이터프레임을 CSV 파일로 저장
result_df.to_csv('embedded_apps_data.csv', index=False)

# 저장된 CSV 파일 확인
print("임베딩된 데이터가 'embedded_apps_data.csv'로 저장되었습니다.")

임베딩된 데이터가 'embedded_apps_data.csv'로 저장되었습니다.


In [58]:
import pandas as pd

# 1. CSV 파일에서 데이터 불러오기
file_path = 'embedded_apps_data.csv'  # CSV 파일 경로
apps_data = pd.read_csv(file_path)

In [63]:
# 2. 임베딩 벡터 추출 (0~378번 열이 임베딩 벡터)
embedding_columns = [str(i) for i in range(384)]  # 임베딩 벡터 열 이름 (0~378)
embeddings = apps_data[embedding_columns].values  # 임베딩 벡터 추출


In [76]:
# 데이터 형식과 차원 확인
print(f"임베딩 데이터 타입: {embeddings.dtype}")  # float64 확인
print(f"임베딩 데이터 크기: {embeddings.shape}")

임베딩 데이터 타입: float64
임베딩 데이터 크기: (100, 384)


In [77]:

# 3. 저장된 K-Means 모델 불러오기
kmeans = joblib.load('kmeans_model.pkl')

In [78]:
# 4. 모델이 기대하는 클러스터 중심의 차원 확인
print(f"K-Means 모델 클러스터 중심 차원: {kmeans.cluster_centers_.shape}")


K-Means 모델 클러스터 중심 차원: (2, 384)


In [91]:
kmeans.cluster_centers_=kmeans.cluster_centers_.astype(float)

In [80]:
# 3. 저장된 K-Means 모델 불러오기
kmeans = joblib.load('kmeans_model.pkl')  # K-Means 모델 파일 경로


ValueError: Buffer dtype mismatch, expected 'const double' but got 'float'

In [85]:
embeddings.astype("double").dtype

dtype('float64')

In [92]:
clusters = kmeans.predict(embeddings[:3,:])

: 

In [75]:
:print(embeddings.dtype)  # dtype이 float64이어야 합니다.
print(embeddings.shape)  # 임베딩 데이터 크기 확인

float64
(100, 384)
