In [19]:
import json
import random
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# JSON 파일 읽기
with open('./noun_frequencies.json', 'r', encoding='utf-8') as file:
    noun_frequencies = json.load(file)

# 5개의 단어 랜덤 추출
random_nouns = random.sample(list(noun_frequencies.keys()), 5)
print("랜덤 추출된 단어:", random_nouns)

# 크리에이터 데이터프레임 읽기
df = pd.read_csv('./DataFrame2.csv')

# '아이템명' 열과 랜덤 추출된 단어들의 유사도 계산
new_df = df[['크리에이터명', '아이템명']]
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(new_df['아이템명'].tolist() + random_nouns)
cosine_sim = cosine_similarity(tfidf_matrix[-len(random_nouns):], tfidf_matrix[:-len(random_nouns)])

# 유사도가 높은 10개의 크리에이터 추출
similarity_scores = cosine_sim.mean(axis=0)
top_indices = similarity_scores.argsort()[-10:][::-1]
top_creators = new_df.iloc[top_indices]

# 유사도 점수를 퍼센트로 변환하여 데이터프레임에 추가
top_creators['유사도'] = similarity_scores[top_indices] * 100

print("유사도가 높은 10개의 크리에이터:")
print(top_creators)
top_creators.head()

랜덤 추출된 단어: ['최초', '향촌', '전국', '온오프라인', '매입한']
유사도가 높은 10개의 크리에이터:
         크리에이터명                                               아이템명       유사도
6      주식회사 지웍스  ▶ “대구 팔공산 왕건 사과빵 개발” - 100년된 대구 팔공산 왕건길 이야기와 평...  4.085760
10      (주)메디프랜  ▶ “대구 반야월지역 연근 추출물을 사용한 메디시티 대구 천연치약 제조 판매” - ...  3.396498
3          와룡총각  ▶ “한돈 능이버섯 수제 떡갈비” - 대구 와룡시장의 식자재를 활용한 다양한 종류의...  3.321757
7            지야  ▶ “판매되지 못한 대구 로컬 섬유 제품을 활용한 업사이클링 데스크테리어 제품 개발...  3.289429
5   주식회사 먼데인먼데이  ▶ “빅 데이터 기반 현대인 발 형태에 최적화된 신규 사이즈 체계 적용 맞춤 구두”...  2.821162
24         루프세터  ▶ 대구 최초 백화점 ‘무영당’의 역사를 계승하는 ‘인터렉티브 미디어 아트’ 콘텐츠...  2.801497
33        디스모먼트  로컬 폐기솜을 활용한 다견가정, 중대형견을 위한 전용 카시트 - 전국 침구(이불)제...  2.755146
14        그린페이스  ▶ “우범 지대였던 대구 두류공원을 동화속 소풍을 컨셉으로 체험서비스제공” - 대구...  0.000000
13     가게(GAGE)  ▶ “대구 안경산업 인프라를 활용하여 제조한 멀티안구 적용가능한 초기능성 안전 안경...  0.000000
12   cmnmstudio  ▶ “대구 원단업체와 대구 디자이너를 연결하여 대구패션 협업 생태계 구축” - 대구...  0.000000


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  top_creators['유사도'] = similarity_scores[top_indices] * 100


Unnamed: 0,크리에이터명,아이템명,유사도
6,주식회사 지웍스,▶ “대구 팔공산 왕건 사과빵 개발” - 100년된 대구 팔공산 왕건길 이야기와 평...,4.08576
10,(주)메디프랜,▶ “대구 반야월지역 연근 추출물을 사용한 메디시티 대구 천연치약 제조 판매” - ...,3.396498
3,와룡총각,▶ “한돈 능이버섯 수제 떡갈비” - 대구 와룡시장의 식자재를 활용한 다양한 종류의...,3.321757
7,지야,▶ “판매되지 못한 대구 로컬 섬유 제품을 활용한 업사이클링 데스크테리어 제품 개발...,3.289429
5,주식회사 먼데인먼데이,▶ “빅 데이터 기반 현대인 발 형태에 최적화된 신규 사이즈 체계 적용 맞춤 구두”...,2.821162
