## 匯入套件 & 讀取資料

In [92]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import numpy as np

import pandas as pd


activity_df = pd.read_csv('data/preprocess/activity.csv', index_col='id')

activity_df

Unnamed: 0_level_0,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
6830,1012,雅緻藝術舞蹈團《今天，一起回家》,雅緻藝術舞蹈團今天一起回家發布單位表演藝術科分類表演類發布日期截止日期提供單位文化局活動日期...,雅緻藝術舞蹈團《今天，一起回家》,,,桃園市
6829,74,物品劇~《大鯨魚的小喉嚨》,物品劇大鯨魚的小喉嚨發布單位表演藝術科分類親子活動發布日期截止日期提供單位文化局活動日期活動...,物品劇~《大鯨魚的小喉嚨》,,,教育|臺北市|桃園市
6020,40,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,一徵稿相關資訊一徵稿主題從聯合國發布的翻轉我們的世界年永續發展方針所規劃的個全球永續發展目標...,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,,,嘉義市|宗教|嘉義縣|幼兒教育
5172,24,2023 成大觀影腦影像數據分析營 第二期,專業師資引導分析演練實作招生對象全國高中生皆可以報名營隊時間六日營隊地點成功大學社會科學院北...,2023 成大觀影腦影像數據分析營 第二期,,['招生對象'],心理
6828,10,《春風‧唯美世界》二次元古箏,春風唯美世界二次元古箏發布單位表演藝術科分類音樂發布日期截止日期提供單位文化局活動日期活動地...,《春風‧唯美世界》二次元古箏,,,桃園市
...,...,...,...,...,...,...,...
6161,0,國立臺灣師範大學-地球科學系開放參觀日,活動時間年月日六報名詳情及網址,國立臺灣師範大學-地球科學系開放參觀日,,,
6162,0,國立臺灣大學辦理111 學年度高中物理科學人才培育,適用高一及高二生報名簡章,國立臺灣大學辦理111 學年度高中物理科學人才培育,,,
6163,0,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),簡章,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),,,
6164,0,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,一為響應聯合國為永續發展之海洋科學十年並鼓勵青年學子投入守護海洋行列關心海洋議題並運用海洋科...,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,,,教育


## 取出活動內容

In [5]:
# activity_content = activity_df['content']
# 將沒有 content 填成 title
activity_df['content'].fillna(activity_df['title'], inplace=True)

# activity_df.index
activity_df[activity_df['content'].isna()]

Unnamed: 0_level_0,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1


訓練 CKIP 模型

In [6]:
from ckip_transformers import __version__
from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker


# Show version
print(__version__)

# Initialize drivers
print("Initializing drivers ... WS")
ws_driver = CkipWordSegmenter(model="albert-base")
print("Initializing drivers ... POS")
pos_driver = CkipPosTagger(model="albert-base")
print("Initializing drivers ... NER")
ner_driver = CkipNerChunker(model="albert-base")
print("Initializing drivers ... all done")
print()

  from .autonotebook import tqdm as notebook_tqdm


0.3.4
Initializing drivers ... WS
Initializing drivers ... POS
Initializing drivers ... NER
Initializing drivers ... all done



In [7]:
# clean function
def clean(sentence_ws, sentence_pos):
  short_with_pos = []
  short_sentence = []
  stop_pos = set(['Nep', 'Nh', 'Nb']) # 這 3 種詞性不保留 指代定詞 代名詞 專有名詞
  for word_ws, word_pos in zip(sentence_ws, sentence_pos):
    # 只留名詞和動詞
    is_N_or_V = word_pos.startswith("V") or word_pos.startswith("N")
    # 去掉名詞裡的某些詞性
    is_not_stop_pos = word_pos not in stop_pos
    # 只剩一個字的詞也不留
    is_not_one_charactor = not (len(word_ws) == 1)
    # 組成串列
    if is_N_or_V and is_not_stop_pos and is_not_one_charactor:
      short_with_pos.append(f"{word_ws}({word_pos})")
      short_sentence.append(f"{word_ws}")
  return (" ".join(short_sentence), " ".join(short_with_pos))

In [9]:
activity_content = activity_df['content']
ws = ws_driver(activity_content)
pos = pos_driver(ws)
ner = ner_driver(activity_content)
print()
print('=====')

index = 0
activity_content_text = []

# The zip() function in Python is used to combine elements from two or more iterable objects into tuples.
for sentence, sentence_ws, sentence_pos, sentence_ner in zip(activity_content, ws, pos, ner):
#     print("原文：")
#     print(sentence)
    (short, res) = clean(sentence_ws, sentence_pos)
#     print("斷詞後：")
#     print(short)
#     print("斷詞後+詞性標注：")
#     print(res)
#     print('=====')
#     print(sentence)
#     print(sentence_ws)
#     print(sentence_ner)
    activity_content_text.append(short)

activity_content_text

Tokenization: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 381.47it/s]
Inference: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [06:15<00:00, 375.95s/it]
Tokenization: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 1281.96it/s]
Inference: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [06:04<00:00, 364.11s/it]
Tokenization: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 868.82it/s]
Inference: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [06:19<00:00, 379.20s/it]



=====


NameError: name 'activity_content_tex' is not defined

In [14]:
len(activity_content_text)

100

TF-IDF

In [107]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

vectorizer = TfidfVectorizer()
feature_matrix = vectorizer.fit_transform(format_text)

words = vectorizer.get_feature_names_out()

feature_matrix

<5x422 sparse matrix of type '<class 'numpy.float64'>'
	with 501 stored elements in Compressed Sparse Row format>

In [67]:
words[1005]

'密碼'

In [15]:
similarity = cosine_similarity(feature_matrix)
print(similarity)

[[1.         0.17050568 0.07353884 ... 0.         0.03731684 0.        ]
 [0.17050568 1.         0.04690881 ... 0.         0.01683473 0.        ]
 [0.07353884 0.04690881 1.         ... 0.         0.10811886 0.05671357]
 ...
 [0.         0.         0.         ... 1.         0.         0.        ]
 [0.03731684 0.01683473 0.10811886 ... 0.         1.         0.        ]
 [0.         0.         0.05671357 ... 0.         0.         1.        ]]


In [24]:
def get_related_activity_index(movie_index, similarity):
  related_limit = 11
  movie_similarity = list(enumerate(similarity[movie_index]))
  sorted_movie_similarity = sorted(movie_similarity, key = lambda x: x[1], reverse= True)
  print(sorted_movie_similarity)
  return [m_index for m_index, score in sorted_movie_similarity[0:related_limit]]

relate_index = get_related_activity_index(1, similarity)

[(1, 1.0000000000000002), (0, 0.1705056775178554), (4, 0.14217255310325513), (5, 0.12595424109718784), (18, 0.1143212587259275), (42, 0.11068444249036372), (75, 0.10047982447379884), (10, 0.07599440450997957), (48, 0.07364298000895009), (35, 0.054275148778140825), (8, 0.04924445366377458), (2, 0.04690880810941925), (68, 0.04458066891721632), (72, 0.04069464481798823), (56, 0.04013693929921966), (84, 0.03895716618332514), (87, 0.03846332110963418), (92, 0.03671373030981), (67, 0.03577850427411787), (13, 0.0350357493181409), (93, 0.03446530694103469), (59, 0.03359976077384347), (65, 0.03312898530664249), (19, 0.031505533689300834), (70, 0.03140115312653374), (52, 0.031121283026750823), (17, 0.030945937151402616), (6, 0.03092050301071339), (80, 0.030829592101892036), (54, 0.03064365782060397), (40, 0.030487681669588595), (11, 0.03034822964465702), (46, 0.030253901548016902), (38, 0.029860292183737792), (77, 0.02955376728519187), (31, 0.029256673317523275), (9, 0.02904344720239158), (57, 0

In [27]:
relate_index

[1, 0, 4, 5, 18, 42, 75, 10, 48, 35, 8]

In [30]:
activity_df

Unnamed: 0_level_0,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
6830,1012,雅緻藝術舞蹈團《今天，一起回家》,雅緻藝術舞蹈團《今天，一起回家》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類...,雅緻藝術舞蹈團《今天，一起回家》,,,桃園市
6829,74,物品劇~《大鯨魚的小喉嚨》,物品劇~《大鯨魚的小喉嚨》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\n...,物品劇~《大鯨魚的小喉嚨》,,,教育|臺北市|桃園市
6020,40,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,一、徵稿相關資訊：(一)徵稿主題：從聯合國發布的《翻轉我們的世界：2030年永續發展方針》所...,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,,,嘉義市|宗教|嘉義縣|幼兒教育
5172,24,2023 成大觀影腦影像數據分析營 第二期,專業師資引導 分析演練實作\n\n招生對象\n全國高中生皆可以報名\n \n營隊時間\n2...,2023 成大觀影腦影像數據分析營 第二期,,['招生對象'],心理
6828,10,《春風‧唯美世界》二次元古箏,《春風‧唯美世界》二次元古箏\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\...,《春風‧唯美世界》二次元古箏,,,桃園市
...,...,...,...,...,...,...,...
6161,0,國立臺灣師範大學-地球科學系開放參觀日,活動時間:111年9月17日(六)\n報名詳情及網址:https://youb1707.wi...,國立臺灣師範大學-地球科學系開放參觀日,,,
6162,0,國立臺灣大學辦理111 學年度高中物理科學人才培育,(適用高一及高二生，8/29-9/12報名)\n簡章：https://web.phys.nt...,國立臺灣大學辦理111 學年度高中物理科學人才培育,,,
6163,0,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),簡章：https://hispj.project.sinica.edu.tw/news/in...,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),,,
6164,0,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,一、為響應「聯合國為永續發展之海洋科學十年」，並鼓勵青年學子投入守護海洋行列，關心海洋議題，...,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,,,教育


插入 activity_id

In [38]:
find_df = activity_df

n = len(activity_df)

find_df.insert(0, 'activity_id', range(0, n))

find_df

Unnamed: 0_level_0,activity_id,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
6830,0,1012,雅緻藝術舞蹈團《今天，一起回家》,雅緻藝術舞蹈團《今天，一起回家》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類...,雅緻藝術舞蹈團《今天，一起回家》,,,桃園市
6829,1,74,物品劇~《大鯨魚的小喉嚨》,物品劇~《大鯨魚的小喉嚨》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\n...,物品劇~《大鯨魚的小喉嚨》,,,教育|臺北市|桃園市
6020,2,40,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,一、徵稿相關資訊：(一)徵稿主題：從聯合國發布的《翻轉我們的世界：2030年永續發展方針》所...,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,,,嘉義市|宗教|嘉義縣|幼兒教育
5172,3,24,2023 成大觀影腦影像數據分析營 第二期,專業師資引導 分析演練實作\n\n招生對象\n全國高中生皆可以報名\n \n營隊時間\n2...,2023 成大觀影腦影像數據分析營 第二期,,['招生對象'],心理
6828,4,10,《春風‧唯美世界》二次元古箏,《春風‧唯美世界》二次元古箏\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\...,《春風‧唯美世界》二次元古箏,,,桃園市
...,...,...,...,...,...,...,...,...
6161,95,0,國立臺灣師範大學-地球科學系開放參觀日,活動時間:111年9月17日(六)\n報名詳情及網址:https://youb1707.wi...,國立臺灣師範大學-地球科學系開放參觀日,,,
6162,96,0,國立臺灣大學辦理111 學年度高中物理科學人才培育,(適用高一及高二生，8/29-9/12報名)\n簡章：https://web.phys.nt...,國立臺灣大學辦理111 學年度高中物理科學人才培育,,,
6163,97,0,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),簡章：https://hispj.project.sinica.edu.tw/news/in...,中央研究院高中生命科學研究人才培育計畫9/12前報名(限高一生),,,
6164,98,0,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,一、為響應「聯合國為永續發展之海洋科學十年」，並鼓勵青年學子投入守護海洋行列，關心海洋議題，...,美國在台協會高雄分處（AIT/K）辦理「2023台灣海洋國際青年論壇」,,,教育


In [54]:
find_df.loc[find_df['activity_id'] == 2]

Unnamed: 0_level_0,activity_id,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
6020,2,40,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,一、徵稿相關資訊：(一)徵稿主題：從聯合國發布的《翻轉我們的世界：2030年永續發展方針》所...,轉知：「2023 中學生跨域問題解決創意專題論壇實施計畫」,,,嘉義市|宗教|嘉義縣|幼兒教育


In [56]:
# 創建空的目標數據框
target_df = pd.DataFrame()

for index in relate_index:
    # 找到符合索引的行
    related_rows = find_df.loc[find_df['activity_id'] == index]
    # 使用pandas.concat將行添加到目標數據框
    target_df = pd.concat([target_df, related_rows], ignore_index=True)

target_df

Unnamed: 0,activity_id,trend,title,content,subTitle,holder,objective,tags
0,1,74,物品劇~《大鯨魚的小喉嚨》,物品劇~《大鯨魚的小喉嚨》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\n...,物品劇~《大鯨魚的小喉嚨》,,,教育|臺北市|桃園市
1,0,1012,雅緻藝術舞蹈團《今天，一起回家》,雅緻藝術舞蹈團《今天，一起回家》\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類...,雅緻藝術舞蹈團《今天，一起回家》,,,桃園市
2,4,10,《春風‧唯美世界》二次元古箏,《春風‧唯美世界》二次元古箏\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：\...,《春風‧唯美世界》二次元古箏,,,桃園市
3,5,7,《銅好新時代》懷念老歌系列II,《銅好新時代》懷念老歌系列II\n\n發布單位：\n\n表演藝術科\n\n\n\n分 類：...,《銅好新時代》懷念老歌系列II,,,桃園市
4,18,1,四季映象畫會─頃刻間的永恆 II,四季映象畫會─頃刻間的永恆 II\n\n發布單位：\n\n文創影視科\n\n\n\n分 類...,四季映象畫會─頃刻間的永恆 II,,,桃園市|新北市
5,42,0,2023年全國學生圖畫書創作獎,一、為獎勵及培育圖、文創作人才，啟發全方位藝術創作，推動親子閱讀風氣，豐富兒童藝術涵養與想像...,2023年全國學生圖畫書創作獎,,,教育
6,75,0,「第13屆明日之星甄選」活動,一、該團為培育傑出青少年音樂人才，透過甄選活動，遴選臺灣優秀青少年音樂家，優勝者將可與該團一...,「第13屆明日之星甄選」活動,,,臺北市
7,10,3,臺語百年歌曲音樂會,臺語百年歌曲音樂會\n\n發布單位：\n\n閩南及民俗文化科\n\n\n\n分 類：\n\...,臺語百年歌曲音樂會,由桃園市政府文化局主辦,,運動|桃園市|民俗藝術
8,48,0,第五屆長榮藝術獎全國高中學生書法比賽,一、為培育藝文人才，弘揚書法藝術，特舉辦此活動做為書法藝術教育之推廣，特舉辦旨揭比賽。二、比...,第五屆長榮藝術獎全國高中學生書法比賽,,,教育
9,35,0,淨零生活轉型推廣創意徵稿活動,一、該署為推動淨零綠生活，鼓勵民眾從日常生活中落實淨零綠生活轉型，特辦理「淨零生活轉型推廣創...,淨零生活轉型推廣創意徵稿活動,,,


模擬使用者

In [93]:
activity_df.iloc[[1, 5, 10, 15, 20]]

Unnamed: 0_level_0,trend,title,content,subTitle,holder,objective,tags
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
6829,74,物品劇~《大鯨魚的小喉嚨》,物品劇大鯨魚的小喉嚨發布單位表演藝術科分類親子活動發布日期截止日期提供單位文化局活動日期活動...,物品劇~《大鯨魚的小喉嚨》,,,教育|臺北市|桃園市
6827,7,《銅好新時代》懷念老歌系列II,銅好新時代懷念老歌系列ii發布單位表演藝術科分類表演類發布日期截止日期提供單位文化局活動日期...,《銅好新時代》懷念老歌系列II,,,桃園市
6823,3,臺語百年歌曲音樂會,臺語百年歌曲音樂會發布單位閩南及民俗文化科分類表演類發布日期截止日期提供單位文化局活動日期活...,臺語百年歌曲音樂會,由桃園市政府文化局主辦,,運動|桃園市|民俗藝術
5184,1,非洲英語足球營,非洲英語足球營報名日期與錄取方式即日起至月日下午止報名請備註全天或下午一營會活動時間年月日一...,非洲英語足球營,,,教育|醫學|臺南市
5783,1,臺師大人發營 NTNU HDFS camp,活動資訊名稱第四屆人發營初發restart招生對象全國升高一到升大一營隊期間報名時間地點臺灣...,臺師大人發營 NTNU HDFS camp,,['招生對象：全國升高一到升大一'],


設立使用者資料

In [30]:
user_activity_content = ['']
user_history = [1, 5, 10, 15, 20]
for index in user_history:
    user_activity_content[0] += activity_df.iloc[index]['content']

user_activity_content

['物品劇大鯨魚的小喉嚨發布單位表演藝術科分類親子活動發布日期截止日期提供單位文化局活動日期活動地點文化局演藝廳活動地址桃園市桃園區縣府路號主辦單位杯子劇團協辦單位桃園市政府文化局詳細內容物品劇大鯨魚的小喉嚨演出時間年月日六下午點演出地點文化局演藝廳入場方式年代售票請點選購票票價折扣一般票價元其他折扣台北富邦國泰世華中國信託第一銀行兆豐銀行台新銀行誠品人會員卡購票享折優惠團體簡介為什麼叫杯子水是生命的泉源以手掬水是為了求生以杯子喝水是享受人生創辦人創辦人董鳳酈老師是國內知名兒童藝術教育專家在國外從事研究工作時接觸兒童戲劇與黑光劇遂於民國七十二年西元一九八三年成立杯子劇團歷時三年培訓專業黑光劇團員於民國七十五年正式售票演出希望藉由戲劇的演出帶給孩子快樂的童年成立宗旨黑光劇在台灣讓台灣的親子能欣賞黑光劇幻妙的魅力以創造力為主要創作目的發展黑光幻妙劇與物品劇本著教育的精神致力於兒童戲劇與藝術教育的推廣帶給孩子快樂的童年豐富孩子的生活經驗親子擁有寬廣的藝術生活讓藝術生活化生活藝術化關於杯子劇團杯子劇團是國內唯一的黑光劇團於民國年年成立至今已邁入第年擁有為數可觀的群眾基礎民國年月止杯子劇團已創作演出齣經典好戲詳見創作暨演出年表有的戲是為兒童創作有的戲是為青少年或成人創作近年獲獎紀錄教育部第七屆藝術教育貢獻獎績優團體獎唯一獲獎的劇團臺北市政府教育局年藝術教育貢獻獎績優團體獎唯一獲獎的劇團杯子劇團製作宗旨以創意想像力教育整合為主軸劇本均為原創作品以時代主流為創作主軸例如民國年製作演出魔法國是一齣反毒劇民國年製作演出超時空歷險記敘述科技與電腦的網路世界當時一般民眾多數沒有電腦是無法想像電腦的虛擬世界民國年製作演出太空變奏曲敘述環保與土石流的災害隔年臺灣發生歷年最大的土石流民國年杯子劇團推出牙刷超人第一集由於衛教知識日新月異故於民國年推出牙刷超人第二集民國年口腔保健論文出現不同以往的保健知識於是杯子劇團民國年製作牙刷超人第三集杯子劇團前瞻性的創作與演出能讓藝術與人文紮根於社會教育中這也是支持杯子劇團走過年歲月的動力杯子劇團演出形式以黑光劇人偶劇舞台劇物品劇為主杯子劇團的製作分為大型中型小型三種以因應不同表演場地杯子劇團創作風格豐富兼具教育與娛樂希望教育不僅由學校中獲得也能由娛樂中輕鬆學習演出介紹演出名稱物品劇大鯨魚的小喉嚨演出形式物品劇演出長度分鐘演出內容大鯨魚幾乎吃光了海裡所有的魚

做斷詞分析

In [31]:
ws = ws_driver(user_activity_content)
pos = pos_driver(ws)
ner = ner_driver(user_activity_content)
print()
print('=====')

user_content_text = []

# The zip() function in Python is used to combine elements from two or more iterable objects into tuples.
for sentence, sentence_ws, sentence_pos, sentence_ner in zip(user_activity_content, ws, pos, ner):
    (short, res) = clean(sentence_ws, sentence_pos)
    user_content_text.append(short)

user_content_text

Tokenization: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 54.19it/s]
Inference: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:13<00:00, 13.98s/it]
Tokenization: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 66.66it/s]
Inference: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:14<00:00, 14.01s/it]
Tokenization: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.42it/s]
Inference: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:13<00:00, 13.96s/it]


=====





['物品劇 鯨魚 喉嚨 發布 單位 表演 藝術科 分類 親子 活動 發布 日期 截止 日期 提供 單位 文化局 活動 日期 活動 地點 文化局 演藝廳 活動 地址 桃園市 桃園區 縣府 路號 主辦 單位 杯子 劇團 協辦 單位 桃園 市政府 文化局 詳細 內容 物品劇 鯨魚 喉嚨 演出 時間 日六 下午 演出 地點 文化局 演藝廳 入場 方式 年代 售票 請點 選購 票價 折扣 票價 其他 折扣 台北 中國 第一 銀行 銀行 銀行 誠品人 會員卡 享折 優惠 團體 簡介 杯子 生命 泉源 掬水 求生 杯子 喝水 享受 人生 創辦人 創辦人 老師 國內 知名 兒童 藝術 教育 專家 國外 從事 研究 工作 接觸 兒童 戲劇 黑光劇 民國 七十二年 西元 一九八三年 成立 杯子 劇團 歷時 培訓 專業 黑光劇 團員 民國 七十五年 正式 售票 演出 希望 戲劇 演出 帶給 孩子 快樂 童年 成立 宗旨 黑光劇 台灣 台灣 親子 欣賞 黑光劇 幻妙 魅力 創造力 創作 目的 發展 黑光幻妙劇 物品 劇本 教育 精神 致力 兒童 戲劇 藝術 教育 推廣 帶給 孩子 快樂 童年 豐富 孩子 生活 經驗 親子 擁有 寬廣 藝術 生活 藝術 生活化 生活 藝術化 杯子 劇團 杯子 劇團 國內 黑光 劇團 民國 年年 成立 邁入 第年 擁有 為數 可觀 群眾 基礎 民國 杯子 劇團 創作 演出 經典 創作 演出 年表 有的 兒童 創作 有的 青少年 成人 創作 近年 獲獎 紀錄 教育部 第七 藝術 教育 貢獻獎 績優 團體獎 獲獎 劇團 臺北 市政府 教育局 藝術 教育 貢獻 績優 團體 獲獎 劇團 杯子 劇團 製作 宗旨 創意 想像力 教育 整合 主軸 劇本 原創 作品 時代 主流為 創作 主軸 民國 製作 演出 魔法國 反毒劇 民國年 製作 演出 超時空 歷險記 敘述 科技 電腦 網路 世界 當時 民眾 多數 沒有 電腦 想像 電腦 虛擬 世界 民國年 製作 演出 太空 變奏曲 敘述 環保 土石流 災害 臺灣 發生 歷年 土石流 民國 杯子 劇團 推出 牙刷 超人 第一 知識 民國 推出 牙刷 超人 第二 民國 口腔 保健 論文 出現 不同以往 保健 知識 杯子 劇團 民國 製作 牙刷 超人 第三 杯子 劇團 前瞻性 創作 演出 藝術 人文 紮根 社會 教育 支持 杯子 劇團 

In [73]:
user_pd = pd.DataFrame({"content": user_content_text})

# user_pd.iloc[0]["content"]
# user_pd["content"]
user_pd.index
# user_pd.info()
# user_content_text
# user_pd.info()

RangeIndex(start=0, stop=1, step=1)

In [88]:
vectorizer = TfidfVectorizer()

# 目的是學習每個單詞在所有文本中的重要性，轉換的目的是將每個文本轉換成一個數值向量
activity_vec = vectorizer.fit_transform(activity_content_text)

# 已經有一個訓練好的向量化模型，並且想要將新的文本資料轉換成與這個模型相同的向量形式
user_vec = vectorizer.transform(user_content_text)

# 計算使用者向量和語料庫中所有活動向量之間的餘弦相似度
user_activity_matrix = cosine_similarity(user_vector, activity_vec)

user_activity_matrix = pd.DataFrame(user_activity_matrix, index=user_pd.index, columns=activity_df.index)

KeyError: 0

In [93]:
def get_the_most_similar_activitys(user_id, user_movie_matrix, num):
    """Find the top-n movies most similar to the user"""
    user_vec = user_movie_matrix.loc[user_id].values 
    sorted_index = np.argsort(user_vec)[::-1][:num]
    return list(user_movie_matrix.columns[sorted_index])

activity_ids = get_the_most_similar_activitys(0, user_activity_matrix, 10)

print(activity_df[activity_df.index.isin(activity_ids)]["title"])

id
6830            雅緻藝術舞蹈團《今天，一起回家》
6829               物品劇~《大鯨魚的小喉嚨》
6828              《春風‧唯美世界》二次元古箏
6827             《銅好新時代》懷念老歌系列II
6823                   臺語百年歌曲音樂會
5184                     非洲英語足球營
6824            四季映象畫會─頃刻間的永恆 II
6108             2023年全國學生圖畫書創作獎
6141              「第13屆明日之星甄選」活動
6142    逢甲大學將舉辦112學年度「院系介紹招生說明會」
Name: title, dtype: object


In [84]:
import pandas as pd

# create a sample DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'Dave'],
        'age': [25, 30, 35, 40],
        'city': ['New York', 'Paris', 'London', 'San Francisco']}
df = pd.DataFrame(data)

# sort the DataFrame by the "age" column in ascending order
df = df.sort_values('age')

# display the sorted DataFrame
df

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London
3,Dave,40,San Francisco


In [106]:
similarity_scores

array([[1.        , 0.12496203, 0.05592141, 0.03800377, 0.01613281],
       [0.12496203, 1.        , 0.16829859, 0.03758201, 0.02848424],
       [0.05592141, 0.16829859, 1.        , 0.02287734, 0.02127118],
       [0.03800377, 0.03758201, 0.02287734, 1.        , 0.08687442],
       [0.01613281, 0.02848424, 0.02127118, 0.08687442, 1.        ]])