In [1]:
import os
import pickle

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import scipy.sparse

In [2]:
descriptions_filelist = ['../data/descriptions/{}'.format(y) for y in sorted([int(x) for x in os.listdir('../data/descriptions/')])]

In [3]:
descriptions_vectorizer = TfidfVectorizer(input='filename', strip_accents='unicode')

descriptions_vectorizer.fit(descriptions_filelist)
descriptions_tfidf = descriptions_vectorizer.transform(descriptions_filelist)

In [4]:
query_tfidf = descriptions_vectorizer.transform(['test_input.txt'])

scores = cosine_similarity(query_tfidf, descriptions_tfidf).flatten()
top_N = scores.argsort()[::-1][:20]

for i in top_N:
    with open('../data/descriptions/{}'.format(i)) as f:
        print('{}: {}'.format(i, f.read()))

3801: 高雄市 彌陀 區有 虱目 魚 故鄉 的 美稱 ， 一方 方 綿延 的 的魚 塭 、 白 鷺鷥 飛舞 的 麻黃 木麻黃 樹林 及 無際 一望無際 的 海岸 構成 淳樸 漁村 風情 。 環鄉 自行 行車 車道 自行車 行車道 自行車道 主要 沿著 海岸 岸線 海岸線 規劃 ， 自 「 濱海 遊樂 遊樂區 」 起 至 「 海尾 大橋 」 止 ， 全長 全長約 3 公里 。 彌陀 海岸 的 藍天 碧海 充滿 充滿著 熱帶 風情 ， 尤當 夕陽 陽西 西下 夕陽西下 ， 落日 餘輝 緩緩 將 海面 渲染 得 金光 閃爍 、 絢爛 奪目 ， 迎著 海風 ， 踩踏 著 雙輪 於 沿海 車道 ， 黃金 金海 海岸 金海岸 黃金海岸 美景 盡收 眼底 盡收眼底 。 走 完 海岸 車道 ， 無論 無論是 轉入 鄉間 小路 到 南 寮 漁港 及 海岸 光廊 遊憩 ， 或 繞 進 市區 吃 碗 鮮美 現做 的 虱目 魚丸 ， 寧靜 的 鄉間 車道 都 可以 暫時 抛開 一切 煩憂 ， 盡情 體驗 寫意 自在 的 漁鄉 生活 。 

871: 南石滬 公國 是 位於 金門 最 東南 東南角 的 海邊 裡 ， 有 著 一 大片 的 花崗石 兒壁 ， 景色 非常 的 美麗 。 

15: 富山 復 魚區 於 台 東縣 卑南 鄉杉原 海邊 ， 在 都蘭 灣的 南端 ， 原因 過度 漁撈 ， 海域 生態 破壞 殆盡 ， 2005 年 公告 為 禁漁 漁區 禁漁區 之後 ， 反成 為 東海 海岸 東海岸 潮間帶 生態 豐富 的 景點 ， 吸引 各地 遊客 前來 參觀 ， 為 當地 社區 建立 觀光 人潮 。 居民 成為 生態 解說 解說員 、 浮潛員 ； 社區 居民 更 發起 「 保育 海岸 資源 ─ ─ 永續 發展 」 的 推廣 活動 ， 創造 另類 商機 。 

750: 外澳 濱海 遊憩 區 原本 是 東北 北角 東北角 風景 景區 風景區 的 尾段 ， 在 管理 管理處 正式 擴大 轄區 改名 為 「 東北 北角 東北角 暨 宜蘭 海岸 國家 風景 景區 風景區 」 之後 成為 中繼 點 ， 民國 97 年 8 月 外澳 服務 服務區 正式 揭幕 ， 由名 建築 建築師 姚仁喜 設計 ， 正對 著 龜山 山島 龜山島 ， 獨擁 一片 濕地 沙灘 ， 得天獨厚 ， 可 供 遊客 散步

In [5]:
scipy.sparse.save_npz('../models/tfidf.npz', descriptions_tfidf)
with open('../models/tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(descriptions_vectorizer, f, pickle.HIGHEST_PROTOCOL)