# 🎧 Spotify 台灣流行音樂資料抓取範例

本 notebook 範例流程：

- 搜尋「2024 台灣」+ 心情類型的播放清單

- 抓取每首歌的：曲名 / 藝人 / 專輯 / 發行日期 / Spotify 連結

- 匯出 CSV，作為 RAG 音樂知識庫素材

---

## 1️⃣ 安裝必要套件

In [None]:
!pip install requests spotipy pandas

## 2️⃣ 載入套件與認證

In [30]:
# 匯入必要的套件
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials
import pandas as pd
import time
from requests.exceptions import ReadTimeout



# 替換為你自己的 Spotify API 憑證
client_id = 'd94fe716fad14e8ea37fa890d4d19625'
client_secret = '950e81697c954ea6b15cdc9414b7eb64'

# 初始化 Spotify 認證
sp = spotipy.Spotify(
    auth_manager=SpotifyClientCredentials(client_id=client_id, client_secret=client_secret)
)


## 3️⃣ 搜尋播放清單: 依照心情/情境分類

In [21]:
# 自訂搜尋類別組合，將心情關鍵字改為中文並增加更多可能關鍵字
mood_keywords = [
    "輕鬆", "放鬆", "悲傷", "快樂", "愛情", "能量", "懷舊",
    "學習", "運動", "開車", "專注", "派對", "睡覺",
    "咖啡", "雨天", "旅行", "夜晚", "浪漫", "回憶",
    "悠閒", "孤獨", "自由", "釋放", "幸福", "成長"
]

# 音樂類型相關關鍵字（Genres）
genre_keywords = [
    "流行", "搖滾", "嘻哈", "電子", "民謠", "古典",
    "爵士", "藍調", "R&B", "雷鬼", "舞曲", "重金屬",
    "鄉村", "靈魂", "鋼琴", "吉他", "環境音樂", "獨立音樂"
]
#time_keywords = ["2024", "2023", "最新"]
#region_keywords = ["Taiwan", "台灣", "Mandarin", "華語", "中文", "國語"]
#region_keywords = ["華語", "中文", "國語"]
# 結果儲存
all_results = []

## 4️⃣ 輸入播放清單 ID 抓取歌曲詳細資料

In [22]:
# 開始迴圈搜尋：中文情緒或音樂類型分類的播放清單
for mood in mood_keywords:
    for genre in genre_keywords:
        query = f"{mood} {genre}"  # 結合情緒與音樂類型
        try:
            search_result = sp.search(q=query, type='playlist', limit=5)
            for playlist in search_result['playlists']['items']:
                all_results.append({
                    '搜尋關鍵字': query,
                    '播放清單名稱': playlist['name'],
                    '播放清單ID': playlist['id'],
                    '播放清單連結': playlist['external_urls']['spotify']
                })
            print(f"✅ 已完成: {query}")
        except Exception as e:
            print(f"❌ 查詢失敗: {query}，錯誤：{e}")
        time.sleep(0.5)  # 避免API超量

# 匯出結果
df = pd.DataFrame(all_results)
df.to_csv("Chinese_Mood_Genre_Playlist.csv", index=False, encoding="utf-8-sig")
print("🎉 已匯出 Chinese_Mood_Genre_Playlist.csv")

❌ 查詢失敗: 輕鬆 流行，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 輕鬆 搖滾
✅ 已完成: 輕鬆 嘻哈
✅ 已完成: 輕鬆 電子
✅ 已完成: 輕鬆 民謠
❌ 查詢失敗: 輕鬆 古典，錯誤：'NoneType' object is not subscriptable
❌ 查詢失敗: 輕鬆 爵士，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 輕鬆 藍調
❌ 查詢失敗: 輕鬆 R&B，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 輕鬆 雷鬼
✅ 已完成: 輕鬆 舞曲
❌ 查詢失敗: 輕鬆 重金屬，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 輕鬆 鄉村
✅ 已完成: 輕鬆 靈魂
✅ 已完成: 輕鬆 鋼琴
✅ 已完成: 輕鬆 吉他
❌ 查詢失敗: 輕鬆 環境音樂，錯誤：'NoneType' object is not subscriptable
❌ 查詢失敗: 輕鬆 獨立音樂，錯誤：'NoneType' object is not subscriptable
❌ 查詢失敗: 放鬆 流行，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 放鬆 搖滾
✅ 已完成: 放鬆 嘻哈
✅ 已完成: 放鬆 電子
✅ 已完成: 放鬆 民謠
❌ 查詢失敗: 放鬆 古典，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 放鬆 爵士
✅ 已完成: 放鬆 藍調
❌ 查詢失敗: 放鬆 R&B，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 放鬆 雷鬼
✅ 已完成: 放鬆 舞曲
❌ 查詢失敗: 放鬆 重金屬，錯誤：'NoneType' object is not subscriptable
✅ 已完成: 放鬆 鄉村
✅ 已完成: 放鬆 靈魂
✅ 已完成: 放鬆 鋼琴
✅ 已完成: 放鬆 吉他
❌ 查詢失敗: 放鬆 環境音樂，錯誤：'NoneType' object is not subscriptable
❌ 查詢失敗: 放鬆 獨立音樂，錯誤：

## 完成抓取播放清單

這樣你就可以把「播放清單」整理成結構化表格，直接送入自己的RAG流程了。

## 5️⃣ 抓取歌曲詳細資料

In [23]:
# 建立 Spotify 連線
sp = spotipy.Spotify(auth_manager=SpotifyClientCredentials(
    client_id=client_id,
    client_secret=client_secret
))


# 假設這裡是你從搜尋程式抓下來的播放清單資訊
playlist_info_list = [
    {"name": item['播放清單名稱'], "keyword": item['搜尋關鍵字'], "id": item['播放清單ID']}
    for item in all_results
]

# 結果儲存
all_tracks = []

In [31]:
# 逐一抓取每個播放清單的內容
for playlist in playlist_info_list:
    playlist_name = playlist['name']
    keyword = playlist['keyword']
    playlist_id = playlist['id']

    print(f"\n🎵 正在抓取: {playlist_name}(關鍵字: {keyword})")

    offset = 0
    limit = 100

    while True:
        try:
            # 每次請求最多100首歌
            results = sp.playlist_items(playlist_id, offset=offset, limit=limit, additional_types=['track'])
            items = results['items']

            if not items:
                break

            for item in items:
                track = item['track']
                if track is None:
                    continue

                all_tracks.append({
                    "播放清單名稱": playlist_name,
                    "搜尋關鍵字": keyword,
                    "歌曲名稱": track['name'],
                    "藝人": ", ".join([artist['name'] for artist in track['artists']]),
                    "專輯": track['album']['name'],
                    "發行日": track['album']['release_date']
                })

            offset += limit
            time.sleep(0.2)  # 避免太快請求，防止API封鎖

        except ReadTimeout:
            print(f"⚠️ 讀取超時!等待5秒後重試...(offset={offset})")
            time.sleep(5)  # 超時等待，然後重試
            continue

        except Exception as e:
            print(f"❌ 抓取失敗，錯誤: {e}")
            break

# 結果轉成 DataFrame
df = pd.DataFrame(all_tracks)

# 儲存為 CSV
df.to_csv("Taiwan_Playlist_Songs.csv", index=False, encoding='utf-8-sig')

print(f"\n✅ 已完成,總共抓取 {len(df)} 首歌,結果已儲存:Taiwan_Playlist_Songs.csv")



🎵 正在抓取: 輕鬆搖滾(關鍵字: 輕鬆 搖滾)

🎵 正在抓取: 輕鬆+台式搖滾(關鍵字: 輕鬆 搖滾)

🎵 正在抓取: chinese rnb ☁️(關鍵字: 輕鬆 嘻哈)

🎵 正在抓取: 輕鬆又嘻哈的高級氛圍🖤(關鍵字: 輕鬆 嘻哈)

🎵 正在抓取: Chinese Soft Rap 華語輕饒舌(關鍵字: 輕鬆 嘻哈)

🎵 正在抓取: 輕鬆的狀態(關鍵字: 輕鬆 嘻哈)

🎵 正在抓取: 專注工作(輕電子)(關鍵字: 輕鬆 電子)

🎵 正在抓取: 輕鬆電子(關鍵字: 輕鬆 電子)

🎵 正在抓取: 港式MK歌 & Remix(關鍵字: 輕鬆 電子)

🎵 正在抓取: 綠鋼琴／綠森林／古典鋼琴／現代鋼琴／助眠樂曲(關鍵字: 輕鬆 古典)

🎵 正在抓取: 放輕鬆，聽古典 Classical Chill(關鍵字: 輕鬆 古典)

🎵 正在抓取: 寶寶睡眠鋼琴 輕柔旋律入夢鄉 Babe Sleep Piano Lullaby with Soothing Melody(關鍵字: 輕鬆 古典)

🎵 正在抓取: 貴族音樂古典 – 睡眠導入舒心大提琴: 鋼琴放鬆輕聽(關鍵字: 輕鬆 古典)

🎵 正在抓取: 國語兒歌(關鍵字: 輕鬆 藍調)

🎵 正在抓取: #4 Ocean Breeze｜Music for better sleep(關鍵字: 輕鬆 藍調)

🎵 正在抓取: Bossa Nova｜慵懒风情(關鍵字: 輕鬆 舞曲)

🎵 正在抓取: 輕鬆不插電(關鍵字: 輕鬆 舞曲)

🎵 正在抓取: 陳老師的輕鬆舞曲(關鍵字: 輕鬆 舞曲)

🎵 正在抓取: 港式MK歌 & Remix(關鍵字: 輕鬆 舞曲)

🎵 正在抓取: #1 Floating Slumber ｜Music for better sleep(關鍵字: 輕鬆 靈魂)

🎵 正在抓取: 秋日早晨的輕鬆爵士與靈魂(關鍵字: 輕鬆 靈魂)

🎵 正在抓取: 華語流行 鋼琴純音樂 C-POP Piano Cover(關鍵字: 輕鬆 鋼琴)

🎵 正在抓取: 鋼琴輕音樂：迪士尼動畫精選 Disney Piano Music for Relaxtion(關鍵字: 輕鬆 鋼琴)

🎵 正在抓取: 輕音樂 睡眠音樂  鋼琴音樂 Piano Sleep Music(關鍵字: 輕鬆 鋼琴)

🎵 正在抓取:

## 6️⃣ 轉檔成文字檔

In [32]:
import pandas as pd

# 讀取已經抓好的 CSV
df = pd.read_csv("Taiwan_Playlist_Songs.csv", encoding='utf-8-sig')

# 轉成自訂格式的純文字
with open("Taiwan_Playlist_Songs.txt", "w", encoding='utf-8-sig') as f:
    for _, row in df.iterrows():
        line = f"播放清單: {row['播放清單名稱']} | 關鍵字: {row['搜尋關鍵字']} | 歌曲: {row['歌曲名稱']} | 藝人: {row['藝人']} | 專輯: {row['專輯']} | 發行日: {row['發行日']}\n"
        f.write(line)

print("✅ 已轉存成自訂格式 TXT:Taiwan_Playlist_Songs.txt")

✅ 已轉存成自訂格式 TXT:Taiwan_Playlist_Songs.txt
