In [1]:
import pandas as pd
import os
from openai import OpenAI
import json
from tqdm import tqdm
import time

In [16]:
def generate_ground_truth(df, output_file='podcast_ground_truth.json', api_key=None, max_episodes=None, sample_random=False):
    """
    Generate ground truth data for podcast episodes using GPT API.
    
    Args:
        df: Pandas DataFrame containing podcast episode data with 'episode', 'title', and 'summary' columns
        output_file: Path to save the ground truth data as JSON
        api_key: OpenAI API key (will use environment variable if None)
        max_episodes: Maximum number of episodes to process (useful for testing with fewer episodes)
        sample_random: If True and max_episodes is set, randomly sample episodes instead of taking first few
    
    Returns:
        Dictionary containing ground truth data
    """
    # Initialize OpenAI client
    if api_key is None:
        api_key = os.environ.get("OPENAI_API_KEY")
        if api_key is None:
            raise ValueError("OpenAI API key not found. Please provide it as an argument or set the OPENAI_API_KEY environment variable.")
    
    client = OpenAI(api_key=api_key)
    
    system_prompt = """你是一位知道台灣Podcast「通勤第一品牌」(Commute For Me)的聽眾，熟悉台灣文化和用語。
你將獲得「通勤第一品牌」(Commute For Me) podcast的標題和內容摘要。
你的任務是：
1. 識別該集節目中討論的10個關鍵主題
2. 並根據這些關鍵主題創建5句描述這集的直述句
3. 直述句以口語、接近日常的方式呈現

輸出格式應為有效的JSON，格式如下：
'sentence': ["sentence1", "sentence2", ..., "sentence5"]
"""

    # Process each episode
    ground_truth = {}
    
    # Limit the number of episodes if specified
    if max_episodes is not None:
        if sample_random:
            df_to_process = df.sample(min(max_episodes, len(df)))
        else:
            df_to_process = df.head(max_episodes)
        print(f"Testing with {len(df_to_process)} episodes out of {len(df)} total episodes")
    else:
        df_to_process = df
    
    for _, row in tqdm(df_to_process.iterrows(), total=len(df_to_process), desc="Processing episodes"):
        episode_id = row['episode']
        title = row['title']
        summary = row['summary']
        
        # Skip if summary is NaN
        if pd.isna(summary):
            print(f"Skipping episode {episode_id} - No summary available")
            continue
            
        # Create user prompt for this episode
        user_prompt = f"Episode {episode_id}: {title}\n\nSummary:\n{summary}"
        
        # Call OpenAI API with retry mechanism for rate limits
        max_retries = 3
        for attempt in range(max_retries):
            try:
                response = client.chat.completions.create(
                    model="gpt-4o-mini",  # Using GPT-4o-mini as requested
                    messages=[
                        {"role": "system", "content": system_prompt},
                        {"role": "user", "content": user_prompt}
                    ],
                    temperature=0.2,  # Lower temperature for more consistent outputs
                    response_format={"type": "json_object"}
                )
                
                # Extract and parse JSON response
                response_text = response.choices[0].message.content
                episode_data = json.loads(response_text)
                
                # Ensure sentence field exists (for backward compatibility)
                if "sentence" not in episode_data:
                    episode_data["sentence"] = []
                
                # Store in ground truth dictionary
                ground_truth[str(episode_id)] = episode_data
                
                # Save intermediate results periodically
                if episode_id % 10 == 0:
                    with open(output_file, 'w', encoding='utf-8') as f:
                        json.dump(ground_truth, f, ensure_ascii=False, indent=2)
                
                # Successful response, break out of retry loop
                break
                
            except json.JSONDecodeError:
                print(f"Error: Invalid JSON response for episode {episode_id}. Retrying...")
                time.sleep(2)
                
            except Exception as e:
                print(f"Error processing episode {episode_id}: {str(e)}")
                if "rate limit" in str(e).lower():
                    wait_time = (attempt + 1) * 5  # Exponential backoff
                    print(f"Rate limited. Waiting {wait_time} seconds before retry...")
                    time.sleep(wait_time)
                else:
                    break  # Break on non-rate-limit errors
        
        # Add a small delay between requests to avoid rate limits
        time.sleep(0.5)
    
    # Save final results
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(ground_truth, f, ensure_ascii=False, indent=2)
    
    print(f"Ground truth data generated and saved to {output_file}")
    return ground_truth

In [10]:
df = pd.read_csv('podcast_data.csv')
    
# Generate ground truth (using environment variable for API key)
ground_truth = generate_ground_truth(df, max_episodes=3)

Testing with 3 episodes out of 444 total episodes


Processing episodes: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:08<00:00,  2.71s/it]

Ground truth data generated and saved to podcast_ground_truth.json





In [17]:
ground_truth = generate_ground_truth(df, max_episodes=3, sample_random=True)

Testing with 3 episodes out of 444 total episodes


Processing episodes: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:10<00:00,  3.55s/it]

Ground truth data generated and saved to podcast_ground_truth.json





In [18]:
ground_truth

{'299': {'sentence': ['這集的主題圍繞著最近的高溫，大家都在討論如何應對這種酷熱的天氣。',
   '主持人提到了一個有趣的概念，叫做冷氣糾察隊，專門檢查別人開冷氣的情況。',
   '還有提到一種特別的T-shirt，叫做結晶T-shirt，聽起來很酷。',
   '節目中也聊到一些人對於外觀衛生的看法，像是留指甲的問題。',
   '整體來說，這集充滿了對於夏天的幽默和生活小觀察。']},
 '352': {'sentence': ['這集聊到月月陪爸媽參加同學會的趣事，讓我想到自己也有類似的經歷。',
   '何媽提到她年輕時的故事，讓我覺得她的生活經歷真的很有趣。',
   '倫分享了他參加國小同學會的感受，讓我想起那些熟悉卻又陌生的同學。',
   '節目中還提到蔥油餅阿伯的故事，讓我忍不住想流口水。',
   '誠誠的家人聚會也很有意思，親戚們的話讓我想起自己家裡的搞笑瞬間。']},
 '103': {'sentence': ['這集聊到了幸福的定義，大家都覺得幸福有點沉重，不知道該怎麼形容。',
   '誠爸從小就知道誠誠是個抓不住的孩子，誠老婆還說不要浪費錢求婚，真是有趣。',
   '計程車司機聽到他們的對話後，提醒年輕人要自己決定，爽最重要。',
   '他們也討論了工作和創業的不同，工作不需要熱情，但創業就得有了。',
   '最後，家倫分享了對未來家庭的想像，覺得建立家庭比登太空還要遙遠。']}}

In [14]:
ground_truth

{'312': {'sentence': ['這一集的主題圍繞著新生宿舍的入住須知，提供了實用的建議和注意事項。',
   '小何分享了他在宿舍入住初期的趣事，包括看玫瑰之夜和鬼壓床的經歷。',
   '節目中提到了一些宿舍生活中的尷尬時刻，例如聽到廁所的尿尿聲和馬桶漏水的問題。',
   '打手槍的話題也被提及，讓聽眾感受到宿舍生活的真實與幽默。',
   '整集節目充滿了輕鬆的氛圍，讓新生們對宿舍生活有更深入的了解。']},
 '111': {'sentence': ['這集節目討論了各種泡麵的煮法和搭配，特別是維力炸醬麵的獨特吃法。',
   '主持人分享了游泳課後吃泡麵的幸福感，並提到阿公釣魚的回憶。',
   '節目中提到的客家文化和方言讓聽眾感受到台灣的多元文化。',
   '還有關於遠距離戀愛的趣事，分享了在疫情期間與女友一起玩遊戲的經歷。',
   '最後，節目也提到了一些漫畫和動畫作品，並討論了角色設定的合理性。']},
 '323': {'sentence': ['這一集探討了離職的原因以及在職場中面對的挑戰。',
   '節目中提到藍亦明的哥哥是一位資優生，這引發了對家庭期望的討論。',
   '藍亦明分享了自己小時候收到的情書，讓人感受到青春的懷舊情懷。',
   '節目中有提到如何在關係中找到合適的對象，強調磨合的重要性。',
   '藍亦明也分享了整鼻的過程，讓聽眾了解這個話題的不同面向。']}}

In [15]:
ground_truth['312']['sentence']

['這一集的主題圍繞著新生宿舍的入住須知，提供了實用的建議和注意事項。',
 '小何分享了他在宿舍入住初期的趣事，包括看玫瑰之夜和鬼壓床的經歷。',
 '節目中提到了一些宿舍生活中的尷尬時刻，例如聽到廁所的尿尿聲和馬桶漏水的問題。',
 '打手槍的話題也被提及，讓聽眾感受到宿舍生活的真實與幽默。',
 '整集節目充滿了輕鬆的氛圍，讓新生們對宿舍生活有更深入的了解。']

In [20]:
ground_truth = generate_ground_truth(df)

Processing episodes:   1%|█▊                                                                                                                                                                  | 5/444 [00:19<26:20,  3.60s/it]

Skipping episode 6 - No summary available
Skipping episode 7 - No summary available
Skipping episode 8 - No summary available
Skipping episode 9 - No summary available
Skipping episode 10 - No summary available
Skipping episode 11 - No summary available
Skipping episode 12 - No summary available
Skipping episode 13 - No summary available


Processing episodes:  14%|███████████████████████▏                                                                                                                                           | 63/444 [03:33<23:41,  3.73s/it]

Skipping episode 64 - No summary available


Processing episodes:  33%|████████████████████████████████████████████████████▉                                                                                                             | 145/444 [08:44<21:13,  4.26s/it]

Skipping episode 146 - No summary available


Processing episodes:  50%|████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 221/444 [13:15<14:02,  3.78s/it]

Skipping episode 222 - No summary available


Processing episodes:  51%|██████████████████████████████████████████████████████████████████████████████████                                                                                | 225/444 [13:30<15:51,  4.34s/it]

Skipping episode 226 - No summary available


Processing episodes:  51%|███████████████████████████████████████████████████████████████████████████████████▏                                                                              | 228/444 [13:38<13:09,  3.65s/it]

Skipping episode 229 - No summary available


Processing episodes:  56%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 250/444 [15:03<14:08,  4.38s/it]

Skipping episode 251 - No summary available


Processing episodes:  59%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 262/444 [15:45<10:07,  3.34s/it]

Skipping episode 263 - No summary available


Processing episodes:  60%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 268/444 [16:01<08:42,  2.97s/it]

Skipping episode 269 - No summary available


Processing episodes:  61%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 270/444 [16:03<06:30,  2.24s/it]

Skipping episode 271 - No summary available


Processing episodes:  62%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 275/444 [16:19<08:45,  3.11s/it]

Skipping episode 276 - No summary available


Processing episodes:  64%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 283/444 [16:49<11:09,  4.16s/it]

Skipping episode 284 - No summary available


Processing episodes:  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 300/444 [17:51<10:13,  4.26s/it]

Skipping episode 301 - No summary available


Processing episodes:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 320/444 [18:55<06:20,  3.07s/it]

Skipping episode 321 - No summary available


Processing episodes:  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 325/444 [19:16<08:11,  4.13s/it]

Skipping episode 326 - No summary available


Processing episodes:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 361/444 [21:37<05:02,  3.64s/it]

Skipping episode 362 - No summary available


Processing episodes:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 364/444 [21:44<03:49,  2.87s/it]

Skipping episode 365 - No summary available


Processing episodes:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 375/444 [22:19<03:53,  3.38s/it]

Skipping episode 376 - No summary available


Processing episodes:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 385/444 [22:54<03:20,  3.40s/it]

Skipping episode 386 - No summary available


Processing episodes:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 400/444 [23:47<02:52,  3.91s/it]

Skipping episode 401 - No summary available
Skipping episode 402 - No summary available
Skipping episode 403 - No summary available


Processing episodes:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 404/444 [23:50<01:19,  1.98s/it]

Skipping episode 405 - No summary available
Skipping episode 406 - No summary available


Processing episodes:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 407/444 [23:55<01:06,  1.81s/it]

Skipping episode 408 - No summary available


Processing episodes: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 442/444 [26:24<00:07,  3.98s/it]

Skipping episode 443 - No summary available


Processing episodes: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 444/444 [26:27<00:00,  3.58s/it]

Ground truth data generated and saved to podcast_ground_truth.json





In [21]:
ground_truth['400']

{'sentence': ['這集節目聊到了一個很有趣的話題，就是內衣的選擇和穿著。',
  '主持人分享了他們對於內衣品牌的看法，還有一些搞笑的經歷。',
  '有聽眾提到過去穿錯內衣的尷尬故事，讓大家都忍不住笑了。',
  '這集也探討了內衣對於自信心的影響，真的很值得思考。',
  '最後，主持人還給了大家一些選擇內衣的小建議，讓人聽了很有收穫。']}