In [7]:
import os
import pandas as pd
import sys

# adding the parent directory to the Python path
sys.path.append(os.path.abspath(".."))

from config import (
    TRANSFORMED_DATA_PATH,
    EPISODE_DESCRIPTION_PATH,
    DESCRIPTION_VAR_RENAME_DICT,
    METADATA_COLUMNS,
)

In [15]:
TRANSFORMED_DATA_PATH = "..\data\podcast_data_transformed.parquet"
EPISODE_DESCRIPTION_PATH = "..\data\episode_descriptions.parquet"

In [23]:
# loading the transformed data
transformed_df = pd.read_parquet(TRANSFORMED_DATA_PATH)
prd_set = set(transformed_df["prd_number"])
print(f"Number of unique prd_number in transformed_df: {len(prd_set)}")

# loading the episode description data
descr_df = pd.read_parquet(EPISODE_DESCRIPTION_PATH)

# renaming the columns
descr_df = descr_df.rename(columns=DESCRIPTION_VAR_RENAME_DICT)

# converting the prd_number column to string type
descr_df["prd_number"] = descr_df["prd_number"].astype(str)

# left joining the descr_df onto the transformed_df on the prd_number column
transformed_df_w_descr = pd.merge(transformed_df, descr_df, on="prd_number", how="left")

# grouping by prd_number and selecting metadata columns
metadata_df = transformed_df_w_descr.groupby("prd_number").agg(METADATA_COLUMNS).reset_index()

metadata_df


Number of unique prd_number in transformed_df: 22596


Unnamed: 0,prd_number,series_title,unique_title,pub_date,episode_duration,genre,branding_channel,mother_channel,category,episode_description
0,11031452026,Radiofortællinger,Radiofortællinger: Lykkelige ulykker_11031452026,2020-03-21,1604,-,DR P1,-,Oplysning og kultur,Hvordan er det at se hele ens professionelle l...
1,11031452036,Radiofortællinger,Radiofortællinger: Kunsten at vælge et andet m...,2018-08-21,1621,-,DR P1,-,Oplysning og kultur,Alle mennesker må på et eller andet tidspunkt ...
2,11031452096,Radiofortællinger,Radiofortællinger: Ved grænsen til stalking_11...,2024-11-20,1623,Fakta og debat,DR P1,DR P1,Oplysning og kultur,Sandra Virginia Bereza har været tæt på grænse...
3,11031452116,Radiofortællinger,Radiofortællinger: Ind og ud af troen_11031452116,2024-09-30,1626,Fakta og debat,DR P1,DR P1,Oplysning og kultur,"På trods af sin unge alder, 19 år, har Asta al..."
4,11031452216,Radiofortællinger,Radiofortællinger: Flyskræk_11031452216,2024-06-06,1626,Fakta og debat,DR P1,DR P1,Oplysning og kultur,Er du bange for at flyve? Du er ikke den enest...
...,...,...,...,...,...,...,...,...,...,...
22591,19388840409,-,Krop og bevægelse_19388840409,2015-09-09,569,,,,Præsentation og services,"- med Inge Gotved,\nMargit Riis-Vestergaard og..."
22592,19388840410,-,Krop og bevægelse_19388840410,2018-10-13,563,,,,Præsentation og services,"- med Inge Gotved,\nMargit Riis-Vestergaard og..."
22593,19388840411,-,Krop og bevægelse_19388840411,2018-09-30,571,,,,Præsentation og services,"- med Inge Gotved,\nMargit Riis-Vestergaard og..."
22594,19388840412,-,Krop og bevægelse_19388840412,2018-11-16,566,,,,Præsentation og services,"- med Inge Gotved,\nMargit Riis-Vestergaard og..."
