# Trending Video Transformation Script

## Dynamic Daily Data Ingestion & CSV Joining ##


In [0]:
from datetime import datetime

# Make path dynamic to only transform the data from the current day's ingestion
date = '2025-04-01' #datetime.today().strftime('%Y-%m-%d')
path = f"abfss://raw_container_placeholder@datalake_placeholder.dfs.core.windows.net/{date}_Trending_Videos"

# Error Handeling for if today's data failed to be ingested and path doesn't exist
try:
    dbutils.fs.ls(path)
    # Only reading from the parent folder joins all the countries together into one large data frame
    df = spark.read.format("csv").option("header", True).option("inferSchema", True).load(path)
except Exception as e:
    #print(f"No Data for {date}, skipping ingestion. Terminating the Notebook")

    # Stop execution of the notebook
    dbutils.notebook.exit(f"ERROR: Missing Data {date} - Notebook Terminated")

## Data Transformations ##


##### Category Name Column - Leveraging Dictionary to Map Category ID with its respective name for Analysis #####
##### Country Name Column - Leveraging Dictionary to Map Country Code with its respective name for Analysis #####
##### Upload Date Column - Truncating Date Time Column to Just a Date Column #####
##### Video Engagment Statistic Columns - Video Metadata to Understand Engagement's Influence on Trending Status #####
##### Description Column - Limiting Character Output of Description Column to Resolve Synapse Analytics Errors #####
##### Video Duration Column - Updating Format of Video Duration to be in Minutes Format #####

In [0]:
from pyspark.sql.functions import udf, to_date, col, when, round, regexp_extract, coalesce, lit

# Category ID is a number, we need to map that number to the respective category for dashboard analytics
category_dict = {
    1: "Film & Animation",
    2: "Autos & Vehicles",
    10: "Music",
    15: "Pets & Animals",
    17: "Sports",
    18: "Short Movies",
    19: "Travel & Events",
    20: "Gaming",
    21: "Videoblogging",
    22: "People & Blogs",
    23: "Comedy",
    24: "Entertainment",
    25: "News & Politics",
    26: "Howto & Style",
    27: "Education",
    28: "Science & Technology",
    29: "Nonprofits & Activism",
    30: "Movies",
    31: "Anime/Animation",
    32: "Action/Adventure",
    33: "Classics",
    34: "Comedy",
    35: "Documentary",
    36: "Drama",
    37: "Family",
    38: "Foreign",
    39: "Horror",
    40: "Sci-Fi/Fantasy",
    41: "Thriller",
    42: "Shorts",
    43: "Shows",
    44: "Trailers"
}

# Country Code is an Abbreviation, we need to map that code to Full Country Name
countries_dict = {
    "IN": "India",
    "US": "United States",
    "BR": "Brazil",
    "ID": "Indonesia",
    "MX": "Mexico",
    "JP": "Japan",
    "DE": "Germany",
    "GB": "United Kingdom",
    "FR": "France",
    "KR": "South Korea"
}

# Method to handle the category mapping and country mapping creating udfs to use Python logic with PySpark
def map_category(category_id):
    return category_dict.get(category_id, "N/A")
map_category_udf = udf(map_category)

def map_country(country_code):
    return countries_dict.get(country_code, "N/A")
map_country_udf = udf(map_country)

# Cleaning / Adding columns to the dataframe
df_transformed = df.withColumn("CATEGORY_NAME", map_category_udf(col("CATEGORY_ID"))) \
                   .withColumn("UPLOAD_DATE", to_date(col("PUBLISHED_AT"), "yyyy-MM-dd")) \
                   .withColumn("DESCRIPTION", col("DESCRIPTION").substr(1, 2000)) \
                   .withColumn("COUNTRY_NAME", map_country_udf(col("COUNTRY_CODE"))) \
                   .withColumn("LIKE_TO_VIEW_RATIO", round((col("LIKE_COUNT") / col("VIEW_COUNT") * 100), 2)) \
                   .withColumn("COMMENT_TO_VIEW_RATIO", round((col("COMMENT_COUNT") / col("VIEW_COUNT") * 100), 2)) \
                   .withColumn("LIKE_TO_COMMENT_RATIO", when(col("COMMENT_COUNT") > 0, round((col("LIKE_COUNT") / col("COMMENT_COUNT")), 2)).otherwise(0)) \
                   .withColumn("VIDEO_DURATION_IN_MINUTES", round(
                        (coalesce(regexp_extract(col("DURATION"), r"(\d+)H", 1).cast("int"), lit(0)) * 60) + 
                        (coalesce(regexp_extract(col("DURATION"), r"(\d+)M", 1).cast("int"), lit(0))) + 
                        (coalesce(regexp_extract(col("DURATION"), r"(\d+)S", 1).cast("int"), lit(0)) / 60.0)
                   , 2))

# Replace null values (if any) with 0 for hours, minutes, or seconds
df_transformed = df_transformed.fillna({"VIDEO_DURATION_IN_MINUTES": 0})

# Drop the original TIME_DURATION column
df_transformed = df_transformed.drop("DURATION")                   

df_transformed.display()                   

VIDEO_ID,TITLE,CHANNEL_TITLE,CHANNEL_ID,PUBLISHED_AT,DESCRIPTION,TAGS,CATEGORY_ID,VIEW_COUNT,LIKE_COUNT,COMMENT_COUNT,TRENDING_DATE,TRENDING_DATE_RANK,COUNTRY_CODE,CATEGORY_NAME,UPLOAD_DATE,COUNTRY_NAME,LIKE_TO_VIEW_RATIO,COMMENT_TO_VIEW_RATIO,LIKE_TO_COMMENT_RATIO,VIDEO_DURATION_IN_MINUTES
RkPj6AnKm0Y,NiziU(니쥬) LOVE LINE (운명선) M/V,JYP Entertainment,UCaO6TYtlC8U5ttz62hTrZgg,2025-03-31T09:00:02Z,NiziU(니쥬) LOVE LINE (운명선) M/V 2025.03.31 MON 6PM (KST) Release 📌Listen to LOVE LINE https://niziu.lnk.to/LOVELINE NiziU Official Homepage: https://niziu.com/ NiziU Official YouTube: https://www.youtube.com/@NiziUOfficial NiziU Official Facebook: https://www.facebook.com/NiziUinfoofficial/ NiziU Official Twitter: https://twitter.com/NiziU__official NiziU Official Instagram: https://www.instagram.com/niziu_info_official/ NiziU Official Artist Instagram: https://www.instagram.com/niziu_artist_official/ NiziU Official TikTok: https://www.tiktok.com/@niziu_official NiziU Official FANCLUB “WithU”: https://fc.niziu.com NiziU Official FANCLUB “WithU MOBILE”: https://m.niziu.com #NiziU #니쥬 #LOVELINE #NiziU_LOVELINE #NiziU_Korea_Comeback #니쥬한국컴백 Copyrights 2025 ⓒ JYP Entertainment. All Rights Reserved.,JYP Entertainment | JYP | Make you happy | Step and a step | Sony | JYP nation | MV | M/V | 니쥬 | needyou | ニジュー | NiziU | 마야 | 마코 | 리마 | 리오 | 미이히 | 마유카 | 아야카 | 니나 | 리쿠 | maya | mako | rima | miihi | mayuka | rio | ayaka | nina | riku | アイドル | マヤ | マコ | リマ | リオ | ミイヒ | マユカ | アヤか | ニナ | リク | JYPさん | girl group | k-pop | j-pop | Press Play | NiziU Press Play | NiziU Korea Debut | NiziU Single Album | 1st Korea Single Album | 니쥬 한국 데뷔 | NiziU Comeback | HEARTRIS | 니쥬 러브라인 | NiziU LOVE LINE | 니쥬 한국 | 니쥬 한국컴백 | NiziU 러브라인 | NiziU Korea Comeback | 니쥬 트레일러 | 니쥬 티저 | NiziU Trailer,10,2732387,68977,14432,2025-04-01,1,JP,Music,2025-03-31,Japan,2.52,0.53,4.78,3.45
JbPHJKQtWbI,BE:FIRST / Blissful -from D.U.N.K. Showcase in K-Arena Yokohama-,BE:FIRST Official,UCi_AquB9uaI3-9xXkuWG7IQ,2025-03-31T13:00:31Z,BE:FIRST 2025/5/28（水）発売ニューシングル「GRIT」LIVE盤に D.U.N.K. Showcase in K-Arena Yokohama「Blissful」含む BE:FIRSTのLIVEの模様を収録！ ▼BE:FIRST 7th Single “GRIT” 2025.5.28 On Sale https://befirst.tokyo/news/grit/ https://befirst.lnk.to/GRIT ▼BE:FIRST / Blissful - Music Video - https://www.youtube.com/watch?v=ZMcNU2hfD_M ▼BE:FIRST 2nd Album “2:BE” https://befirst-sp.com/2BE/ Now On Sale https://befirst.lnk.to/2BE ▼Streaming & Download https://BEFIRST.lnk.to/2_BE ▼BE:FIRST World Tour - Who is BE:FIRST? - https://befirst.tokyo/tour/worldtour2025/ ▼BE:FIRST / Music Video - Playlist - https://www.youtube.com/playlist?list=PLbnrvWONK6FdEWKeXArhrUMu53Xb7ruxl ▼BE:FIRST / Streaming https://befirst.lnk.to/Streaming ＜BE:FIRST PROFILE＞ SKY-HI率いるBMSGに所属する、SOTA、SHUNTO、MANATO、RYUHEI、JUNON、RYOKI、LEOの7人組ダンス＆ボーカルグループ。それぞれが歌・ダンス・ラップに対して高いクオリティとポテンシャルを持っているのと同時に、作詞・作曲・コレオグラフにまで発揮される音楽的感度の高さ、そして七者七様の個性を持った華やかさが魅力。「BE:FIRST」と名付けられたこの7人組は、プレデビューから日本の各種チャートの1位を席巻。ここからアジア、そして世界へと向けて偉大なる最初の一歩目を踏み出す。2024年12月から4都市9公演を回る自身初のドームツアー「BE:FIRST DOME TOUR 2024-2025 2:BE 」を開催。さらに2025年4月からアメリカ・アジア・ヨーロッパの全15都市を回る自身初となるワールドツアー『BE:FIRST World Tour - Who is BE:FIRST? -』の開催が決定。 ＜BE:FIRST SNS＞ Official Website：https://befirst.tokyo/ X : https://twitter.com/BEFIRSTofficial X (global): https://twitter.com/BEFIRST_global Instagram : https://www.instagram.com/befirst__official/ Facebook : https://www.facebook.com/BEFIRSTofficial TikTok : https://www.tiktok.com/@befirst_official YouTube Channel : https://www.youtube.com/c/BEFIRSTOfficial LINE : https://page.line.me/befirst ＜BMSG SNS＞ Official Website：https://bmsg.tokyo/ X：https://twitter.com/BMSG_official Instagram : https://www.instagram.com/bmsg_official/ YouTube Channel：https://www.youtube.com/c/BMSG_official #BEFIRST #BF_Blissful #D_U_N_K_ #BMSG #BME #BESTY #BEFIRSTXBESTY,SKY-HI | スカイハイ | すかいはい | 日高 | ヒダカ | ひだか | 日高光啓 | AAA | トリプルエー | すっきり | ｽｯｷﾘ | sukkkiri | THEFIRST | ザファースト | ｻﾞﾌｧｰｽﾄ | ざふぁーすと | BMSG | ビーエムエスジー | ﾋﾞｰｴﾑｴｽｼﾞｰ | びーえむえすじー | ボーイズグループオーディション | ざすと | ザスト | ｻﾞｽﾄ | BEFIRST | ﾋﾞｰｽﾄ | ボーイズグループ | ﾎﾞｰｲｽﾞｸﾞﾙｰﾌﾟ | Boysgroup | BE:FIRST | JUNON | RYUHEI | LEO | SOTA | RYOKI | MANATO | SHUNTO | ジュノン | ｼﾞｭﾉﾝ | リュウヘイ | ﾘｭｳﾍｲ | レオ | ソウタ | ﾚｵ | ｿｳﾀ | リョウキ | ﾘｮｳｷ | マナト | ﾏﾅﾄ | シュント | ｼｭﾝﾄ | BESTY,10,219367,22326,1099,2025-04-01,2,JP,Music,2025-03-31,Japan,10.18,0.5,20.31,4.7
r0ZCelX7vQ0,【 歌ってみた 】ヴィラン / 伊波ライ,伊波ライ / Inami Rai【にじさんじ】,UCz89MGFBrAqwJ5xMr5weSuA,2025-03-31T15:00:06Z,"ハッピーエイプリルフール。 で？ Original : https://www.youtube.com/watch?v=p9FJXfGHtDA MIX : さんかくずわり 様 https://x.com/Sankaku_Mix Illustration, Movie : めいじ卍丸†様 https://x.com/me_ji_V Vocal : 伊波ライ 敵 @InamiRai https://x.com/rai_173 ＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿ にじさんじ所属！みんなのスーパーヒーロー、伊波ライです！ 楽しんでいってね～！ YouTube：https://www.youtube.com/channel/UCz89MGFBrAqwJ5xMr5weSuA Twitter：https://twitter.com/rai_173 💡メンバーシップ『伊波すたじお』について 入会はこちらから☟ https://www.youtube.com/channel/UCz89MGFBrAqwJ5xMr5weSuA ・オリジナルのスタンプが使えるようになります！ ・名前の横に継続期間でレベルが上がるバッジが付きます！ ・不定期でメンバー限定配信を行います！ 歌やギターの練習、映画の同時視聴などいろいろやる予定です！ 💡配信のルール ・同じ内容のコメントを連投しないでください！ ・他の配信者、リスナーさんが不快になるようなコメントはしないでください！ ・伝書鳩は禁止！ ・ルールを守って楽しく配信ッ！ 💡新着ボイス・グッズ情報 ・ホワイトデー2025ボイス https://shop.nijisanji.jp/dig-00061_A.html ・束縛ボイス https://shop.nijisanji.jp/dig-00062_A.html ・ウェルカムグッズ＆ボイス https://shop.nijisanji.jp/s/niji/item/detail/SSZS-22851?ima=0327 https://shop.nijisanji.jp/s/niji/item/detail/dig-01260?ima=0327 💡各種情報・URLなど にじさんじbooth：https://nijisanji.booth.pm/ にじさんじオフィシャルストア：https://shop.nijisanji.jp/ にじさんじ公式HP：https://www.nijisanji.jp/ お問合せ：https://www.nijisanji.jp/contact/ ※未成年者の視聴者の方々は、下記リンク先の注意事項もご覧ください。 https://www.anycolor.co.jp/notice-for-minors",にじさんじ | 伊波ライ | Vtuber | 新人Vtuber | 切り抜き | nijisanji | ヴィラン | 歌ってみた | MECHATU-A | Dytica,20,368346,54259,1670,2025-04-01,3,JP,Gaming,2025-03-31,Japan,14.73,0.45,32.49,3.37
zqzOetGlSlM,中居氏問題の調査結果を報告 フジテレビ第三者委員会が会見（2025年3月31日）,THE PAGE（ザ・ページ）,UC8XBizOfQBLUrUcv_9DHCog,2025-03-31T10:22:58Z,元タレントの中居正広さんの女性トラブルにフジテレビ社員の関与が報じられた問題で、一連の調査を行っている第三者委員会は31日午後5時から記者会見を行う。同委員会は、会見前に調査報告書をフジ・メディア・ホールディングスとフジテレビの取締役会に提出している。 報告を受け、フジテレビの清水賢治社長も同日午後7時から記者会見を行う予定。 ※中継内容等は予告なく変更になる場合がございます。予めご了承ください。 ■チャンネル登録：https://yahoo.jp/zaoidV ■THE PAGEの記事一覧：https://yahoo.jp/A5sxYP ■Yahoo!ニュース オリジナル：https://yahoo.jp/7a5omo #thepage_jp #記者会見 #フジテレビ,ニュース | UC8XBizOfQBLUrUcv_9DHCog | THE PAGE（ザ・ページ） | 気になるニュースをわかりやすく | ヤフー | Yahoo!,25,449626,1237,327,2025-04-01,4,JP,News & Politics,2025-03-31,Japan,0.28,0.07,3.78,137.93
88GkYKvnvvI,izna 'SIGN' MV,izna (이즈나),UCfbYNlxgLuKJXQZEhkMmaCQ,2025-03-31T08:58:07Z,izna Digital Single 'SIGN' OUT NOW! More about izna https://lnkfi.re/izna #izna #이즈나 #SIGN #izna_SIGN,izna | 이즈나 | WAKEONE | 웨이크원 | 걸그룹 | 아이돌 | IDOL | Kpop | 케이팝 | I LAND | 아이랜드,22,8562395,115126,9937,2025-04-01,5,JP,People & Blogs,2025-03-31,Japan,1.34,0.12,11.59,3.17
udQ-MPjBF9E,フジテレビ第三者委員会の報告書について解説します,堀江貴文 ホリエモン,UCXjTiSGclQLVVU83GVrRM4w,2025-03-31T09:32:55Z,調査報告書 https://www.fujitv.co.jp/company/news/250331_3.pdf 【緊急対談】「フジテレビに上納文化はあります」 日枝久が作った“歪な構造”を元フジアナウンサー・長谷川豊が猛烈批判 https://youtu.be/V7xXAJ7upeQ ライブドア事件の真相とは…テレビ局が腐敗した原因は放送法に守られた環境？【下山進×堀江貴文】(前編) https://youtu.be/RFze0ctPGf8 サブスクリプションモデルが遅れた日本…今のフジテレビを再建するアイデアとは？【下山進×堀江貴文】(後編) https://youtu.be/Tsp_DoPv0-Q *◆メルマガ* 『HORIEMON Newsletter』 最新ニュース解説を毎日無料で発行！ ▶ https://horiemon.media/register/ 『ホリエモン公式メルマガ』 YouTubeにはない情報も盛り沢山で配信中！ ▶ https://zeroichi.media/with/1242 *◆オンラインサロン* 『堀江貴文イノベーション大学校(HIU)』 メンバー募集中！ ▶ https://lounge.dmm.com/detail/87/ 『neoHIU』 ビジネス系に特化した起業家向けのSlack使用オンラインサロン！ ▶ https://lounge.dmm.com/detail/6218/ *◆メディア* 『ZATSUDAN』 様々なフィールドで活躍するプロフェッショナル達の雑談を配信！ 2週間の無料トライアル中！ ▶ https://zatsudan.com/ 『OPENREC』 メルマガ付き！HIUイベントでの対談 会員限定で30分お試し視聴可能！ ▶ https://www.openrec.tv/user/horiemon_ *◆Wi-Fi* 『ホリエのWi-Fi』 本体実質無料+国内3キャリア実質使い放題+海外151ヶ国利用可！ ▶ https://horienowifi.jp/ ※ホリエのWi-Fiやコラボモバイルを販売する加盟店募集中！ ▶ https://www.youtube.com/watch?v=xsCDUS7fQ38 *◆おすすめ書籍* ホリエモン演歌デビュー曲「チョメチョメ」CD ▶ https://amzn.to/4hr8QBS 多動力 (NewsPicks Book) (幻冬舎文庫) ▶ https://amzn.to/2HNvlSv いつまで英語から逃げてるの？ 英語の多動力New Version 君の未来を変える英語のはなし ▶︎https://amzn.to/4guHNWX ゼロ―――なにもない自分に小さなイチを足していく（ダイヤモンド社） ▶ https://amzn.to/2VHSx9J *◆堀江貴文SNS* X : https://twitter.com/takapon_jp Instagram : https://www.instagram.com/takapon_jp/ TikTok : https://www.tiktok.com/@takafumi_horie 運営：SNS media&consulting 株式会社 https://snsmandc.jp,堀江貴文 | ホリエモン | 堀江 | 貴文 | Takafumi | Horie,25,745712,8823,1086,2025-04-01,6,JP,News & Politics,2025-03-31,Japan,1.18,0.15,8.12,11.42
9VXHEGlkgac,2025-26｜新アンバサダー発表！！,ファミクラストアChannel,UCVwVSRV0XZ6CdUlk67_oG9g,2025-03-31T15:00:06Z,新年度のアンバサダーを発表！！ WEST.からバトンを受け継ぎ、本日から１年間活動していきます！！ 各店舗での展示やグッズ販売、動画コンテンツも企画中！ 今後の発表をお楽しみに！ Together with your happiness. 【ファミクラストア アンバサダー特設サイト】 https://famikura-store.jp/s/j/page/ambassador 【ファミクラストア公式サイト】 https://famikura-store.jp 【ファミクラストア オンライン】 https://famikura-store.jp/s/j/page/top 【ファミクラストア店舗ページ】 https://famikura-store.jp/s/ticket 【ファミクラストア公式X】 https://x.com/MerchCompany_jp ※情報は公開時点のものとなります。,,24,254455,15200,598,2025-04-01,7,JP,Entertainment,2025-03-31,Japan,5.97,0.24,25.42,10.03
Iw4hGdPWUgs,【勝利の女神：NIKKE】劇場版『FINAL BATTLE』先行上映動画,勝利の女神:NIKKE,UCvi81mltkpbF2UEvC_e864g,2025-03-31T14:59:06Z,勝利の女神たちが再び集結！ ラプチャーとの戦いが、いよいよ最終局面へ。 彼女たちと肩を並べて戦うのは… 「メカシフティーは伊達じゃない」 NIKKE劇場版『FINAL BATTLE』は、4月1日公開！ ◆監督 シフティー（『FULL FOOL DAY』『DEAD SPICY』など受賞歴多数） ◆出演 シフティー …… シフティー ドロシー …… ドロシー（『OVER ZONE』でDoscar Awards最優秀女優賞受賞） スノーホワイト …… スノーホワイト（有名グルメ評論家） 紅蓮 …… 紅蓮（著名な剣戟スター＆田園芸術家） ◆特別出演 トーカティブ …… トーカティブ ニヒリスター …… ニヒリスター マザーホエール …… マザーホエール ベヒモス…… ベヒモス DORO …… DORO（Doscar Awards創設者・最大スポンサー） テレビ …… テレビ（レトロモデル） 花瓶 …… 花瓶 テーブルランプ …… テーブルランプ ◆制作 SU Entertainment Doscar Awards ノミネート作品,,20,214944,12621,740,2025-04-01,8,JP,Gaming,2025-03-31,Japan,5.87,0.34,17.06,1.72
-BhIzqm4H4o,【学マス】花海 佑芽 誕生日記念Single「つよつよ最強エクササイズ」- Game Sizeリリックビデオ CD予約受付中！【アイドルマスター】,アイドルマスターチャンネル,UCe3uJZIjfYwNNR0S6W3GvEA,2025-03-31T15:00:06Z,『花海佑芽誕生日記念セット』アソビストアにて受注受付中！ 購入ページ：https://shop.asobistore.jp/products/detail/217563-00-00-00 受注期間：2025 年 3 月 27 日（木）～2025 年 4 月 13 日（日） 商品詳細： ＜花海佑芽 誕生日記念セット＞ ・学園アイドルマスター花海佑芽 CD「つよつよ最強エクササイズ」 ・学園アイドルマスター花海佑芽 アクリルキーホルダー ・学園アイドルマスター花海佑芽 缶バッジ ・学園アイドルマスター花海佑芽 アクリルパネル ------------------------------ Credits. ▶キャラクター原案 へちま ▶Music 歌：花海佑芽 (CV. 松田 彩音) 作詞：坪井リヒト（Bandai Namco Studio Inc.） 作曲：坪井リヒト・佐藤貴文（Bandai Namco Studio Inc.） 編曲：坪井リヒト（Bandai Namco Studio Inc.） Bass：HIROTOMO Guitar：後藤貴徳 Mixing Engineer：白井康裕（SoundCity） Sound Director for Instrument Recorded by 早川博隆 ▶Movie Director：YCM Composite：ATSUGANI&Riesz Live2D：HOSHIMIYA MIZUKI Rap lyric design：CON Background artist & Illustrator：noncom ------------------------------ Music Label：ASOBINOTES MV Producer：子川拓哉 ------------------------------ 「学マス」で検索！ ▶学マスアプリの DL はこちら！ https://app.adjust.com/19512hnz THE IDOLM@STER™& ©Bandai Namco Entertainment Inc. Ⓟ2024 Bandai Namco Entertainment Inc. #学マス #初星学園 #ASOBINOTES ◆アイドルマスターチャンネルとは？ 「YouTubeでプロデュースがもっと楽しくなる！ すべての「アイドルマスター」プロデューサーさんたちの集う場所。」を掲げ、 プロデューサーさんたちのプロデュース活動を推進できるようなコンテンツをお届けしていきます！ = = = = = = = = = = = 【アイドルマスターチャンネル公式SNS】 https://twitter.com/imas_ch 【アイドルマスター公式SNS】 https://twitter.com/imas_official 【シリーズポータルサイトはこちら】 https://idolmaster-official.jp/ 【アイドルマスター関連グッズ情報はこちらから！- アソビストア】 https://asobistore.jp/content/title/Idolmaster/index.html?_ga=2.105249925.789267441.1715745345-1479269034.1691397623&_gl=1*rinms9*_ga*MTQ3OTI2OTAzNC4xNjkxMzk3NjIz*_ga_496M962MBZ*MTcxNTc1NDgyNy41NzguMS4xNzE1NzU0ODcwLjAuMC4w = = = = = = = = = = = #アイマスch,アイドルマスター | アイマス | バンダイナムコ | IDOLM@STER | idolmaster | imas | 学園 | 学マス | 学園アイドルマスター | 佑芽 | 花海佑芽,20,276864,13990,726,2025-04-01,9,JP,Gaming,2025-03-31,Japan,5.05,0.26,19.27,2.4
IcR8DAQsx6A,リサイクルショップで掘り出し物を探せ！30年前の○○を購入！,べりたんで検索お願いします,UC1xd0cAOryAMTTG34joEgdg,2025-03-31T12:00:06Z,撮影協力：エレクトリックマーケット 岡崎店 〒444-0903 愛知県岡崎市東大友町松花８２−１ 東海オンエアてつやの個人チャンネル 【べりたんで検索お願いします】へようこそ。 サブチャンネルにもならない程度のクソ動画を垂れ流していくチャンネルです。 一切の期待と低評価を禁じます。 チャンネル登録よろしくお願いします。 東海オンエア メインチャンネル https://www.youtube.com/user/TokaiOnAir 東海オンエア サブチャンネル「東海オンエアの控え室」 https://www.youtube.com/user/TokaiHikaesitsu 【てつやのTwitter】 https://twitter.com/TO_TETSUYA 【てつやのInstagram】 https://www.instagram.com/to_tetsuya,,24,237369,2808,265,2025-04-01,10,JP,Entertainment,2025-03-31,Japan,1.18,0.11,10.6,15.35


## Pushing Transformed data to Transformed Layer ##

#### Creating Transformed File For Today's Ingested Data ####


In [0]:
# Merge Partioned Files Into a Single CSV and Clean Up Metadata 
df_transformed.coalesce(1).write.format('csv').mode('overwrite').option("header", True).option("path", f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/{date}_Trending_Videos").save()


# Find all files that aren't the csv and remove for clean up
files = dbutils.fs.ls(f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/{date}_Trending_Videos")

# Identify the actual CSV file so we can rename with a more clear description
csv_file = [f.path for f in files if f.name.startswith("part-") and f.name.endswith(".csv")][0]
new_csv_path = f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/{date}_Trending_Videos/{date}_Trending_Videos.csv"
dbutils.fs.mv(csv_file, new_csv_path)

# Remove all metadata files create by spark and keep only renamed csv file
for f in files:
    if not f.name.endswith(".csv"): 
        dbutils.fs.rm(f.path)


#### Adding Transformed Data to Historical Dataset ####


In [0]:
# Define Historical Dataset Path and create if it doesn’t exist
historical_path = "abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/Historical_Data/Historical_Trending_Videos.csv"

try:
    df_historical = spark.read.format("csv").option("header", True).load(historical_path)
except Exception as e:
    df_historical = None  # Set to None if it doesn’t exist


# Load today's data from the previous clean up task
today_path = f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/{date}_Trending_Videos/{date}_Trending_Videos.csv"
df_today = spark.read.format("csv").option("header", True).load(today_path)

# Append Historical and Today's dataframe together 
if df_historical is not None:
    df_historical = df_historical.unionByName(df_today)
else:
    df_historical = df_today

# Overwrite previous Historical Dataset with New Dataset Containing Today's Data
df_historical.coalesce(1).write.format("csv").mode("overwrite").option("header", True).option("path", "abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/Historical_Data").save()

#Perform Same Clean Up to Remove Metadata Files from Storage
files = dbutils.fs.ls(f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/Historical_Data")

# Identify the actual CSV file so we can rename with a more clear description
csv_file = [f.path for f in files if f.name.startswith("part-") and f.name.endswith(".csv")][0]
new_csv_path = f"abfss://transformed_container_placeholder@datalake_placeholder.dfs.core.windows.net/Historical_Data/Historical_Trending_Videos.csv"
dbutils.fs.mv(csv_file, new_csv_path)

# Remove all metadata files create by spark and keep only renamed csv file
for f in files:
    if not f.name.endswith(".csv"): 
        dbutils.fs.rm(f.path)
