In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
import pandas as pd

In [None]:
# 파일 경로
csv_files = [
    "/content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv",
    "/content/drive/MyDrive/Github/csv_files/blues_songs.csv",
    "/content/drive/MyDrive/Github/csv_files/dance_songs(csv_googleSheet).csv",
    "/content/drive/MyDrive/Github/csv_files/indept_songs.csv",
    "/content/drive/MyDrive/Github/csv_files/r&b_songs.csv",
    "/content/drive/MyDrive/Github/csv_files/raphiphop_songs.csv",
    "/content/drive/MyDrive/Github/csv_files/rockmet_songs.csv",
    "/content/drive/MyDrive/Github/csv_files/trot_songs.csv"
]

In [16]:
# 각 파일에서 songid와 title을 추출
song_info = {file: pd.read_csv(file)[["SongID", "Title"]] for file in csv_files}

# 겹치는 songid와 해당 title 확인
overlap_info = {}

for file1, df1 in song_info.items():
    for file2, df2 in song_info.items():
        if file1 != file2:
            overlap_ids = set(df1["SongID"]).intersection(set(df2["SongID"]))
            if overlap_ids:
                for oid in overlap_ids:
                    title1 = df1[df1["SongID"] == oid]["Title"].values[0]
                    title2 = df2[df2["SongID"] == oid]["Title"].values[0]
                    overlap_info.setdefault(oid, {}).setdefault("files", []).extend([file1, file2])
                    overlap_info[oid].setdefault("titles", []).extend([title1, title2])

# 겹치는 songid, 해당 파일, 그리고 title 출력
for songid, data in overlap_info.items():
    print(f"SongID {songid} overlaps in files: {', '.join(data['files'])}")
    print(f"Titles: {', '.join(set(data['titles']))}")


SongID 35958308 overlaps in files: /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv
Titles: 그댄 행복에 살텐데 (2022)
SongID 35252996 overlaps in files: /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv
Titles: 해요 (2022)
SongID 36481254 overlaps in files: /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/indept_songs.csv, /content/drive/MyDrive/Github/csv_files/ballad_songs(csv_googleSheet).csv
Titles: 찬란한 하루
SongID 32224166 overlaps in files: /conte

In [19]:
# 좋아요 수, 댓글 수 number type으로 변환
def clean_number(x):
    return int(x.replace(',', '').replace('개', '').strip())

In [37]:
# 파일 로드 및 초기 전처리
all_data = []
for file in csv_files:
    df = pd.read_csv(file)
    df['Likes'] = df['Likes'].apply(clean_number) # number type으로 변환
    df['CommentsCount'] = df['CommentsCount'].apply(clean_number) # number type으로 변환
    all_data.append(df)

# 모든 데이터프레임을 하나로 합치기
combined = pd.concat(all_data, ignore_index=True)

In [38]:
# 일단 모든 데이터 병합
combined

Unnamed: 0,SongID,Title,Rank,Singer,Album,Likes,ReleaseDate,Genre,CommentsCount,Lyrics,AlbumImageURL,Composers,Lyricists,Arrangers
0,36382580,헤어지자 말해요,1,박재정,1집 Alone,131651,2023.04.20,발라드,1295,헤어지자고 말하려 오늘너에게 가다가 우리 추억 생각해 봤어처음 본 네 얼굴마주친 눈...,https://cdnimg.melon.co.kr/cm2/album/images/11...,"박재정, 박현중",박재정,박현중
1,36616378,사막에서 꽃을 피우듯,2,우디 (Woody),사막에서 꽃을 피우듯,54218,2023.07.14,발라드,752,아침에 눈 뜨는 게 너무 행복해졌어 널 사랑한다 말할 수 있어서 하늘에 감사해 ⠀네...,https://cdnimg.melon.co.kr/cm2/album/images/11...,백마리,백마리,전주현
2,36595401,"잘 지내자, 우리 (여름날 우리 X 로이킴)",3,로이킴,"잘 지내자, 우리 (여름날 우리 X 로이킴)",39371,2023.07.06,발라드,102,마음을 다 보여줬던 너와는 다르게지난 사랑에 겁을 잔뜩 먹은나는 뒷걸음질만 쳤다너는...,https://cdnimg.melon.co.kr/cm2/album/images/11...,성용욱,"조은영, 성용욱","최상언, 김홍준"
3,36518341,나에게 그대만이,4,탑현,나에게 그대만이,37388,2023.06.11,발라드,30,더 이상 나에게다른 사랑은 없다는 걸이제 나는 알아요나에게 사랑은항상 하나뿐이었다고...,https://cdnimg.melon.co.kr/cm2/album/images/11...,유해준,경재승,"윤일진, 고선생"
4,4446485,너의 모든 순간,5,성시경,별에서 온 그대 OST Part.7,275709,2014.02.12,"발라드, 국내드라마",489,이윽고 내가 한눈에너를 알아봤을 때모든 건 분명 달라지고 있었어내 세상은 널 알기 ...,https://cdnimg.melon.co.kr/cm/album/images/022...,성시경,심현보,안준영
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,36235896,귀한 그대,96,손태진,불타는 트롯맨 결승전 신곡미션,2759,2023.03.01,성인가요/트로트,525,나만의 그대는너무나도 아름다워그대를 보는 게 마치 내겐 꿈같아여전히 예뻐요변하지 않...,https://cdnimg.melon.co.kr/cm2/album/images/11...,윤일상,윤일상,윤일상
796,33771624,사는 게 그런 거지,97,장민호,사는 게 그런 거지,10116,2021.08.08,성인가요/트로트,376,빛나는 꿈을 안고세상 위에 나섰건만늦은 퇴근 차창에 기대어피곤한 눈 감아본다오늘을 ...,https://cdnimg.melon.co.kr/cm2/album/images/10...,조영수,강은경,"조영수, 한길"
797,35810840,풍악을 울려라!,98,장민호,ETERNAL,3607,2022.11.08,성인가요/트로트,36,풍악을 울려라 온 세상 떠들썩하게풍악을 울려라 내 님이 춤출 수 있게이 세상에서 제...,https://cdnimg.melon.co.kr/cm2/album/images/11...,이동철,이용구,이동철
798,34279648,물망초,99,정동원,"그리움, 아낌없이 주는 나무",8309,2021.11.17,성인가요/트로트,128,나를 잊지 말아요꿈에서라도 그대내 곁으로 올 순 없나요같은 하늘 아래에다시 볼 수 ...,https://cdnimg.melon.co.kr/cm2/album/images/10...,조영수,조영수,이유진


In [39]:
# SongID를 기준으로 그룹화하고 필요한 처리 수행
def aggregate_rows(group):
    # 'Rank' 평균 처리
    rank_avg = group['Rank'].mean()

    # 'Likes'와 'CommentsCount'의 최대값 처리
    max_likes = group['Likes'].max()
    max_comments = group['CommentsCount'].max()

    # 첫번째 행을 기반으로 새로운 행을 만들되, 'Rank', 'Likes', 'CommentsCount'만 수정
    new_row = group.iloc[0].copy()
    new_row['Rank'] = rank_avg
    new_row['Likes'] = max_likes
    new_row['CommentsCount'] = max_comments

    return new_row

In [40]:
# SongID가 같을 경우 하나의 데이터로 처리
# Rank -> 같은 노래가 있는 경우 두 노래의 Rank값의 평균값으로 변환
# Likes, CommentsCount -> 같은 노래가 있는 경우, 좋아요 수와 댓글 수가 더 큰 값으로 값 할당
final_df = combined.groupby('SongID').apply(aggregate_rows).reset_index(drop=True)
final_df

Unnamed: 0,SongID,Title,Rank,Singer,Album,Likes,ReleaseDate,Genre,CommentsCount,Lyrics,AlbumImageURL,Composers,Lyricists,Arrangers
0,9573,Endless,66.0,플라워,소품집,56940,2001.08.21,록/메탈,96,널 사랑해 눈을 감아도단 한 번만 볼 수 있다면하늘이여 내 모든 걸 가져가미련 없이...,https://cdnimg.melon.co.kr/cm/album/images/000...,플라워,하해룡,
1,19807,벌써 일년,42.0,브라운 아이즈,Brown Eyes,74746,2001.06.07,R&B/Soul,229,처음이라 그래 며칠뒤엔 괜찮아져 그 생각만으로 벌써 일년이 너와 만든 기념일마다 슬...,https://cdnimg.melon.co.kr/cm/album/images/000...,윤건,한경혜,윤건
2,72689,바람의 노래,72.0,조용필,조용필 16집,18853,1997.05.01,성인가요/트로트,93,살면서 듣게될까 언젠가는바람에 노래를세월가면 그때는 알게될까꽃이지는 이유를나를 떠난...,https://cdnimg.melon.co.kr/cm/album/images/000...,김정욱,김순곤,"조용필, Tom Keane"
3,73737,발걸음,70.0,에메랄드 캐슬,Invitation,54396,1997.04.01,록/메탈,73,해질무렵 날 끌고간 발걸음눈떠보니 잊은줄 알았던 곳에아직도 너의 대한 미움이 남아 ...,https://cdnimg.melon.co.kr/cm/album/images/000...,김영석,지우 (에메랄드캐슬),김영석
4,89806,I Love You,64.0,포지션,I Love You...,62526,2000.12.28,발라드,177,I love you 사랑한다는 이 말 밖에는해줄 말이 없네요I love you 의미...,https://cdnimg.melon.co.kr/cm/album/images/000...,Ozaki Yutaka,Ozaki Yutaka,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
724,36780818,사랑이라 쓰고 이별이라 읽어,48.0,송하예,사랑이라 쓰고 이별이라 읽어,2852,2023.09.11,발라드,12,사랑이라 쓰고 이별이라 읽어바보같이 끝을 알고도 시작해새로운 결말이 있을거라고 생각...,https://cdnimg.melon.co.kr/cm2/album/images/11...,TEAM8,TEAM8,유정현
725,36781785,Good & Great,92.0,키 (KEY),Good & Great - The 2nd Mini Album,9137,2023.09.11,댄스,202,I’m good I’m greatI work get paidThank god all...,https://cdnimg.melon.co.kr/cm2/album/images/11...,"Will Leong, James 'boy Matthews' Norton, Ferras",KENZIE,Will Leong
726,36784536,Right Now (Feat. Crush),59.0,쿠기 (Coogie),Right Now,3927,2023.09.12,랩/힙합,41,찰나의 눈빛에 흔들려 내 맘시간이 없는데 벌써 late at night숨을 고른 채...,https://cdnimg.melon.co.kr/cm2/album/images/11...,"GRAY (그레이), 쿠기 (Coogie), Crush","쿠기 (Coogie), Crush",GRAY (그레이)
727,36784946,한 개도 몰라 (Feat. meenoi),18.0,릴러말즈 (Leellamarz),한 개도 몰라,7927,2023.09.13,랩/힙합,57,난 너의 마음을 한 개도 몰라두 개는 더 몰라세 번째에는 떠올랐지너가 우는 얼굴 말...,https://cdnimg.melon.co.kr/cm2/album/images/11...,"TOIL, 릴러말즈 (Leellamarz), meenoi (미노이)","릴러말즈 (Leellamarz), meenoi (미노이)",TOIL


In [43]:
final_df.to_csv("all_songs.csv", index=False, encoding="utf-8-sig")