## JSON 파일 로드 

In [None]:
import os
import json
import re

# 파일들을 합치는 함수
def combine_and_save_json_files(directory, file_pattern, output_directory):
    combined_data = {}  # 최종적으로 모든 데이터를 합칠 딕셔너리를 초기화합니다.
    files = os.listdir(directory)  # 지정된 디렉토리 내의 파일 목록을 가져옵니다.
    
    # 파일 이름에서 숫자를 추출하여 정수로 변환하고 파일 목록을 정렬합니다.
    files.sort(key=lambda f: int(re.search(r'(\d+)', f).group(1)))
    
    # 정렬된 파일 목록을 순회하면서 각 파일을 처리합니다.
    for filename in files:
        if re.match(file_pattern, filename):
            print(f"Processing file: {filename}")  # 현재 처리 중인 파일 이름을 출력합니다.
            unique_identifier = re.search(r'(\d+)', filename).group(1)  # 파일명에서 고유 식별 번호를 추출합니다.
            file_path = os.path.join(directory, filename)  # 파일의 전체 경로를 구성합니다.
            with open(file_path, 'r', encoding='utf-8') as file:  # 파일을 열고 JSON 데이터를 로드합니다.
                playlist_data = json.load(file)
            playlist_name = playlist_data['playlist_name']  # 플레이리스트 이름을 가져옵니다.
            unique_playlist_name = f"{playlist_name}_{unique_identifier}"  # 고유한 플레이리스트 이름을 생성합니다.
            combined_data[unique_playlist_name] = playlist_data  # 데이터를 딕셔너리에 추가합니다.

    # 합쳐진 데이터를 JSON 파일로 저장합니다.
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)  # 출력 디렉토리가 존재하지 않으면 생성합니다.
    output_file = os.path.join(output_directory, 'combined_playlists.json')  # 출력 파일 경로를 설정합니다.
    with open(output_file, 'w', encoding='utf-8') as file:  # 합쳐진 데이터를 파일에 씁니다.
        json.dump(combined_data, file, ensure_ascii=False, indent=2)

    return output_file  # 저장된 파일의 경로를 반환합니다.

# 파일 패턴과 출력 파일 디렉토리를 정의합니다.
source_directory = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/unge90000'
file_pattern = r'playlist(\d+).json'  # 처리할 파일의 패턴입니다.
output_directory = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum'

# 함수를 호출하여 파일들을 합치고 저장합니다.
saved_file_path = combine_and_save_json_files(source_directory, file_pattern, output_directory)

# 저장된 파일 경로를 출력합니다.
print(f"Combined playlists saved to {saved_file_path}")




## JSON 파일을 데이터 프레임으로 변환하는 함수
- 이 함수는 JSON 파일의 경로를 입력 받아, 해당 파일을 pandas 데이터 프레임으로 로드합니다. `pd.read_json` 함수는 JSON 형식의 데이터를 읽어서 데이터 프레임으로 변환하는 데 사용됩니다. `orient='index'` 매개변수는 JSON 객체의 키를 데이터 프레임의 인덱스로 사용하도록 지정합니다.

In [1]:
def json_to_dataframe(json_file_path):
    # JSON 파일을 데이터 프레임으로 로드합니다.
    df = pd.read_json(json_file_path, orient='index')
    return df

## 데이터프레임을 CSV파일로 저장하는 함수 
- 이 함수는 pandas 데이터 프레임 객체와 CSV 파일의 경로를 입력 받아, 데이터 프레임을 CSV 파일로 저장합니다. df.to_csv 함수는 데이터 프레임을 CSV 형식으로 변환하여 파일로 저장하는 데 사용됩니다. index=False 매개변수는 데이터 프레임의 인덱스를 파일에 포함하지 않도록 지정합니다.

In [2]:
def dataframe_to_csv(df, csv_file_path):
    # 데이터 프레임을 CSV 파일로 저장합니다.
    df.to_csv(csv_file_path, index=False)

## 메인 프로세스 
- 아래의 코드는 전체 프로세스를 실행하는 부분입니다. 먼저 JSON 파일을 데이터 프레임으로 변환한 다음, 변환된 데이터 프레임을 CSV 파일로 저장합니다. 마지막으로 저장된 파일의 경로를 출력합니다.

In [5]:
import pandas as pd

# JSON 파일의 경로
json_file_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum/combined_playlists_90000.json'

# CSV 파일의 저장 경로
csv_file_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum/FINAL/combined_playlists_90000.csv'

# JSON을 데이터 프레임으로 변환
df = json_to_dataframe(json_file_path)

# 데이터 프레임을 CSV로 저장
dataframe_to_csv(df, csv_file_path)

# 저장이 완료되면 경로를 출력합니다.
print(f"Dataframe saved as CSV to {csv_file_path}")


Dataframe saved as CSV to C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum/FINAL/combined_playlists_90000.csv


### 저장한 CSV파일 불러와서 확인 

In [3]:
import pandas as pd

# CSV 파일 경로
csv_file_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum/FINAL/combined_playlists_90000.csv'

# CSV 파일 로드
df = pd.read_csv(csv_file_path)

# 처음과 마지막 몇 줄을 출력하여 데이터 구조 확인
print(df.head())  # 처음 5줄
print(df.tail())  # 마지막 5줄


                           playlist_name  \
0                   내 손을 꼭 쥐고 들려주는 인디 노래   
1             RM 솔로 앨범 INDIGO 와 함께하는 뮤지션   
2  [Mbti] 모두 나에게 주목! 텐션 높은 ENFP를 위한 KPOP   
3                               추천가요 트롯트   
4                          사랑을 머금은 감성발라드   

                                           song_info  
0  {'song_name': ['사랑이 너무 헤퍼', '가을밤에 든 생각', 'Some...  
1  {'song_name': ['Window Seat', 'On & On', 'Gree...  
2  {'song_name': ['비밀번호 486', '낭만고양이', '퀸카 (Queen...  
3  {'song_name': ['머나먼 고향', '연상의 여인', '원점', '차표한장...  
4  {'song_name': ['너의 번호를 누르고 (Prod. 영화처럼)', '밤하늘...  
                  playlist_name  \
94603        따스한 햇살 아래 여유를 즐겨요!   
94604         초여름을 특별하게 만들어줄 국힙   
94605  사랑하는 연인과 함께 듣는다면 더 좋을 노래   
94606       가을에 어울리는 센치한 감성의 노래   
94607      내 손을 꼭 쥐고 들려주는 인디 노래   

                                               song_info  
94603  {'song_name': ['Symmetrical', 'Never Goes Away...  
94604  {'song_name': ['Oscar', 'SUMMERIDE', 'Candy (F...  
94605  {'song_nam

In [8]:
df

Unnamed: 0,playlist_name,song_info
0,내 손을 꼭 쥐고 들려주는 인디 노래,"{'song_name': ['사랑이 너무 헤퍼', '가을밤에 든 생각', 'Some..."
1,RM 솔로 앨범 INDIGO 와 함께하는 뮤지션,"{'song_name': ['Window Seat', 'On & On', 'Gree..."
2,[Mbti] 모두 나에게 주목! 텐션 높은 ENFP를 위한 KPOP,"{'song_name': ['비밀번호 486', '낭만고양이', '퀸카 (Queen..."
3,추천가요 트롯트,"{'song_name': ['머나먼 고향', '연상의 여인', '원점', '차표한장..."
4,사랑을 머금은 감성발라드,"{'song_name': ['너의 번호를 누르고 (Prod. 영화처럼)', '밤하늘..."
...,...,...
94603,따스한 햇살 아래 여유를 즐겨요!,"{'song_name': ['Symmetrical', 'Never Goes Away..."
94604,초여름을 특별하게 만들어줄 국힙,"{'song_name': ['Oscar', 'SUMMERIDE', 'Candy (F..."
94605,사랑하는 연인과 함께 듣는다면 더 좋을 노래,"{'song_name': ['이 밤, 꿈꾸는 듯한', '함께하자, 우리 (Feat...."
94606,가을에 어울리는 센치한 감성의 노래,"{'song_name': ['다시 사랑한다면 (니글니글 버터플라이)', '비밀의 화..."


#### 합친 CSV 파일 깔끔하게 정리(음원특성 데이터 들어올 것 생각해서)

In [11]:
import pandas as pd
from ast import literal_eval

# CSV 파일 경로
csv_file_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/music_data/sum/FINAL/combined_playlists_90000.csv'

# CSV 파일 로드
df = pd.read_csv(csv_file_path)

# 분할 처리를 위한 청크 사이즈
chunk_size = 10000  # 메모리 용량에 맞게 조정하세요

# 청크 단위로 파일을 읽으며 각 청크를 처리
for chunk_number, chunk in enumerate(pd.read_csv(csv_file_path, chunksize=chunk_size)):
    # 'song_info' 컬럼의 문자열을 파이썬 객체로 변환
    chunk['song_info'] = chunk['song_info'].apply(literal_eval)
    
    # 각 청크에서 'song_info'를 풀어낸 데이터프레임을 저장할 리스트
    expanded_rows = []
    
    # 각 플레이리스트 항목에 대한 'song_info'를 풀어내서 리스트에 추가
    for info in chunk['song_info']:
         
        expanded_rows.append(pd.DataFrame(info))
    
    # 펼쳐진 데이터프레임을 하나로 병합
    expanded_df = pd.concat(expanded_rows, ignore_index=True)
    
    # 플레이리스트 이름을 추가
    expanded_df['playlist_name'] = chunk['playlist_name'].repeat(expanded_df.shape[0] // chunk.shape[0]).reset_index(drop=True)
    
    # 결과 데이터프레임을 CSV 파일로 저장
    file_name = f'expanded_playlist_{chunk_number * chunk_size}_{chunk_number * chunk_size + len(expanded_df)}.csv'
    expanded_df.to_csv(file_name, index=False)
    
    print(f'Processed chunk {chunk_number}, saved to {file_name}')


Processed chunk 0, saved to expanded_playlist_0_531926.csv
Processed chunk 1, saved to expanded_playlist_10000_546747.csv
Processed chunk 2, saved to expanded_playlist_20000_558588.csv
Processed chunk 3, saved to expanded_playlist_30000_543460.csv
Processed chunk 4, saved to expanded_playlist_40000_568198.csv
Processed chunk 5, saved to expanded_playlist_50000_580326.csv
Processed chunk 6, saved to expanded_playlist_60000_576247.csv
Processed chunk 7, saved to expanded_playlist_70000_594191.csv
Processed chunk 8, saved to expanded_playlist_80000_609443.csv
Processed chunk 9, saved to expanded_playlist_90000_335940.csv


In [12]:
import pandas as pd
import os

# 파일이 저장된 디렉토리 경로
directory_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/code/Playlist'

# 모든 CSV 파일을 리스트로 저장
csv_files = [file for file in os.listdir(directory_path) if file.startswith('expanded_playlist_') and file.endswith('.csv')]

# 각 CSV 파일을 데이터프레임으로 읽어들여 리스트에 저장
dataframes = [pd.read_csv(os.path.join(directory_path, file)) for file in csv_files]

# 모든 데이터프레임을 하나로 병합
merged_dataframe = pd.concat(dataframes, ignore_index=True)

# 병합된 데이터프레임을 CSV 파일로 저장
merged_csv_path = os.path.join(directory_path, 'merged_playlists.csv')
merged_dataframe.to_csv(merged_csv_path, index=False)

print(f'Merged dataframe saved to {merged_csv_path}')


  dataframes = [pd.read_csv(os.path.join(directory_path, file)) for file in csv_files]
  dataframes = [pd.read_csv(os.path.join(directory_path, file)) for file in csv_files]


Merged dataframe saved to C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/code/Playlist\merged_playlists.csv


In [13]:
import pandas as pd

# 병합된 CSV 파일 경로
merged_csv_path = 'C:/Users/ngjok/Gwangju_Ai_school/Silgun_project/code/Playlist/merged_playlists.csv'

# 병합된 CSV 파일 로드
merged_df = pd.read_csv(merged_csv_path)

# 중복된 행을 제거하기 전에 데이터프레임의 크기를 확인합니다.
print(f'Original dataframe shape: {merged_df.shape}')

# 모든 컬럼에 대해 중복된 행 제거
merged_df.drop_duplicates(inplace=True)

# 또는 특정 컬럼에 대해서만 중복 확인
# merged_df.drop_duplicates(subset=['playlist_name', 'song_name', ...], inplace=True)

# 중복 제거 후 데이터프레임의 크기를 확인합니다.
print(f'Dataframe shape after removing duplicates: {merged_df.shape}')

# 필요하다면, 중복을 제거한 데이터프레임을 다시 CSV 파일로 저장할 수 있습니다.
merged_df.to_csv(merged_csv_path, index=False)


Original dataframe shape: (4995066, 7)
Dataframe shape after removing duplicates: (4971461, 7)


In [17]:
merged_df

Unnamed: 0,song_name,artist,release_date,album,genre,lyric,playlist_name
0,사랑이 너무 헤퍼,이강승,21.03.11,Korean Dream,인디음악,사랑이 너무 헤퍼서 그 말을 못 했네 말라붙은 입에 잘못은 아니고 스쳐진 옷깃에 우...,내 손을 꼭 쥐고 들려주는 인디 노래
1,가을밤에 든 생각,잔나비,20.11.06,잔나비 소곡집 l,록/메탈,머나먼 별빛 저 별에서도 노랠 부르는 사랑 살겠지 밤이면 오손도손 그리운 것들 모아...,내 손을 꼭 쥐고 들려주는 인디 노래
2,Something To Love,전기장판,19.09.09,Something To Love,인디음악,Something to love Something to love 모난 모서리가 아프...,내 손을 꼭 쥐고 들려주는 인디 노래
3,아침,이예린,21.01.19,먼 마음 2/2,포크/블루스,솔직하게 말할게요 자신이 없어요 잘하고 싶어도 잘 안됐어요 좋게 생각하려 해도 금세...,내 손을 꼭 쥐고 들려주는 인디 노래
4,아마도 우린,우효,15.10.07,어드벤처,일렉트로니카,아마도 우린 아마도 여기까진가 봐 아무리 아닌 척 해봐도 이렇게 우린 서로에게 아픈...,내 손을 꼭 쥐고 들려주는 인디 노래
...,...,...,...,...,...,...,...
4995058,서울 날씨,주윤하,19.06.26,서울 날씨,인디음악,서울 날씨는 어때 아직도 내 방안엔 너의 사진과 네가 준 선물들이 가득해 요즘 기분...,
4995059,Blue Spring,짙은,21.04.19,Blue Spring,인디음악,푸름 화내보지도 못했고 부끄러워 숨어서 어디론가 사라지지도 못했어 봄 화려하지도 않...,
4995060,우린 같은 곳에 앉아,이예린,21.01.19,먼 마음 2/2,포크/블루스,우린 같은 곳에 앉아 툭하면 웃었지 너의 근심 바람 함께 나눴지 좋은 것들을 더 보...,
4995061,가을 핑계,안희수,20.10.19,가을 핑계,인디음악,무더운 여름 지나 다시 찾아온 가을 우리 추억을 담은 이 가을바람이 그렇게 밉지는 ...,


In [16]:
# 각 컬럼에서 유니크한 값들의 개수 계산
unique_values = merged_df.nunique()

# 각 컬럼의 유니크한 값들의 개수 출력
unique_values


song_name        456277
artist           102914
release_date      12706
album            269242
genre                77
lyric            322607
playlist_name     93111
dtype: int64

In [18]:
# 각 컬럼별 결측치 개수 계산
missing_values = merged_df.isnull().sum()

# 각 컬럼별 결측치 개수 출력
print(missing_values)


song_name           35
artist               0
release_date         0
album               68
genre                0
lyric                0
playlist_name    34251
dtype: int64


In [21]:
# 'playlist_name' 컬럼에서 NaN 값을 가진 행을 삭제
merged_df = merged_df.dropna(subset=['playlist_name'])

# 결측치 제거 후 데이터프레임의 정보 출력
print(merged_df.info())



<class 'pandas.core.frame.DataFrame'>
Int64Index: 4937210 entries, 0 to 4993349
Data columns (total 7 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   song_name      object
 1   artist         object
 2   release_date   object
 3   album          object
 4   genre          object
 5   lyric          object
 6   playlist_name  object
dtypes: object(7)
memory usage: 301.3+ MB
None


In [22]:
# 각 컬럼에서 유니크한 값들의 개수 계산
unique_values = merged_df.nunique()

# 각 컬럼의 유니크한 값들의 개수 출력
unique_values


song_name        454127
artist           102439
release_date      12700
album            267933
genre                77
lyric            321585
playlist_name     93111
dtype: int64

In [23]:
# 각 컬럼별 결측치 개수 계산
missing_values = merged_df.isnull().sum()

# 각 컬럼별 결측치 개수 출력
print(missing_values)


song_name        34
artist            0
release_date      0
album            67
genre             0
lyric             0
playlist_name     0
dtype: int64


In [24]:
# 필요하다면, 변경 사항을 새로운 CSV 파일로 저장할 수 있습니다.
merged_df.to_csv(merged_csv_path, index=False)

In [25]:
# 'song_name'과 'album' 컬럼에서 결측치를 가진 행을 삭제
merged_df = merged_df.dropna(subset=['song_name', 'album'])

# 결측치 제거 후 데이터프레임의 정보 출력
print(merged_df.info())

# 변경 사항을 CSV 파일로 저장 (필요한 경우)
merged_df.to_csv(merged_csv_path, index=False)


<class 'pandas.core.frame.DataFrame'>
Int64Index: 4937142 entries, 0 to 4993349
Data columns (total 7 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   song_name      object
 1   artist         object
 2   release_date   object
 3   album          object
 4   genre          object
 5   lyric          object
 6   playlist_name  object
dtypes: object(7)
memory usage: 301.3+ MB
None


In [26]:
# 각 컬럼별 결측치 개수 계산
missing_values = merged_df.isnull().sum()

# 각 컬럼별 결측치 개수 출력
print(missing_values)


song_name        0
artist           0
release_date     0
album            0
genre            0
lyric            0
playlist_name    0
dtype: int64
