### 각자 생성한 csv 파일들을 하나로 통합

In [21]:
# 각자 추출한 연도별 csv 파일들을 하나의 csv 파일로 통합하는 코드

import pandas as pd
import os

def csv_integrate() -> None:
    # csv 파일 저장된 디렉터리 설정
    dfs_path = 'data/dataframes/'
    dfs_list = os.listdir(dfs_path)
    # 데이터프레임, 레이블의 csv 파일들의 목록을 각각 추출
    dataframe_list = [df for df in dfs_list if df.startswith('dataframe')]
    label_list = [df for df in dfs_list if df.startswith('label')]

    # csv 파일을 데이터프레임으로 불러와 리스트로 저장
    dataframes = []
    labels = []

    for dataframe in dataframe_list:
        dataframes.append(pd.read_csv(dfs_path + dataframe, index_col=0))

    for label in label_list:
        labels.append(pd.read_csv(dfs_path + label, index_col=0))

    # 리스트에 저장된 모든 데이터프레임들을 하나의 데이터프레임으로 통합
    integrated_dataframe = pd.concat(dataframes)
    integrated_label = pd.concat(labels)

    # 통합된 데이터프레임을 다시 csv로 변환하여 저장
    integrated_dataframe.to_csv(dfs_path + 'dataframe_final.csv') # (학습 데이터)원하는 파일명으로 바꾸면 됩니다.
    integrated_label.to_csv(dfs_path + 'label_final.csv') # (레이블 데이터)


In [None]:
csv_integrate()

#### 이 아래는 통합이 잘 되었는지 확인하는 코드입니다.

In [22]:
test_datas = pd.read_csv('data/dataframes/dataframe_final.csv', index_col=0)
test_labels = pd.read_csv('data/dataframes/label_final.csv', index_col=0)

In [23]:
test_datas.head()

Unnamed: 0,date,danceability,energy,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo
1978-01-01,0,406,226,4323,0,38,1356,0,727,607,292
1978-01-01,0,418,473,4575,0,703,1129,0,723,480,4115
1978-01-01,0,505,60,1171,1,80,1959,228,699,435,5359
1978-01-01,0,597,505,787,1,694,1230,230,1046,849,639
1978-01-01,0,358,380,4324,1,165,1881,846,103,487,379


In [24]:
test_datas.tail()

Unnamed: 0,date,danceability,energy,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo
2006-12-29,730,663,471,1657,0,801,651,186,118,810,829
2006-12-29,730,684,772,3519,2,990,1961,1706,1108,910,4204
2006-12-29,730,649,297,1927,1,267,1659,33,617,619,3589
2006-12-29,730,342,305,2551,1,81,1535,0,650,349,1886
2006-12-29,730,609,217,2651,1,796,606,0,523,651,3367


In [25]:
test_labels.head()

Unnamed: 0,0
1978-01-01,1
1978-01-01,2
1978-01-01,3
1978-01-01,4
1978-01-01,5


In [26]:
test_labels.tail()

Unnamed: 0,0
2006-12-29,96
2006-12-29,50
2006-12-29,98
2006-12-29,99
2006-12-29,100


#### N개의 데이터 × 11개의 Feature로 구성

In [27]:
test_datas.shape

(229700, 11)

#### N개의 데이터 × 1개의 Label로 구성

In [28]:
test_labels.shape

(229700, 1)