### 각자 생성한 csv 파일들을 하나로 통합

In [1]:
# 각자 추출한 연도별 csv 파일들을 하나의 csv 파일로 통합하는 코드

import pandas as pd
import os

def csv_integrate() -> None:
    # csv 파일 저장된 디렉터리 설정
    dfs_path = 'data/dataframes/'
    dfs_list = os.listdir(dfs_path)
    # 데이터프레임, 레이블의 csv 파일들의 목록을 각각 추출
    dataframe_list = [df for df in dfs_list if df.startswith('dataframe')]
    label_list = [df for df in dfs_list if df.startswith('label')]

    # csv 파일을 데이터프레임으로 불러와 리스트로 저장
    dataframes = []
    labels = []

    for dataframe in dataframe_list:
        dataframes.append(pd.read_csv(dfs_path + dataframe, index_col=0))

    for label in label_list:
        labels.append(pd.read_csv(dfs_path + label, index_col=0))

    # 리스트에 저장된 모든 데이터프레임들을 하나의 데이터프레임으로 통합
    integrated_dataframe = pd.concat(dataframes)
    integrated_label = pd.concat(labels)

    # 통합된 데이터프레임을 다시 csv로 변환하여 저장
    integrated_dataframe.to_csv(dfs_path + 'dataframe_final.csv') # (학습 데이터)원하는 파일명으로 바꾸면 됩니다.
    integrated_label.to_csv(dfs_path + 'label_final.csv') # (레이블 데이터)


In [2]:
csv_integrate()

#### 이 아래는 통합이 잘 되었는지 확인하는 코드입니다.

In [3]:
test_datas = pd.read_csv('data/dataframes/dataframe_final.csv', index_col=0)
test_labels = pd.read_csv('data/dataframes/label_final.csv', index_col=0)

In [4]:
test_datas.head()

Unnamed: 0,date,danceability,energy,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo
1963-01-01,0,173,861,3246,1,231,98,1819,905,719,4569
1963-01-01,0,254,245,2251,1,85,1271,0,786,504,858
1963-01-01,0,591,845,3404,1,144,934,380,414,904,6858
1963-01-01,0,372,501,3930,1,51,1582,2922,1156,595,4349
1963-01-01,0,610,791,3439,1,440,1173,2930,347,776,3377


In [5]:
test_datas.tail()

Unnamed: 0,date,danceability,energy,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo
2022-12-26,834,346,668,1043,1,70,767,0,642,682,3100
2022-12-26,834,405,655,2675,0,46,249,1852,821,758,1270
2022-12-26,834,432,594,1716,1,662,1373,75,655,558,1652
2022-12-26,834,377,393,3764,1,595,2132,80,621,549,897
2022-12-26,834,382,223,4355,1,82,1907,1839,568,292,2798


In [6]:
test_labels.head()

Unnamed: 0,0
1963-01-01,1
1963-01-01,2
1963-01-01,3
1963-01-01,4
1963-01-01,5


In [7]:
test_labels.tail()

Unnamed: 0,0
2022-12-26,96
2022-12-26,97
2022-12-26,98
2022-12-26,99
2022-12-26,100


#### N개의 데이터 × 11개의 Feature로 구성

In [8]:
test_datas.shape

(313187, 11)

#### N개의 데이터 × 1개의 Label로 구성

In [9]:
test_labels.shape

(313187, 1)