In [12]:
import os
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [13]:
# CSV 파일이 저장된 디렉토리 경로
directory = '../data'

# 디렉토리 내의 모든 파일 리스트를 가져옵니다
file_list = os.listdir(directory)

# "data_"가 포함된 CSV 파일들의 경로를 저장할 리스트
csv_files = []

# 파일 리스트를 순회하면서 "data_"가 포함된 CSV 파일을 찾습니다
for file in file_list:
    if file.endswith(".csv") and "data_" in file:
        csv_files.append(os.path.join(directory, file))

# CSV 파일들을 읽어서 DataFrame으로 저장합니다
df = pd.concat([pd.read_csv(file) for file in csv_files], ignore_index=True)

# 결과 확인
df.head()

Unnamed: 0,No,Heartbeat,Temperature,Spo2,UserCode,GyroX,GyroY,GyroZ,Time,Label
0,1,108.0,36.6,95.0,33.0,-0.040861,4.985047,6.510526,49600000000000.0,Downstairs
1,2,109.0,36.7,99.0,33.0,-0.463092,4.372132,7.43671,49600000000000.0,Downstairs
2,3,111.0,36.6,98.0,33.0,-0.299648,4.603678,6.510526,49600000000000.0,Downstairs
3,4,108.0,36.6,97.0,33.0,-0.272407,4.481094,6.360703,49600000000000.0,Downstairs
4,5,110.0,36.6,98.0,33.0,-1.525479,5.175732,7.164303,49600000000000.0,Downstairs


In [14]:
# 결측치 확인
df.isnull().sum()

No             0
Heartbeat      1
Temperature    1
Spo2           1
UserCode       1
GyroX          1
GyroY          1
GyroZ          2
Time           1
Label          1
dtype: int64

In [15]:
# 결측치가 삭제된 DataFrame 생성
df_cleaned = df.dropna()

# 결과 확인
print(df_cleaned)

             No  Heartbeat  Temperature  Spo2  UserCode     GyroX      GyroY   
0             1      108.0         36.6  95.0      33.0 -0.040861   4.985047  \
1             2      109.0         36.7  99.0      33.0 -0.463092   4.372132   
2             3      111.0         36.6  98.0      33.0 -0.299648   4.603678   
3             4      108.0         36.6  97.0      33.0 -0.272407   4.481094   
4             5      110.0         36.6  98.0      33.0 -1.525479   5.175732   
...         ...        ...          ...   ...       ...       ...        ...   
1048570  406772      128.0         36.6  99.0       7.0  5.520000   6.440000   
1048571  406773      133.0         36.8  96.0       7.0  2.140000   8.470000   
1048572  406774      131.0         36.7  95.0       7.0  6.090000   4.860000   
1048573  406775      142.0         36.8  96.0       7.0  5.010000   9.700000   
1048574  406776      136.0         36.6  96.0       7.0  4.140000  11.030000   

            GyroZ          Time       L

In [16]:
# 특성과 타겟 데이터로 분할
X = df[['Temperature','Heartbeat','GyroX','GyroY','GyroZ']]
y = df['Label']

# 테스트 세트와 트레인 세트로 분할 (70% 트레인, 30% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 결과 확인
print("X_train:")
print(X_train)
print("y_train:")
print(y_train)
print("X_test:")
print(X_test)
print("y_test:")
print(y_test)

X_train:
         Temperature  Heartbeat  GyroX  GyroY     GyroZ
165822          36.6      137.0   5.37  -3.53 -3.718355
662751          36.8      137.0   0.42   4.86 -0.040861
685875          36.6      141.0   1.12  13.33  2.873893
337714          36.6      137.0 -17.86 -16.28  0.420000
1045427         36.7      128.0   6.97   6.17 -1.040000
...              ...        ...    ...    ...       ...
259178          36.7      138.0  -3.98  -5.67  8.540000
365838          36.6      142.0   6.09  -3.60 -2.560000
131932          36.7      132.0  -1.14  -4.52 -9.697687
671155          36.6      141.0   1.69   9.19  0.149824
121958          36.7      142.0  -3.68  -2.26 -3.909040

[734003 rows x 5 columns]
y_train:
165822     Jogging
662751     Walking
685875     Walking
337714     Jogging
1045427    Walking
            ...   
259178     Jogging
365838     Jogging
131932     Jogging
671155     Walking
121958     Jogging
Name: Label, Length: 734003, dtype: object
X_test:
        Temperature  He

In [17]:
# 표준화
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [18]:
# 다운샘플링 csv저장
import pandas as pd
from sklearn.utils import resample

# 각 레이블별로 10,000개씩 랜덤하게 선택하여 저장할 DataFrame 생성
df_downsampled = pd.DataFrame()

# 레이블별로 반복하여 샘플링 수행
for label in df_cleaned['Label'].unique():
    # 해당 레이블에 해당하는 데이터 추출
    label_data = df_cleaned[df_cleaned['Label'] == label]

    # 10,000개씩 랜덤하게 샘플링
    sampled_data = resample(label_data, n_samples=10000, random_state=42)

    # 샘플링한 데이터를 df_downsampled에 추가
    df_downsampled = pd.concat([df_downsampled, sampled_data])

# 결과 확인
print(df_downsampled.head())



          No  Heartbeat  Temperature  Spo2  UserCode    GyroX     GyroY   
15795  15796      112.0         36.7  97.0      13.0 -1.50000  6.440000  \
860      861      109.0         36.6  97.0      33.0 -1.56634  8.240311   
76820  76821      112.0         36.5  97.0      31.0  7.59000  5.630000   
54886  54887      109.0         36.5  99.0      24.0  3.83000  3.060000   
6265    6266      110.0         36.6  97.0      20.0  1.31000  7.350000   

          GyroZ          Time       Label  
15795  1.539099  3.130000e+12  Downstairs  
860    0.340509  4.990000e+13  Downstairs  
76820 -1.380000  2.480000e+13  Downstairs  
54886 -0.110000  1.580000e+13  Downstairs  
6265  -0.108963  2.870000e+12  Downstairs  


In [20]:
# CSV 파일 경로 지정
csv_path = "../data/downsampled_data.csv"

# df_downsampled DataFrame을 CSV 파일로 저장
df_downsampled.to_csv(csv_path, index=False)

print('success')

success
