In [1]:
import numpy as np
import pandas as pd

import os
import pandas as pd
import numpy as np

# 디렉토리 경로 설정
data_dir = '/home/eungyeop/LLM/tabular/ProtoLLM/dataset/data/table/hearts_preprocessed'

# 디렉토리 내의 모든 CSV 파일 리스트 가져오기
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

for csv_file in csv_files:
    print(f"\n{'='*50}")
    print(f"파일명: {csv_file}")
    print('='*50)
    
    # CSV 파일 읽기
    df = pd.read_csv(os.path.join(data_dir, csv_file))
    
    # 기본 정보
    print("\n1. 기본 정보:")
    print(f"행 수: {df.shape[0]}")
    print(f"열 수: {df.shape[1]}")
    
    # 컬럼 정보
    print("\n2. 컬럼 정보:")
    print(df.dtypes)
    
    # 결측치 정보
    print("\n3. 결측치 정보:")
    missing_info = df.isnull().sum()
    print(missing_info[missing_info > 0] if any(missing_info > 0) else "결측치 없음")
    
    # 기술 통계
    print("\n4. 기술 통계:")
    print(df.describe())
    
    # 클래스 분포 (마지막 컬럼이 타겟이라고 가정)
    target_col = df.columns[-1]
    print(f"\n5. 클래스 분포 ({target_col}):")
    print(df[target_col].value_counts(normalize=True))





파일명: heart.csv

1. 기본 정보:
행 수: 918
열 수: 12

2. 컬럼 정보:
Age                 int64
Sex                object
ChestPainType      object
RestingBP           int64
Cholesterol         int64
FastingBS           int64
RestingECG         object
MaxHR               int64
ExerciseAngina     object
Oldpeak           float64
ST_Slope           object
target_binary      object
dtype: object

3. 결측치 정보:
결측치 없음

4. 기술 통계:
              Age   RestingBP  Cholesterol   FastingBS       MaxHR     Oldpeak
count  918.000000  918.000000   918.000000  918.000000  918.000000  918.000000
mean    53.510893  132.396514   198.799564    0.233115  136.809368    0.887364
std      9.432617   18.514154   109.384145    0.423046   25.460334    1.066570
min     28.000000    0.000000     0.000000    0.000000   60.000000   -2.600000
25%     47.000000  120.000000   173.250000    0.000000  120.000000    0.000000
50%     54.000000  130.000000   223.000000    0.000000  138.000000    0.600000
75%     60.000000  140.000000   267.

In [3]:
datasets = {}

# 디렉토리 내의 모든 CSV 파일 읽기
for file in os.listdir(data_dir):
    if file.endswith('.csv'):
        dataset_name = file.replace('.csv', '')
        file_path = os.path.join(data_dir, file)
        datasets[dataset_name] = pd.read_csv(file_path)

# 각 데이터셋의 기본 정보 출력
for name, df in datasets.items():
    print(f"\n{'='*50}")
    print(f"데이터셋: {name}")
    print(f"Shape: {df.shape}")
    print("\n처음 5개 행:")
    print(df.head())
    print("\n데이터 타입:")
    print(df.dtypes)


데이터셋: heart
Shape: (918, 12)

처음 5개 행:
   Age Sex ChestPainType  RestingBP  Cholesterol  FastingBS RestingECG  MaxHR  \
0   40   M           ATA        140          289          0     Normal    172   
1   49   F           NAP        160          180          0     Normal    156   
2   37   M           ATA        130          283          0         ST     98   
3   48   F           ASY        138          214          0     Normal    108   
4   54   M           NAP        150          195          0     Normal    122   

  ExerciseAngina  Oldpeak ST_Slope target_binary  
0              N      0.0       Up            no  
1              N      1.0     Flat           yes  
2              N      0.0       Up            no  
3              Y      1.5     Flat           yes  
4              N      0.0       Up            no  

데이터 타입:
Age                 int64
Sex                object
ChestPainType      object
RestingBP           int64
Cholesterol         int64
FastingBS           int64
Re

In [6]:
datasets['hungarian']

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,target_binary
0,28,1,2,130.0,132.000000,0.0,2.0,185.0,0.0,0.0,no
1,29,1,2,120.0,243.000000,0.0,0.0,160.0,0.0,0.0,no
2,29,1,2,140.0,250.848708,0.0,0.0,170.0,0.0,0.0,no
3,30,0,1,170.0,237.000000,0.0,1.0,170.0,0.0,0.0,no
4,31,0,2,100.0,219.000000,0.0,1.0,150.0,0.0,0.0,no
...,...,...,...,...,...,...,...,...,...,...,...
289,52,1,4,160.0,331.000000,0.0,0.0,94.0,1.0,2.5,yes
290,54,0,3,130.0,294.000000,0.0,1.0,100.0,1.0,0.0,yes
291,56,1,4,155.0,342.000000,1.0,0.0,150.0,1.0,3.0,yes
292,58,0,2,180.0,393.000000,0.0,0.0,110.0,1.0,1.0,yes


In [8]:
for dataset_name in ['hungarian', 'cleveland']:
    df = datasets[dataset_name]
    print(f"\n{'='*50}")
    print(f"{dataset_name} 데이터셋 분석")
    print(f"데이터 크기: {df.shape}")
    
    # 데이터 타입 확인
    print("\n데이터 타입:")
    print(df.dtypes)
    
    # 범주형 변수 확인
    categorical_cols = df.select_dtypes(include=['object']).columns
    print("\n범주형 변수:")
    for col in categorical_cols:
        print(f"\n{col}의 unique 값:")
        print(df[col].value_counts())
    
    # 수치형 변수만 선택
    numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
    print("\n수치형 변수 간 상관관계:")
    print(df[numeric_cols].corr().abs().mean())
    
    # 클래스 분포
    print("\n클래스 분포:")
    print(df.iloc[:, -1].value_counts(normalize=True))
    
    # 수치형 변수들의 기술 통계
    print("\n수치형 변수 기술 통계:")
    print(df[numeric_cols].describe())


hungarian 데이터셋 분석
데이터 크기: (294, 11)

데이터 타입:
age                int64
sex                int64
cp                 int64
trestbps         float64
chol             float64
fbs              float64
restecg          float64
thalach          float64
exang            float64
oldpeak          float64
target_binary     object
dtype: object

범주형 변수:

target_binary의 unique 값:
target_binary
no     188
yes    106
Name: count, dtype: int64

수치형 변수 간 상관관계:
age         0.259893
sex         0.191891
cp          0.288176
trestbps    0.221485
chol        0.187497
fbs         0.176284
restecg     0.137044
thalach     0.302585
exang       0.345237
oldpeak     0.299664
dtype: float64

클래스 분포:
target_binary
no     0.639456
yes    0.360544
Name: proportion, dtype: float64

수치형 변수 기술 통계:
              age         sex          cp    trestbps        chol         fbs  \
count  294.000000  294.000000  294.000000  294.000000  294.000000  294.000000   
mean    47.826531    0.724490    2.982993  132.583618  250.848

In [9]:
for name, df in datasets.items():
    print(f"\n{'='*50}")
    print(f"데이터셋: {name}")
    
    # 기본 정보
    print(f"샘플 수: {len(df)}")
    
    # 클래스 분포
    class_dist = df['target_binary'].value_counts(normalize=True)
    print("\n클래스 분포:")
    print(class_dist)
    
    # 수치형 변수만 선택
    numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
    
    # 수치형 변수들의 분산
    variances = df[numeric_cols].var()
    mean_var = variances.mean()
    print(f"\n수치형 변수들의 평균 분산: {mean_var:.2f}")
    
    # 특성들의 범위
    ranges = df[numeric_cols].max() - df[numeric_cols].min()
    mean_range = ranges.mean()
    print(f"수치형 변수들의 평균 범위: {mean_range:.2f}")


데이터셋: heart
샘플 수: 918

클래스 분포:
target_binary
yes    0.553377
no     0.446623
Name: proportion, dtype: float64

수치형 변수들의 평균 분산: 2174.36
수치형 변수들의 평균 범위: 167.30

데이터셋: hungarian
샘플 수: 294

클래스 분포:
target_binary
no     0.639456
yes    0.360544
Name: proportion, dtype: float64

수치형 변수들의 평균 분산: 514.59
수치형 변수들의 평균 범위: 78.50

데이터셋: switzerland
샘플 수: 123

클래스 분포:
target_binary
yes    0.934959
no     0.065041
Name: proportion, dtype: float64

수치형 변수들의 평균 분산: 125.37
수치형 변수들의 평균 범위: 29.83

데이터셋: heart_statlog
샘플 수: 270

클래스 분포:
target_binary
no     0.555556
yes    0.444444
Name: proportion, dtype: float64

수치형 변수들의 평균 분산: 258.51
수치형 변수들의 평균 범위: 53.37

데이터셋: cleveland
샘플 수: 303

클래스 분포:
target_binary
no     0.541254
yes    0.458746
Name: proportion, dtype: float64

수치형 변수들의 평균 분산: 359.94
수치형 변수들의 평균 범위: 73.72
