In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 1. 데이터셋 불러오기
# 저장된 CSV 파일을 pandas DataFrame으로 읽어옴
df = pd.read_csv('20250618_175248_diabetes.csv')

# 2. 결측치 처리 (0을 결측치로 간주하고 평균으로 대체)
miss_val_replace = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
for col in miss_val_replace:
    df[col] = df[col].replace(0, np.nan)    # 0을 NaN으로 간주
    mean_val = df[col].mean()               # NaN 제외하고 평균을 계산
    df[col].fillna(mean_val, inplace=True)  # 평균으로 대체

# 3. 이상치 처리 (SkinThickness, Insulin의 상위 1% 이상치로 간주하고 평균으로 대체)
for col in ['SkinThickness', 'Insulin']:
    threshold = df[col].quantile(0.99)              # 상위 1% 이상 구하기
    mean_val = df[df[col] <= threshold][col].mean() # 이상치 제외한 평균을 계
    df.loc[df[col] > threshold, col] = mean_val     # 이상치 위치를 평균으로 대체

# 4. 정규화 (Age 열을 0~1 범위로 정규화)
scaler = MinMaxScaler()
df['Age'] = scaler.fit_transform(df[['Age']])       # 2차원 배열 형태로 전달

# 5. EDA 출력
# 각 열의 결측치 개수 출력
original_df = pd.read_csv('20250618_175248_diabetes.csv')
print("각 열의 결측치 개수:")
for col in miss_val_replace:
    print(f"{col}: { (original_df[col] == 0).sum() }개")

# Outcome 별 Glucose 평균
print("\nOutcome 별 Glucose 평균:")
print(df.groupby('Outcome')['Glucose'].mean())

# 전처리 후 데이터프레임 상위 5개 행 출력
print("\n전처리 후 데이터프레임 상위 5개 행:")
print(df.head())

각 열의 결측치 개수:
Glucose: 5개
BloodPressure: 35개
SkinThickness: 227개
Insulin: 374개
BMI: 11개

Outcome 별 Glucose 평균:
Outcome
0    110.710121
1    142.165573
Name: Glucose, dtype: float64

전처리 후 데이터프레임 상위 5개 행:
   Pregnancies  Glucose  BloodPressure  SkinThickness     Insulin   BMI  \
0            6    148.0           72.0       35.00000  155.548223  33.6   
1            1     85.0           66.0       29.00000  155.548223  26.6   
2            8    183.0           64.0       29.15342  155.548223  23.3   
3            1     89.0           66.0       23.00000   94.000000  28.1   
4            0    137.0           40.0       35.00000  168.000000  43.1   

   DiabetesPedigreeFunction       Age  Outcome  
0                     0.627  0.483333        1  
1                     0.351  0.166667        0  
2                     0.672  0.183333        1  
3                     0.167  0.000000        0  
4                     2.288  0.200000        1  


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mean_val, inplace=True)  # 평균으로 대체
