# 당뇨병 진단 데이터를 활용한 데이터 전처리 및 EDA 분석

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

In [2]:
# 데이터 불러오기
df = pd.read_csv('diabetes.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
# 결측치 제거 전 미리 결측치 확인
df.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [4]:
# 결측치 처리
ctgy_data = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']

# 0으로 되어 있는 값들을 NaN으로 변경하고, 평균값으로 대체
df[ctgy_data] = df[ctgy_data].replace(0, np.nan)
for col in ctgy_data:
    df[col] = df[col].fillna(df[col].mean())

In [5]:
# 이상치 처리
# 'SkinThickness'와 'Insulin' 컬럼에서
for col in ['SkinThickness', 'Insulin']:
    # 상위 1%의 값을 평균값으로 대체
    upper = df[col].quantile(0.99)
    mean_value = df[col].mean()
    # 이상치가 상위 1%를 초과하는 경우 평균값으로 대체
    df[col] = df[col].apply(lambda x: mean_value if x > upper else x)

In [6]:
# MinMaxScaler를 사용하여 'Age' 열을 0과 1 사이로 정규화
scaler = MinMaxScaler()
df['Age'] = scaler.fit_transform(df[['Age']])

In [9]:
# 각 열의 결측치 개수 출력
print('결측치 개수:\n', df.isnull().sum())
# Outcome 별로 'Glucose' 평균 출력
print('--' * 50)
print('Outcome 별 Glucose 평균: \n', df.groupby('Outcome')['Glucose'].mean())
# 전처리 후 상위 5개 데이터 출력
print('--' * 50)
df.head()

결측치 개수:
 Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64
----------------------------------------------------------------------------------------------------
Outcome 별 Glucose 평균: 
 Outcome
0    110.710121
1    142.165573
Name: Glucose, dtype: float64
----------------------------------------------------------------------------------------------------


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148.0,72.0,35.0,155.548223,33.6,0.627,0.483333,1
1,1,85.0,66.0,29.0,155.548223,26.6,0.351,0.166667,0
2,8,183.0,64.0,29.15342,155.548223,23.3,0.672,0.183333,1
3,1,89.0,66.0,23.0,94.0,28.1,0.167,0.0,0
4,0,137.0,40.0,35.0,168.0,43.1,2.288,0.2,1
