# 데이터셋 준비 질문 (Preparing a Dataset)
다음은 데이터셋을 분석하기 전에 스스로에게 물어봐야 할 핵심 질문들입니다.

1. 데이터셋은 유효하지 않은 값(invalid values)을 어떻게 처리하고 있나요?
2. 널(Null) 값이나 결측값(missing values)에 대해 무엇을 하고 싶나요? (예: 제거, 대체, 보간 등)
3. 데이터를 요약(summarise), 그룹화(group), 또는 필터링(filter)하고 싶나요?

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("Diabetes.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
Pregnancies                 768 non-null int64
Glucose                     768 non-null int64
BloodPressure               768 non-null int64
SkinThickness               768 non-null int64
Insulin                     768 non-null int64
BMI                         768 non-null float64
DiabetesPedigreeFunction    768 non-null float64
Age                         768 non-null int64
Outcome                     768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [2]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


그러니까 그들은 데이터가 없을 때 0 값을 사용하는 것 같습니다. 저는 그들이 **NaN**을 전혀 사용하지 않는 것 같지만, 만약 사용하고 있다면 우리는 해당 행들을 **제거**하거나 특정 값으로 채워 넣을 수 있습니다. 그들이 이미 **0**을 사용하고 있기 때문에, 혹시 모를 상황을 대비하여 이 작업을 하는 것이 신중할 수 있습니다.

In [7]:
#데이터셋에 널 값이 존재할 때
df = df.fillna(0) #널 값을 0으로 채워넣는 것
df = df.dropna() #그 행를 제거하는 것

이제 NaN 값이 있다는 것을 알았습니다. 물론 그냥 NaN이 있는지 확인해 볼 수도 있었겠지만, 저는 지금 여러분이 사용할 수 있는 함수들을 보여주려고 하는 것입니다.

그렇다면, 이 0 값들을 어떻게 처리해야 할까요? 어떤 경우에는 합리적인 값으로 채울 수도 있지만, 이는 일반적으로 데이터를 편향되게 만듭니다. 따라서 대부분의 경우 우리는 이 값들을 무시할 것입니다.

그러니 우리가 해야 할 일은 데이터를 어떻게 사용할지 묻는 것입니다. 우리가 **SkinThickness(피부 두께)**를 사용할 것인가요? **비물리적인 이상치(non-physical outliers)**가 있는지 신경 써야 할까요?

만약 우리가 주로 **Glucose(포도당), BMI, 그리고 Age(나이)**에만 관심을 둔다면, 해당 열들만 봄으로써 이러한 문제들 중 상당 부분을 제거할 수 있을 것입니다.

In [8]:
df2 = df[["Glucose", "BMI", "Age", "Outcome"]]

In [9]:
df2.head()

Unnamed: 0,Glucose,BMI,Age,Outcome
0,148,33.6,50,1
1,85,26.6,31,0
2,183,23.3,32,1
3,89,28.1,21,0
4,137,43.1,33,1


In [7]:
df2.describe()

Unnamed: 0,Glucose,BMI,Age,Outcome
count,768.0,768.0,768.0,768.0
mean,120.894531,31.992578,33.240885,0.348958
std,31.972618,7.88416,11.760232,0.476951
min,0.0,0.0,21.0,0.0
25%,99.0,27.3,24.0,0.0
50%,117.0,32.0,29.0,0.0
75%,140.25,36.6,41.0,1.0
max,199.0,67.1,81.0,1.0


하지만 이제 흩어져 있는 모든 0 값을 제거해 봅시다.

우리가 하고 싶은 것은 0이 하나라도 포함된 행을 찾아서 그 행을 제거하는 것입니다. 마스크(mask)를 적용하는 관점에서 설명하면, 0을 가진 행을 찾아 **True**로 표시한 다음, 그것을 **invert**시켜 **False**로 만듭니다. 이렇게 **loc**을 사용하여 마스크를 적용했을 때, 거짓(False) 항목들(즉, 0을 포함했던 행들)이 제거되도록 하는 것입니다.

In [15]:
#df2.columns[:-1]] == 0).any(axis=1): or연산하여 하나라도 True면 True
df3 = df2.loc[~(df2[df2.columns[:-1]] == 0).any(axis=1)]
df3.describe()
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 752 entries, 0 to 767
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Glucose  752 non-null    int64  
 1   BMI      752 non-null    float64
 2   Age      752 non-null    int64  
 3   Outcome  752 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 29.4 KB


Index(['Glucose', 'BMI', 'Age'], dtype='object')

좋습니다. 이제 우리가 필요한 데이터를 선택했고, null 값과 유사한 값이 없는지 확인했습니다. 다음 섹션에서는 몇 가지 플롯을 통해 데이터가 정상적으로 보이는지 확인해 볼 것입니다.

마지막으로 할 수 있는 한 가지는 데이터를 결과(Outcome)별로 그룹화하는 것입니다. 이는 진단 패턴을 찾는 데 더 쉽게 만들 수 있습니다.

우리는 이 작업을 DataFrame을 두 개로 **분할(split out)**하여 수행할 수도 있고(하나는 '예', 다른 하나는 '아니오'), 요약 통계를 원한다면 groupBy 함수를 사용할 수도 있습니다.

In [12]:
df3.groupby("Outcome").mean()

Unnamed: 0_level_0,Glucose,BMI,Age
Outcome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,110.82582,30.876434,31.309426
1,142.488636,35.37197,37.015152


그리고 이것이 우리에게 알려줄 수 있는 것은, 일반적으로 포도당 수치(glucose level)가 높을수록, 과체중(overweight)일수록, 그리고 나이가 많을수록, 당뇨병 진단을 받을 확률이 더 높다는 것입니다. 이는 아마도 그리 놀라운 사실은 아닐 것입니다.

우리는 이처럼 groupBy 구문을 사용하여 다음과 같이 다른 작업들도 수행할 수 있습니다.

In [18]:
df3.groupby("Outcome").agg({"Glucose": "mean", "BMI": "median", "Age": "sum"})

Unnamed: 0_level_0,Glucose,BMI,Age
Outcome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,110.82582,30.1,15279
1,142.488636,34.25,9772


In [19]:
df3.groupby("Outcome").agg(["mean", "median"])

Unnamed: 0_level_0,Glucose,Glucose,BMI,BMI,Age,Age
Unnamed: 0_level_1,mean,median,mean,median,mean,median
Outcome,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
0,110.82582,107.5,30.876434,30.1,31.309426,27
1,142.488636,140.5,35.37197,34.25,37.015152,36


우리가 원한다면, 데이터셋을 **긍정적 결과(positive outcomes)**와 **부정적 결과(negative outcomes)**로 분할할 수도 있습니다. 만약 원한다면요.

In [17]:
positive = df3.loc[df3["Outcome"] == 1]
negative = df3.loc[df3["Outcome"] == 0]
print(positive.shape, negative.shape)

(264, 4) (264, 4)


우리는 이 분할(splitting) 작업을 당장은 사용하지 않을 것이므로, 정리되고 준비된 데이터셋인 df3를 파일로 저장하겠습니다. 이렇게 하면 나중에 분석 코드가 향후 노트북에서 데이터 준비 코드를 복사/붙여넣기 할 필요 없이 이 데이터를 로드할 수 있습니다.

In [23]:
df3.to_csv("clean_diabetes.csv", index=False)