#### 1. Exploratory Data Anyalysis

#### 2. 데이터셋 출처
- Pima Indians Diabetes Database|Kaggle
- https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database

#### 2.1 데이터 구성
- Pregnancies: 임신 횟수
- Glucose: 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도
- BloodPressure:이완기 혈압 (mm Hg)
- SkinThickness: SkinThicknessTriceps 피부 주름 두께(mm)
- Insulin:2시간 혈청 인슐린 (mu U/ml)
- BMI: 체질량 지수(체중kg/ 키(m)^2)
- DiabetesPedigreeFunction: 당뇨병 혈통 기능
- Age: 나이
- Outcome: 768개 중에 268개의 결과 클래스 변수(0 또는 1)는 1이고 나머지는 0입니다.

#### 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy
# 시각화를 위한 seaborn, matplotlib.pyplot 을 로드합니다.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

#### 4 데이터 로드

In [None]:
df=pd.read_csv('data/diabetes.csv')
df.shape

In [None]:
# 위에서 5개만 미리보기 합니다.
df.head()

In [None]:
# info로 데이터타입, 결측치, 메모리 사용량 등의 정보를 봅니다.
df.info() # 결측치가 없음

In [None]:
# 결측치를 봅니다.
df_null=df.isnull()
df_null.head()

In [None]:
df_null.sum()

In [None]:
# 수치데이터에 대한 요약을 봅니다.
# 1사분위 값: 25%
# 2사분위 값: 50%
# 3사분위 값: 75%
# Gluecose에서 최솟값이 0인데 1사분위 값이 99이므로 결측치로 볼 수 있음
# BloodPressure(혈압)의 최솟값도 0이므로 결측치로 예상
# SkinThickness(피부두께)의 최솟값도 0이므로 결측치로 예상
df.describe()

In [None]:
# 가장 마지막에 있는 Outcome은 label 값이기 때문에 제외하고
# 학습과 예측에 사용할 컬럼을 만들어 줍니다.
# feature_columns 라는 변수에 담아줍니다.

feature_columns=df.columns[:-1].tolist() # Age까지 가져오겠다.
feature_columns

#### 5 결측치 시각화

값을 요약해 보면 최솟값이 0으로 나오는 값들이 있습니다.
0이 나올 수 있는 값도 있지만 인슐린이나 혈압 등의 값은 0값이 결측치라고 볼 수 있을 것입니다.
따라서 0인 값을 결측치로 처리하고 시각화 해봅니다.

In [None]:
cols=feature_columns[1:]
cols

In [None]:
# 결측치 여부를 나타내는 데이터프레임을 만듭니다.
# 0값을 결측치라 가정하고 정답(label, target)값을 제외한 컬럼에 대해
# 결측치 여부를 구해서 df_null 이라는 데이터프레임에 담습니다.
# insulin 수치는 결측치가 너무 많기 때문에 당뇨병을 결정하는데 중요한 column이 아닐 것으로 예상
df_null=df[cols].replace(0,np.nan)
df_null=df_null.isnull()
df_null.sum()

In [None]:
df_null.mean()*100

In [None]:
# 결측치의 갯수를 구해 막대 그래프로 시각화 합니다.
df_null.sum().plot.barh()

In [None]:
# 결측치를 heatmap으로 시각화 합니다.
plt.figure(figsize=(15,4))
sns.heatmap(df_null) # True는 검정색, False는 흰색

#### 6 정답값
- target, label이라고 부르기도 합니다.

In [None]:
# 정답값인 outcome의 갯수를 봅니다.
df["Outcome"].value_counts()

In [None]:
# 정답값인 outcome의 비율을 봅니다.
df["Outcome"].value_counts(normalize=True)*100

In [None]:
# 다른 변수와 함께 봅니다.
# 임신횟수와 정답값을 비교해 봅니다.
# "Pregnancies"를 groupby로 그룹화해서 Outcome에 대한 비율을 구합니다.
# 결과를 df_po라는 변수에 저장합니다.

df_po=df.groupby(["Pregnancies"])["Outcome"].agg(["mean","count"]).reset_index()
df_po

In [None]:
# 임신횟수에 따른 당뇨병 발병 비율
df_po["mean"].plot.bar(rot=0)

#### 7 countplot

In [None]:
# 위에서 구했던 당뇨병 발병 비율을 구해봅니다.
# 당뇨병 발병 빈도수를 비교 합니다.

sns.countplot(data=df,x="Outcome")

In [None]:
# 임신횟수에 따른 당뇨병 발병 빈도수를 비교합니다.

sns.countplot(data=df,x="Pregnancies",hue="Outcome")

In [None]:
# 임신횟수의 많고 적음에 따라 Pregnancies_high 변수를 만듭니다.
df["Pregnancies_high"]=df["Pregnancies"] > 6
df[["Pregnancies_high","Pregnancies"]].head()

In [None]:
# Pregnancies_high 변수의 빈도수를 countplot으로 그리고
# Outcome 값에 따라 다른 색상으로 표현합니다.

sns.countplot(data=df, x="Pregnancies_high", hue="Outcome")

#### 8 barplot
- 기본 설정으로 시각화 하면 y축에는 평균을 추정해서 그리게 됩니다.


In [None]:
# 당뇨병 발병에 따른 BMI 수치를 비교합니다.
sns.barplot(data=df,x="Outcome",y="BMI")

In [None]:
# 당뇨병 발병에 따른 포도당(Gluecose) 수치를 비교합니다.
sns.barplot(data=df,x="Outcome",y="Glucose")

In [None]:
# Insuline 수치가 0 이상인 관측치에 대해서 당뇨병 발병을 비교합니다.
sns.barplot(data=df, x="Outcome",y="Insulin")

In [None]:
# 임신횟수에 대해서 당뇨병 발병 비율을 비교합니다.
sns.barplot(data=df,x="Pregnancies",y="Outcome")

In [None]:
# 임신횟수(Pregnancies)에 따른 포도당(Gluecose)수치를 당뇨병 발병여부(Outcome)에 따라 시각화 합니다.
sns.barplot(data=df,x="Pregnancies",y="Glucose",hue="Outcome")

In [None]:
# 임신횟수(Pregnancies)에 따른 체질량지수(BMI)를 당뇨병 발병여부(Outcome)에 따라 시각화 합니다.
sns.barplot(data=df,x="Pregnancies",y="BMI",hue="Outcome")

In [None]:
# 임신횟수(Pregnancies)에 따른 인슐린 수치(Insulin)를 당뇨병 발병여부(Outcome)에 따라 시각화 합니다.
# 인슐린 수치에는 결측치가 많기 때문에 0보다 큰 값에 대해서만 그립니다.
sns.barplot(data=df[df["Insulin"]>0],x="Pregnancies",y="Insulin",hue="Outcome")

#### 9 boxplot

In [None]:
# 임신횟수 (Pregnancies)에 따른 인슐린 수치(Insulin)를 당뇨병 발병여부(Outcome)에 따라 시각화 합니다.
# 인슐린 수치에는 결측치가 많기 떄문에 0보다 큰 값에 대해서만 그립니다.

sns.boxplot(data=df[df["Insulin"]>0], x="Pregnancies",y="Insulin",hue="Outcome")

#### 10 violinplot

In [None]:
plt.figure(figsize=(20, 5))
sns.violinplot(data=df[df["Insulin"] > 0], x="Pregnancies", y="Insulin", hue="Outcome", split=True)

#### 11 swarmplot

In [None]:
plt.figure(figsize=(15, 4))
sns.violinplot(data=df[df["Insulin"] > 0], x="Pregnancies", y="Insulin", hue="Outcome")

#### 12 Displot

In [None]:
## distplot: 1개의 수치형 변수를 표현할 때 사용하는 시각화 그래프

sns.distplot(df["Pregnancies"])

In [None]:
df_0=df[df["Outcome"]==0]
df_1=df[df["Outcome"]==1]
df_0.shape,df_1.shape

In [None]:
sns.distplot(df_0["Pregnancies"])
sns.distplot(df_1["Pregnancies"])

In [None]:
sns.distplot(df_0["Age"])
sns.distplot(df_1["Age"])

In [None]:
sns.distplot(df_0["Age"],hist=False)
sns.distplot(df_1["Age"],hist=False)

In [None]:
sns.distplot(df_0["Age"],hist=False,rug=True)
sns.distplot(df_1["Age"],hist=False,rug=True)

In [None]:
sns.distplot(df_0["Age"],hist=False,rug=True,label=0)
sns.distplot(df_1["Age"],hist=False,rug=True,label=1)

#### 13 Subplots

#### 13.1 Pandas를 통한 hisplot 그리기
- pandas를 사용하면 모든 변수에 대한 서브플롯을 한 번에그려줍니다.

In [None]:
df["Pregnancies_high"]=df["Pregnancies_high"].astype(int)

In [None]:
h=df.hist(figsize=(10,10),bins=20) # historgram의 막대 갯수 설정 bins


#### 13.2 반복문을 통한 서브플롯 그리기
- 13.2.1 distplot

In [None]:
# 컬럼의 수 만큼 for 문을 만들어서 서브플롯으로 시각화를 합니다.
col_num=df.columns.shape #(col_num,)
col_num

In [None]:
col_list=df.columns[:-1].tolist()

In [None]:
# histplot으로 서브플롯을 그립니다.
fig,axes= plt.subplots(nrows=3,ncols=3,figsize=(15,15))

for i,col_name in enumerate(col_list):
  row=i//3
  col=i%3
  sns.distplot(df[col_name],ax=axes[row][col])
#sns.displot(df["Outcome"],ax=axes[0][1])
#sns.displot(df["Age"],ax=axes[0][0])

#### 13.2.2 violinplot

In [None]:
col_list=df.columns[:-1].tolist()

In [None]:
# violintplot으로 서브플롯을 그려봅니다.

fig,axes= plt.subplots(nrows=4,ncols=2,figsize=(15,15))

for i,col_name in enumerate(col_list[:-1]):
  row=i//2
  col=i%2
  sns.violinplot(data=df,x="Outcome",y=col_name,ax=axes[row][col])
#sns.displot(df["Outcome"],ax=axes[0][1])
#sns.displot(df["Age"],ax=axes[0][0])

#### 13.2.3 lmplot
- 상관계수가 높은 두 변수에 대해 시각화 합니다.

In [None]:
# Glucose와 Insulin을 Outcome으로 구분해 봅니다.
sns.lmplot(data=df,x="Glucose",y="Insulin",hue="Outcome")

In [None]:
# Insulin 수치가 0 이상인 데이터로만 그려봅니다.
sns.lmplot(data=df[df["Insulin"]>0],x="Glucose",y="Insulin",hue="Outcome")

#### 13.2.4 pairplot

In [None]:
# PairGrid를 통해 모든 변수에 대해 Outcome에 따른 scatterplot을 그려봅니다.
# pairplot: 모든 변수에 대해서 그래프를 그림, scatterplot이 기본
g=sns.PairGrid(df,hue="Outcome")
g.map(plt.scatter)

#### 14 상관 분석
- 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법 (두 계수 x,y의 상관계수의 정도를 나타내는 수치)

In [None]:
df_matrix=df.iloc[:,:-2].replace(0,np.nan) # replace를 이용하여 0값은 nan으로 대체
df_matrix["Outcome"]=df["Outcome"]
df_matrix

In [None]:
# 정답 값인 Outcome을 제외 하고 feature로 사용할 컬럼들에 대해 0을 결측치로 만들어 줍니다.
# 상관계수를 구합니다.
df_corr=df_matrix.corr()
df_corr.style.background_gradient()

In [None]:
# 위에서 구한 상관계수를 heatmap으로 시각화 합니다.
df_corr

In [None]:
# 위에서 구한 상관계수를 heatmap으로 시각화 합니다.
plt.figure(figsize=(15,8))
sns.heatmap(df_corr,annot=True,vmax=1,vmin=-1,cmap="coolwarm") # max값 1, min값을 -1로 표시

In [None]:
# Outcome 수치에 대한 상관계수만 모아서 봅니다.
df_corr["Outcome"]

#### 14.1 상관계수가 높은 변수끼리 보기

In [None]:
# Insulin과 Gluecose로 regplot 그리기
sns.regplot(data=df_matrix, x="Insulin",y="Glucose") # 회귀선이 1에 가까울 수록 상관관계가 높다는 것을 뜻함

In [None]:
# df_0으로 결측치 처리한 데이터프레임으로
# Insulin과 Gluecose로 regplot 그리기

sns.regplot(data=df_matrix,x="Insulin",y="Glucose")

In [None]:
# Age와 Pregnancies로 regplot 그리기
sns.regplot(data=df,x="Age",y="Pregnancies")

In [None]:
# Age 와 Pregnancies로 lmplot을 그리고 Outcome에 따라 다른 색상으로 표현하기
sns.lmplot(data=df,x="Age",y="Pregnancies",hue="Outcome",col="Outcome")

In [None]:
df_corr["Outcome"]