### 1. 탐색적 데이터 분석 (Exploratory Data Analysis)

In [None]:
# 라이브러리 로드
import pandas as pd 
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt 

# 주피터 노트북 상에서 plot 보여줌
%matplotlib inline

In [None]:
# 데이터 로드
df = pd.read_csv("C:/Users/beoms/Desktop/STUDY/Naver DSP 2024/N_DSP_2024/diabetes.csv")
df.shape

In [None]:
df.head(5)

In [None]:
df.info()

In [None]:
# 결측치 확인하기
df_null = df.isnull()
df_null.sum()

In [None]:
# 수치 데이터에 대한 요약
df.describe(include="number")
# Glucose, BP, SkinThickness, Insulin, BMI 최솟값이 0이 될 수 없음????

In [None]:
# 마지막의 outcome 은 label값

feature_columns = df.columns[:-1].tolist()
feature_columns

In [None]:
# 결측치 시각화
cols = feature_columns[1:]
cols

In [None]:
# 결측치 여부를 나타내는 df 만들기
# 0값을 결측치라고 가정한다

df_null = df[cols].replace(0,np.nan)
df_null = df_null.isnull()
df_null.sum()

In [None]:
df_null.sum().plot.barh()
# 인슐린은 아마 0이 결측치가 아니지 않을까? 너무 많아서

In [None]:
df_null.mean()

In [None]:
#결측치를 heatmap으로 시각화
# Ture=1, False=0
plt.figure(figsize=(15,4))
sns.heatmap(df_null, cmap="Greys_r")

In [None]:
df["Outcome"].value_counts()

In [None]:
df["Outcome"].value_counts(normalize=True)

In [None]:
# 임신횟수와 당뇨병 발병 확률 비교
# groupby(인덱스값)
df.groupby(["Pregnancies"])["Outcome"].agg(["mean", "count"])

# pregnancies 인덱스 없애고 번호 부여하고 싶을때
df_po = df.groupby(["Pregnancies"])["Outcome"].agg(["mean", "count"]).reset_index()


In [None]:
# 임신 확률에 따른 당뇨병 발병 비율

df_po["mean"].plot.bar(rot=0)

In [None]:
# countplot
# 발병 비율

sns.countplot(data=df, x="Outcome")

In [None]:
# 임신횟수에 따른 당뇨병 발병 빈도수 비교

sns.countplot(data=df, x="Pregnancies", hue="Outcome")
# 7th 부터 뒤집혀짐?

In [None]:
# 특정 임신 횟수 이상/이하

df["Pregnancies_high"] = df["Pregnancies"] > 6
df[["Pregnancies", "Pregnancies_high"]].head()

In [None]:
sns.countplot(data=df, x="Pregnancies_high", hue="Outcome")

In [None]:
# Barplot
# 당뇨병 발병에 따른 BMI 수치 비교

sns.barplot(data=df, x="Outcome", y="BMI")

In [None]:
# 당뇨병 발벙에 따른 Glucose 수치 비교

sns.barplot(data=df, x="Outcome", y="Glucose")

In [None]:
# distplot
sns.distplot(df["Pregnancies"])


In [None]:
# 발병하는 케이스, 발병하지 않는 케이스
df_0 = df[df["Outcome"] == 0]
df_1 = df[df["Outcome"] == 1]
df_0.shape, df_1.shape

In [None]:

sns.distplot(df_0["Pregnancies"])
sns.distplot(df_1["Pregnancies"])
# 임신여부가 5가 넘어가면 발병률이 더 높아짐

In [None]:
# 나이에 따른 발병률
sns.distplot(df_0["Age"], rug=True)
sns.distplot(df_1["Age"], hist=False)
# 30세 이후 발병률 더 높음
# hist = False 옵션이 들어가면 곡선만 그려줌

In [None]:
# distplot은 밀도함수와 커널추정함수를 같이 그려줌
# subplot은 범주형 column을 시각화할 때 사용한다
# histplot을 그려줄 때는 수치형만 있어야함 bool -> int
# bins = 옵션은 bar 갯수 추가
df["Pregnancies_high"] = df["Pregnancies_high"].astype(int)
h = df.hist(figsize=(15,15), bins=20)

In [None]:

# ax= 옵션으로 어디에 플롯이 들어갈지 설정가능
sns.distplot(df["Outcome"], ax=axes[0][0])

In [None]:
fig, axes = plt.subplots(nrows=3, ncols=3, figsize=(15, 15))

for i, col_name in enumerate(cols):
    row = i // 3
    col = i % 3
    sns.distplot(df[col_name], ax=axes[row][col])

In [None]:
fig, axes = plt.subplots(nrows=4, ncols=2, figsize=(15, 15))

for i, col_name in enumerate(cols[:-1]):
    row = i // 2
    col = i % 2
    sns.distplot(df_0[col_name], ax=axes[row][col])
    sns.distplot(df_1[col_name], ax=axes[row][col])


In [None]:
fig, axes = plt.subplots(nrows=4, ncols=2, figsize=(15, 15))

for i, col_name in enumerate(cols[:-1]):
    row = i // 2
    col = i % 2
    sns.violinplot(data=df, x="Outcome", y=col_name, ax=axes[row][col])

In [None]:
sns.regplot(data=df, x="Glucose", y="Insulin")



In [None]:
sns.lmplot(data=df, x="Glucose", y="Insulin", hue="Outcome")


In [None]:
sns.lmplot(data=df[df["Insulin"]>0], x="Glucose", y="Insulin", hue="Outcome")


In [None]:
sns.pairplot(df)


In [None]:
df_corr = df.corr()
df_corr.style.background_gradient()

In [None]:
sns.heatmap(df_corr)

In [None]:
sns.heatmap(df_corr, vmax=1,vmin=-1)

In [None]:
plt.figure(figsize=(15, 8))
sns.heatmap(df_corr, annot=True, vmax=1, vmin=-1, cmap="coolwarm")

In [None]:

df.iloc[:, :-2].replace(0, np.nan)

In [None]:
df_matrix = df.iloc[:, :-2].replace(0, np.nan)
df_matrix["Outcome"] = df["Outcome"]
df_matrix.head()