<a href="https://colab.research.google.com/github/jumunseong99-hue/boostcourse_assignment/blob/main/w2.2%EB%B6%84%EB%A5%98%EB%AA%A8%EB%8D%B8%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/boostcourse-ds-511/blob/master/pima-classification-baseline-01.ipynb)


* 강좌 보기 : https://www.boostcourse.org/ds214/

<img src="https://upload.wikimedia.org/wikipedia/commons/6/6f/Pima.jpg" width=200>

* [Pima people - Wikipedia](https://en.wikipedia.org/wiki/Pima_people)

## 데이터셋 출처
* [Pima Indians Diabetes Database | Kaggle](https://www.kaggle.com/uciml/pima-indians-diabetes-database)
* https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html


### 데이터 구성

* Pregnancies : 임신 횟수
* Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도
* BloodPressure : 이완기 혈압 (mm Hg)
* SkinThickness : 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값
* Insulin : 2시간 혈청 인슐린 (mu U / ml)
* BMI : 체질량 지수 (체중kg / 키(m)^2)
* DiabetesPedigreeFunction : 당뇨병 혈통 기능
* Age : 나이
* Outcome : 768개 중에 268개의 결과 클래스 변수(0 또는 1)는 1이고 나머지는 0입니다.


## 필요한 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy
# 시각화를 위한 seaborn, matplotlib.pyplot 을 로드합니다.

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
# 1. 필요한 라이브러리 설치 및 임포트
!pip install kagglehub -q
import kagglehub
import pandas as pd
import os # 파일 경로를 다루기 위한 라이브러리

# 2. 데이터셋 다운로드 (이전과 동일)
# path 변수에는 파일이 '저장된 폴더 경로'가 담깁니다.
path = kagglehub.dataset_download("uciml/pima-indians-diabetes-database")

print("다운로드된 폴더 경로:", path)

# 3. 전체 파일 경로 만들기
# 다운로드된 폴더(path) 안에 있는 'diabetes.csv' 파일의 전체 경로를 만듭니다.
file_path = os.path.join(path, "diabetes.csv")

print("CSV 파일의 전체 경로:", file_path)

# 4. 데이터 로드 및 확인 (수정된 부분)
# 이제 완성된 전체 파일 경로(file_path)를 사용해 CSV를 읽습니다.
df = pd.read_csv(file_path)

# 데이터가 잘 로드되었는지 확인합니다.
print(df.shape)
df.head()

## 데이터셋 로드

## 학습, 예측 데이터셋 나누기

In [None]:
# 8:2 의 비율로 구하기 위해 전체 데이터의 행에서 80% 위치에 해당되는 값을 구해서 split_count 라는 변수에 담습니다.
split_count = int(df.shape[0] * 0.8)
split_count

In [None]:
# train, test로 슬라이싱을 통해 데이터를 나눕니다.
train = df[:split_count].copy()
train.shape

In [None]:
test = df[split_count:].copy()
test.shape

## 학습, 예측에 사용할 컬럼

In [None]:
# feature_names 라는 변수에 학습과 예측에 사용할 컬럼명을 가져옵니다.
feature_names = train.columns[:-1].tolist()
feature_names

## 정답값이자 예측해야 될 값

In [None]:
# label_name 이라는 변수에 예측할 컬럼의 이름을 담습니다.

label_name = train.columns[-1]
label_name

## 학습, 예측 데이터셋 만들기

In [None]:
# 학습 세트 만들기 예) 시험의 기출문제

X_train = train[feature_names]
print(X_train.shape)
X_train.head()

In [None]:
# 정답 값을 만들어 줍니다. 예) 기출문제의 정답
y_train = train[label_name]
print(y_train.shape)
y_train.head()

In [None]:
# 예측에 사용할 데이터세트를 만듭니다. 예) 실전 시험 문제

X_test = test[feature_names]
print(X_test.shape)
X_test.head()

In [None]:
# 예측의 정답값 예) 실전 시험 문제의 정답
y_test = test[label_name]

print(y_test.shape)
y_test.head()

## 머신러닝 알고리즘 가져오기

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=42)
model

## 학습(훈련)
* 시험을 볼 때 기출문제(X_train)와 정답(y_train)을 보고 공부하는 과정과 유사합니다.

In [None]:
model.fit(X_train, y_train)

## 예측
* 실전 시험문제(X_test)라고 보면 됩니다. 우리가 정답을 직접 예측합니다.

In [None]:
y_predict = model.predict(X_test)
y_predict[:5]

## 트리 알고리즘 분석하기
* 의사결정나무를 시각화 합니다.

In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(20, 20))
tree = plot_tree(model,
                 feature_names=feature_names,
                 filled=True,
                 fontsize=10)

In [None]:
# graphviz 를 통해 시각화 합니다.
# graphviz 는 별도의 설치가 필요합니다.
# graphviz 와 파이썬에서 graphviz 를 사용할 수 있게 해주는 도구 2가지를 설치해 주셔야 합니다.
# import graphviz
# from sklearn.tree import export_graphviz

# dot_tree = export_graphviz(model,
#                            feature_names = feature_names,
#                            filled=True)
# graphviz.Source(dot_tree)

In [None]:
# 피처의 중요도를 추출하기

model.feature_importances_

In [None]:
# 피처의 중요도 시각화 하기

sns.barplot(x=model.feature_importances_, y=feature_names)

## 정확도(Accuracy) 측정하기

In [None]:
# 실제값 - 예측값을 빼주면 같은 값은 0으로 나오게 됩니다.
# 여기에서 절대값을 씌운 값이 1인 값이 다르게 예측한 값이 됩니다.

diff_count = abs(y_test - y_predict).sum()
diff_count

In [None]:
# 예측의 정확도를 구합니다. 100점 만점 중에 몇 점을 맞았는지 구한다고 보면 됩니다.

(len(y_test) - diff_count) / len(y_test) * 100

In [None]:
# 위에서 처럼 직접 구할 수도 있지만 미리 구현된 알고리즘을 가져와 사용합니다.

from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predict) * 100

In [None]:
# model 의 score 로 점수를 계산합니다.
model.score(X_test, y_test) * 100