In [None]:
from sklearn import tree
X = [[0, 0], [1, 1]]
Y = [0, 1]


In [None]:
clf = tree.DecisionTreeClassifier()
clf

In [None]:
clf = clf.fit(X, Y)
clf

In [None]:
# 일반 예측
clf.predict([[2., 2.]])

In [None]:
# predict_proba 비율 예측
clf.predict_proba([[2., 2.]])

In [None]:
from sklearn.datasets import load_iris
from sklearn import tree
iris = load_iris()
X, y = iris.data, iris.target
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, y)
clf

In [None]:
tree.plot_tree(clf)

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,5))
t = tree.plot_tree(clf, filled=True)

# 데이터 구성
* Pregnancies: 임신 횟수
* Glucose: 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도
* BloodPressure: 이완기 혈압 (mm Hg)
* SkinThickness: 삼두근 피부 주름 두께 (mm), 체지방을 추정하는데 사용되는 값
* Insulin: 2시간 혈청 인슐린 (mu U / ml)
* BMI: 체질량 지수 (체중kg / 키(m)^2)
* DiabetesPedigreeFunction: 당뇨병 혈통 기능
* Age: 나이
* Outcome: 768개 중에 268개의 결과 클래스 변수는 1이고 나머지는 0입니다.

## 필요한 라이브러리 로드

In [None]:
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('C:/Users/beoms/Desktop/STUDY/Naver DSP 2024/N_DSP_2024/diabetes.csv')
df.shape

In [None]:
df.head()

In [None]:
## 수치형 변수를 범주형 변수로 나누기

In [None]:
df["Pregnancies_high"] = df["Pregnancies"] > 6
df[["Pregnancies", "Pregnancies_high"]]

## 학습, 예측 데이터셋 나누기

In [6]:
# 8:2 비율로 구하기 위해 전체 데이터의 행에서 80% 위치에 해당되는 값을 구해서 split_count 라는 변수에 담기
split_count = int(df.shape[0] * 0.8)
split_count

614

In [8]:
# 슬라이싱으로 데이터를 나눈기
df[:]
df[:1]
train = df[:split_count].copy()


In [9]:
test = df[split_count:].copy()


In [15]:
# 학습과 예측에 사용할 칼럼명 가져오기
feature_names = train.columns.tolist()
feature_names
# Outcome, Pregnancies 제거
feature_names.remove("Pregnancies")
feature_names.remove("Outcome")
feature_names

['Glucose',
 'BloodPressure',
 'SkinThickness',
 'Insulin',
 'BMI',
 'DiabetesPedigreeFunction',
 'Age',
 'Pregnancies_high']

In [16]:
# 예측할 칼럼의 이름 
label_name = "Outcome"
label_name

'Outcome'

### 학습, 예측 데이터셋 만들기

In [17]:
# 학습세트
train[feature_names]
x_train = train[feature_names]
print(x_train.shape)
x_train.head()
# Pregnancies_high 는 불리언 값. 

(614, 8)


Unnamed: 0,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Pregnancies_high
0,148,72,35,0,33.6,0.627,50,False
1,85,66,29,0,26.6,0.351,31,False
2,183,64,0,0,23.3,0.672,32,True
3,89,66,23,94,28.1,0.167,21,False
4,137,40,35,168,43.1,2.288,33,False


In [22]:
# 정답 값
y_train = train[label_name]
print(y_train.shape)
y_train.head()

(614,)


0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

In [18]:
# 예측에 사용하는 데이터세트
x_test = test[feature_names]
print(x_test.shape)
x_test.head()

(154, 8)


Unnamed: 0,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Pregnancies_high
614,138,74,26,144,36.1,0.557,50,True
615,106,72,0,0,25.8,0.207,27,False
616,117,96,0,0,28.7,0.157,30,False
617,68,62,13,15,20.1,0.257,23,False
618,112,82,24,0,28.2,1.282,50,True


In [None]:
# 예측의 정답값
# Cross Validation?
y_test = test[label_name]
print(y_test.shape)
y_test.head()

# 머신러닝 알고리즘 가져오기

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model

### 학습(훈련)
* 시험을 볼 때 기출문제(x_train)와 정답(y_train)을 보고 공부하는 과정과 유사합니다.


In [None]:
model.fit(x_train, y_train)

### 예측
* 실전 시험문제(x_test)라고 보면 됩니다. 우리가 정답을 직접 예측합니다.

In [None]:
y_predict = model.predict(x_test)
y_predict

#### 트리 알고리즘 분석하기
* 의사결정나무를 시각화 합니다.

In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(20,20))
tree = plot_tree(model, feature_names=feature_names, filled=True, fontsize=10)

In [None]:
import graphviz
from sklearn.tree import export_graphviz

dot_tree = export_graphviz(model, feature_names=feature_names, filled=True)

graphviz.Source(dot_tree)

In [None]:
# 피처의 중요도 추출하기
model.feature_importances_

In [None]:
sns.barplot(x=model.feature_importances_,y=feature_names)

### 정확도 측정하기

In [None]:
# 실제값 - 예측값
# 절대값을 씌운 값이 1인 값이 다르게 예측한 값이 됩니다.

abs(y_test - y_predict).sum()

In [None]:
# 예측의 정확도 구하기. 100점 만점에 몇 점?
diff_count = abs(y_test - y_predict).sum()

(len(y_test)-diff_count) / len(y_test) * 100

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predict)

In [None]:
model.score(x_test,y_test)