In [None]:
!conda config --set ssl_verify false
!conda install python-graphviz scikit-learn -y

In [None]:
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

import matplotlib.pyplot as plt
import seaborn as sns
# 경로를 설정하지 않으면 동작을 안할수 있음
from sklearn.tree import export_graphviz
import graphviz

## 사외PC (Google Colab) 으로 실행 시 Data load

In [None]:
#데이터를 불러오기

wine = load_wine()

# 데이터프레임 생성
df = pd.DataFrame(data=wine.data, columns= wine.feature_names)
df['target'] = wine.target

## 사내 PC에서 코드 실행 시 Data load

In [None]:
#데이터를 불러오기

# 사내PC에서 이용 시 sklearn.datasets의 load_wine를 통해 load가 되지 않아 파일로 제공합니다.
wine = pd.read_csv('wine.csv')
df = wine.rename(columns={'Wine': 'target'})
# 'target' 컬럼의 값을 {1: 0, 2: 1, 3: 2}로 변경
df['target'] = df['target'].replace({1: 0, 2: 1, 3: 2})

## 공통 코드 부분

In [None]:
# EDA (Exploratory Data Analysis) 탐색적 데이터 분석
print(df.shape)
print(df.describe())
# 총 3가지 와인의 품종이 있음 0, 1, 2
print(df['target'].value_counts())

In [None]:
# 특성 간 싱관관계 히트맵
plt.figure(figsize=(10,8))
sns.heatmap(df.corr(), annot = True, cmap = 'coolwarm', linewidths = 0.5 )
plt.title("Feature Correlation Heatmap")
plt.show()


In [None]:
#모형 학습
# 특성 (Feature)와 타겟(target)의 데이터를 분리
X = df.drop('target', axis=1)
y = df['target']

In [None]:
# 학습데이터와 테스트 데이터로 분리 (80% 학습, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state= 42)

In [None]:
# Decision Tree 모델 생성 및 학습
clf = DecisionTreeClassifier(criterion= 'entropy')
clf.fit(X_train, y_train)

In [None]:
#테스트를 위한 품종 분류
y_pred = clf.predict(X_test)

In [None]:
# 정확도 계산 및 분류 리포트를 출력
accuracy = accuracy_score(y_test, y_pred)
print("\n Accuracy:", accuracy)
print("\n Classification Report", classification_report(y_test, y_pred))

In [None]:
#의사결정나무를 시각화
dot_data = export_graphviz(clf, out_file = None)
#Graphviz 객체 생성
graph = graphviz.Source(dot_data)
#저장 및 표시
graph.render("basic_classifier", view=True)
