### 1. DT (Decision Tree, 의사결정나무) 🌳
데이터를 여러 기준에 따라 분기하면서 나무 구조로 분류하는 알고리즘. 말 그대로 순서도처럼 작동.

In [1]:
#라이브러리 불러오기

import pandas as pd  # 데이터 분석을 위한 라이브러리
import numpy as np  # 수학 연산을 위한 라이브러리
from sklearn.model_selection import train_test_split  # 데이터 분할 함수
from sklearn.tree import DecisionTreeClassifier  # 의사결정나무 분류기
from sklearn.metrics import accuracy_score  # 정확도 평가 함수
from sklearn import tree  # 의사결정나무 시각화 라이브러리
import matplotlib.pyplot as plt  # 그래프 시각화를 위한 라이브러리

In [2]:
# 1. CSV 파일에서 데이터 불러오기
file_path = r"../mobile.csv"  # 파일 경로 (r'': 문자열로 인식)
df = pd.read_csv(file_path)  # CSV 파일 읽기
df  # 읽은 파일 출력

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
0,842,0,2.2,0,1,0,7,0.6,188,2,...,20,756,2549,9,7,19,0,0,1,1
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1216,1786,2769,16,8,11,1,0,0,2
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1208,1212,1411,8,2,15,1,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,794,1,0.5,1,0,1,2,0.8,106,6,...,1222,1890,668,13,4,19,1,1,0,0
1996,1965,1,2.6,1,0,0,39,0.2,187,4,...,915,1965,2032,11,10,16,1,1,1,2
1997,1911,0,0.9,1,1,1,36,0.7,108,8,...,868,1632,3057,9,1,5,1,1,0,3
1998,1512,0,0.9,0,4,1,46,0.1,145,5,...,336,670,869,18,10,19,1,1,1,0


In [3]:
# 2️. X(features), y(target) 분리 / train, test 분리(8:2 비율)
X = df.iloc[:, :-1]  # 마지막 열(Name)을 제외한 나머지 열 (SepalLength, SepalWidth, PetalLength, PetalWidth) = x값
y = df.iloc[:, -1]  # 마지막 열(Name) = y값

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # test_size: 전체 데이터 중 test에 할당할 비율
X_train  # 4개 데이터 중 X_train 출력

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,pc,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi
968,1923,0,0.5,1,7,0,46,0.5,191,1,10,767,1759,1489,10,9,3,1,1,1
240,633,1,2.2,0,0,1,49,0.1,139,8,1,529,1009,3560,11,1,16,1,1,1
819,1236,0,0.9,1,2,1,57,0.1,188,1,14,517,809,1406,14,12,20,1,0,1
692,781,0,1.1,0,2,0,38,0.4,198,5,7,304,1674,3508,13,8,5,0,0,1
420,1456,1,0.5,1,7,0,7,0.4,105,5,12,823,1104,1587,6,5,20,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1130,1975,1,1.9,1,2,0,31,0.9,151,1,17,775,1607,3022,13,5,19,0,0,1
1294,589,1,0.5,0,1,1,59,0.7,146,8,4,759,1858,362,16,10,6,1,1,1
860,1829,1,0.5,0,0,1,15,0.4,160,5,7,729,1267,2080,16,11,12,1,0,1
1459,1927,0,0.9,1,3,0,11,0.4,190,8,12,491,1506,2916,16,11,18,0,1,1


In [4]:
# 3. 의사결정나무(DT) 모델 생성, 학습(= 훈련)
dt_model = DecisionTreeClassifier(random_state=42)  # DT 모델 생성 ('랜덤 시드 고정'이라는데 무슨 뜻이지?)
    # **max_depth=3: 트리의 최대 깊이를 3으로 제한. 깊이가 줄어든 만큼 조건을 덜 체크하므로 정확도 하락 but 과적합 감소
    # **min_samples_spilt=5: 한 노드에서 샘플이 최소 5개여야만 다음 노드로 넘어감(= 샘플을 나눔). 정확도 하락 but 과적합 감소
    # **min_samples_leaf=2: 최하단 노드(잎)는 샘플이 최소 2개 있어야 함. 샘플을 너무 작게 나누는 걸 방지해 정확도 하락 but 과적합 감소

dt_model.fit(X_train, y_train)  # 학습 데이터로 훈련

In [5]:
# 4. 학습된 모델로 예측 수행, 예측 정확도 평가
y_pred = dt_model.predict(X_test)  # 테스트 데이터 예측

accuracy = accuracy_score(y_test, y_pred)  # 정확도 계산
print(f"DT 모델 정확도: {accuracy:.2f}")  # 정확도 출력


DT 모델 정확도: 0.83


In [7]:
# 외전. 교차 검증
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dt_model, X, y, cv=5)  # **K 폴드 교차검증: test 데이터가 아닌 전체 데이터를 cv개의 폴드로 나눠 각 폴드마다 테스트
print(f"교차 검증 평균 정확도: {scores.mean():.2f}")

교차 검증 평균 정확도: 0.82
