In [1]:
### 시각화를 위한 라이브러리
# - 파이썬 시각화에서 가장 기본적인 시각화 라이브러리
import matplotlib.pyplot as plt

### 한글처리
from matplotlib import font_manager, rc

### 운영체제 확인 라이브러리
import platform

### 시각화 시 마이너스(-, 음수) 기호 깨짐 방지
plt.rcParams["axes.unicode_minus"] = False

### OS별 한글처리
# - 윈도우 운영체게
if platform.system() == "Windows" :
    # path = "c:/Windows/Fonts/malgun.ttf"
    # font_name = font_manager.FontProperties(fname=path).get_name()
    # rc("font", family = font_name)
    
    ### 또는 아래처럼 한줄로도 가능 (아래 한글처리를 주로 사용합니다.)
    plt.rc("font", family = "Malgun Gothic")

# - Mac 운영체제
elif platform.system() == "Darwin" :
    rc("font", family = "AppleGothic")
    
else :
    print("넌 누구?")

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

cn7 = pd.read_csv("./cn7_resampled.csv")


# 데이터 준비 (cn7 데이터프레임 사용)
X = cn7.drop('PassOrFail', axis=1)
y = cn7['PassOrFail']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 모델 학습
model = DecisionTreeClassifier(random_state= 42)
model.fit(X_train, y_train)

# 성능 확인
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')



Accuracy: 0.99


In [3]:
# 학습된 디시젼트리 모델 내부 구조 접근
tree = model.tree_

# 전체 노드 개수와 최대 깊이 출력
print("노드 개수:", tree.node_count)
print("최대 깊이:", tree.max_depth)

# 예시: 처음 10개 노드의 정보를 출력
for i in range(min(100, tree.node_count)):  
    print(f"\n노드 {i}:")
    print(" 왼쪽 자식 인덱스:", tree.children_left[i])
    print(" 오른쪽 자식 인덱스:", tree.children_right[i])
    print(" 사용된 특성 인덱스:", tree.feature[i])
    print(" 변수명:", X.columns[tree.feature[i]])
    print(" 임계값:", tree.threshold[i])
    print(" 노드 내 클래스별 샘플 수:", tree.value[i])


노드 개수: 47
최대 깊이: 13

노드 0:
 왼쪽 자식 인덱스: 1
 오른쪽 자식 인덱스: 4
 사용된 특성 인덱스: 4
 변수명: Clamp_Close_Time
 임계값: 7.120026111602783
 노드 내 클래스별 샘플 수: [[0.48538263 0.51461737]]

노드 1:
 왼쪽 자식 인덱스: 2
 오른쪽 자식 인덱스: 3
 사용된 특성 인덱스: 8
 변수명: Max_Injection_Speed
 임계값: 54.04999923706055
 노드 내 클래스별 샘플 수: [[0.84295175 0.15704825]]

노드 2:
 왼쪽 자식 인덱스: -1
 오른쪽 자식 인덱스: -1
 사용된 특성 인덱스: -2
 변수명: Mold_Temperature_3
 임계값: -2.0
 노드 내 클래스별 샘플 수: [[0. 1.]]

노드 3:
 왼쪽 자식 인덱스: -1
 오른쪽 자식 인덱스: -1
 사용된 특성 인덱스: -2
 변수명: Mold_Temperature_3
 임계값: -2.0
 노드 내 클래스별 샘플 수: [[1. 0.]]

노드 4:
 왼쪽 자식 인덱스: 5
 오른쪽 자식 인덱스: 6
 사용된 특성 인덱스: 6
 변수명: Plasticizing_Position
 임계값: 68.54500198364258
 노드 내 클래스별 샘플 수: [[0.18754925 0.81245075]]

노드 5:
 왼쪽 자식 인덱스: -1
 오른쪽 자식 인덱스: -1
 사용된 특성 인덱스: -2
 변수명: Mold_Temperature_3
 임계값: -2.0
 노드 내 클래스별 샘플 수: [[1. 0.]]

노드 6:
 왼쪽 자식 인덱스: 7
 오른쪽 자식 인덱스: 8
 사용된 특성 인덱스: 12
 변수명: Max_Switch_Over_Pressure
 임계값: 136.10195922851562
 노드 내 클래스별 샘플 수: [[0.04003724 0.95996276]]

노드 7:
 왼쪽 자식 인덱스: -1
 오른쪽 자식 인덱스: -1
 사용된 특성 인

In [4]:
cn7.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3324 entries, 0 to 3323
Data columns (total 25 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Injection_Time            3324 non-null   float64
 1   Filling_Time              3324 non-null   float64
 2   Plasticizing_Time         3324 non-null   float64
 3   Cycle_Time                3324 non-null   float64
 4   Clamp_Close_Time          3324 non-null   float64
 5   Cushion_Position          3324 non-null   float64
 6   Plasticizing_Position     3324 non-null   float64
 7   Clamp_Open_Position       3324 non-null   float64
 8   Max_Injection_Speed       3324 non-null   float64
 9   Max_Screw_RPM             3324 non-null   float64
 10  Average_Screw_RPM         3324 non-null   float64
 11  Max_Injection_Pressure    3324 non-null   float64
 12  Max_Switch_Over_Pressure  3324 non-null   float64
 13  Max_Back_Pressure         3324 non-null   float64
 14  Average_

In [5]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import dtreeviz  # dtreeviz 모듈 설치 필수

# [예시] cn7 DataFrame이 이미 존재한다고 가정
# cn7.info()로 확인한 결과, 'PassOrFail' 컬럼이 타깃임
X = cn7.drop(columns=['PassOrFail'])
y = cn7['PassOrFail']

# 디시젼 트리 모델 학습 (최대 깊이는 4로 설정)
clf = DecisionTreeClassifier(max_depth=4)
clf.fit(X, y)

# dtreeviz를 이용한 트리 시각화  
viz_model = dtreeviz.model(clf,
                           X_train=X, y_train=y,
                           feature_names=X.columns.tolist(),  # 피처 이름 리스트
                           target_name='PassOrFail',            # 타깃 변수 이름
                           class_names=['Fail', 'Pass'])        # 클래스 이름 (타깃 값 0, 1에 해당)

# SVG 객체로 렌더링 후, 화면에 표시하거나 파일로 저장
v = viz_model.view()     # SVG 객체 생성
v.show()                 # 결과를 팝업 창 등에서 확인 (인터랙티브 환경)
v.save("/tmp/cn7_decision_tree.svg")  # 선택 사항: SVG 파일로 저장


AttributeError: module 'dtreeviz' has no attribute 'model'

In [1]:
import pandas as pd

In [6]:
df = pd.read_csv("./data/labeled_data.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7996 entries, 0 to 7995
Data columns (total 45 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   _id                       7996 non-null   object 
 1   TimeStamp                 7996 non-null   object 
 2   PART_FACT_PLAN_DATE       7996 non-null   object 
 3   PART_FACT_SERIAL          7996 non-null   int64  
 4   PART_NAME                 7996 non-null   object 
 5   EQUIP_CD                  7996 non-null   object 
 6   EQUIP_NAME                7996 non-null   object 
 7   PassOrFail                7996 non-null   object 
 8   Reason                    71 non-null     object 
 9   Injection_Time            7996 non-null   float64
 10  Filling_Time              7996 non-null   float64
 11  Plasticizing_Time         7996 non-null   float64
 12  Cycle_Time                7996 non-null   float64
 13  Clamp_Close_Time          7996 non-null   float64
 14  Cushion_

In [7]:
df["PART_NAME"].value_counts()

PART_NAME
CN7 W/S SIDE MLD'G RH        3371
CN7 W/S SIDE MLD'G LH        3365
RG3 MOLD'G W/SHLD, LH         628
RG3 MOLD'G W/SHLD, RH         628
SP2 CVR ROOF RACK CTR, RH       2
JX1 W/S SIDE MLD'G RH           2
Name: count, dtype: int64