## اضافه کردن کتابخانه‌های مورد نیاز

In [26]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import sklearn.metrics as metrics

## خواندن داده
به عنوان مثالی از مسئله دسته‌بندی دوتایی، از داده‌های سرطان استفاده می‌کنیم که پیش‌بینی مدل در مورد آنها خوش‌خیم/بدخیم بودن است.

In [2]:
wbc = pd.read_csv('wbc.csv',index_col='id')
y= wbc['diagnosis'].map({'B':0,'M':1})

زیر مجموعه‌ای از کل ویژگی‌های موجود در داده (در اینجا میانگین شاخص‌های مختلف یک تومور) را به عنوان ورودی مدل جدا می‌کنیم

In [14]:
cols =wbc.columns[wbc.columns.str.endswith('mean')]
x = wbc[cols]

داده را به دو بخش
`train`
و
`test`
تقسیم می‌کنیم و یک درخت تصمیم به عنوان مدل دسته‌بندی روی داده‌های `train`، برازش می‌کنیم.

In [43]:
dtc = DecisionTreeClassifier(min_samples_leaf=3,max_depth=8)

In [48]:
X_train, X_test, y_train, y_test = train_test_split(x,y,stratify = y , test_size= 0.2,random_state = 14)

In [49]:
dtc.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=8,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=3, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [50]:
y_predicted = dtc.predict(X_test)

## سنجش مدل
حالا پس از گرفتن خروجی مدل برای داده‌های آزمون، می‌توانیم آن را برای کلاس ۱ از طریق شاخص های مختلفی با خروجی درست مقایسه کنیم و به آن امتیاز دهیم. 

### [Confusion Matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix)
به این شکل می‌توانید ماتریس در هم ریختگی را برای این مجموعه از پیش‌بینی‌ها محاسبه کنید.
- برای حالتی که بیشتر از دو کلاس در خروجی داریم، یک محور ماتریس در‌هم‌ریختگی کلاس پیش‌بینی شده و محور دیگر آن، کلاس واقعی یک متغیر خواهد بود. مثلا اگر این ماتریس را $C_{n \times n}$ و تعداد کلاس‌ها را $n$ در نظر بگیریم، $C_{ij}$ برابر تعداد داده‌هایی خواهد بود که واقعا در کلاس $i$ قرار دارند ولی در کلاس $j$ پیش‌بینی شده‌اند.

In [56]:
metrics.confusion_matrix(y_test,y_predicted)

array([[69,  3],
       [ 9, 33]])

### [Accuracy](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)
$$
Accuracy = \frac{TP+TN}{(TP+FP+FN+TN)}
$$

In [63]:
metrics.accuracy_score(y_test,y_predicted)

0.8947368421052632

### [Precision](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score)
$$
Precision = \frac{TP}{TP+FP}
$$

In [51]:
metrics.precision_score(y_test,y_predicted)

0.9166666666666666

### [Recall](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score)
$$
Recall = \frac{TP}{TP+FN}
$$

In [53]:
metrics.recall_score(y_test,y_predicted)

0.7857142857142857

### [F-1 Score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score)
$$
F1 = \frac{2}{Recall^{-1} + Precision^{-1}} =  2 \frac{Recall*Precision}{Recall + Precision}
$$

In [57]:
metrics.f1_score(y_test,y_predicted)

0.8461538461538461

### [Classification Report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report)
چون این چند شاخص ذکر شده در اکثر مسئله‌های دسته‌بندی(*Classification*) به کار می‌آیند، می‌توانید با استفاده از این متد همه را یکجا داشته باشید.
- هرکدام از این شاخص‌ها (*Precision* , *Recall* , *Accuracy* , ...) برای هر کدام از کلاس‌های خروجی تعریف می‌شوند ولی بسته به اینکه کدام کلاس برای ما اهمیت دارد، استفاده می‌شوند.

In [62]:
print(metrics.classification_report(y_test,y_predicted))

              precision    recall  f1-score   support

           0       0.88      0.96      0.92        72
           1       0.92      0.79      0.85        42

    accuracy                           0.89       114
   macro avg       0.90      0.87      0.88       114
weighted avg       0.90      0.89      0.89       114

