<a href="https://colab.research.google.com/github/Damiangiza93/machine-learning-bootcamp/blob/main/03_classification/08_classification_metrics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install scikit-learn
```
Aby zaktualizować do najnowszej wersji bibliotekę scikit-learn, użyj polecenia poniżej:
```
!pip install --upgrade scikit-learn
```
Kurs stworzony w oparciu o wersję `0.22.1`

### Metryki - Problem klasyfikacji:
1. [Import bibliotek](#a0)
2. [Metryki - Klasyfikacja binarna](#a1)
    1. [Accuracy - dokładność klasyfikacji](#a2)
    2. [Macierz konfuzji/pomyłek](#a3)
    3. [Krzywa ROC](#a4)
3. [Metryki - Klasyfikacja wieloklasowa](#a5)   
    1. [Accuracy - dokładność klasyfikacji](#a6)
    2. [Macierz konfuzji/pomyłek](#a7)
    3. [Raport klasyfikacji](#a8)

In [1]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

#### <a name='a1'></a>  Metryki - Klasyfikacja binarna
#### <a name='a2'></a> Accuracy - Dokładność klasyfikacji

####   $$Accuracy = \frac{correct\ predictions}{total\ predictions} * 100$$

In [2]:
y_true = np.array([1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1])
y_pred = np.array([0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1])

In [3]:
from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)

0.8

In [4]:
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results

Unnamed: 0,y_true,y_pred
0,1,0
1,0,0
2,1,1
3,1,1
4,0,0
5,1,1
6,1,0
7,0,0
8,1,1
9,0,1


In [5]:
results = results.sort_values(by='y_true')
results = results.reset_index(drop=True)
results['sample'] = results.index + 1
results

Unnamed: 0,y_true,y_pred,sample
0,0,0,1
1,0,0,2
2,0,0,3
3,0,1,4
4,0,0,5
5,0,0,6
6,0,1,7
7,0,0,8
8,0,0,9
9,0,0,10


In [7]:
fig = make_subplots(rows=2, cols=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_true'], mode='markers', name='y_true'), row=1, col=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_pred'], mode='markers', name='y_pred'), row=2, col=1)
fig.update_layout(width=800, height=600, title_text="Klasyfikacja binarna")
fig.show()

# Macierz konfuzji/pomyłek

In [8]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_true, y_pred)
cm

array([[ 8,  2],
       [ 4, 16]])

In [9]:
import plotly.figure_factory as ff

def plot_confusion_matrix(cm):
  cm = cm[::-1]
  cm = pd.DataFrame(cm, columns=['pred_0', 'pred_1'], index=['true_1', 'true_0'])

  fig = ff.create_annotated_heatmap(z=cm.values, x=list(cm.columns), y=list(cm.index), colorscale='ice', showscale=True, reversescale=True)
  fig.update_layout(width=500, height=500, title_text="Confusion Matrix", font_size=16)
  fig.show()

plot_confusion_matrix(cm)

In [11]:
cm = confusion_matrix(y_true, y_pred)
cm_df = pd.DataFrame(cm, columns=['pred_0', 'pred_1'], index=['true_0', 'true_1'])
cm_df

Unnamed: 0,pred_0,pred_1
true_0,8,2
true_1,4,16


In [12]:
tn, fp, fn, tp = cm.ravel()
print('tn - True Negative:', tn)
print('fp - False Positive:', fp)
print('fn - False Negative:', fn)
print('tp - True Positive:', tp)

tn - True Negative: 8
fp - False Positive: 2
fn - False Negative: 4
tp - True Positive: 16


In [13]:
# False Positive Rate - Type I error
fpr = fp / (fp + tn)
print('False Positive Rate:', fpr)

False Positive Rate: 0.2


In [14]:
# False Negative Rate - Type II error
fnr = fn / (fn + tp)
print('False Negative Rate:', fnr)

False Negative Rate: 0.2


In [15]:
# Precision - ile obserwacji przeidywanych jako pozytywne sa w rzeczywistości pozytywne
precision = tp / (tp + fp)
print('Precision:', precision)

Precision: 0.8888888888888888


In [16]:
# Recall - jak wiele obserwacji z wszystkich pozytywnych sklasyfikowaliśmy jako pozytywne
recall = tp / (tp + fn)
print('Recall:', recall)

Recall: 0.8


In [17]:
# raport klasyfikacji
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

           0       0.67      0.80      0.73        10
           1       0.89      0.80      0.84        20

    accuracy                           0.80        30
   macro avg       0.78      0.80      0.78        30
weighted avg       0.81      0.80      0.80        30



# Krzywa ROC

In [19]:
from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_true, y_pred, pos_label=1)
roc = pd.DataFrame({'fpr': fpr, 'tpr': tpr})
roc

Unnamed: 0,fpr,tpr
0,0.0,0.0
1,0.2,0.8
2,1.0,1.0


In [20]:
def plot_roc_curve(y_true, y_pred):
  # Binary classification
  fpr, tpr, thresholds = roc_curve(y_true, y_pred, pos_label=1)

  fig = go.Figure(
      data=[
          go.Scatter(x=roc['fpr'], y=roc['tpr'], line_color='red', name='ROC curve'),
          go.Scatter(x=[0, 1], y=[0, 1], mode='lines', line_dash='dash', line_color='black')
      ],
      layout=go.Layout(
          title='ROC curve',
          xaxis_title='False Positive Rate',
          yaxis_title='True Positive Rate',
          showlegend=False,
          width=800,
          height=600
      )
  )
  fig.show()

plot_roc_curve(y_true, y_pred)

#### <a name='a5'></a> Metryki - Klasyfikacja wieloklasowa

#### <a name='a6'></a> Accuracy - Dokładność klasyfikacji

####   $$Accuracy = \frac{correct\ predictions}{total\ predictions} * 100$$

In [21]:
y_true = np.array([1, 0, 1, 2, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 2, 1, 1, 2, 2, 1, 0, 1, 1, 0, 2, 1, 1, 2, 2])
y_pred = np.array([0, 0, 1, 2, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 2, 1, 2, 1, 2, 1, 0, 2, 1, 0, 1, 1, 1, 2, 2])

from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)

0.7241379310344828

# Macierz konfuzji/pomyłek

In [22]:
cm = confusion_matrix(y_true, y_pred)
cm

array([[ 6,  1,  0],
       [ 3, 10,  2],
       [ 0,  2,  5]])

In [23]:
def plot_confusion_matrix(cm):
  cm = cm[::-1]
  cm = pd.DataFrame(cm, columns=['pred_0', 'pred_1', 'pred_2'], index=['true_2', 'true_1', 'true_0'])
  fig = ff.create_annotated_heatmap(z=cm.values, x=list(cm.columns), y=list(cm.index), colorscale='ice', showscale=True, reversescale=True)
  fig.update_layout(width=500, height=500, title_text="Confusion Matrix", font_size=16)
  fig.show()

plot_confusion_matrix(cm)

# Raport klasyfikacji

In [24]:
from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

           0       0.67      0.86      0.75         7
           1       0.77      0.67      0.71        15
           2       0.71      0.71      0.71         7

    accuracy                           0.72        29
   macro avg       0.72      0.75      0.73        29
weighted avg       0.73      0.72      0.72        29



In [25]:
print(classification_report(y_true, y_pred, target_names=['label_1', 'label_2', 'label_3']))

              precision    recall  f1-score   support

     label_1       0.67      0.86      0.75         7
     label_2       0.77      0.67      0.71        15
     label_3       0.71      0.71      0.71         7

    accuracy                           0.72        29
   macro avg       0.72      0.75      0.73        29
weighted avg       0.73      0.72      0.72        29

