<a href="https://colab.research.google.com/github/Marianno77/data-science/blob/main/Uczenie_Maszynowe/Klasyfikacja_binarna_i_wieloklasowa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Klasyfikacje**

## Import bibliotek

In [10]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots

from sklearn.metrics import accuracy_score

from sklearn.metrics import confusion_matrix

from sklearn.metrics import roc_curve

from sklearn.metrics import classification_report

## Klasyfikacja binarna

### Accuracy - Dokładność klasyfikacji

In [None]:
y_true = np.array([1, 1, 0, 1, 0, 0, 1, 0, 0, 0])
y_pred = np.array([1, 0, 1, 1, 1, 0, 1, 1, 0, 0])

In [None]:
accuracy = accuracy_score(y_true, y_pred)*100
print(f'Dokładność klasyfikacji wynosi: {accuracy}%')

Dokładność klasyfikacji wynosi: 60.0%


In [None]:
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results

Unnamed: 0,y_true,y_pred
0,1,1
1,1,0
2,0,1
3,1,1
4,0,1
5,0,0
6,1,1
7,0,1
8,0,0
9,0,0


In [None]:
results = results.sort_values(by='y_true')
results = results.reset_index(drop=True)
results['sample'] = results.index + 1
results

Unnamed: 0,y_true,y_pred,sample
0,0,1,1
1,0,1,2
2,0,0,3
3,0,1,4
4,0,0,5
5,0,0,6
6,1,1,7
7,1,0,8
8,1,1,9
9,1,1,10


In [None]:
fig = make_subplots(rows=2, cols=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_true'], name='y_true', mode='markers'), row=1, col=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_pred'], name='y_pred', mode='markers'), row=2, col=1)
fig.update_layout(title_text='Klasyfikacja binarna', showlegend=True)
fig.show()

### Macierz konfuzji/pomyłek

In [None]:
cm = confusion_matrix(y_true, y_pred)

In [None]:
def plot_confusion_matrix(cm):
    cm = cm[::-1]
    cm = pd.DataFrame(cm, columns=['pred_0', 'pred_1'], index=['true_1', 'true_0'])

    fig = ff.create_annotated_heatmap(z=cm.values, x=list(cm.columns), y=list(cm.index),
                                      colorscale='ice', showscale=True, reversescale=True)
    fig.update_layout(width=400, height=400, title='Confusion Matrix', font_size=16)
    fig.show()

plot_confusion_matrix(cm)

In [None]:
tn, fp, fn, tp = cm.ravel()
print(f'True Negatives: {tn}')
print(f'False Positives: {fp}')
print(f'False Negatives: {fn}')
print(f'True Positives: {tp}')

True Negatives: 3
False Positives: 3
False Negatives: 1
True Positives: 3


In [None]:
# Type I error
fpr = fp / (fp + tn)
print(f'False Positive Rate: {fpr}')

False Positive Rate: 0.5


In [None]:
# Type II error
fnr = fn / (fn + tp)
print(f'False Negative Rate: {fnr}')

False Negative Rate: 0.25


In [None]:
# Precision - ile obserwacji przewidywanych jako pozytywne są w rzeczywistości pozytywne
precision = tp / (tp + fp)
print(f'Precision: {precision}')

Precision: 0.5


In [None]:
#recall - jak wiele obserwacji z wszystkich pozytywnych sklasyfikowaliśmy jako pozytywne
recall = tp / (tp + fn)
print(f'Recall: {recall}')

Recall: 0.75


### Krzywa ROC

In [None]:
fpr, tpr, thresh = roc_curve(y_true, y_pred, pos_label=1)
roc = pd.DataFrame({'fpr': fpr, 'tpr': tpr})
roc

Unnamed: 0,fpr,tpr
0,0.0,0.0
1,0.5,0.75
2,1.0,1.0


In [None]:
def plot_roc_curve(roc):
    fig = go.Figure()
    fig = go.Figure(data=[go.Scatter(x=roc['fpr'], y=roc['tpr'], line_color='red', name='ROC Curve'),
                          go.Scatter(x=[0, 1], y=[0, 1], mode='lines', line_dash='dash', line_color='navy')],
                    layout=go.Layout(xaxis_title='False Positive Rate',
                                     yaxis_title='True Positive Rate',
                                     title='ROC Curve',
                                     showlegend=False,
                                     width=800))
    fig.show()
plot_roc_curve(roc)

# Klasyfikacja wieloklasowa

### Accuracy - Dokładność klasyfikacji

In [7]:
y_true = np.array([1, 0, 2, 1, 0, 2, 1, 0, 2, 0])
y_pred = np.array([1, 0, 2, 1, 1, 0, 1, 0, 2, 2])

accuracy = accuracy_score(y_true, y_pred)*100
print(f'Dokładność klasyfikacji wynosi: {accuracy}%')

Dokładność klasyfikacji wynosi: 70.0%


### Macierz konfuzji/pomyłek

In [8]:
cm = confusion_matrix(y_true, y_pred)
cm

array([[2, 1, 1],
       [0, 3, 0],
       [1, 0, 2]])

In [9]:
def plot_confusion_matrix(cm):
    cm = cm[::-1]
    cm = pd.DataFrame(cm, columns=['pred_0', 'pred_1', 'pred_2'], index=['true_2', 'true_1', 'true_0'])

    fig = ff.create_annotated_heatmap(z=cm.values, x=list(cm.columns), y=list(cm.index),
                                      colorscale='ice', showscale=True, reversescale=True)
    fig.update_layout(width=400, height=400, title='Confusion Matrix', font_size=16)
    fig.show()

plot_confusion_matrix(cm)

### Raport klasyfikacji

In [12]:
print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

           0       0.67      0.50      0.57         4
           1       0.75      1.00      0.86         3
           2       0.67      0.67      0.67         3

    accuracy                           0.70        10
   macro avg       0.69      0.72      0.70        10
weighted avg       0.69      0.70      0.69        10



In [13]:
print(classification_report(y_true, y_pred, target_names=['label1', 'label2', 'label3']))

              precision    recall  f1-score   support

      label1       0.67      0.50      0.57         4
      label2       0.75      1.00      0.86         3
      label3       0.67      0.67      0.67         3

    accuracy                           0.70        10
   macro avg       0.69      0.72      0.70        10
weighted avg       0.69      0.70      0.69        10

