# Dla modeli binarnych

In [9]:
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
import plotly.figure_factory as ff
from sklearn.metrics import roc_curve

In [10]:
y_true = np.array([1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1])
y_pred = np.array([0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1])

# Accuracy score (dokładność klasyfikacji)

In [11]:
accuracy_score(y_true, y_pred)

0.8

# Klasyfikator binarny

In [12]:
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})

results = results.sort_values(by='y_true')
results = results.reset_index(drop=True) # drop=True sprawia że nie pojawia nam sie dodatkowa kolumna

results['sample'] = results.index + 1

fig = make_subplots(rows=2, cols=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_true'], mode='markers', name='y_true'), row=1, col=1)
fig.add_trace(go.Scatter(x=results['sample'], y=results['y_pred'], mode='markers', name='y_pred'), row=2, col=1)
fig.update_layout(width=900, height=500, title='Klasyfikator binarny')
fig.show()

# Macierz konfuzji/pomyłek (confusion matrix)

In [13]:
confusion_matrix(y_true, y_pred)

array([[ 8,  2],
       [ 4, 16]], dtype=int64)

In [14]:
cm = confusion_matrix(y_true, y_pred)

def plot_confusion_matrix(cm):
    cm = cm[::-1]
    cm = pd.DataFrame(cm, columns=['pred_0', 'pred_1'], index=['true_1', 'true_0'])
    fig = ff.create_annotated_heatmap(z=cm.values, x=list(cm.columns), y=list(cm.index),                                colorscale='ice', showscale=True, reversescale=True)
    fig.update_layout(width=400, height=400, title='Confusion Matrix', font_size=16)
    fig.show()

plot_confusion_matrix(cm) # Model przewidział klasę [0] w 8 przypadkach, a w 2 się pomylił. Klasę [1] przewidział 16 razy, pomylił się w 4 przypadkach.

# Krzywa ROC

In [16]:
fpr, tpr, thresh = roc_curve(y_true, y_pred, pos_label=1)
roc = pd.DataFrame({'fpr': fpr, 'tpr': tpr})

def plot_roc_curve(y_true, y_pred):
    # Binary classification
    fpr, tpr, tresh = roc_curve(y_true, y_pred, pos_label=1)

    fig = go.Figure(data=[go.Scatter(x=roc['fpr'], y=roc['tpr'], line_color='red', name='ROC Curve'),
                        go.Scatter(x=[0, 1], y=[0, 1], mode='lines', line_dash='dash', line_color='navy')],
                    layout=go.Layout(xaxis_title='False Positive Rate',
                                    yaxis_title='True Positive Rate',
                                    title='ROC Curve',
                                    showlegend=False,
                                    width=800,
                                    height=400))
    fig.show()
plot_roc_curve(y_true, y_pred)

# Regression results

In [18]:
y_true = 100 + 20 * np.random.randn(50)

y_pred = y_true + 10 * np.random.randn(50)

results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})

results['error'] = results['y_true'] - results['y_pred']

def plot_regression_results(y_true, y_pred): 
    results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
    min = results[['y_true', 'y_pred']].min().min()
    max = results[['y_true', 'y_pred']].max().max()

    fig = go.Figure(data=[go.Scatter(x=results['y_true'], y=results['y_pred'], mode='markers'),
                    go.Scatter(x=[min, max], y=[min, max])],
                    layout=go.Layout(showlegend=False, width=800, height=500,
                                     xaxis_title='y_true', 
                                     yaxis_title='y_pred',
                                     title='Regression results'))
    fig.show()
plot_regression_results(y_true, y_pred)

In [19]:
y_true = 100 + 20 * np.random.randn(1000)
y_pred = y_true + 10 * np.random.randn(1000)
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results['error'] = results['y_true'] - results['y_pred']

px.histogram(results, x='error', nbins=50, width=800)

# Jeśli mamy więcej wartości po prawej stronie (błąd jest dodatni), oznacza to, że nasz model niedoszacowuje wartości
# Jeśli mamy więcej wartości po lewej stronie, oznacza to, że nasz model przeszacowywuje wartości.

# Mean Absolute Error (średni błąd bezwzględny)

In [20]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true, y_pred)

7.740566578806318

# Root Mean Squared Error - RMSE - pierwiastek błędu średniokwadratowego

Mówi o tym jak średnio nasze wartości przewidziane odbiegają od wartości prawdziwych

In [21]:
def root_mean_squared_error(y_true, y_pred):
    return np.sqrt(((y_true - y_pred) ** 2).sum() / len(y_true))

root_mean_squared_error(y_true,y_pred)

9.64429723875751

In [22]:
np.sqrt(mean_absolute_error(y_true,y_pred))

2.782187373058529

# Max Error - błąd maksymalny

In [24]:
from sklearn.metrics import max_error

max_error(y_true,y_pred)

31.601557493997277

# R2 score - współczynnik determinacji

In [25]:
from sklearn.metrics import r2_score

r2_score(y_true,y_pred)

0.769276724759797