In [None]:
import numpy as np
import csv

In [None]:
# Load data from csv file
data = np.genfromtxt('/content/data.csv', delimiter=',')

In [None]:
# Split data into features (X) and labeles (y)
X = data[1:, 1:3]
y = data[1:, 3]

In [None]:
# Split data into training and testing sets (80/20)
indices = np.random.permutation(X.shape[0])
training_indices = indices[:int(X.shape[0] * 0.8)]
testing_indices = indices[int(X.shape[0] * 0.8):]
X_train, X_test = X[training_indices], X[testing_indices]
y_train, y_test = y[training_indices], y[testing_indices]

In [None]:
# Initialize model parameters
w = np.zeros(X.shape[1])
b = 0

In [None]:
# Define the sigmoid function
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [None]:
# Define the logistic loss function (E)
def logistic_loss(y, y_pred):
    return -np.mean(y * np.log(y_pred) + (1 - y) * np.log(1 - y_pred))

In [None]:
# Define the gradient of the logistic loss function
def logistic_loss_grad(X, y, y_pred):
    return np.dot(X.T, y_pred - y) / y.shape[0]

In [None]:
# Define the number of iterations and the learning rate
n_iter = 1000
learning_rate = 0.1

In [None]:
# Perform SGD on training data
for i in range(n_iter):
    # Compute the predicted probabilities
    y_pred = sigmoid(np.dot(X_train, w) + b)

    # Compute the gradients
    grad_w = logistic_loss_grad(X_train, y_train, y_pred)
    grad_b = np.mean(y_pred - y_train)

    # Update the parameters
    w -= learning_rate * grad_w
    b -= learning_rate * grad_b

In [None]:
# Final model parameters
print('parameters:', b, w)
# Minimal value of logistic loss function (value for this parameters)
y_pred = sigmoid(np.dot(X_train, w) + b)
print('logistic loss = ', logistic_loss(y_train,y_pred))

parameters: 3.4006245575585083 [ 1.30767074 -0.83813944]
logistic loss =  0.06530358158077788


In [None]:
# Testing model on testing set

y_pred_test = sigmoid(np.dot(X_test, w) + b)
y_end = (y_pred_test > 0.5).astype(int)
y_true = y_test.astype(int)

# Confusion matrix

confusion_matrix = np.zeros((2, 2), dtype=int)

for i in range(y_true.shape[0]):
  confusion_matrix[y_true[i], y_end[i]] += 1.0

print('Confusion matrix:')
print(confusion_matrix)

Confusion matrix:
[[ 96   1]
 [  3 100]]


In [None]:
# accuracy, precision, recall
TP = confusion_matrix[0, 0]
FP = confusion_matrix[0, 1]
FN = confusion_matrix[1, 0]
TN = confusion_matrix[1, 1]

acc = (TP + TN) / (TP + FP + FN + TN)
prec = TP / (TP + FP)
rec = TP / (TP + FN)

print('Accuracy: ', acc)
print('Precision: ', prec)
print('Recall: ', rec)

Accuracy:  0.95
Precision:  0.9901960784313726
Recall:  0.9181818181818182


### Omówienie i wnioski

W powyższym projekcie zbudowałem model regresji logistycznje przy użyciu biblioteki NumPy. Do optymalizacji działania medelu użyłem metody SGD (gradient descent).

Początkowy zbiór danych podzieliłem na dwa podzbiory: treningowy i testowy. 

Podziału dokonałem w proporcji 80 do 20, tzn. 80% danych trafiło do zbioru testowego a 20% do zbioru treningowego.

Następnie wykorzystałem zbiór treningowy w celu wyszkolenia modelu, tzn. wyznaczenia parametrów w0, w1 i w2 (w0 = b), dla których funkcja straty osiąga swoje minumum (bądź jest jego blisko).

Model z wyznaczonymi w ten sposób parametrami powinien radzić sobie najlepiej z zadaniem klasywikacji dla naszych danych.

Następnie w celu sprawdzenia jakości naszego modelu przeprowadziłem testy tego modelu przy użyciu odłożonych wcześnij danych testowych.

Dokonałem klasyfikacji punktów z tego zbiotu przy użyciu modelu a następnie porównałem wt wyniki z realnymi etykietami.

Na koniec sporządziłem macież pomyłek, oraz obliczyłem wskaźniki dokładności, precyzji i czułości.

Na ich podstawie można stwierdzić, że zbudowany model radzi sobie z zadaniem klasyfikacji całkiem dobrze (prawidłowo przyporządkowuje kategorie w >95% przypadków). Można też stwierdzić, że cechuje się on dużo lepszą precyzją niz czułością.