# Co trzeba zrealizować:
## Regresja logistyczna
1. Zaimportować potrzebne biblioteki
2. Wczytać odpowiedni zbiór danych 20pkt
3. Podać jakie mamy klasy, liczbę próbek w zbiorze i liczbę próbek w każdej klasie 10 pkt
4. Wyuczyć model regresji logistycznej dla wybranego zbioru danych przy domyślnych hiperparametrach 20 pkt
5. Podać dokładność rozpoznawania 10 pkt
6. Obliczyć macierz pomyłek i odpowiednio ją wydrukować 10 pkt

RAZEM 70 pkt

## 1. Przygotowanie bibliotek i

In [None]:
# 1. Zaimportowane biblioteki

import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from sklearn.neural_network import MLPClassifier
from sklearn import metrics
from sklearn.model_selection import train_test_split

## 2. Wczytanie danych

In [None]:
# 2. a) Wczytanie danych

df_train = pd.read_csv("fashion-mnist_train.csv")
df_train.head()

df_test = pd.read_csv("fashion-mnist_test.csv")
df_test.head()

In [None]:
# 2. b) Wydzienie parametru klasy

y_train = df_train["label"]
y_test = df_test["label"]
print(y_train.head())

X_train = df_train.copy().drop(["label"], axis=1)
X_test = df_test.copy().drop(["label"], axis=1)
X_train.head()

## 3. Analiza struktury zbioru

In [None]:
# 3. a) Rozmiar zbioru (l. próbek, l. pixeli)

print(f"Training set: {df_train.shape}")
print(f"Testing set: {df_test.shape}")

In [None]:
# 3. b) Liczba próbek w każdej klasie

print(f"Training set: \n{y_train.value_counts().sort_index()}\n")
print(f"Testing set: \n{y_test.value_counts().sort_index()}\n")

In [None]:
# 3. c) Podpisy klas

lables_dic = {0: "T-shirt/top",
              1: "Trouser",
              2: "Pullover",
              3: "Dress",
              4: "Coat",
              5: "Sandal",
              6: "Shirt",
              7: "Sneaker",
              8: "Bag",
              9: "Ankle boot"}

## Prezentacja przykładowych danych

In [None]:
img_size = (28, 28)
plt.figure(figsize=(20, 4))
for i, (img, label) in enumerate(zip(X_train.values[0:5], y_train.values[0:5])):
    plt.subplot(1, 5, i+1)
    plt.imshow(np.reshape(img, img_size), cmap=plt.cm.gray)
    plt.title(f"Label: {lables_dic[label]}", fontsize=20)

## 4. Uczenie modelu

In [None]:
# 4. a) Uczenie modelu MLPClassifier

mlpc = MLPClassifier()

mlpc.fit(X_train, y_train)

## 5. Predykcja oraz dokładność rozpoznania

In [None]:
# 5. Predykcja oraz jej błąd / wynik

y_pred = mlpc.predict(X_test)

score = mlpc.score(X_test, y_test)
print(f"Accuracy of model (score): {score}")
# print(f"Mean squared log error: {metrics.mean_squared_log_error(y_test, y_pred)}")
# print(f"Mean squared error: {metrics.mean_squared_error(y_test, y_pred)}")
# print(f"Coefficient of determination: {metrics.r2_score(y_test, y_pred)}")

## 6. Macierz pomyłek

In [None]:
# 6. Macierz pomyłek w formie tekstowej oraz graficznej

cm = metrics.confusion_matrix(y_test, y_pred)
print(cm)

plt.figure(figsize=(10, 10))
sns.heatmap(cm, annot=True, fmt=".3f", linewidths=0.5,
           square=True, cmap="Blues_r")
plt.ylabel("Label from set")
plt.xlabel("Predicted label")
plt.title(f"Accuracy score: {score}", size=20)
plt.show()

print(lables_dic)

In [None]:
# funkcja straty w kolejnych krokach uczenia

loss_in_iterations = mlpc.loss_curve_

plt.plot(loss_in_iterations)
plt.title("Loss in iterations")
plt.xlabel("iteration")
plt.ylabel("loss")
plt.show()

## Błędnie rozpoznane wzorce

In [None]:
# 7. Pierwsze 5 błędnie rozpoznanych wzorców

disp_items = 5
plt.figure(figsize=(28, 4))

i = 0
for (img, test, pred) in zip(X_test.values, y_test.values, y_pred):
    if i >= disp_items:
        break
    if test == pred:
        continue
    plt.subplot(1, disp_items, i+1)
    plt.imshow(np.reshape(img, img_size), cmap=plt.cm.gray)
    plt.title(f"Test: {lables_dic[test]}\nPred: {lables_dic[pred]}", fontsize=20)
    i += 1
plt.show()

## Zbiór walidujący

In [None]:
# Wydzielenie zbioru walidujacego z testowego

dev_size = 1000
X_test2, X_dev, y_test2, y_dev = train_test_split(X_test, y_test, 
    test_size=dev_size, stratify=y_test)

# Liczba próbek w każdej klasie

print(f"Testing set: \n{y_test2.value_counts().sort_index()}\n")
print(f"Dev set: \n{y_dev.value_counts().sort_index()}\n")

In [None]:
# Krzywe uczenia 

# Nauka na 

mlpc.fit(X_dev, y_dev)
dev_loss_in_iterations = mlpc.loss_curve_.copy()
loss_in_iterations = mlpc.loss_curve_



fig, ax = plt.subplots()
ax.plot(loss_in_iterations, label="loss")
ax.plot(dev_loss_in_iterations, label="dev loss")
plt.legend()
plt.title("Loss in iterations")
plt.xlabel("iteration")
plt.ylabel("loss")
plt.show()