## Projekt zaliczeniowy

Link do submisji: wkrótce

Uwaga: Jeśli ktoś robi własny projekt (grupy Staszka) to wystarczy wysłać kod oraz rozszerzony opis.

Tymczasowy link do danych: https://drive.google.com/drive/folders/0BwExETCslterV0E1aXVObUlVUGs

### Opis projektu

Projekt polega na wytrenowaniu klasyfikatora kolorowych obrazków na datasecie [CIFAR-10](https://www.cs.toronto.edu/~kriz/cifar.html).

Zestaw danych wygląda następująco:
* X_train - zbiór treningowy - cechy (piksele, 3 kanały kolorów),
* y_train - etykiety X_train (0-9),
* X_train_small - losowy podzbiór X_train (10%),
* y_train_small - etykiety X_train_small,
* X_test - zbiór testowy, na którym należy obliczyć predykcje.

Tabelę y_test (etykiety zbioru testowego) można odnaleźć w internecie, ale proszę tego **nie** robić.

Pojedynczy wiersz tabelach X to wektor długości 3072, czterowymiarową macierz obrazków możemy uzyskać stosując metodę X.reshape(-1,3,32,32). Dane w tabelach X są intami - przed uczeniem należy je zrzutować na floaty. 

#### Część pierwsza - całość CIFAR-10

Dane, których można używać: X_train, y_train, X_test.

Model należy wytrenować na parze (X_train, y_train), a następnie przeliczyć i zasubmitować predykcje na X_test.

#### Część druga - subset CIFAR-10

Danie, których można używać: X_train, X_train_small, y_train_small, X_test.

**Nie** można używać tabeli y_train.


Model należy wytrenować unsupervised (pretraining / uczenie reprezentacji) na zbiorze X_train, a następnie kontynuować uczenie supervised na parze (X_train_small, y_train_small) i zasubmitować predykcję na X_test. Wynik trzeba porównać z wynikiem modelu nauczonego z pominięciem trenowania unsupervised.


### Punktacja

Liczba punktów za projekt podana jest w ogłoszeniach i różni się pomiędzy grupami ćwiczeniowymi.

Na rozwiązanie projektu składa się sześć jednakowo ocenianych części:

(CIFAR-10 - całość)
* opis przetestowanych modelów (w tym opcjonalnie preprocessing danych) - na czym w skrócie polega zasada ich działania, w jaki sposób są one w stanie dobrze klasyfikować obrazki,
* opis działania hiperparametrów, algorytm doboru hiperparametrów - za co odpowiadają poszczególne hiperparametry używanych modelów, jak dobrano najlepszy zestaw,
* przebicie 40% accuracy,
* przebicie 60% accuracy (hint: prosta sieć konwolucyjna),

(CIFAR-10 - subset)
* zastosowanie unsupervised pretrainingu na dużym zbiorze CIFAR-10, uczenie nadzorowane na subsecie - opis działania użytego pretrainingu, porównanie ze skutecznością takiego samego modelu, ale uczonego bez pretrainingu lub z pretrainingiem na zbiorze "subset",
* przebicie 50% accuracy.


Rozwiązania, w których najlepszy zestaw hiperparametrów został "odgadnięty", dobrany ręcznie itp. będą ocenione w całości na zero punktów.

Rozwiązania, w których podczas uczenia używano danych ze zbioru testowego będą ocenione w całości na zero punktów.

In [None]:
# Baseline dla zbioru CIFAR-10 - regresja logistyczna w wersji multiclass
# Przy submitowaniu predykcji proszę używać funkcji save_labels

import os
import pickle

import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

def save_labels(arr, filename):
    pd_array = pd.DataFrame(arr)
    pd_array.index.names = ["Id"]
    pd_array.columns = ["Prediction"]
    pd_array.to_csv(filename)

def load_labels(filename):
    return pd.read_csv(filename, index_col=0).values.ravel()

X_train = np.load("X_train.npy")
y_train = load_labels("y_train.csv")
X_test = np.load("X_test.npy")

if not os.path.isfile("baseline.pkl"):
    lr = Pipeline([('scaler', StandardScaler()), ('lr', LogisticRegression(verbose=43))])
    lr.fit(X_train, y_train)
    print("Train acc:", accuracy_score(y_train, lr.predict(X_train)))
    with open("baseline.pkl", 'w') as f_out:
        pickle.dump(lr, f_out)
else:
    with open("baseline.pkl", 'r') as f_in:
        lr = pickle.load(f_in)

save_labels(model.predict(X_test), "y_pred.csv")

# Train acc: 0.52238
# Test acc: 0.3703
