# Konkurs!
<br>
<img style="max-width:100%; width: 50%" src="figures/svhn1.png">

### Zbiór SVHN
Zadaniem jest sklasyfikować zbiór danych SVHN, wyciętych numerów domu z Google Street View.
Dane są przygotowane w ten sposób, że każdy przykład jest wycentrowany na jednej liczbie, więc dodatkowe wycinanie nie powinno być potrzebne. 

<img style="max-width:100%; height: 50%" src="figures/five.png">

### Zasady
Wybór modelu jest dowolny, zakładamy tylko, że trenowanie i predykcja mają się odbyć w "sensownym" czasie (maksymalnie kilka minut na przeciętnym laptopie). Model należy nauczyć (metoda `fit`) dobierając parametry na zbiorze trenującym (`load_train_data` poniżej), przetestować i policzyć dokłądność (metoda `predict`, następnie `accuracy_score`) na zbiorze testującym (`load_test_data` poniżej).
 
Rozwiązania w formie tego (bądź innego) notebooka lub kodu pythonowego prosimy wysyłać do dzisiaj o godziny 23:59 na adres: 

`sieradzki.igor (at) gmail.com` (zastąpić ` (at) ` @)
### Dane
* zip: https://www.dropbox.com/s/vm9ng125v73wv33/data.zip?dl=1
* tar.gz: https://www.dropbox.com/s/muahm23xa7z3c7j/data.tar.gz?dl=1


## **Proszę sciągnąc dane z jednego z powyższych linków i rozpakować do katalogu 'data'**

### Wskazówki
0. Warto pamiętać o skalowaniu danych
1. Obraki są kolorowe, co oznacza, że dane są trójwymiarowe (pojedynczy przykład ma wymiary 32x32x3), może warto zamienić je na skale szarości? 
2. Znaleźć najlepsze hiperparametry (tylko 1 w LogisticRegression)
3. Spróbować innego modelu (traktując go jako czarne pudełko z funkcja fit i predict :) ).
    * np. SVC z kernel="rbf" (ma 2 hiperparametry C, gamma)
4. Jeśli dobieramy 2 hiperparametry warto użyc GridSearch (samo szuka najlepszy zestaw parametrów) np. http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html#sklearn.grid_search.GridSearchCV 
5. Jeśli używamy bardziej skomplikowanego modelu (np. wspomnianego SVC) to należy użyć PCA (**lub innej techniki redukcji wymiarów**, PCA jest bardzo prostym modelem, zobaczyć `na sklearn.demposition`)
6. Do wyciąganie lepszy wyników często warto użyć kilku modeli w "komitecie" (zobaczyć na `sklearn.ensemble`)

In [None]:
import numpy as np
import cPickle
import gzip

In [None]:
def load_train_data():
    with gzip.open("data/svhn_train_5k.pkl.gz", 'r') as f:
        X_train, y_train = cPickle.load(f)
        
    assert X_train.shape[0] == y_train.shape[0] == 5000
    
    return X_train, y_train

def load_test_data():
    with gzip.open("data/svhn_test_1k.pkl.gz", 'r') as f:
        X_test, y_test = cPickle.load(f)
    
    assert X_test.shape[0] == y_test.shape[0] == 1000
    
    return X_test, y_test

X_train, y_train = load_train_data()
X_test, y_test = load_test_data()

print "Danych trenujących jest:", X_train.shape[0]
print "Danych testujących jest:", X_test.shape[0]

print "Wymiary jednego przykładu:", X_train[0].shape
print "Możliwe klasy to:", np.unique(y_train)

In [None]:
from sklearn.linear_model import RidgeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X_train_scaled = X_train.reshape(X_train.shape[0], -1)
X_train_scaled = X_train_scaled / 256.

m = RidgeClassifier(alpha=0.1)
m.fit(X_train_scaled, y_train)

X_test_scaled = X_test.reshape(X_test.shape[0], -1) / 256.
pred = m.predict(X_test_scaled)

print "Dokładność klasyfikacji:", accuracy_score(y_test, pred)