# Rozpoznawanie obrazu na potrzeby eksperymentu naukowego

Pi of the Sky (https://www.pi.fuw.edu.pl/jest) jest eksperymentem astrofizycznym, którego głównym celem jest poszukiwanie rozbłysków gamma (GRB) (https://pl.wikipedia.org/wiki/Rozbłysk_gamma). W tym celu zautomatyzowane teleskopy w Chile i Hiszpanii fotografują niebo w poszukiwaniu interesujących zdarzeń. Klasyczne algorytmy wykrywania rozbłysków gamma działają w następujący sposób: wybrany obszar nieba jest stale fotografowany w pewnych odstępach czasu, jeżeli skanowany obszar zmieni się w jakiś sposób, może to oznaczać, iż pojawiło się nowe źródło promieniowania, dlatego kilka(naście) klatek (zdjęć) przed i po wystąpieniu zjawiska jest zachowywanych do późniejszej analizy. Naukowcy analizują sekwencję zdjęć aby stwierdzić, czy faktycznie zaobserwowano rozbłysk gamma. Niestety, wiele spośród zebranych danych to fałszywe alarmy, wywołane np. przez chmury poruszające się na niebie. Celem niniejszego ćwiczenia jest stworzenie algorytmu uczenia maszynowego opartego o konwolucyjne sieci neuronowe, który mógłby usprawnić analizę poprzez odsiewanie niepoprawnych danych, oszczędzając pracy naukowcom.

W zadaniu chcemy stworzyć tzw. "proof of concept", czyli rozwiązanie dalekie od ostatecznego, ale pokazujące, że problem może potencjalnie zostać rozwiązany z użyciem zaproponowanej metody. Ograniczymy się do analizy pojedynczych obrazów a nie całych sekwencji. Chcemy dokonać klasyfikacji obrazów należących do trzech klas:

0) zdjęcia potencjalnie zawierające rozbłyski gamma 

1) fałszywe alarmy przedstawiające niebo z chmurami

2) fałszywe alarmy zawierające artefakty spowodowane wadliwą pracą aparatury badawczej (poziome/pionowe linie)

 ## Polecenia


#### Uwaga ogólna: Wszystkie wykresy i obrazki w notatniku mają być estetyczne, zawierać podpisy osi, tytuły, legendy itp. Wypisując jakieś wartości należy napisać również czym one są. Przed wysłaniem rozwiązania należy usunąć wszystkie niepotrzebne komentarze i komórki. Mile widziane są opisy/komentarze wyjaśniające co w danej komórce próbujecie zrobić.

1. Wczytanie i wstępna obróbka danych
     * Proszę pobrać archiwum "data.zip":
     https://github.com/Rav2/uczenie-maszynowe-2021-22/raw/main/praca_domowa/data.zip
     * Archiwum należy rozpakować. Folder "data" zawiera trzy podfoldery odpowiadające trzem klasom: "0", "1" oraz "2", które zawierają obrazki w formacie JPG. Wszystkie obrazki mają identyczne wymiary. Jeśli chcecie pracować w Google Collab, to polecam przesłać obrazki na dysk Google i podłączyć ten dysk do notebooka (instrukcja niżej).
     * Proszę wczytać obrazki, np. korzystając z funkcji
     tensorflow.keras.preprocessing.image.load_img (patrz przykład poniżej) i stworzyć tensor cech X i wektor etykiet y.
     * Tensor cech powinnien mieć wymiar (3573, 100, 100, 1). 1 odpowiada pojedynczemu kanałowi (czarno-biały obraz). Jeżeli dane nie mają takiego kształtu to proszę im go nadać.
     * Proszę sprawdzić i wyświetlić liczebność klas.
     * Proszę sprawdzić i wyświetlić wymiary obrazka (w pikselach) i zapisać do zmiennych. Przydadzą się później.
     * Proszę wyświetlić po jednym obrazku z każdej klasy wraz z numerem klasy.
2. Preprocessing
     * Proszę przeskalować wartości pikseli tak, żeby były w przedziale [0,1].
     * Proszę podzielić dane na zbiory uczący (70%) i testowy (30%).
     * Proszę sprawdzić, czy rozkład klas w obu zbiorach jest zbliżony. Jeżeli nie jest, to proszę dokonać podziału danych tak, żeby był.
3. Uczenie sieci
    * Proszę zaproponować architekturę sieci opartą o warstwy CNN. Proszę wykorzystać również pooling oraz dropout i pamiętać o spłaszczeniu na końcu. Sieć ma przyjmować obrazki w oryginalnych rozmiarach. Proszę pamiętać o właściwej funkcji aktywacji w ostatniej warstwie.
    * Proszę wytrenować sieć wydzielając ze zbioru uczącego 15% na walidację.
    * Proszę narysować wykresy accuracy i funkcji kosztu w funkcji numeru epoki (iteracji) uczenia, zarówno dla zbioru uczącego jak i walidacyjnego.
4. Ewaluacja
    * Proszę dokonać predykcji na zbiorze testowym.
    * Proszę wypisać raport z klasyfikacji i macierz pomyłek. W przypadku otrzymania mniej niż 80% accuracy proszę porawić architekturę i parametry sieci.
    * Proszę policzyć procent poprawnie sklasyfikowanych obrazków dla każdej z klas i przedstawić na histogramie.
    * Proszę narysować wykres ROC i podać pole wykresu pod krzywą. 
5. Generacja pseudodanych
  * Proszę zapoznać się z dokumentacją klasy tensorflow.keras.preprocessing.image.ImageDataGenerator oraz przykładami użycia.
  * Proszę stworzyć obiekt typu ImageDataGenerator z parametrami pozwalającymi na generację pseudodanych poprzez użycie:
    a) przesunięcia o nie wiecej niż 20 pikseli
    b) odbicia względem osi OX lub OY
    c) zoom do 10%
  * Proszę przeznaczyć 15% zbioru treningowego na zbiór walidacyjny.
  * Korzystając z metody "flow" dla obiektu typu ImageDataGenerator proszę wytrenować sieć neuronową.
  * Proszę przeprowadzić ponowną ewaluację sieci wytrenowanej z generacją pseudodanych.
  *Proszę porównać wyniki z wcześniejszymi i napisać kilka zdań komentarza z wyjaśnieniem obecności lub braku różnic.

6. Dodatkowe (dla chętnych)
    * Znaleźć optymalne wartości hiperparametrów sieci w sposób automatyczny, wykorzystując jedną z dostępnych bibliotek lub implementując samemu, np. z użyciem zagnieżdżonych pętli for.
    * Dla znalezionych parametrów wykonać uczenie i ewaluację. Porównać z wcześniejszymi wynikami.

#### Pobranie danych i rozpakowanie

In [None]:
# Odkomentuj i wykonaj, żeby pobrać dane i rozpakować
#! wget https://github.com/Rav2/uczenie-maszynowe-2021-22/raw/main/praca_domowa/data.zip
#! unzip -q data.zip

 #### Podpięcie dysku Google do notebooka (po tym wszystkie pliki na dysku będą dostępne, trzeba zatwierdzić w wyskakujących okienkach)

In [1]:
# Jeżeli chcesz/potrzebujesz udostępnić swój dysk Google notatnikowi z Collaba to możesz to zrobić następująco.
# Odkomentuj i wykonaj, żeby podłączyć swój dysk Google do notatnika
# Pliki będą dostępne pod ścieżką /content/drive/...

# from google.colab import drive
# drive.mount('/content/drive')

#### przykład wczytania obrazka nr 5 z folderu 'data/1/' i konwersji do numpy array

In [2]:
#  import os
#  from tensorflow.keras.preprocessing.image import load_img

## Sprawdź jakie pliki są w folderze
#  files = os.listdir('data/1/')
 
## Ustal pełną ścieżkę do pliku nr 5
#  path = os.path.join('data/1/', files[5])
 
## Wczytaj obrazek
#  img = load_img(path, color_mode='grayscale')
 
## Przekonwertuj do tablicy w numpy
#  img_arr = np.asarray(img)

# Rozwiązanie