# Owocowa Burza Neuronów

## Zadanie

Celem tego zadania jest przeprowadzenie poprawnej klasyfikacji zdjęć owoców przy wykorzystaniu technik uczenia maszynowego. Oczekiwaną skuteczność klasyfikacji ustalamy na poziomie powyżej 75% na zbiorze testowym. Poniżej znajduje się fragment kodu, który należy uzupełnić, aby skrypt działał poprawnie, uruchamiając się w całości i generując plik model.pth (lub model.keras). Środowiskiem wykonawczym dla tego zadania będzie jupyter notebook, a jako platformę można wykorzystać Google Colab.

## Ograniczenia
- Twoje finalne rozwiązanie będzie testowane w środowisku **bez** GPU.
- Ewaluacja twojego rozwiązania (bez treningu) na `480000` przykładach testowych powinna trwać nie dłużej niż 2 minuty na Google Colab bez GPU.
- Lista dopuszczalnych bibliotek: `tensorflow`, `numpy`, `scikit`, `matplotlib`, `tqdm`. Proszę zainstalować te biblioteki, korzystając np. z pip.

## Pliki zgłoszeniowe
Rozwiązanie zadania stanowi plik archiwum zip zawierające:
1. Ten notebook
2. Plik z wagami modelu: `model.keras`

Uruchomienie całego notebooka z flagą `FINAL_EVALUATION_MODE` ustawioną na `False` powinno w maksymalnie 20 minut skutkować utworzeniem modelu z wagami.

## Ewaluacja
Podczas sprawdzania flaga `FINAL_EVALUATION_MODE` zostanie ustawiona na `True`, a następnie zostanie uruchomiony cały notebook.

Podczas sprawdzania zadania, użyjemy metryki ACCURACY, czyli dokładność modelu. Będzie ona liczona za pomocą funkcji `calculate_accuracy`

# Kod startowy

In [None]:
FINAL_EVALUATION_MODE = False  # W czasie sprawdzania twojego rozwiązania zmienimy tą wartość na True
MODEL_PATH = 'model.keras'  # Nie zmieniaj!

BATCH_SIZE = 32 # Zmniejsz, jeżeli twój komputer ma mniej niż 8gb ram

In [None]:
from typing import List
from datetime import datetime, timedelta
from matplotlib import pyplot as plt
from tqdm import tqdm, trange

import numpy as np
import tensorflow as tf

import os

In [None]:
if not FINAL_EVALUATION_MODE:
  TRAIN_PATH = 'train'
  VAL_PATH = 'val'
time_start = datetime.now()

In [None]:
if not FINAL_EVALUATION_MODE:
  os.environ['CUDA_VISIBLE_DEVICES'] = '-1' # Finalne rozwiązanie będzie sprawdzane na CPU!!!

In [None]:
# @title Lista klasyfikowanych obiektów
if not FINAL_EVALUATION_MODE:
  class_names = [
    'apple',
    'blueberry',
    'blackberry',
    'pineapple',
    'strawberry',
    'watermelon',
    'grapes',
    'peanut',
  ]

In [None]:
# @title Funkcja obliczająca accuracy modelu na podstawie odpowiedzi - taka sama metryka zostanie zastosowana podczas oceny modelu
def calculate_accuracy(y_true: list[float], y_pred: list[float]) -> float:
  '''
  Oczekiwana są 2 argumenty, pierwszy jako lista oczekiwanych elementów, 2 jako lista predykcji
  '''

  return np.sum(y_true == y_pred)/y_true.size

# Twoje rozwiązanie

In [None]:
def load_data(name_files: list[str], path: str):
  '''
  Funkcja ma wczytać dane z plików npy i zwrócić je jako listę

  Wskazówki:
    1. zwracana lista powinna zawierać tablice numpy o wymiarach (x, 28, 28)
    2. pamiętaj o normalizacji
  '''
  # TODO: zdefiniuj wczytanie danych z pliku npy


## Po poprawnym napisaniu funkcji load_data zostaną one wczytanę do dataloader

In [None]:
def get_datasets(name_files: list[str], path: str):
  data = load_data(name_files, path)
  return (np.concatenate(data, dtype='f').reshape(-1, 28, 28, 1), np.concatenate([np.array([i]*len(_)) for i,_ in enumerate(data)], axis=0))

if not FINAL_EVALUATION_MODE:
  data_train, label_train =  get_datasets(class_names, TRAIN_PATH)
  data_val, label_val =  get_datasets(class_names, VAL_PATH)

## Wyświetlenie po jednym przykładowym elemencie z każdej klasy

Poprawne wyświetlenie 8 obrazów, po jednym z każdej klasy może oznaczać poprawną implementacją funkcji load_data

In [None]:
if not FINAL_EVALUATION_MODE:
  plt.figure(figsize=(20, 10))
  for i, name in enumerate(class_names):
    plt.subplot(2, 4, i + 1)
    plt.title(name)

    plt.imshow(data_train[np.where(label_train == i)[0][0]], cmap='gray')

Ma to wyglądać tak jak na zdjęciu poniżej:

![](dataset.png)

## Zdefiniuj tutaj swój model sieci i przeprowadź trening

Uwaga: nie zmieniaj nazwy klasy Net

In [None]:
def get_model():
  # Wskazówki:
  # 1. Pamiętaj, że oceną modelu nie może trwać dłużej niż 2 minuty dla 480000 danych testowych na CPU, więc nie rób zbyt dużego modelu
  # 2. Pamiętaj, że cały skrypt z tego pliku nie może wykonywać się dłużej niż 20 minut na CPU więc nie rób zbyt dużego modelu
  model = tf.keras.models.Sequential([
    # TODO: Zbuduj i skompiluj swój model
  ])
  model.compile(
    metrics=['accuracy',], # nie zmieniaj tej metryki, taka sama metryka zostanie użyta do oceny modelu
    # TODO: Zdefiniuj parametry modelu
    optimizer=...,
    loss=...,
  )

  return model

In [None]:
# W czasie ewaluacji, modele nie powinny być ponownie trenowane.
if not FINAL_EVALUATION_MODE:
  print("Trening modelu")
  model = get_model()

  # TODO: ustaw trening
  model.fit(data_train, label_train,validation_data=(data_val, label_val), batch_size=BATCH_SIZE, epochs=...)

  # zapisz wagi modelu do pliku
  model.save(MODEL_PATH)


Skrypt powinien wykonywać się maksymalnie 20 minut

In [None]:
time_stop = datetime.now()

In [None]:
(time_stop - time_start).total_seconds()/60

# Ewaluacja
Kod bardzo podobny do poniższego będzie służył do ewaluacji rozwiązania na zdaniach testowych. Wywołując poniższe komórki, możesz dowiedzieć się jaki wynik zdobyłoby twoje rozwiązanie, gdybyśmy ocenili je na danych walidacyjnych. Przed wysłaniem rozwiązania upewnij się, że cały notebook wykonuje się od początku do końca bez błędów i bez ingerencji użytkownika po wykonaniu polecenia `Run All`.

In [None]:
def evaluate_model(model, data, labels, batch_size = BATCH_SIZE):
  y_true = []
  y_pred = []

  y_true = np.concatenate((y_true, labels), axis=0)
  out = model.predict(data, batch_size=batch_size)
  y_pred = np.concatenate((y_pred,  np.argmax(out, axis=1)), axis=0)

  return calculate_accuracy(y_true, y_pred)

In [None]:
if not FINAL_EVALUATION_MODE:
  model_loaded = tf.keras.models.load_model(MODEL_PATH)

  start_evaluation = datetime.now()
  acc = evaluate_model(model_loaded, data_val, label_val)
  stop_evaluation = datetime.now()

  print(f'\nWynik accuracy: {acc:.3f}\nCzas ewaluacji: {(stop_evaluation - start_evaluation).total_seconds():.2f} sekund')