<a href="https://colab.research.google.com/github/jecsakf/deep_learning/blob/main/Elso_hazi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. házi feladat

Az első házi feladat célja a Python és NumPy szoftveres ismeretek felmérése. 

A feladatok megoldásához nem lehet semmilyen egyéb csomagot importálni: kizárólag beépített függvények és adatszerkezetek, valamint az adott feladathoz előre importált csomagok használhatók. Minden feladat automatikus tesztekkel rendelkezik. A megoldást a feladathoz tartozó **Megoldás** felirat utáni cellába kell írni. A tesztek a **Tesztek** felirat utáni cellában találhatók az egyes feladatokhoz. Ha a teszt futtatásakor az OK felirat megjelenik, _feltehetően_ jó a megoldás, de a 2. és 3. feladatoknál egyéb feltételeket is teljesíteni kell, melyek csak manuálisan lesznek ellenőrzive beadás után.

## A/1

**Gradebook**

A tanárok kitalálták, hogy itt az ideje egy új tanulmányi rendszer kifejlesztésének, és téged kértek meg, hogy implementálj ehhez egy napló osztályt. A napló osztály minden diákhoz eltárolja a diák kapott jegyeit egy listában. A listákat, a diákok neveit kulcsként használva, egy szótár (dict) típusú példányváltozóban tároljuk, melyet nevezzünk `grades`-nek.

Az osztály neve legyen **Gradebook**. 6 publikus metódusa van:
* **add_students(student_list)**: Eltárolja a kapott diákok nevét a naplóban, mindhez egy üres listát rendelve
* **get_all_students()**: Visszaadja a naplóban tárolt diákok neveit betűrendben
* **add_grade(student, grade)**: A jegyet beilleszti a kapott diákhoz tartozó listába. Ha nincs a naplóban ilyen nevű diák, *StudentMissingException*-t vált ki.
* **get_student_grades(student)**: Visszaadja a kapott diák jegyeit tartalmazó listát. Ha nincs a naplóban ilyen nevű diák, *StudentMissingException*-t vált ki.
* **get_number_of_students_with_low_grades()**: Visszaadja, hány diáknak vannak egyesei vagy kettesei.
* **get_average_grade()**: Visszaadja a naplóban szereplő összes jegy átlagát.

### Megoldás

In [1]:
# Your solution ->

class StudentMissingException(Exception):
  pass

class Gradebook:
  def __init__(self):
    self.grades =  {}

  def add_students(self, student_list):
    for name in student_list:
      self.grades[name] = []

  def get_all_students(self):
    return sorted(self.grades.keys())

  def add_grade(self, student, grade):
    if student in self.grades.keys():
      self.grades[student].append(grade)
    else:
      raise StudentMissingException()
  
  def get_student_grades(self, student):
    if student in self.grades.keys():
      return self.grades[student]
    else:
      raise StudentMissingException()

  def get_number_of_students_with_low_grades(self):
    low_graders = [1 if 1 in value or 2 in value else 0 for value in self.grades.values()]
    return sum(low_graders)

  def get_average_grade(self):
    if len(self.grades.values())>0:
      sum_of_grades = sum([sum(value) for value in self.grades.values()])
      len_of_sums = sum([len(value) for value in self.grades.values()])
      return sum_of_grades / len_of_sums
    else:
      return 0

### Tesztek

In [None]:
import unittest

class TestGradebook1(unittest.TestCase):
    def test_add_students(self):
        gb = Gradebook()
        self.assertEqual(gb.grades, {})
        gb.add_students(["Peti", "Dóri"])
        self.assertTrue("Peti" in gb.grades)
        self.assertTrue("Dóri" in gb.grades)
        self.assertEqual(2, len(gb.grades))
        gb.add_students(["Klári"])
        self.assertEqual(3, len(gb.grades))


    def test_get_all_students(self):
        gb = Gradebook()
        self.assertEqual(gb.get_all_students(), [])
        
        gb.add_students(["Peti"])
        students = gb.get_all_students()
        self.assertEqual(students, ["Peti"])
        
        gb.add_students(["Dóri", "Dénes"])
        students = gb.get_all_students()
        self.assertEqual(students[0], "Dénes")
        self.assertEqual(students[1], "Dóri")
        self.assertEqual(students[2], "Peti")
        self.assertEqual(len(students), 3)


    def test_add_grade(self):
        gb = Gradebook()
        self.assertRaises(StudentMissingException, gb.add_grade, "Feri", 3)

        gb.add_students(["Dóri", "Dénes"])
        gb.add_grade("Dóri", 4)
        self.assertEqual(gb.grades["Dóri"], [4])
        
        gb.add_grade("Dóri", 5)
        gb.add_grade("Dóri", 4)
        doris_grades = gb.grades["Dóri"]
        self.assertEqual(len(doris_grades), 3)

        gb.add_grade("Dénes", 3)
        self.assertEqual(len(gb.grades["Dóri"]), 3)
        self.assertEqual(gb.grades["Dénes"], [3])


    def test_get_student_grades(self):
        gb = Gradebook()
        self.assertRaises(StudentMissingException, gb.get_student_grades, "Feri")
        
        gb.add_students(["Norbi", "Nóra"])
        gb.add_grade("Nóra", 4)
        self.assertEqual(gb.get_student_grades("Nóra"), [4])
        gb.add_grade("Nóra", 2)
        gb.add_grade("Nóra", 5)

        noras_grades = gb.get_student_grades("Nóra")
        self.assertEqual(len(noras_grades), 3)
        self.assertTrue(all([x in noras_grades for x in [2,4,5]]))


    def test_get_student_grades(self):
        gb = Gradebook()
        self.assertRaises(StudentMissingException, gb.get_student_grades, "Feri")
        
        gb.add_students(["Norbi", "Nóra"])
        gb.add_grade("Nóra", 4)
        self.assertEqual(gb.get_student_grades("Nóra"), [4])
        gb.add_grade("Nóra", 2)
        gb.add_grade("Nóra", 5)

        noras_grades = gb.get_student_grades("Nóra")
        self.assertEqual(len(noras_grades), 3)
        self.assertTrue(all([x in noras_grades for x in [2,4,5]]))


    def test_get_number_of_students_with_low_grades(self):
        gb = Gradebook()
        self.assertEqual(gb.get_number_of_students_with_low_grades(), 0)

        gb.add_students(["Norbi", "Nóra"])
        gb.add_grade("Nóra", 4)
        gb.add_grade("Nóra", 3)
        gb.add_grade("Norbi", 2)
        self.assertEqual(gb.get_number_of_students_with_low_grades(), 1)

        gb.add_grade("Nóra", 1)
        gb.add_grade("Norbi", 5)
        self.assertEqual(gb.get_number_of_students_with_low_grades(), 2)


    def test_get_average_grade(self):
        gb = Gradebook()
        self.assertEqual(gb.get_average_grade(), 0)
        
        gb.add_students(["Norbi", "Nóra"])
        gb.add_grade("Nóra", 4)
        gb.add_grade("Nóra", 5)
        self.assertEqual(gb.get_average_grade(), 4.5)

        gb.add_grade("Norbi", 5)
        gb.add_grade("Norbi", 2)
        self.assertEqual(gb.get_average_grade(), 4)
    
def suite():
    suite = unittest.TestSuite()
    testfuns = ["test_add_students", "test_get_all_students", "test_add_grade",
                "test_get_student_grades", "test_get_number_of_students_with_low_grades",
                "test_get_average_grade"]
    [suite.addTest(TestGradebook1(fun)) for fun in testfuns]
    return suite

runner = unittest.TextTestRunner(verbosity=2)
runner.run(suite())

test_add_students (__main__.TestGradebook1) ... ok
test_get_all_students (__main__.TestGradebook1) ... ok
test_add_grade (__main__.TestGradebook1) ... ok
test_get_student_grades (__main__.TestGradebook1) ... ok
test_get_number_of_students_with_low_grades (__main__.TestGradebook1) ... ok
test_get_average_grade (__main__.TestGradebook1) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.011s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

## B/1

**Precision**

Multiclass klasszifikáció esetén a mintaelemeink címkéjét k kategória egyikébe becsüljük (például kutya, macska, papagáj, stb.). Ha a becsléshez neuronhálót használunk, tipikusan mintaelemenként egy-egy k elemű, valószínűségeket tartalmazó vektort kapunk, melyek a mintaelem egyes kategóriákba tartozásának valószínűségét reprezentálják. Ha szeretnénk ezekből a vektorokból megmondani, hogy egy-egy mintaelem melyik kategóriába tartozik a legnagyobb valószínűség szerint, akkor elég megmondani minden egyes vektorban a maximális elem indexét. Így megkapjuk a becsült kategóriákat.

A precision azt adja meg, hogy az adott kategóriába becsült mintaelemek milyen arányban tartoznak valóban ehhez a kategóriához. Azaz:

$$ Precision = \dfrac{VP}{VP+FP} $$

ahol VP a valós pozitívok (azaz ahol az adott kategóriát helyesen becsültük) száma, FP pedig a fals pozitívok száma (azaz ahol az adott kategóriát helytelenül becsültük). A nevező tehát egyenlő azzal, hogy az adott kategoriát hányszor becsültük.

Multiclass esetben minden osztályra külön számoljuk, és ezeknek vesszük az átlagát.

A feladat, hogy implementáld a `precision` függvényt, ami két paramétert kap:
*   `y_pred` tartalmazza becsült valószínűségeket (ez egy (m, k) alakú tömb, ahol  m  a mintaelemek és  k  a kategóriák száma) 
*   `y_true` tartalmazza az igazi kategóriacímkéket (ez egy (m,) alakú tömb)

A függvény egy számot ad vissza, a kategóriákra a precision értékek átlagát.

**Kikötés:**  Az implementációt vektoros módon, NumPy-ban, ciklusok és egyéb, annak megfelelő Python konstrukciók használata nélkül kell elkészíteni. További részletek a notebook végén.


### Megoldás

In [None]:
import numpy as np

# Your solution ->
def precision(y_pred, y_true):
  a = y_pred.reshape((len(y_true),-1))
  mask = np.max(a, axis=1) == a[np.arange(len(y_true)),y_true]
  uniques, counts = np.unique(y_true, return_counts=True,  axis=0)
  idxs_of_categories = np.where(uniques.reshape((-1,1)) == y_true, True, False)
  
  vps = np.sum(np.where((idxs_of_categories == mask) & (idxs_of_categories == True), 1, 0), axis=1)
  return np.mean(vps/counts)
  

### Tesztek

In [None]:
import unittest

class TestPrecision(unittest.TestCase):
    def test_one_class(self):
        one_class_preds = np.array([[1.], [1.], [1.]])
        one_class_labels = np.array([0,0,0])
        self.assertEqual(precision(one_class_preds, one_class_labels), 1.0)

    def test_two_classes(self):
        two_class_preds = np.array([[0.4, 0.6], [0.8, 0.2], [0.55, 0.45], [0.1, 0.9]])
        two_class_labels = np.array([0,0,1,1])
        self.assertEqual(precision(two_class_preds, two_class_labels), 0.5)

    def test_three_classes(self):
        three_class_preds = np.array([[0.4, 0.3, 0.3], [0.1, 0.5, 0.4], 
                                     [0.3, 0.2, 0.5], [0.4, 0.25, 0.35]])
        three_class_labels = np.array([0, 1, 2, 2])
        self.assertEqual(precision(three_class_preds, three_class_labels), 5/6)

def suite():
    suite = unittest.TestSuite()
    testfuns = ["test_one_class", "test_two_classes", "test_three_classes"]
    [suite.addTest(TestPrecision(fun)) for fun in testfuns]
    return suite

runner = unittest.TextTestRunner(verbosity=2)
runner.run(suite())

test_one_class (__main__.TestPrecision) ... ok
test_two_classes (__main__.TestPrecision) ... ok
test_three_classes (__main__.TestPrecision) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.007s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

## C/1

**Sudoku**

Készíts egy **SudokuBoard** nevű osztályt, ami a Sudoku táblát reprezentálja! A Sudoku egy 9x9-es tábla, ami 3x3-as blokkokra van osztva a sorok és oszlopok mentén. 1-től 9-ig kell elhelyeznünk a számokat úgy, hogy minden sorban, oszlopban, és blokkban a számok egyszer szerepeljenek.

Emellett az osztály a következő tagfüggvényekkel kell, hogy rendelkezzen:

*   `is_valid_placing(num, pos)`: `num` egy szám 1 és 9 között, `pos` pedig egy tuple amely két 0 és 8 közötti egész számot tartalmaz, és `pos` első eleme a sorindex, második eleme pedig az oszlopindex. A függvény logikai értéket ad vissza, amivel megadja, hogy az adott pozícióra elhelyezhető-e az adott szám.
*   `insert(num, pos)`: a paraméterek megegyeznek az előző függvényével. A függvény elhelyezi a megadott számot az adott pozícióra, ha az elhelyezhető oda, és ekkor *True*-t ad vissza. Ha nem helyezhető el oda, *False*-ot ad vissza.
*`get_row_with_most_numbers()`: visszaadja annak a sornak az indexét (0-tól indexelve), ahol a legtöbb szám van elhelyezve. Ha több ilyen sor van, elég az egyiket visszaadni közülük.
*`get_possible_cols(num)`: visszaadja azon oszlopok indexét (0-tól indexelve) egy tömbben, ahova az adott szám (`num` paraméter) elhelyezhető.
*`sum_of_missing_numbers_per_square()`: visszaad egy 3x3-as mátrixot, melynek elemei az egyes blokkok hiányzó számainak összegei.

**Kikötés:**  Az implementációt vektoros módon, NumPy-ban, ciklusok és egyéb, annak megfelelő Python konstrukciók használata nélkül kell elkészíteni. További részletek a notebook végén.



### Megoldás

In [None]:
import numpy as np

# Your solution ->

class SudokuBoard:

  def __init__(self):
    self.board =  np.zeros((9,9))
    #self.board = np.arange(81, dtype=np.int32).reshape((9,9))

  def is_valid_placing(self,num,pos):
    row, col = pos
    rfrom, rto = 3*np.floor_divide(row,3), 3*np.floor_divide(row,3)+3
    cfrom, cto = 3*np.floor_divide(col,3), 3*np.floor_divide(col,3)+3
    in_cella = self.board[row,col] == 0
    in_block = np.where(num in self.board[rfrom:rto, cfrom:cto], False, True)
    in_row = np.where(num in self.board[row], False, True)
    in_col = np.where(num in self.board[:,col], False, True)
    return in_row & in_col & in_block & in_cella

  def insert(self,num,pos):
    if self.is_valid_placing(num,pos):
      i, j = pos
      self.board[i,j] = num
      return True
    else:
      return False
  
  def get_row_with_most_numbers(self):
    return np.argmax(np.count_nonzero(self.board, axis=1))

  def get_possible_cols(self,num):
    col_idxs = np.arange(9, dtype=np.int32)
    mask = np.any(self.board == num, axis=0) == False
    return col_idxs[mask]

  def sum_of_missing_numbers_per_square(self):
    a = self.board.reshape(3,3,9)
    blocks_sum = np.sum((np.sum(a, axis=1).reshape(9,3)), axis=1)
    return (45-blocks_sum).reshape(3,3)


### Tesztek

In [None]:
import unittest

class TestSudoku(unittest.TestCase):
    def test_is_valid_placing(self):
        sb = SudokuBoard()
        self.assertTrue(sb.is_valid_placing(5, (0,0)))
        self.assertTrue(sb.is_valid_placing(5, (8,0)))
        self.assertTrue(sb.is_valid_placing(5, (0,8)))
        self.assertTrue(sb.is_valid_placing(5, (4,6)))
        self.assertTrue(sb.is_valid_placing(5, (8,8)))

        sb.insert(5, (3,3))
        self.assertFalse(sb.is_valid_placing(7, (3,3)))
        self.assertFalse(sb.is_valid_placing(5, (5,4)))
        self.assertFalse(sb.is_valid_placing(5, (7,3)))
        self.assertFalse(sb.is_valid_placing(5, (3,7)))
        
        self.assertTrue(sb.is_valid_placing(5, (2,4)))
        self.assertTrue(sb.is_valid_placing(6, (3,4)))

    def test_insert(self):
        sb = SudokuBoard()
        self.assertTrue(sb.insert(4, (2,7)))
        self.assertFalse(sb.insert(4, (2,7)))

    def test_get_row_with_most_numbers(self):
        sb = SudokuBoard()
        sb.insert(3, (5,6))
        self.assertEqual(sb.get_row_with_most_numbers(), 5)
        
        to_insert = [(3, (1,0)),(6, (1,7)), (4, (2,1)),(1, (3,7))]
        [sb.insert(*t) for t in to_insert] 
        self.assertEqual(sb.get_row_with_most_numbers(), 1)

        to_insert = [(9, (2,3)), (4, (5,8)), (6, (5,1))]
        [sb.insert(*t) for t in to_insert] 
        self.assertEqual(sb.get_row_with_most_numbers(), 5)

    def test_get_possible_cols(self):
        sb = SudokuBoard()
        self.assertEqual(len(sb.get_possible_cols(5)), 9)
        
        sb.insert(5, (5,8))
        self.assertEqual(len(sb.get_possible_cols(5)), 8)

        sb.insert(6, (4,3))
        self.assertEqual(len(sb.get_possible_cols(5)), 8)

        to_insert = [(5, (1,0)),(5, (2,7)), (5, (4,4))]
        [sb.insert(*t) for t in to_insert]
        self.assertEqual(len(sb.get_possible_cols(5)), 5)

    def test_sum_of_missing_numbers_per_square(self):
        sb = SudokuBoard()
        sum_missing = sb.sum_of_missing_numbers_per_square()
        self.assertTrue(np.all(sum_missing == 45))
        self.assertEqual(sum_missing.shape, (3,3))

        to_insert = [(6, (6,5)),(7, (8,5)), (8, (7,5))]
        [sb.insert(*t) for t in to_insert]
        sum_missing = sb.sum_of_missing_numbers_per_square()
        self.assertEqual(sum_missing[2,1], 24)
        self.assertEqual(np.sum(sum_missing == 45), 8)

        to_insert = [(1, (3,0)),(2, (4,2)), (3, (4,1))]
        [sb.insert(*t) for t in to_insert]
        sum_missing = sb.sum_of_missing_numbers_per_square()
        self.assertEqual(sum_missing[1,0], 39)
        self.assertEqual(sum_missing[2,1], 24)
        self.assertEqual(np.sum(sum_missing == 45), 7)

def suite():
    suite = unittest.TestSuite()
    testfuns = ["test_is_valid_placing", "test_insert", 
                "test_get_row_with_most_numbers",
                "test_get_possible_cols",
                "test_sum_of_missing_numbers_per_square",
                ]
    [suite.addTest(TestSudoku(fun)) for fun in testfuns]
    return suite

runner = unittest.TextTestRunner(verbosity=2)
runner.run(suite())

test_is_valid_placing (__main__.TestSudoku) ... ok
test_insert (__main__.TestSudoku) ... ok
test_get_row_with_most_numbers (__main__.TestSudoku) ... ok
test_get_possible_cols (__main__.TestSudoku) ... ok
test_sum_of_missing_numbers_per_square (__main__.TestSudoku) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.012s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

# Kikötések

A hatékony, vektoros NumPy megvalósításhoz minimálisra kell csökkenteni a Python parancsok számát a kódban. Például, ha egy ciklusban hívunk NumPy függvényeket és a ciklus több milliószor lefut, az tipikusan jóval kevésbé hatékony, mint ha a Python ciklust megfelelő, vektorizált NumPy hívásokkal ki tudjuk váltani és a szkript lefutása során mindössze néhány, egyszerre nagyobb mennyiségű adaton operáló NumPy hívás fut le.

A ciklusok mellett az azt helyettesítő Python műveletek hatása is hasonló: a list/set/dict comprehension-ök, a `map(), filter()` függvények megvalósítása ugyancsak ciklussal történik. A NumPy-ban elérhető `np.apply_along_axis()` művelet egy adott n dimenziós tömbön operáló műveletet ismétel meg egy n+1 dimenziós tömb n dimenziós szeletein, majd összekonkatenálja az eredményt. Bár ezzel a művelettel kiváltható a Python ciklus használata, de sok esetben ez nem hatékony, így ilyenkor kerülendő ez a megközelítés. Például, ha az `np.apply_along_axis()` műveletnek megadott, ciklusban végrehajtott függvény Python változókat, vagy függvényeket használ, a megvalósítás nem lesz hatékonyabb egy egyszerű Python ciklusnál.

**Kikötések a 2. és 3. feladathoz:** 
* Nem használhatók Python ciklusok, comprehension-ök és generátorok (azaz tiltott a `for` és a `while` kulcsszavak használata).
* A feladatok nem oldhatók meg rekurzió segítségével.
* Nem használhatók a `map()` és `filter()` beápített függvények.
* Nem használhatók a következő, Python ciklust megvalósító, nem hatékony NumPy függvények: `np.apply_along_axis()`, `np.apply_over_axes()`, `np.vectorize()`, `np.frompyfunc()`.
* Bár a megoldásban nem kell más méretű táblákat kezelni, de a megoldás módjának skálázhatónak kell lennie a sorok, oszlopok száma (és a beléjük írható számjegyek száma) szerint. Azaz, nem elfogadható az a megközelítés, hogy ha kilenc fajta számjegyen szeretnénk végigiterálni, akkor a ciklus használatát úgy kerüljük el, hogy a kilenc számjegyet kilenc külön utasítással kezeljük, hiszen ekkor több sor/oszlop/számjegy esetén több sornyi kódra lenne szükségünk.
