<a href="https://colab.research.google.com/github/chrispi21/python-dataeng/blob/main/06_programowanie_obiektowe_i_obsluga_wyjatkow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Programowanie obiektowe

Docs:
1. https://realpython.com/python3-object-oriented-programming/
2. https://realpython.com/python-classes/

Dla chętnych:
1. [YT: Protocol Or ABC In Python - When to Use Which One?
](https://www.youtube.com/watch?v=xvb5hGLoK0A)
2. [YT: Protocols vs ABCs in Python - When to Use Which One?](https://www.youtube.com/watch?v=dryNwWvSd4M)
3. [YT: Dependency Inversion: Write BETTER PYTHON CODE Part 2](https://www.youtube.com/watch?v=Kv5jhbSkqLE)
4. https://realpython.com/python-getter-setter/

## Co to jest klasa (`class`)? Co to jest obiekt (`object`)?

Klasa jest szablonem, który opisuje jak tworzyć obiekty (nazywane również instancjami klasy). Nazwa klasa określa byt, który ma reprezentować (rzeczownik). Klasa może zawierać informacje o cechach nazywane atrybutami. Może także zawierać metody, czyli funkcje odpowiedzialne za zachowania klasy.




In [2]:
# Przykład najprostszej klasy
class NajprostszaKlasa:
  pass

In [4]:
# instancja najprostszej klasy
NajprostszaKlasa()

<__main__.NajprostszaKlasa at 0x7e4e158e5650>

W przypadku tworzenia bardziej złożonych klas wykorzystuje się specjalną metodę `__init__` nazywaną konstruktorem. Dzięki niej możemy tworzyć instancję na podstawie przekazanych argumentów. Zmienna `self` jest instancją tworzonego obiektu - dzięki temu możemy przypisać przekazane argumenty:

In [9]:
class NajprostszaKlasaV2:
  def __init__(self, parametr1, parametr2):
    self.attr1 = parametr1
    self.attr2 = parametr2

In [10]:
instancja_v2 = NajprostszaKlasaV2("arg1", "arg2")

In [11]:
instancja_v2

<__main__.NajprostszaKlasaV2 at 0x7e4e1590a8d0>

In [12]:
instancja_v2.attr1

'arg1'

In [15]:
class NajprostszaKlasaV3:
  def __init__(self, parametr1, parametr2):
    self.attr1 = parametr1
    self.attr2 = parametr2

  def metoda(self, parametr_metody):
    # gdy odwołujemy się do atrybytutów, korzystamu z self
    print("attr1", self.attr1)
    # nie robimy tego w przypadku parametrów metod
    print("parametr_metody", parametr_metody)

In [16]:
instancja = NajprostszaKlasaV3("arg1", "arg2")
instancja.metoda("Prosta metoda")

attr1 arg1
parametr_metody Prosta metoda


Domyślnie modyfikacje są dozwolone:

In [17]:

instancja.attr1 = "zmieniony arg1"

In [18]:
instancja.attr1

'zmieniony arg1'

## Ćwiczenie

### Etap I - refaktoring

*zadanie będzie traktowane tak samo jak aktywność*

Zrób refactoring poniższego kodu:

```python
import pandas as pd

def extract(path):
  return pd.read_csv(path)

def transform(df):
  return df[["Imię"]].drop_duplicates()

def load(df, path):
  return df.to_json(path, orient="records", index=False, lines=True)


def job(input_path, output_path):
  source_data = extract(input_path)
  transformed_data = transform(source_data)
  load(transformed_data, output_path)
```

1. Utwórz klasę `CsvExtractor` z metodą `extract`. Parametry metody `extract`: `path`.
2. Utwórz klasę `Deduplicator` z metodą `transform`. Konstruktor klasy przyjmuje listę pól na bazie, których odbywa się deduplikacja. `transform` nie posiada parametrów.
3. Utwórz klasę `JsonLoader` z metodą `load`. Konstruktor przyjmuje parametry: `orient`, `index`, `lines`. Metoda `load` przyjmuje `path`.
4. Utwórz klasę `Job`. Parametry konstruktora: `input_path`, `output_path` oraz obiekty typu: `CsvExtractor`, `Deduplicator`, `JsonLoader`. Metoda `run` nie posiada parametrów, ale odpowiada za uruchomienie job'a.
5. Utwórz plik `main.py`, który tworzy instancję `Job` i uruchamia metodę `run`.

Dobrze korzystać z modułów i pakietów.

Rozwiązanie najlepiej umieścić na Github albo w ramach usługi uczelnianej.

Linki do rozwiązań proszę wysłać mi na priv na MS Teams. Najlepiej jak będą to Pull Request'y z feature branch'a do branch'a main/master - ułatwi to ew. komentowanie.

*pozostała część dla chętnych*

### Etap II - zmiana wymagań 1
1. Dodaj klasę `ParquetLoader`, która zapisuje dane w formacie parquet.
2. Utwórz plik `main_parquet.py`, który tworzy instancję `Job` i uruchamia metodę `run`.

Jak pracuje się Tobie z modularnym kodem?

### Etap III - zmiana wymagań 2
Tym razem potrzebny nam jest nowe przetwarzanie, które zlicza pracowników w poszczególnych departamentach. Postaram się wykorzystać klasy `CsvExtractor`, `ParquetLoader`, `Job`. Utwórz plik  `main_departments.py`.

Jak pracuje się Tobie z modularnym kodem?

### Etap IV

Spróbuj skorzystać z `typing`: https://realpython.com/python-type-checking/

### Etap V
W zasobach dot. tych zajęć znajdują się filmy dot. klas abstrakcyjnych, protokołów i `dependency inversion`. Zaproponuj hierarchę klas / protokoły (w zależności co wybierzesz), które najlepiej pasowałyby do naszego przypadku.

### Etap VI
Za pomocą jednego z frameworków do testów:
1. https://docs.pytest.org/en/stable/
2. https://docs.python.org/3/library/unittest.html

Stwórz klasę testową, która zawsze zwraca te wiersze nie odczytując ich z pliku. Wiersze do zwrócenia są argumentami konstruktora. Parametr `path` metody `extract` nie ma wpływu na zwrócony wynik. Utwórz przypadek testowy, który obejmuje:
1. Utworzenie instancji nowej klasy
2. Utworzenie instancji klasy `Job` bazując na nowej klasie
3. Sprawdzeniu, czy dla danych testowych zwracane są dane zgodnie z oczekiwanymi

Zakaz korzystania z mock'ów.
