### Úvod do objektově-orientovaného programování
---

<br>

#### Co je to objektově orientované programování (~OOP) ?

---
OOP rozumíme v obecném slova smyslu **způsobu myšlení** (-programování).
<!-- filozofie, vzorec -->

<br>

Technicky vzato je to jedno z **programovacích paradigmat**:
1. *Procedurální zápis* (od shora dolů, nyní udělej tohle, potom udělej tamto, ..),
2. *funkcionální zápis* (problém rozložíme na jednotlivé části, funkce),
3. *objektově-orientovaný zápis* (logicky související části sdružíme pomocí modelu).
<!-- https://en.wikipedia.org/wiki/Programming_paradigm -->

<br>

#### Proč potřebujeme OOP?

---

Představ si situaci, že si píšeš vlastní **pomocný skript**.

<br>

##### I. Osobní skript

- netřeba *testovat*,
- netřeba *loggovat*,
- netřeba *dokumentovat*,
- netřeba *kooperace* s ostatními
- spustím -> běží = ✅ / neběží = 🙏🏻

```python
import datetime

import bs4
import requests

# zdrojové url a formát času
url: str = "https://markets.businessinsider.com/commodities/gold-price"
date_format: str = "%d.%m.%Y;%H:%M:%S"
    
# získání odpovědi serveru
response: requests.models.Response = requests.get(url)
soup: bs4.BeautifulSoup = bs4.BeautifulSoup(response.content)
    
# získání ceny zlata
css_selector: str = ".price-section__current-value"
gold_price: bs4.element.ResultSet = soup.select_one(css_selector).get_text()
    
# vytvoření poznámky
current_time: str = datetime.datetime.now().strftime(date_format)
currect_gold_price: str = f"{current_time}; {gold_price} CZK"
    
# zápis do souboru
print(currect_gold_price)
```

<br>

##### II. Pracovní projekt
Později si můžeš najít práci v menším startupu, kde budeš moct svůj předchozí **projekt používat**.

<br>

- potřeba *testovat*,
- potřeba *dokumentovat*,
- potřeba *verzovat* s více kolegy,
- spustím -> běží = ✅ / neběží = 💀

```python
import datetime

import bs4
import requests


def main() -> None:
    url: str = "https://markets.businessinsider.com/commodities/gold-price"
    save_current_price(url)

 
def save_current_price(url: str) -> None:
    soup: bs4.BeautifulSoup = get_response(url)
    current_price: str = select_html_element(soup)
    creating_timestamp(current_price)


def send_get_request(url: str) -> bs4.BeautifulSoup:
    response: requests.models.Response = requests.get(url)
    return bs4.BeautifulSoup(response.content)


def select_html_element(
    source: str,
    selector: str = ".price-section__current-value") -> str:
    
    price: bs4.element.Tag = source.select_one(selector)
    return price.get_text()


def creating_timestamp(
    price: str,
    t_format: str = "%d.%m.%Y;%H:%M:%S") -> str:
    
    current_time: str = datetime.datetime.now().strftime(t_format)
    return f"{current_time}; {price} CZK"
    

if __name__ == "__main__":
    main()
```

<br>

```python
testing_html: str = """
<html><head><title>Price of gold</title></head>
<body>
<p class="title"><b>Values</b></p>
<p class="price-section__current-value">1111.11</p>
<p class="another_value">...</p>
"""
testing_time: str = "11.11.2011;11:11:11"

assert get_response("https://www.google.com")
assert select_html_element(bs4.BeautifulSoup(html_doc)) == "1111.11"
assert creating_timestamp("1111.11", testing_time) == f"{testing_time}; 1111.11 CZK"
```

<br>

Tvůj původní malý projekt neustále narůstá a vyžaduje další doplňky a rozšíření.

<br>

##### III. Objem zápisu narůstá dál
<!-- Po časem je nutné skript opět reorganizovat, protože řádky přibývají. -->
<!-- Soubor se stává nepřehledný, abstrakce narůstá, počet závislostí narůstá. -->

```python
import os
import sys
import logging
import datetime

import bs4
import requests
from .. import ...
from .. import ...


def main() -> None:
    pass


def send_get_request() -> None:
    pass

def send_post_request() -> None:
    pass

def save_current_price() -> None:
    pass

def select_single_element(source: str, selector: str) -> str:
    pass

def select_all_elements(source: str, selector: str) -> str:
    pass

def create_timestamp() -> None:
    pass

def create_header() -> None:
    pass

def create_body() -> None:
    pass

def show_status_message() -> None:
    pass

if __name__ == "__main__":
    main()
```

<br>

Pro jednodušší správu takového zdrojového souboru můžeme provést následující:
1. **Objektově-orientované programování** (rozdělit strukturu na jednotlivé spolu-související objekty),
2. **modulární programování** (rozdělit soubor na několik logicky souvisejících modulů).

```python
import os
import sys

...

class RequestHandler:
    # get_response
    # collect_data_from_server
    # send_data_to_server
    
class ResponseParser(RequestHandler):
    # select_html_element
    # save_current_price
    
class DataCollector:
    # create_cache
    # create_timestamp
```

<br>

#### OOP, obecně

---
Tento *způsob myšlení* je zaměřený na abstrakci.

<br>

Jde o *škatulkování* **konkrétních věcí** na **obecnější pojmy**. Příkladem mohou být předměty okolo nás.
<!-- IPhone -> mobil, Logitech -> myš, ... -->
<br>

Základem je tedy nějaký **objekt** (monitor, strom, klávesnice, auto,..).

<br>

Každý objekt má nějaké **vlastnosti** a nějaké **použití**.
<!-- výška, průměr, hustota, růst, fotosyntéze, hojení. -->

<br>

#### OOP v Pythonu

---
První setkání s OOP v Pythonu není úplně patrné:

In [1]:
print(
    type(1),
    type(""),
    type([]),
    type({}),
    sep="\n"
)

<class 'int'>
<class 'str'>
<class 'list'>
<class 'dict'>


<br>

Zabudovaná funkce `type()` nám vrací ve všech příkladech různé datové typy.

<br>

Současně všem těmto datovým typům předchází klíčový výraz `class`, tedy **třída**.

<br>

*Třída* je v podstatě vzor, která slouží k vytvoření nového objektu, tzv. **instance**.

<br>

<img src="https://i.imgur.com/hFOhwwV.png" width="800">

<br>

Jednotlivé objekty vytvořené při procesu *instancování* jsou potom produkty (*~instance*) konkrétní mateřské třídy:

In [2]:
name = "Matous"                              # instance třídy
name.__class__                               # třída, ze které jsem instanci vytvořil

str

In [3]:
names = {"Matous", "Marek", "Lukas", "Jan"}  # instance
names.__class__                              # původní třída

set

<br>

##### Vytvoření nové třídy
Následující předpis je pouze ilustrativní (ne praktický):

In [4]:
class LinkScraper:
    """Collects links of various types from a main url"""
    pass

Na předchozím zápisu si můžeš všimnout několika rysů:
1. `class`, klíčový výraz pro definici nové třídy,
2. `LinkScraper`, jméno třídy, formát *camelCase*, jednotné číslo,
<!-- https://www.python.org/dev/peps/pep-0008/#naming-conventions -->
3. `:` dvojtečka, ukončující předpis,
4. `"""Collects links ..."""` dokumentace třídy,
5. `pass`, prázdné ohlášení (např. pro budoucí účely).

In [5]:
class LinkScraper:
    """Collects links of various types from a main url"""
    pass

print(type(LinkScraper))

<class 'type'>


<br>

Pokud si budeš chtít ověřit o jaký datový typ v případě naší **vlastní třídy**, dostaneš netradiční výstup `<class 'type'>`.

<br>

Jak je neustále omíláno, *všechno v Pythonu je objekt* a třídy nejsou žádnou výjimkou.

<br>

Proto i třída musí mít nějaký svůj typ (~type):

<br>

<img src="https://i.imgur.com/z0XN2Gh.png" width="800">

<br>

#### Instance třídy

---

Tvorba instance je proces (instancování), kdy použiju **jméno třídy** (návod) a vytvořím **produkt** (instanci).

In [6]:
class LinkScraper:
    """Collects links of various types from a main url"""
    pass

instance_1 = LinkScraper()  # diskuze
instance_2 = LinkScraper()  # produkty

print(
    id(instance_1),
    id(instance_2),
    type(instance_1),
    type(instance_2),
    sep="\n"
)

140374705617600
140374705615008
<class '__main__.LinkScraper'>
<class '__main__.LinkScraper'>


<br>

#### Atribut třídy

---

**Třídní atribut** nebo také **třídní proměnná** je proměnná (~vlastnost), která náleží třídě samotné.

<br>

Jednotlivé třídní instance si tuto hodnotu z mateřské třídy předávají(sdílí) a mohou ji dokonce **přepisovat**!

<br>

##### Vytvoření třídního atributu

In [7]:
class EngetoLinkScraper:
    """Collects links of various types from a main url"""
    host: str = "https://engeto.cz"  # třídní atribut


print(f"{EngetoLinkScraper.host=}")        # bez vytvoření instance třídy

courses_scraper = EngetoLinkScraper()      # instance 1.
blogs_scraper = EngetoLinkScraper()        # instance 2.

print(f"{courses_scraper.host=}")    # instance získá třídní atribut
print(f"{blogs_scraper.host=}")      # ...

EngetoLinkScraper.host='https://engeto.cz'
courses_scraper.host='https://engeto.cz'
blogs_scraper.host='https://engeto.cz'


<br>

##### Přepisování třídního atributu

In [8]:
class EngetoLinkScraper:
    """Collects links of various types from a main url"""
    host: str = "https://engeto.cz"  # třídní atribut
    results: list = []               # třídní atribut

print(f"{EngetoLinkScraper.results=}")        # bez vytvoření instance třídy
    
product_scraper = EngetoLinkScraper()
discussion_scraper = EngetoLinkScraper()

product_scraper.results.append("https://engeto.cz/product-1")
product_scraper.results.append("https://engeto.cz/product-2")

print(f"{EngetoLinkScraper.results=}")        # upravený třídní atribut..
print(f"{product_scraper.results=}")          # ..obsahuje stejné hodnoty..
print(f"{discussion_scraper.results=}")       # ve všech instancích

EngetoLinkScraper.results=[]
EngetoLinkScraper.results=['https://engeto.cz/product-1', 'https://engeto.cz/product-2']
product_scraper.results=['https://engeto.cz/product-1', 'https://engeto.cz/product-2']
discussion_scraper.results=['https://engeto.cz/product-1', 'https://engeto.cz/product-2']


#### Atribut instance

---

Instanční atribut, na druhou stranu, je proměnná, která patří **pouze vytvořené instanci**. Samotná třída k nemá přístup

<br>

##### Vytvoření třídní instance

Nejprve si musíme ukázat jak interpret vytvoří novou **třídní instanci**.

<br>

Pokud nezapíšeme příslušnou metodu (konstruktor), interpret vychází z (na pozadí) **prázdné metody**. Ta nám umožní vytvořit instanci:
```python
class EngetoLinkScraper:
    """Collects links of various types from a main url"""
    host: str = "https://engeto.cz"

courses_scraper = LinkScraper()
```

<br>

Metody, které interpret potřebuje pro **vytvoření nové instance** jsou:
1. `__new__`, *vytvoří* nový objekt (netřeba definovat),
2. `__init__`, *inicializuje* nový objekt.

In [9]:
class EngetoLinkScraper:
    """Collects links of various types from a main url"""
    host: str = "https://engeto.cz"  # třídní atribut
        
    def __init__(self, path: str):   # iniciátor nových instancí
        self.path = path             # instanční atribut

<br>

Zkusíme vytvořit instanci jako doposud:

In [10]:
courses_scraper = EngetoLinkScraper()

TypeError: __init__() missing 1 required positional argument: 'path'

<br>

Z ukázky je vidět, že pro vytvoření instance potřebuji argument `path`, což bude prozatím libovolný `str`:

In [11]:
courses_scraper: EngetoLinkScraper = EngetoLinkScraper("product")

<br>

Takže metoda `__init__` v definici třídy potřebuje parametry `self` a `path`, ale při inicializaci stačí zapsat jen argument pro `path`.

<br>

Co potom představuje *keyword* `self`?

```python
    def __init__(self, path: str):
        self.path = path
```

`self` je v podstatě **pomocný odkaz**, který odkazuje na **budoucí vytvořené instance**, ke kterým přiřazuje instanční **atributy** a **metody**.

<br>

Díky němu můžeš přiřadit proměnné do instance, která ještě **nevznikla**.

<br>

**Použití**:
1. Záměrně se zapisuje jako **první parametr**,
2. vkládám jej jako parametr do každé metody, kde chci **zpřístupnit instanční atributy**.

In [12]:
class EngetoLinkScraper:
    """Collects links of various types from a main url"""
    host: str = "https://engeto.cz"  # třídní atribut
        
    def __init__(self, path: str):
        self.path = path             # instanční atribut
        

print(f"{EngetoLinkScraper.host=}")  # dostanu na něj bez instance

courses_scraper = EngetoLinkScraper("product")
blogs_scraper = EngetoLinkScraper("blog")

print(f"{courses_scraper.host=}")    # třídní atribut
print(f"{courses_scraper.path=}")    # instanční atribut
print(f"{blogs_scraper.path=}")      # třídní atribut
print(f"{blogs_scraper.path=}")      # instanční atribut

EngetoLinkScraper.host='https://engeto.cz'
courses_scraper.host='https://engeto.cz'
courses_scraper.path='product'
blogs_scraper.path='blog'
blogs_scraper.path='blog'


In [None]:
print(f"{EngetoLinkScraper.path=}")        # třída se k instančnímu atributu nedostane

<br>

#### Úloha

---
První úlohou bude napsat scraper objekt, který umí posbírat všechny odkazy.

<br>

Na **zadaném webu** najdi všechny odkazy a vyfiltruj pouze takové, které obsahují určité **klíčové slovo**.

<br>

Příklad:
1. host: `https://junior.guru/jobs/`, keyword: `jobs`,
2. host: `https://engeto.cz`, keyword: `product`
<br>


In [13]:
from urllib.parse import urlparse

import bs4
import requests


class LinkScraperInitializer:
    """Create session and return the bs4.BeautifulSoup object."""

    def send_get_request(self, host: str) -> requests.models.Response:
        return requests.get(host)

    def parse_html(self, response) -> bs4.BeautifulSoup:
        return bs4.BeautifulSoup(response.content, features="html.parser")


class LinkScraper:
    """Collects links of various types from a main url"""

    def __init__(self, soup: bs4.BeautifulSoup):
        self.soup = soup

    def collect_all_links(self) -> set:
        return {
            link.get("href")
            for link in self.soup.find_all("a")
            if "href" in link.attrs
        }


class LinkIterator:
    """Iterate through the given set of link."""

    def __init__(self, keyname: str, links: set):
        self.links = links
        self.keyname = keyname

    def iterate_through_links(self) -> set:
        """
        Iterate through the given set of links. Create 'parser' object
        that break the url up in comments and check the attr. 'path'.
        """
        result = set()
        
        for link in self.links:
            parser = ComponentParser(link, self.keyname)
            result.add(parser.add_verified_link())
        
        return result


class ComponentParser:
    """Break the url strings up in components."""

    def __init__(self, link: str, keyname: str):
        self.link = link
        self.keyname = keyname

    def parse_url(self):
        return urlparse(self.link)
    
    def is_path_correct(self, components) -> bool:
        return self.keyname in components.path
    
    def add_verified_link(self):
        if self.is_path_correct(self.parse_url()):
            return self.link


class Application:
    def run_scraper(self, host: str, keyword: str):
        # initiate the scraper
        runner = LinkScraperInitializer()
        parsed_html = runner.parse_html(runner.send_get_request(host))

        # collect the desirable links
        scraper = LinkScraper(parsed_html)
        links = scraper.collect_all_links()

        # iterate through the links
        iterator = LinkIterator(keyword, links)
        return iterator.iterate_through_links()


if __name__ == "__main__":
    app = Application()
    vals = app.run_scraper("https://Engeto.cz", "product")

In [14]:
from pprint import pprint
pprint(vals)

{None,
 '/product/detail-terminu-objektove-orientovane-programovani-v-pythonu/',
 '/product/detail-terminu-online-datova-akademie-22-11-2021-21-2-2022/',
 '/product/detail-terminu-online-python-akademie-9-11-2021-1-2-2022/',
 '/product/detail-terminu-zaklady-projektoveho-managementu-v-it-23-11-2-12-2021/',
 'https://engeto.cz/product/detail-terminu-zaklady-projektoveho-managementu-v-it-23-11--2-12-2021/'}


---