### Projekt objektově orientovaného programování

---

Finální projekt kurzu Engeto, úvod do OOP.

<br>

Projekt **NENÍ** povinný. Každý, kdo má zájem, si jej může vyzkoušet.

<br>

Pokud budeš chtít zpětnou vazbou (konzultaci s lektorem), odevzdej, prosím, tvůj projekt jako repozitář přes *github* a na Slack pošli lektorovi url tohoto repozitáře.

<br>

Projekt bude mít tyto části:
1. [Sběr dat, OOP,](#Sběr-dat,-OOP)
    - [importing,](#Importování-knihoven)
    - [nový objekt,](#Vytvoření-objektu-pro-naše-data)
    - [parsování vrácených dat,](#Parsování-vrácených-dat)


2. [Analýza dat, pandas,](#Analýza-data,-pandas)
    - [zobraz údaje,](#Zobraz-prvních-N-údajů)
    - [seřaď údaje,](#Seřadit-údaje-podle-sloupce)


3. [Uložení dat, sqlite3,](#Uložení-dat,-sqlite3,)
    - [zápis testovacích hodnot,](#Tvorba-testovací-databáze-(orientace-v-DB))
    - [čtení testovacích hodnot,](#Čtení-hodnot-v-existující-DB)
    - [zápis skutečných hodnot,](#Zápis-hodnot-z-DataFramu-do-nové-tabulky)


4. [Interpretace dat, flask.]()

<br>

#### Sběr dat, OOP

---

Nachystání virtuálního prostředí:
```
$ python -m venv projekt04       # vytvořím virt. prostředí
$ source projekt04/bin/activate  # aktivuji binárku virt. prostředí
```

<br>

Instalace souvisejících knihoven:
```
$ pip --version  # kontrola manažeru
$ pip install -r requirements.txt

Collecting beautifulsoup4==4.10.0
  Using cached beautifulsoup4-4.10.0-py3-none-any.whl (97 kB)
Collecting certifi==2021.10.8
...
```

<br>

V rootovi projektu vytvoř soubor s dokumentací `README.md`:
```
#### Projekt ze čtvrté lekce

---

Tento projekt je zaměřený na zopakování konceptů z kurzu Engeto, úvod do OOP.

<br>

#### Instalace

---

Vytvoř virtuální prostředí a nainstaluj manažerem související knihovny:

<br>

#### Spuštění
Pro správnou inicializaci použij příkaz:

---

<br>

#### Poznámky

---

```

<br>

Vytvoř adresář pro nový balíček:
```
/projekt04
    ├─requirements.txt
    ├─README.md
    └─muj_balicek
       ├─__init__.py
       ├─collector.py
       ├─processor.py
       └─db.py
```

###### Importování knihoven

---

In [141]:
"""
# náhled na údaj
# --------------
example: Dict[str, Union[str, float, int]] = 
{'gps': '{"lat":49.23727,"lng":16.58296}',
 'price': 6499000,
 'currency': 'CZK',
 'key_offer_type': 'prodej',
 'key_estate_type': 'byt',
 'key_disposition': '2-1',
 'surface': 60,
 'surface_land': 0}
"""

import json
from urllib.parse import urljoin
from typing import Dict, List, Union
from geopy.geocoders import Nominatim

import bs4
import requests

<br>

###### Vytvoření objektu pro naše data

---

In [12]:
class BRRealEstateOffer:
    """Create a new object from the given attributes."""
    offer_count: int = 0
    
    def __init__(
        self, id_: int, url: str,
        details: Dict[str, Union[str, int, float]]
    ):
        self.id_ = id_
        self.url = url
        self.details = details

    @classmethod
    def add_offer(cls):
        cls.offer_count += 1
        h
    def __repr__(self) -> str:
        return str(f"{self.url}")

In [13]:
example: Dict[str, Union[str, float, int]] = {
    'id': 695305,
    'url': "https://www.bezrealitky.cz/nemovitosti-byty-domy/695305-nabidka-prodej-bytu-ostruzinova-brno",
    'gps': '{"lat":49.23727,"lng":16.58296}',
    'price': 6499000,
    'currency': 'CZK',
    'key_offer_type': 'prodej',
    'key_estate_type': 'byt',
    'key_disposition': '2-1',
    'surface': 60,
    'surface_land': 0
}

offer_1 = BRRealEstateOffer(
    id_=example.pop('id'),
    url=example.pop('url'),
    details=example,
)

In [14]:
offer_1.__dict__

{'id_': 695305,
 'url': 'https://www.bezrealitky.cz/nemovitosti-byty-domy/695305-nabidka-prodej-bytu-ostruzinova-brno',
 'details': {'gps': '{"lat":49.23727,"lng":16.58296}',
  'price': 6499000,
  'currency': 'CZK',
  'key_offer_type': 'prodej',
  'key_estate_type': 'byt',
  'key_disposition': '2-1',
  'surface': 60,
  'surface_land': 0}}

In [8]:
class ScraperInitiator:
    """Initiate a new object for web-scraping."""
    
    def __init__(self, url: str, params: Dict[str, str]):
        self.url = url
        self.params = params
        
    def send_post_request(self) -> requests.models.Response:
        return requests.post(self.url, params=self.params)
    
    @staticmethod
    def load_json(response: bs4.BeautifulSoup) -> List[Dict[str, str]]:
        """Load the 'json' package and read the content from string."""
        return json.loads(response.text)

In [9]:
scraper_1 = ScraperInitiator(
    "https://www.bezrealitky.cz/api/record/markers",
    {
        'offerType': 'prodej',
        'submit': '1',
        'boundary': '[[[{"lat":52,"lng":12},{"lat":52,"lng":16},{"lat":50,"lng":16},{"lat":50,"lng":12},{"lat":52,"lng":12}]]]'
    }
)

In [10]:
json_file = scraper_1.load_json(
    scraper_1.send_post_request()
)

In [11]:
type(json_file)

list

In [23]:
json_file[0]

{'id': '695563',
 'uri': '695563-nabidka-prodej-bytu-kojeticka',
 'keyAdvertType': 'estate_offer',
 'type': 'maxima',
 'timeOrder': {'date': '2021-12-08 12:40:55.000000',
  'timezone_type': 3,
  'timezone': 'Europe/Berlin'},
 'orderPriority': 0,
 'advertEstateOffer': [{'gps': '{"lat":50.25203579999999,"lng":14.5187024}',
   'price': 2980000,
   'currency': 'CZK',
   'keyOfferType': 'prodej',
   'keyEstateType': 'byt',
   'keyDisposition': '2-kk',
   'surface': 40,
   'surfaceLand': 0,
   'id': '695563'}]}

<br>

###### Parsování vrácených dat

---

In [16]:
class DataParser:
    """Parse the given data and create cleaner, non-nested python object."""
    
    def __init__(self, data: List[Dict[str, str]]):
        self.data = data
        
    def iterate_through_data(
        self,
        url: str = "https://www.bezrealitky.cz/nemovitosti-byty-domy/"
    ):
        results: list = []
        
        for offer in self.data:
            uri, details = self.parse_main_dict(offer)
            results.append(
                self.extend_dict(url=urljoin(url, uri), details=details)
            )
        
        return results
            
        
    def parse_main_dict(self, offer: Dict[str, Union[str, int, float]]) -> tuple:
        """Parse and return attributes id, uri, advertEstateOffer."""
        return offer.get("uri"), offer.get("advertEstateOffer")[0]
            
    def parse_nested_dict(self, details: Dict[str, Union[str, int]]):
        """Parse and return attributes from the given dictionary."""
        return {
            "gps": details.get("gps"),
            "price": details.get("price"),
            "currency": details.get("currency"),
            "key_offer_type": details.get("keyOfferType"),
            "key_estate_type": details.get("keyEstateType"),
            "key_disposition": details.get("keyDisposition"),
            "surface": details.get("surface"),
            "surface_land": details.get("surfaceLand"),
            "surface": details.get("surface"),
        }
    
    def extend_dict(self, **kwargs):
        attributes: Dict[str, str] = {}

        for key, val in kwargs.items():
            if key == "url":
                attributes[key] = val
            else:
                attributes.update(val)
        
        return attributes

In [17]:
parser_1 = DataParser(json_file)

In [18]:
test = parser_1.iterate_through_data()

In [20]:
test[1]

{'url': 'https://www.bezrealitky.cz/nemovitosti-byty-domy/695544-nabidka-prodej-bytu-skolni-cheb',
 'gps': '{"lat":50.07845,"lng":12.37209}',
 'price': 2500000,
 'currency': 'CZK',
 'keyOfferType': 'prodej',
 'keyEstateType': 'byt',
 'keyDisposition': '2-1',
 'surface': 55,
 'surfaceLand': 0,
 'id': '695544'}

<br>

#### Analýza data, pandas

---

<br>

Nahrátí knihovny:

In [21]:
import pandas

br_dataframe: pandas.core.frame.DataFrame = pandas.DataFrame(test)

<br>

###### Zobraz prvních N údajů

---

In [23]:
br_dataframe.head()  # 5 prvni udaju

Unnamed: 0,url,gps,price,currency,keyOfferType,keyEstateType,keyDisposition,surface,surfaceLand,id
0,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.25203579999999,""lng"":14.5187024}",2980000,CZK,prodej,byt,2-kk,40,0,695563
1,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07845,""lng"":12.37209}",2500000,CZK,prodej,byt,2-1,55,0,695544
2,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0485532,""lng"":14.5241392}",19600000,CZK,prodej,dum,5-kk,180,180,695541
3,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0853554,""lng"":14.1300829}",13520000,CZK,prodej,dum,,159,400,695540
4,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.7020975,""lng"":14.0031103}",4098980,CZK,prodej,pozemek,,1244,0,695535


<br>

###### Seřadit údaje podle sloupce

---

In [30]:
br_dataframe.sort_values(by="price", ascending=False)  # select top price

Unnamed: 0,url,gps,price,currency,keyOfferType,keyEstateType,keyDisposition,surface,surfaceLand,id
671,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.1214475,""lng"":12.3610505}",83662800,CZK,prodej,pozemek,,53976,0,685677
438,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.08084003981505,""lng"":14.485899098217...",55000000,CZK,prodej,dum,ostatni,1000,6000,691157
786,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.7554272,""lng"":15.0644769}",49440000,CZK,prodej,kancelar,,1493,1720,678022
243,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07893,""lng"":14.42453}",42900000,CZK,prodej,byt,ostatni,211,0,693124
481,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.1026307,""lng"":14.3846884}",32000000,CZK,prodej,dum,ostatni,264,211,690282
...,...,...,...,...,...,...,...,...,...,...
727,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.2287795,""lng"":14.3575719}",500,CZK,prodej,pozemek,,9044,0,683328
124,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07104,""lng"":14.48376}",1,CZK,prodej,dum,ostatni,220,220,694411
12,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.41872,""lng"":12.9821}",1,CZK,prodej,pozemek,,700,0,695445
136,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0563843,""lng"":14.5144117}",0,CZK,prodej,byt,2-kk,77,0,694301


In [59]:
br_dataframe["formatted_price"] = [f"{x:.2f} mil." for x in br_dataframe['price'] / 1000000]

In [60]:
br_dataframe.head()

Unnamed: 0,url,gps,price,currency,keyOfferType,keyEstateType,keyDisposition,surface,surfaceLand,id,formatted_price,formatted_price[mil]
0,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.25203579999999,""lng"":14.5187024}",2980000,CZK,prodej,byt,2-kk,40,0,695563,2.98 mil.,2.98
1,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07845,""lng"":12.37209}",2500000,CZK,prodej,byt,2-1,55,0,695544,2.50 mil.,2.5
2,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0485532,""lng"":14.5241392}",19600000,CZK,prodej,dum,5-kk,180,180,695541,19.60 mil.,19.6
3,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0853554,""lng"":14.1300829}",13520000,CZK,prodej,dum,,159,400,695540,13.52 mil.,13.52
4,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.7020975,""lng"":14.0031103}",4098980,CZK,prodej,pozemek,,1244,0,695535,4.10 mil.,4.1


<br>

###### Naformátuj mi cenu na čitelnější hodnotu a ulož do nového sloupce

---

In [66]:
br_dataframe.drop("formatted_price[mil]", axis=1, inplace=True)

In [67]:
br_dataframe.sort_values(by="price", ascending=False)  # top cena formatovana

Unnamed: 0,url,gps,price,currency,keyOfferType,keyEstateType,keyDisposition,surface,surfaceLand,id,formatted_price
671,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.1214475,""lng"":12.3610505}",83662800,CZK,prodej,pozemek,,53976,0,685677,83.66 mil.
438,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.08084003981505,""lng"":14.485899098217...",55000000,CZK,prodej,dum,ostatni,1000,6000,691157,55.00 mil.
786,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.7554272,""lng"":15.0644769}",49440000,CZK,prodej,kancelar,,1493,1720,678022,49.44 mil.
243,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07893,""lng"":14.42453}",42900000,CZK,prodej,byt,ostatni,211,0,693124,42.90 mil.
481,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.1026307,""lng"":14.3846884}",32000000,CZK,prodej,dum,ostatni,264,211,690282,32.00 mil.
...,...,...,...,...,...,...,...,...,...,...,...
727,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.2287795,""lng"":14.3575719}",500,CZK,prodej,pozemek,,9044,0,683328,0.00 mil.
124,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.07104,""lng"":14.48376}",1,CZK,prodej,dum,ostatni,220,220,694411,0.00 mil.
12,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.41872,""lng"":12.9821}",1,CZK,prodej,pozemek,,700,0,695445,0.00 mil.
136,https://www.bezrealitky.cz/nemovitosti-byty-do...,"{""lat"":50.0563843,""lng"":14.5144117}",0,CZK,prodej,byt,2-kk,77,0,694301,0.00 mil.



###### Rozšiř délky jednotlivých buněk v DataFramu

---

In [71]:
br_dataframe["keyEstateType"].unique()

array(['byt', 'dum', 'pozemek', 'nebytovy-prostor', 'garaz',
       'rekreacni-objekt', 'kancelar'], dtype=object)

In [79]:
for estate_type in br_dataframe["keyEstateType"].unique():
    print(f"TYPE: {estate_type:<16}; COUNT: {br_dataframe['keyEstateType'].eq(estate_type).sum()}")

TYPE: byt             ; COUNT: 607
TYPE: dum             ; COUNT: 181
TYPE: pozemek         ; COUNT: 106
TYPE: nebytovy-prostor; COUNT: 23
TYPE: garaz           ; COUNT: 20
TYPE: rekreacni-objekt; COUNT: 34
TYPE: kancelar        ; COUNT: 10


In [86]:
estate_type = pandas.Series(br_dataframe["keyEstateType"])

In [90]:
estate_type.unique()

array(['byt', 'dum', 'pozemek', 'nebytovy-prostor', 'garaz',
       'rekreacni-objekt', 'kancelar'], dtype=object)


###### Vypiš mi všechny typy nemovitostí (jako unikátní hodnoty)

---

<br>

Současně mi zjisti, která nemovitost je nejdražší, která nejlevnější.

In [123]:
pandas.set_option('display.max_colwidth', 150)

In [131]:
# br_dataframe["price"].max()
br_dataframe[br_dataframe["price"] == 83662800].gps

671    {"lat":50.1214475,"lng":12.3610505}
Name: gps, dtype: object


###### Vytvoř sloupec, který bude obsahovat skutečnou adresu (podle GPS)

---

<br>

Doplň sloupec do DataFramu, který bude obsahovat celou dostupnou adresu:

In [156]:
def replace_gps(gps: str) -> str:
    """Find the address with the gps coordinates."""
    
    lat, lng = json.loads(gps).values()
    join_coords = ", ".join((str(lat), str(lng)))

    geolocator = Nominatim(
        user_agent="gps_convertor"
    )
        
    return geolocator.reverse(join_coords).address

# address = replace_gps('{"lat":50.25203579999999,"lng":14.5187024}')

br_dataframe["full_address"] = [replace_gps(gps) for gps in br_dataframe["gps"]]

In [157]:
address

'1044, Kojetická, Neratovice, okres Mělník, Střední Čechy, 27711, Česko'

In [158]:
br_dataframe.head()

Unnamed: 0,url,gps,price,currency,keyOfferType,keyEstateType,keyDisposition,surface,surfaceLand,id,formatted_price,full_address
0,https://www.bezrealitky.cz/nemovitosti-byty-domy/695563-nabidka-prodej-bytu-kojeticka,"{""lat"":50.25203579999999,""lng"":14.5187024}",2980000,CZK,prodej,byt,2-kk,40,0,695563,2.98 mil.,"1044, Kojetická, Neratovice, okres Mělník, Střední Čechy, 27711, Česko"
1,https://www.bezrealitky.cz/nemovitosti-byty-domy/695544-nabidka-prodej-bytu-skolni-cheb,"{""lat"":50.07845,""lng"":12.37209}",2500000,CZK,prodej,byt,2-1,55,0,695544,2.50 mil.,"653/17, Školní, Cheb, okres Cheb, Karlovarský kraj, Severozápad, 35002, Česko"
2,https://www.bezrealitky.cz/nemovitosti-byty-domy/695541-nabidka-prodej-domu,"{""lat"":50.0485532,""lng"":14.5241392}",19600000,CZK,prodej,dum,5-kk,180,180,695541,19.60 mil.,"50/15, Chalupnická, Na Košíku, Hostivař, Hlavní město Praha, Praha, 10200, Česko"
3,https://www.bezrealitky.cz/nemovitosti-byty-domy/695540-nabidka-prodej-domu,"{""lat"":50.0853554,""lng"":14.1300829}",13520000,CZK,prodej,dum,,159,400,695540,13.52 mil.,"108, nám. T. G. Masaryka, Unhošť, okres Kladno, Střední Čechy, 27351, Česko"
4,https://www.bezrealitky.cz/nemovitosti-byty-domy/695535-nabidka-prodej-pozemku-usti-nad-labem,"{""lat"":50.7020975,""lng"":14.0031103}",4098980,CZK,prodej,pozemek,,1244,0,695535,4.10 mil.,"Habrovice, Ústí nad Labem, okres Ústí nad Labem, Ústecký kraj, Severozápad, 40340, Česko"


<br>

#### Uložení dat, sqlite3,

---

<br>

###### Tvorba testovací databáze (orientace v DB)

---

In [161]:
import sqlite3

con = sqlite3.connect('testing_db.db')
cur = con.cursor()

# Create table
cur.execute('''CREATE TABLE IF NOT EXISTS example (id INTEGER PRIMARY KEY, name TEXT, email TEXT)''')

# Insert a row of data
cur.execute("INSERT INTO example VALUES (NULL,'Matous','matous@matous.cz')")
cur.execute("INSERT INTO example VALUES (NULL,'Petr','petr@metr.cz')")
cur.execute("INSERT INTO example VALUES (NULL,'Lukas','luki@puky.cz')")

# Save (commit) the changes
con.commit()

# We can also close the connection if we are done with it.
# Just be sure any changes have been committed or they will be lost.
con.close()

In [162]:
!ls -l

total 240
-rw-rw-r-- 1 matous matous 20475 lis 30 18:43 lesson00.ipynb
-rw-rw-r-- 1 matous matous 24891 pro  5 10:58 lesson01.ipynb
-rw-rw-r-- 1 matous matous 41117 pro  6 12:05 lesson02.ipynb
-rw-rw-r-- 1 matous matous 45374 pro  8 11:05 lesson03.ipynb
-rw-rw-r-- 1 matous matous 16214 pro  8 13:29 lesson04.ipynb
-rw-rw-r-- 1 matous matous 16354 pro  8 13:35 lesson04_packs.ipynb
-rw-rw-r-- 1 matous matous 56815 pro  8 15:25 lesson41.ipynb
-rw-r--r-- 1 matous matous  8192 pro  8 15:26 testing_db.db
-rw-rw-r-- 1 matous matous    72 pro  8 13:36 Untitled.ipynb


In [167]:
con = sqlite3.connect('testing_db.sql')
cur = con.cursor()

cur.execute("SELECT * FROM example")
data = cur.fetchall()

for row in data:
    print(row)

con.close()

(1, 'Matous', 'matous@matous.cz')
(2, 'Petr', 'petr@metr.cz')
(3, 'Lukas', 'luki@puky.cz')


###### Čtení hodnot v existující DB

---

In [168]:
with sqlite3.connect('testing_db.sql') as con:
    cur = con.cursor()
    cur.execute("SELECT * FROM example")
    data = cur.fetchall()

    for row in data:
        print(row)

(1, 'Matous', 'matous@matous.cz')
(2, 'Petr', 'petr@metr.cz')
(3, 'Lukas', 'luki@puky.cz')


In [170]:
br_dataframe.rename(columns = {'id':'offer_id'}, inplace = True)

In [179]:
br_dataframe["offer_id"].nunique()

981

###### Zápis hodnot z DataFramu do nové tabulky

---

In [184]:
with sqlite3.connect('br_offers.db') as con:
    cur = con.cursor()
    cur.execute("""
    CREATE TABLE IF NOT EXISTS offers (
    id INTEGER PRIMARY KEY,
    url TEXT,
    gps TEXT,
    price INTEGER,
    currency TEXT,
    keyOfferType TEXT,
    keyEstateType TEXT,
    keyDisposition TEXT,
    surface INTEGER,
    surfaceLand INTEGER,
    offer_id INTEGER,
    formatted_price TEXT,
    full_address TEXT
    )
    """
    )

    con.commit()

    br_dataframe.to_sql(
        'offers', con, if_exists='replace',
        index=True, index_label="id"
    )

---