# Importing

`Importing` je način, kako lahko kodo iz ene datoteke/modula/package uporabimo v drugi datoteki/modulu.
* **module** je datoteka, ki ima končnico *.py*
* **package** je direktorij, ki vsebuje vsaj en modul

Da importiramo modul uporabimo besedo `import`.

```python
import moj_modul
```

Python sedaj prvo preveri ali se *moj_modul* nahaja v **sys.modules** - to je dictionary, ki hrani imena vseh importiranih modulov.

Če ne najde imena, bo nadaljeval iskanje v `built-in` modulih. To so moduli, ki pridejo skupaj z inštalacijo Pythona. Najdemo jih lahko v Python Standardni Knjižnjici - https://docs.python.org/3/library/ .

Če ponovno ne najde našega modula, Python nadaljuje iskanje v **sys.path** - to je list direktorijev med katerimi je tudi naša mapa.

Če Python ne najde imena vrže **ModuleNotFoundError**. V primeru, da najde ime, lahko modul sedaj uporabljamo v naši datoteki.

--------

Za začetek bomo importiral **math** built-in modul, ki nam omogoča naprednejše matematične operacije, kot je uporaba korenjenja.

math documentation - https://docs.python.org/3/library/math.html

Da pogledamo katere spremenljivke / funkcije / objekti / itd. so dostopni v naši kodi lahko uporabimo **dir()** funkcijo.

dir documentation - https://docs.python.org/3/library/functions.html#dir

In [None]:
import math

moja_spremenljivka = 5
print(dir())

print(moja_spremenljivka)
print(math)

S pomočjo **dir(...)** lahko tudi preverimo katere spremenljivke, funkcije, itd. se nahajajo v importiranih modulih.

In [None]:
import math

moja_spremenljivka = 5
print(dir(math))

Funkcijo, spremenljivko, atribut v math modulu uporabimo na sledeč način:

In [None]:
import math

print(math.sqrt(36))

<div class="alert alert-block alert-info">
<h1><b>Naloga: </b></h1>
S pomočjo <b>math</b> modula izračunajte logaritem 144 z osnovo 12.
    
https://docs.python.org/3/library/math.html
</div>

In [None]:
# Rešitev


In [None]:
# Rešitev
import math

math.log(144, 12)

# Importing our own module

Ustvarimo novo datoteko **moj_modul.py** zraven naše datoteke s kodo.

<pre>
├── _python_tecaj/
    ├── moj_modul.py
    └── skripta.py

</pre>

### moj_modul.py

In [None]:
class Pes():
    def __init__(self, ime):
        self.ime = ime


def sestevalnik(a, b):
    return a+b


moja_spremenljivka = 100

### skripta.py

In [1]:
import moj_modul

print(dir())

fido = moj_modul.Pes("fido")
print(fido.ime)

print(moj_modul.sestevalnik(5, 6))

print(moj_modul.moja_spremenljivka)

['In', 'Out', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_ih', '_ii', '_iii', '_oh', 'exit', 'get_ipython', 'moj_modul', 'quit']
fido
11
100


# Načini importiranja

Importiramo lahko celotno kodo ali pa samo specifične funkcije, spremenljivke, objekte, itd.

Celotno kodo importiramo na sledeči način:

```python
import moj_modul
```

In [2]:
import moj_modul

print(dir())

fido = moj_modul.Pes("fido")
print(fido.ime)

print(moj_modul.sestevalnik(5, 6))

print(moj_modul.moja_spremenljivka)

['In', 'Out', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'moj_modul', 'quit']
fido
11
100


Specifične zadeve importiramo na sledeč način:

```python
from moj_modul import moja_spremenljivka
```

In [3]:
from moj_modul import moja_spremenljivka

print(dir())
print(moja_spremenljivka)

['In', 'Out', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_i3', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'moj_modul', 'moja_spremenljivka', 'quit']
100


In [4]:
from moj_modul import sestevalnik

print(dir())
print(sestevalnik(5,6))

['In', 'Out', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_i3', '_i4', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'moj_modul', 'moja_spremenljivka', 'quit', 'sestevalnik']
11


In [5]:
from moj_modul import Pes

print(dir())
fido = Pes("fido")
print(fido.ime)

['In', 'Out', 'Pes', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_i3', '_i4', '_i5', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'moj_modul', 'moja_spremenljivka', 'quit', 'sestevalnik']
fido


-------

Importirane zadeve se lahko shrani tudi pod drugim imenom

```python
import moj_modul as mm
```

In [None]:
import moj_modul as mm

print(dir())

fido = mm.Pes("fido")
print(fido.ime)

print(mm.sestevalnik(5, 6))

print(mm.moja_spremenljivka)

In [None]:
from moj_modul import sestevalnik as sum_

print(dir())
print(sum_(5,6))

Za premikanje med direktoriji med importiranjem se uporabja " **.** " .

```python
from package1.module1 import function1
```

<pre>
├── _python_tecaj/
    ├── moj_modul.py
    ├── skripta.py
    └── _moj_package/
        ├── modul2.py

</pre>

### modul2.py

In [None]:
def potenciranje(x, y):
    return x**y

spremenljivka2 = 200

### skripty.py

In [6]:
from moj_package import modul2

print(dir())

print(modul2.potenciranje(2,3))

['In', 'Out', 'Pes', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_i3', '_i4', '_i5', '_i6', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'modul2', 'moj_modul', 'moja_spremenljivka', 'quit', 'sestevalnik']
8


In [7]:
from moj_package.modul2 import potenciranje

print(dir())

print(potenciranje(2,3))

['In', 'Out', 'Pes', '_', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i2', '_i3', '_i4', '_i5', '_i6', '_i7', '_ih', '_ii', '_iii', '_oh', 'exit', 'fido', 'get_ipython', 'modul2', 'moj_modul', 'moja_spremenljivka', 'potenciranje', 'quit', 'sestevalnik']
8


<div class="alert alert-block alert-info">
<h1><b>Naloga: </b></h1>
Ustvarite nov modul imenovan <b>naloga1.py</b>. Znotraj modula napišite funkcijo <b>pretvornik(x, mode)</b>, ki spreminja radiane v stopinje in obratno.
    
Funkcija naj sprejme 2 argumenta. Prvi argument je vrednost, katero želimo pretvoriti. Drugi argument, imenovan <b>mode</b> pa nam pove v katero enoto spreminjamo.
    
    mode = "deg2rad" pomeni, da spreminjamo iz stopinj v radiane
    mode = "rad2deg" pomeni, da spreminjamo iz radianov v stopinje
    
Za pomoč pri pretvarjanju uporabite <b>math</b> modul.
    
Zravn modula prilepite podano skripto <b>test.py</b> in to skripto zaženite.
</div>

In [None]:
# Moja skripta
import naloga1


r1 = naloga1.pretvornik(180, mode="deg2rad")
if float(str(r1)[:4]) == 3.14:
    print("Rešitev pravilna.")
else:
    print("Nekaj je narobe.")

r2 = naloga1.pretvornik(360, mode="deg2rad")
if float(str(r2)[:4]) == 6.28:
    print("Rešitev pravilna.")
else:
    print("Nekaj je narobe.")

r3 = naloga1.pretvornik(1.5707963267948966, mode="rad2deg")
if r3 == 90:
    print("Rešitev pravilna.")
else:
    print("Nekaj je narobe.")

r3 = naloga1.pretvornik(4.71238898038469, mode="rad2deg")
if r3 == 270:
    print("Rešitev pravilna.")
else:
    print("Nekaj je narobe.")

In [None]:
# Rešitev
import math

def pretvornik(x ,mode="deg2rad"):
    if mode == "deg2rad":
        return math.radians(x)
    elif mode == "rad2deg":
        return math.degrees(x)

Importiramo lahko tudi vse naenkrat z uporabo " \* " vendar se to odsvetuje, saj nevem kaj vse smo importirali in lahko na tak način ponesreči kaj spremenimo.

In [28]:
from math import *

print(dir())
print(pi)

pi = 3
print(pi)

['BeautifulSoup', 'In', 'Out', 'Pes', '_', '_19', '__', '___', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '_dh', '_i', '_i1', '_i10', '_i11', '_i12', '_i13', '_i14', '_i15', '_i16', '_i17', '_i18', '_i19', '_i2', '_i20', '_i21', '_i22', '_i23', '_i24', '_i25', '_i26', '_i27', '_i28', '_i3', '_i4', '_i5', '_i6', '_i7', '_i8', '_i9', '_ih', '_ii', '_iii', '_oh', 'a', 'acos', 'acosh', 'asin', 'asinh', 'atan', 'atan2', 'atanh', 'body', 'ceil', 'comb', 'copysign', 'cos', 'cosh', 'dan', 'data', 'datetime', 'degrees', 'dist', 'e', 'erf', 'erfc', 'exit', 'exp', 'expm1', 'fabs', 'factorial', 'fido', 'floor', 'fmod', 'frexp', 'fsum', 'gamma', 'gcd', 'get_ipython', 'href', 'html', 'hypot', 'inf', 'isclose', 'isfinite', 'isinf', 'isnan', 'isqrt', 'ldexp', 'lgamma', 'log', 'log10', 'log1p', 'log2', 'modf', 'modul2', 'moj_modul', 'moja_spremenljivka', 'nan', 'perm', 'pi', 'potenciranje', 'pow', 'prod', 'quit', 'r', 'r2', 'radians', 'rating', 'ratin

### \_\_name\_\_ variable

Python ima posebno spremenljivko \_\_name\_\_. Spremenljivka dobi vrednost, glede na to kako smo zagnali naš modul.

Če zaženemo naš modul direktno, bo spremenljivka enaka \_\_main\_\_.

**moj_modul.py**

In [30]:
def my_name():
    print(__name__)
    
my_name()

__main__


To bi delovalo v primeru, ko smo ustvarili svoj modul in vanj sproti zapisali kakšen preprost test naše kode.

Problem se pojavi, ko moj_modul importiramo, sam se ob importiranju celotna koda v modulu izvede.

In [37]:
import m1

print(__name__)
print(m1.__name__)

__main__
m1


Da preprečimo nepotrebno izvajanje funkcij lahko uporabimo \_\_name\_\_spremenljivko.

Naš modul bi sedaj izgledal sledeče:

**moj_modul.py**

In [38]:
def my_name():
    print(__name__)
    
if __name__ == "__main__":
    my_name()

__main__


In [39]:
import m1

print(__name__)
print(m1.__name__)

__main__
m1


# Web Scraping

Web Scraping je proces pridobivanja informacij z interneta.

S pomočjo web scrapinga lahko napišemo skripto, ki nas opozori, ko se nam približuje slabo vreme. Napišemo lahko skripto, ki nam pridobi vse tweete specifične osebe, pridobi trenutne informacije o stanju na cestah. Napišemo lahko skripto, ki se sprehodi čez članke na wikipediji in izpiše vse stavke, ki vsebujejo iskane besede, ipd.

---

Ponavadi ljudje uporabljamo internet preko **HTTP (HyperText Transfer Protocol)**.
> (v grobem): V browser napišemo spletni naslov katerega želimo obiskati. Browser nato izvede klic za pridobitev te spletne strani. Če spletna stran obstaja je posredovana nazaj v browser in ta nam prikaže spletno stran.

Za uporabo HTTP v pythonu obstaja knjižnjica **requests**.
> Dokumentacija: https://docs.python-requests.org/en/master/

To je 3rd party knjižnjica, kar pomeni, da ne pride avtomatično z inštalacijo pythona. Zato jo moramo sami inštalirati.

Za inštalacijo 3rd party knjižnjic zapišemo ukaz **pip install <knjižnjica>** v terminal:

```
pip install requests
```

Za začetek bomo pridobili podatke o praznikih in dela prostih dneh v Republiki Sloveniji.

Informacije o podatkih lahko najdemo na sledeči spletni strani: https://podatki.gov.si/dataset/seznam-praznikov-in-dela-prostih-dni-v-republiki-sloveniji/resource/eb8b25ea-5c00-4817-a670-26e1023677c6

Dejanske podatke lahko pridobimo na URL: https://podatki.gov.si/dataset/ada88e06-14a2-49c4-8748-3311822e3585/resource/eb8b25ea-5c00-4817-a670-26e1023677c6/download/seznampraznikovindelaprostihdni20002030.csv

Podatki so shranjeni v **csv** formatu.

In [10]:
import requests

url = "https://podatki.gov.si/dataset/ada88e06-14a2-49c4-8748-3311822e3585/resource/eb8b25ea-5c00-4817-a670-26e1023677c6/download/seznampraznikovindelaprostihdni20002030.csv"

r = requests.get(url)
#print(r.encoding)
r.encoding = "utf-8" # treba dodat, ker če ne maš ISO-8859-1 kar pa ne prepozna šumnikov

data = r.text
print(data)

﻿DATUM;IME_PRAZNIKA;DAN_V_TEDNU;DELA_PROST_DAN;DAN;MESEC;LETO
1.01.2000;novo leto;sobota;da;1;1;2000
2.01.2000;novo leto;nedelja;da;2;1;2000
8.02.2000;Prešernov dan, slovenski kulturni praznik;torek;da;8;2;2000
23.04.2000;velika noč;nedelja;da;23;4;2000
24.04.2000;velikonočni ponedeljek;ponedeljek;da;24;4;2000
27.04.2000;dan boja proti okupatorju ;četrtek;da;27;4;2000
1.05.2000;praznik dela;ponedeljek;da;1;5;2000
2.05.2000;praznik dela;torek;da;2;5;2000
11.06.2000;binkoštna nedelja;nedelja;da;11;6;2000
25.06.2000;dan državnosti;nedelja;da;25;6;2000
15.08.2000;Marijino vnebovzetje;torek;da;15;8;2000
31.10.2000;dan reformacije;torek;da;31;10;2000
1.11.2000;dan spomina na mrtve;sreda;da;1;11;2000
25.12.2000;božič;ponedeljek;da;25;12;2000
26.12.2000;dan samostojnosti;torek;da;26;12;2000
1.01.2001;novo leto;ponedeljek;da;1;1;2001
2.01.2001;novo leto;torek;da;2;1;2001
8.02.2001;Prešernov dan, slovenski kulturni praznik;četrtek;da;8;2;2001
15.04.2001;velika noč;nedelja;da;1

Na začetku importiramo knjižnjico **requests**, katero bomo uporabili za komuniciranje z internetom.
> requests dokumentacija: https://docs.python-requests.org/en/master/

Nato v spremenljivko **url** shranimo naslov na katerem se nahajajo naši podatki.

Uporabimo **GET** metodo request knjižnjice. GET metoda ustvari HTTP Request, ki zahteva pridobitev spletne strani, oziroma v našem primeru bomo pridobili CSV podatke. Requests omogoča tudi uporabo ostalih HTTP Requests (POST, PUT, DELETE, HEAD, itd..).

Vse informacije našega request-a so shranjene v spremenljivki **r**. Da dostopamo do dejanski podatkov kličemo **r.text**.

Naša naloga bi sedaj lahko bila, da preverimo koliko praznikov pade na določen dan v tednu, za leto 2021.

In [15]:
rezultat = {}

for vrstica in data.split("\r\n"):
    v_splitted = vrstica.split(";")
    #print(v_splitted)
    if v_splitted[-1] == "2021":
        print(v_splitted)
        dan = v_splitted[2]
        if dan in rezultat.keys():
            rezultat[dan] += 1
        else:
            rezultat[dan] = 1

print("Število praznikov na specifični dan: ")
print(rezultat)

['1.01.2021', 'novo leto', 'petek', 'da', '1', '1', '2021']
['2.01.2021', 'novo leto', 'sobota', 'da', '2', '1', '2021']
['8.02.2021', 'Prešernov dan, slovenski kulturni praznik', 'ponedeljek', 'da', '8', '2', '2021']
['4.04.2021', 'velika noč', 'nedelja', 'da', '4', '4', '2021']
['5.04.2021', 'velikonočni ponedeljek', 'ponedeljek', 'da', '5', '4', '2021']
['27.04.2021', 'dan boja proti okupatorju ', 'torek', 'da', '27', '4', '2021']
['1.05.2021', 'praznik dela', 'sobota', 'da', '1', '5', '2021']
['2.05.2021', 'praznik dela', 'nedelja', 'da', '2', '5', '2021']
['23.05.2021', 'binkoštna nedelja', 'nedelja', 'da', '23', '5', '2021']
['8.06.2021', 'dan Primoža Trubarja', 'torek', 'ne', '8', '6', '2021']
['25.06.2021', 'dan državnosti', 'petek', 'da', '25', '6', '2021']
['15.08.2021', 'Marijino vnebovzetje', 'nedelja', 'da', '15', '8', '2021']
['17.08.2021', 'združitev prekmurskih Slovencev z matičnim narodom', 'torek', 'ne ', '17', '8', '2021']
['15.09.2021', 'vrnitev Primorske k matični 

Veliko spletnih strani ima vzpostavljene API (Application Programming Interface). Preko specifičnih URL-jev lahko tako dostopamo do njihovih urejenih podatkov. 

Formati takšnih podatkov so velikokrat standardni, kot so CSV, XML, JSON, itd...

--------

Za primer bolj naprednega API si poglejmo **coingecko.com**. To je spletna platforma za spremljanje trgovanja s kriptovalutami. Imajo informacije o trenutni ceni, volumnu, market cap, novicah, itd.
> https://www.coingecko.com/en

> https://www.coingecko.com/api/documentations/v3#/

Za primer vzemimo nalogo, kjer moramo poiskati trenutno ceno Bitcoina v €.

> https://api.coingecko.com/api/v3/simple/price?ids=bitcoin&vs_currencies=eur&include_market_cap=false&include_24hr_vol=false&include_24hr_change=false&include_last_updated_at=false

Podatke bomo dobili vrnjene v JSON formatu. JSON format je podoben python dictionary. 

In [None]:
import requests

url = "https://api.coingecko.com/api/v3/simple/price?ids=bitcoin&vs_currencies=eur&include_market_cap=false&include_24hr_vol=false&include_24hr_change=false&include_last_updated_at=false"

r = requests.get(url)
data = r.json()
print("Cena BTC v €: ", data["bitcoin"]["eur"])

V primeru vidimo, da s spreminjanjem URL-ja lahko vplivamo na to katere podatke pridobimo.

URL je v grobem sestavljen iz:
* **Base URL**, ki predstavlja pot do spletne strani. `api.coingecko.com/api/v3/simple/price`
* **Query parameters**, ki predstavljajo parametre katere lahko spreminjamo. Pričnejo se po `?`

Query parameters so sestavljeni iz:
* **imena parametra** - `id`
* **=**, enačaja
* **vrednosti parametra** - `bitcoin`

Med seboj so parametri ločeni z `&`.

<div class="alert alert-block alert-info">
<h1><b>Naloga: </b></h1>
Pridobite <b>daily</b> Bitcoin podatke o <b>ceni in market_cap</b> za do 3 dni nazaj. Podatki naj bodo v €.
    
Podatke lahko najdete v /coins/{id}/market_chart.
</div>

In [42]:
import requests

url = "https://api.coingecko.com/api/v3/coins/bitcoin/market_chart?vs_currency=eur&days=3&interval=daily"

r = requests.get(url)

data = r.json()
print("prices: ", data["prices"])
print("market_caps: ", data["market_caps"])

prices:  [[1618012800000, 48864.797178312525], [1618099200000, 50398.64448369228], [1618185600000, 50399.53568851847], [1618242840000, 50361.59589304225]]
market_caps:  [[1618012800000, 912371538925.4468], [1618099200000, 937922996206.573], [1618185600000, 941523655016.0809], [1618242840000, 943077781647.5049]]


## Web Scraping with Beautiful Soup

Problem se nam pojavi, če spletne strani nimajo API.

Za primer vzemimo nalogo, kjer moramo želimo pridobiti informacije o episodah serije Game of Thrones - No.overall, No. in season, Title, Directed by, Written by, Original air date, U.S. viewers (millions).
> https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes

Spletna stran v naši nalogi je napisana v HTML (HyperText Markup Language). Ta zapis spletne strani je posredovan našemu browserju in ta ga spremeni v nam prijazno obliko (dizajn, itd.). Dejanski HTML zapis lahko vidimo s pomočjo "developers tools" - Ctrl+Shift+I (Chrome).

### HTML Quick Overview

Dodatna vsebina:

https://www.w3schools.com/html/default.asp

HTML je sestavljena iz elementov imenovanih **tags**.

Najbolj osnoven tag je `<html> </html>`. Ta tag nam pove, da je vse znotraj njega HTML koda.

Znotraj `<html>` obstajata dva taga:
* `<head></head>` - vsebuje meta informacije o naši spletni strani 
* `<body></body>` - vsebuje spletno stran katero vidimo v browserju (naslovi, text, slike, itd.)

```html
<html>
    <head>
    </head>
    
    <body>
    </body>
</html>
```

Tage lahko vstavljamo znotraj drugih tagov, kot sta vstavljena `<head>` in `<body>` znotraj `<html>`. Tagi imajo tako lahko **parent tag** - tag znotraj katerega se nahajajo, **child tag** - tag, ki se nahaja znotraj njih, **sibling tag** - tag, ki se poleg njih nahaja znotraj istega parent tag-a.

Za dodajanje teksta se najbolj uporablja `<p> Text </p>` tag.

```html
<html>
    <head>
    </head>
    
    <body>
        <p>Webscraping je proces pridobivanja podatkov iz interneta.</p>
    </body>
</html>
```

---

Tag-i imajo tudi določene lastnosti / atribute katere lahko spreminjamo.

Za primer vzemimo tag `<a></a>`, ki deluje kot hiperpovezava / link na drugo spletno stran.

```html
<a href="google.com">Link</a>
```

Tekst znotraj a tag-a - **Link** - je naš tekst hiperpovezave. Lastnost **href** pa nam pove na katero spletno stran naj naš link preusmeri.

Dodatno lahko spreminjamo lastnosti tag-ov s pomočjo **class** in **id** atributov. Z njimi lahko spreminjamo izgled napih elementov (barva, velikost, ...) oziroma prikazovanje (element lahko skrijemo, naredimo transparentnega, itd.).

Isti **class** si lahko deli več tag-ov, medtem ko **id** naj bi bil specifičen samo za en tag.

```html
<html>
    <head>
    </head>
    
    <body>
        <p id="first_text" class="special_text">Webscraping je proces pridobivanja podatkov iz interneta.</p>
    </body>
</html>
```

Poglejmo si sedaj našo nalogo.

Vidimo lahko, da se podatki nahajao znotraj `<table>` tag-ov, ki imajo **class="wikitable plainrowheaders wikiepisodetable"**.

In [17]:
import requests

url = "https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes"
r = requests.get(url)

print(r.content)

b'<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>List of Game of Thrones episodes - Wikipedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"ea708643-e9c6-42c8-b2fe-a073287bc9b8","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_Game_of_Thrones_episodes","wgTitle":"List of Game of Thrones episodes","wgCurRevisionId":1016064252,"wgRevisionId":1016064252,"wgArticleId":31120069,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use American English from July 2020","All Wikipedia articles written in American English","Use mdy dat

Sedaj bi lahko sami poiskali vse tabele sezon in ročno našli željene podatke. Vendar je to preveč zakomplicirano.

Za lažje navigiranje po HTML kodi obstaja knjižnjica **BeautifulSoup**.

```
pip install beautifulsoup4
```

In [18]:
import requests
from bs4 import BeautifulSoup

url = "https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes"
r = requests.get(url)

soup = BeautifulSoup(r.content, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="en">
 <head>
  <meta charset="utf-8"/>
  <title>
   List of Game of Thrones episodes - Wikipedia
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"ea708643-e9c6-42c8-b2fe-a073287bc9b8","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_Game_of_Thrones_episodes","wgTitle":"List of Game of Thrones episodes","wgCurRevisionId":1016064252,"wgRevisionId":1016064252,"wgArticleId":31120069,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use American English from July 2020","All Wikipedia articles written in American English","

Za začetek lahko izberemo vse **child tags** naše spletne strani, kar nam bo vrnilo osnovno strukturo `<!DOCTYPE html>` in `<html>` tags.

In [19]:
list(soup.children)

['html',
 '\n',
 <html class="client-nojs" dir="ltr" lang="en">
 <head>
 <meta charset="utf-8"/>
 <title>List of Game of Thrones episodes - Wikipedia</title>
 <script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"ea708643-e9c6-42c8-b2fe-a073287bc9b8","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_Game_of_Thrones_episodes","wgTitle":"List of Game of Thrones episodes","wgCurRevisionId":1016064252,"wgRevisionId":1016064252,"wgArticleId":31120069,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use American English from July 2020","All Wikipedia articles written in American English","Use mdy dates

Izberimo zadnji element, ki predstavlja našo **html** kodo.

Če preverimo njegov tip vidimo, da je to `bs4.element.Tag` - to je beautiful soup objekt, ki predstavlja naš tag.

In [20]:
html = list(soup.children)[2]
print(type(html))
print(html)

<class 'bs4.element.Tag'>
<html class="client-nojs" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of Game of Thrones episodes - Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","January","February","March","April","May","June","July","August","September","October","November","December"],"wgRequestId":"ea708643-e9c6-42c8-b2fe-a073287bc9b8","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"List_of_Game_of_Thrones_episodes","wgTitle":"List of Game of Thrones episodes","wgCurRevisionId":1016064252,"wgRevisionId":1016064252,"wgArticleId":31120069,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Use American English from July 2020","All Wikipedia articles written in American English","Use mdy 

Da vidimo ime našega tag-a lahko uporabimo `tag.name`. Da vidimo njegove atribute lahko uporabimo `tag.attrs`

In [21]:
print(html.name)
print(html.attrs)

html
{'class': ['client-nojs'], 'lang': 'en', 'dir': 'ltr'}


In [22]:
body = list(html.children)[3]
print(body.name)
print(body.attrs)

body
{'class': ['mediawiki', 'ltr', 'sitedir-ltr', 'mw-hide-empty-elt', 'ns-0', 'ns-subject', 'mw-editable', 'page-List_of_Game_of_Thrones_episodes', 'rootpage-List_of_Game_of_Thrones_episodes', 'skin-vector', 'action-view', 'skin-vector-legacy']}


Če želimo najti specifičen tag lahko uporabimo `.find()` metodo. V njej lahko specificiramo ime tag-a katerega iščemo, z `class_` parametrov lahko specificiramo katere **class** vrednosti ima in z `id_` parametrom lahko specificiramo njegov **id** vrednost.

In [24]:
table = body.find("table", class_="wikitable plainrowheaders wikiepisodetable")
print(type(table))
print(table)

<class 'bs4.element.Tag'>
<table class="wikitable plainrowheaders wikiepisodetable" style="width:100%"><tbody><tr style="color:white;text-align:center"><th scope="col" style="background:#295354;width:5%"><abbr title="Number">No.</abbr><br/>overall</th><th scope="col" style="background:#295354;width:5%"><abbr title="Number">No.</abbr> in<br/>season</th><th scope="col" style="background:#295354;width:23%">Title</th><th scope="col" style="background:#295354;width:17%">Directed by</th><th scope="col" style="background:#295354;width:27%">Written by</th><th scope="col" style="background:#295354;width:12%">Original air date <span style="background-color:white;padding:1px;display:inline-block;line-height:50%"><sup class="reference" id="cite_ref-Futon_20-0"><a href="#cite_note-Futon-20">[20]</a></sup></span></th><th scope="col" style="background:#295354;width:10%">U.S. viewers<br/>(millions)</th></tr><tr class="vevent" style="text-align:center;background:inherit"><th id="ep1" rowspan="1" scope=

Da najdemo več kot en tag lahko uporabimo metodo `find_all()`.

In [25]:
tables = soup.find_all("table", class_="wikitable plainrowheaders wikiepisodetable")
print("Našli smo ",len(tables), "tabel.")
print(tables)

Našli smo  9 tabel.
[<table class="wikitable plainrowheaders wikiepisodetable" style="width:100%"><tbody><tr style="color:white;text-align:center"><th scope="col" style="background:#295354;width:5%"><abbr title="Number">No.</abbr><br/>overall</th><th scope="col" style="background:#295354;width:5%"><abbr title="Number">No.</abbr> in<br/>season</th><th scope="col" style="background:#295354;width:23%">Title</th><th scope="col" style="background:#295354;width:17%">Directed by</th><th scope="col" style="background:#295354;width:27%">Written by</th><th scope="col" style="background:#295354;width:12%">Original air date <span style="background-color:white;padding:1px;display:inline-block;line-height:50%"><sup class="reference" id="cite_ref-Futon_20-0"><a href="#cite_note-Futon-20">[20]</a></sup></span></th><th scope="col" style="background:#295354;width:10%">U.S. viewers<br/>(millions)</th></tr><tr class="vevent" style="text-align:center;background:inherit"><th id="ep1" rowspan="1" scope="row"

In [26]:
for table in tables[:]:
    #print(table)
    rows = table.find_all("tr", class_="vevent")
    #print(rows)
    for row in rows[:]:
        #print(row)
        tds = row.find_all("td")
        for td in tds[:]:
            print(td.text)
            
        print()
    print()

1
"Winter Is Coming"
Tim Van Patten
David Benioff & D. B. Weiss
April 17, 2011 (2011-04-17)
2.22[21]

2
"The Kingsroad"
Tim Van Patten
David Benioff & D. B. Weiss
April 24, 2011 (2011-04-24)
2.20[22]

3
"Lord Snow"
Brian Kirk
David Benioff & D. B. Weiss
May 1, 2011 (2011-05-01)
2.44[23]

4
"Cripples, Bastards, and Broken Things"
Brian Kirk
Bryan Cogman
May 8, 2011 (2011-05-08)
2.45[24]

5
"The Wolf and the Lion"
Brian Kirk
David Benioff & D. B. Weiss
May 15, 2011 (2011-05-15)
2.58[25]

6
"A Golden Crown"
Daniel Minahan
Story by : David Benioff & D. B. WeissTeleplay by : Jane Espenson and David Benioff & D. B. Weiss
May 22, 2011 (2011-05-22)
2.44[26]

7
"You Win or You Die"
Daniel Minahan
David Benioff & D. B. Weiss
May 29, 2011 (2011-05-29)
2.40[27]

8
"The Pointy End"
Daniel Minahan
George R. R. Martin
June 5, 2011 (2011-06-05)
2.72[28]

9
"Baelor"
Alan Taylor
David Benioff & D. B. Weiss
June 12, 2011 (2011-06-12)
2.66[29]

10
"Fire and Blood"
Alan Taylor
David Benioff & D. B. Weiss
J

<div class="alert alert-block alert-info">
<h1><b>Naloga: </b></h1>
S pomočjo webscrapinga preverite ali bi se lahko z bicikelj odpeljali domov.

Vaša začetna postaja je TRG MDB

Vaša končna postaja je STARA CERKEV.
    
Preverite ali je na začetni postaji vsaj 1 prosto kolo in ali je na končni postaji vsaj 1 prosto parkirno mesto.

Podatke lahko dobite na sledečem linku v JSON formatu. Podatki o prostih mestih in kolesih se nahaja v "station" delu.
    
    free nam pove koliko prostih mest je na postaji.
    available nam pove koliko koles je prostih za izposojo.
    
https://opendata.si/promet/bicikelj/list/  
</div>

In [45]:
# Rešitev:

import requests
from bs4 import BeautifulSoup

url = "https://opendata.si/promet/bicikelj/list/"

r = requests.get(url)

data = r.json()


free_bike = False
free_park = False
for key, station in data["markers"].items():
    
    if station["address"] == "TRG MDB":
        #print(station)
        if int(station["station"]["available"]) > 0:
            free_bike = True
        
    if station["address"] == "STARA CERKEV":
        #print(station)
        if int(station["station"]["free"]) > 0:
            free_park = True
            
    if free_bike and free_park:
        print("Lahko greš z Bicikelj")
        break

Lahko greš z Bicikelj
