# Prikupljanje podataka

## [**Web scraping**](https://realpython.com/beautiful-soup-web-scraper-python/) 

Web scraping je proces (automatiziranog) prikupljanja podataka s interneta. Prilikom web scrapinga bitno se informirati o mogućim [ograničenjima i zabranama](https://benbernardblog.com/web-scraping-and-crawling-are-perfectly-legal-right/). Benoit Bernard navodi neke od ključnih koraka kako bismo se osigurali od kršenja prava i odredbi vezanih uz podatke koje prikupljamo:

1. Koristite API ako je dostupan
2. Poštujte uvjete pružanja usluge (*engl. Terms of Service* )
3. Poštujte [*robots.txt*](https://www.inf.uniri.hr/robots.txt)
4. Koristite razuman *crawl rate* - ne pretjerujte sa slanjem upita 
5. ...



> *"You write your code once, and it will get the information you want many times and from many pages."*

### Istraživanje web sjedišta

Kako bismo efektivno automatizirali proces prikupljanja podataka, potrebno se pobliže upoznati sa samom strukturom web sjedišta. Na ovim vježbama, zadatak nam je preuzeti sve izvedbene programe kolegija na [**Fakultetu informatike i digitalnih tehnologija**](https://www.inf.uniri.hr/). Kroz interakcije s web sjedištem pronađite stranicu na kojoj se nalaze informacije o izvedbenim programima.



#### Analiza URL-a

Pojedini URL-ovi otkrivaju nam korisne informacije o samom web sjedištu, npr. iz URL-a:     

https://www.inf.uniri.hr/nastava/izvedbeni-programi 

moguće je pretpostaviti URL na kojem se nalaze izvedbeni programi prijediplomskog studija:  

https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij. 

Slično, možemo zaključiti da se izvedbeni programi diplomskog studija nalaze na URL-u:      

https://www.inf.uniri.hr/nastava/izvedbeni-programi/diplomski-studij. 

Sa zaključcima ne treba brzati, iako struktura postoji, **najčešće** nije konzistenta.

![](./Images/404_kategorija_nije_pronadena.png)

#### Analiza sjedišta razvojnim alatima (Developer Tools)

Razvojni alati omogućuju nam direktno uređivanje stranica, dijagnosticiranje problema i upoznavanje sa strukturom.

![](./Images/Dev_tools.png)



### Dohvaćanje podataka sa web sjedišta

Pomoću biblioteke [requests](https://www.w3schools.com/python/module_requests.asp) dohvatimo stranicu s izvedbenim programima prijediplomskog studija: https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij

In [5]:
import requests 

URL = "https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij"
page = requests.get(URL)

print(page.text)


<!doctype html>
<html lang="hr-hr" dir="ltr">
    <head>
        <meta charset="utf-8">
        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">
        <link rel="canonical" href="https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij">
        <!-- Google Roboto Font -->
        <link href="https://fonts.googleapis.com/css?family=Roboto:100,300,400,700,900" rel="stylesheet">
        <!-- AOS -->
        <link href="https://unpkg.com/aos@2.3.1/dist/aos.css" rel="stylesheet">
        <base href="https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij" />
	<meta http-equiv="content-type" content="text/html; charset=utf-8" />
	<meta name="keywords" content="Fakultet informatike i digitalnih tehnologija, FIDIT" />
	<meta name="og:title" content="Prijediplomski studij Informatika" />
	<meta name="og:type" content="article" />
	<meta name="og:image" content="https://www.inf.uniri.hr/images/slider/slider11.jpg" />
	<

Ispisivanjem sadržaja `text` atributa objekta `page` vidimo HTML sadržaj identičan onome u *inspector* prozoru razvojnih alata. Odlična vijest za nas, dio web sjedišta koji nas interesira je statičan! Probajmo dohvatiti interesantne informacije, na primjer, sve nazive kolegija te njihove nositelje.

#### Dohvaćanje podataka split + regex

> 1. Dohvaćanje podataka o nazivu kolegija i nositelju pomoću metode `split()`

In [13]:
# Korištenjem metode split

retci_tablice = page.text.split("<tr>")
print(retci_tablice)

for redak in retci_tablice:
    try:
        print(redak.split("<td>")[2].replace("</td>", ""))
        print(redak.split("<td>")[3].replace("</td>", ""))
        print("-"*20)
    except IndexError:
        print("")

['\n<!doctype html>\n<html lang="hr-hr" dir="ltr">\n    <head>\n        <meta charset="utf-8">\n        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\n        <link rel="canonical" href="https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij">\n        <!-- Google Roboto Font -->\n        <link href="https://fonts.googleapis.com/css?family=Roboto:100,300,400,700,900" rel="stylesheet">\n        <!-- AOS -->\n        <link href="https://unpkg.com/aos@2.3.1/dist/aos.css" rel="stylesheet">\n        <base href="https://www.inf.uniri.hr/nastava/izvedbeni-programi/prijediplomski-studij" />\n\t<meta http-equiv="content-type" content="text/html; charset=utf-8" />\n\t<meta name="keywords" content="Fakultet informatike i digitalnih tehnologija, FIDIT" />\n\t<meta name="og:title" content="Prijediplomski studij Informatika" />\n\t<meta name="og:type" content="article" />\n\t<meta name="og:image" content="https://www.inf.uniri.hr/images/sli

> 2. Dohvaćanje linkova metodom `split()`

In [14]:
for redak in retci_tablice:
    try:
        print(redak.split("<td>")[4])
    except IndexError:
        print("")




<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MAT1.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Drugi redak -->

<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OPROG.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Treći redak -->

<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OI.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Četvrti redak -->

<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MMS.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Peti redak -->

<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OEI.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Šesti redak -->

<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_EJzPITS.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>
</tr>
<!-- Sedmi

Kod složenijih primjera `split()` metoda brzo postaje neučinkovita. Dohvatimo linkove pomoću regularnih izraza.

> 3. Dohvaćanje linkova korištenjem biblioteke [re](https://docs.python.org/3/library/re.html); primjer: 

`<a href="/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OPROG.pdf" target="_blank"><i class="fa fa-file-pdf-o"></i></a></td>`



Metode `re.search()`, `re.match()`, `re.fullmatch()`:
- [re.match()](https://docs.python.org/3/library/re.html#re.match) checks for a match only at the beginning of the string
- [re.search()](https://docs.python.org/3/library/re.html#re.search) checks for a match anywhere in the string (this is what Perl does by default)
- [re.fullmatch()](https://docs.python.org/3/library/re.html#re.fullmatch) checks for entire string to be a match

- [re.compile()](https://docs.python.org/3/library/re.html#re.compile) compiles regular expression


In [21]:
import re

# Primjer na jednom stringu
string = "<a href=\"/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OPROG.pdf\" target=\"_blank\"><i class=\"fa fa-file-pdf-o\"></i></a></td>"
regex = re.compile(r"href=\"([\w\/-_\.]*)\"")
                     
print(regex)
print(re.search(regex, string))



re.compile('href=\\"([\\w\\/-_\\.]*)\\"')
<re.Match object; span=(473, 520), match='href="https://unpkg.com/aos@2.3.1/dist/aos.css"'>


In [27]:
# Primjer nad svi retcima tablice
linkovi = []
for redak in retci_tablice:
    try:
        linkovi.append(re.search(regex, redak).group(1))
        print(re.search(regex, redak).group(1))
    except AttributeError:
        print("")

https://unpkg.com/aos@2.3.1/dist/aos.css


/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MAT1.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OPROG.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OI.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MMS.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OEI.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_EJzPITS.pdf


/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MAT2.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_UASP.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OS.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MPOD.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_AOR.pdf
/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OVS.pdf


/images/nastava/izvedbeni/2023_2024/PDS/2/DINP_FIDIT_2023_2024_MAT3.pdf
/images/nastava/izved

In [28]:
print(linkovi)

['https://unpkg.com/aos@2.3.1/dist/aos.css', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MAT1.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OPROG.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OI.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MMS.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OEI.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_EJzPITS.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MAT2.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_UASP.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OS.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_MPOD.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_AOR.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/1/DINP_FIDIT_2023_2024_OVS.pdf', '/images/nastava/izvedbeni/2023_2024/PDS/2/DINP_FIDIT_2023_

#### Dohvaćanje podataka pomoću biblioteke BeautifulSoup

> 4. Dohvaćanje podataka o nazivu kolegija i nositelju pomoću html oznaka

[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)