### Imports-uvoz potrebnih modula za projekt

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd 
from dataclasses import dataclass, asdict

In [2]:
@dataclass
class Car:
    naslov: str
    godiste: int
    kilometri: str
    snagakW: int
    lokacija: str
    cijena_kn: int
    cijena_Eur: int

### HTTP Request-zahtjev

#### spremanje poveznice/linka, unutar varijable 'webstranica'

In [3]:
webstranica = "https://www.index.hr/oglasi/osobni-automobili/gid/27?pojamZup=-2&tipoglasa=1&grad=0&naselje=0&cijenaod=0&cijenado=46394055&num=200&elementsNum=50&sortby=1"

### Get Request
#### Spremanje unutar varijable  'povrat' web stranice uz pomoć zahtjeva .get kroz requests modul

In [4]:
povrat = requests.get(webstranica) 

### Status Code
#### Provjera statusnog koda-važno nam je radi eventualne prilagodbe ako ima problema 
#### sa zahtjevom HTTP tipa 404 ili 500 itd što spada pod error

In [5]:
povrat.status_code

200

### Soup Objekt
#### Kreiranje 'soup' objekta da bi dobili HTML elemente prertodno kreirane varijable 'povrata' ciljane web stranice

In [6]:
soup = BeautifulSoup(povrat.content, 'html.parser')   # za kreiranje objekta tribam dva argumenta, sadržaj povrata i 'html raščlanjivač'

In [7]:
soup

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="1697489853797759" property="fb:app_id"/>
<title>Rabljena vozila na prodaju | Auto-moto oglasnik</title>
<meta content="Rabljena vozila na prodaju | Auto-moto oglasnik" property="og:title"/>
<meta content="https://www.index.hr/oglasi/osobni-automobili/gid/27?pojamZup=-2&amp;tipoglasa=1&amp;grad=0&amp;naselje=0&amp;cijenaod=0&amp;cijenado=46394055&amp;num=200&amp;elementsNum=50&amp;sortby=1" property="og:url"/>
<meta content="Pitate se gdje kupiti auto? Ovo je najveća baza rabljenih automobila u Hrvatskoj! Pretražite oglase, saznajte cijenu i pogledajte slike. – Index Oglasi." name="description"/>
<meta content="www.index.hr/oglasi" property="og:site_name"/>
<link href="https://www.index.hr/oglasi/osobni-automobili/gid/27" rel="canonical"/>
<meta content="https://www.index.hr/oglasi/img/IndexOglasiLogo.jpg" property="og:image"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=3.0, minimum-scale=1.0"

### Rezultat - povrat

In [8]:
rezultat = soup.find_all('div', {'class': 'OglasiRezHolder'})   #  kreiranj varijable radi spremanja rezultata svakog automobila-objekt lista

In [9]:
len(rezultat)  # provjera koliko oglasda imamo unutar liste- imam na umu da unutar 'rezulatat' ima i oglasa

56

In [10]:
rezultat[0]     #  provjera HTML sardžaja 'rezultat' ,  iz liste sa pozicije prve a ona je na '0' 

<div class="OglasiRezHolder">
<a class="result" href="https://www.index.hr/oglasi/nissan-micra-1-5dci/oid/3680114">
<figure class="result_photo" data-x="2">
<img alt="Nissan Micra 1.5dci" src="https://www.index.hr/oglasi/userdocsimages/oglas/_2022//10//8/3680114/16652446339771665244629959166524462739520221008172115-3719641761.jpg?preset=oglas-slika-view"/>
</figure>
<span class="result_body">
<span class="head">
<span class="title px18">
Nissan Micra 1.5dci
<span class="addFavorit icon-heart tooltip_bottom" title="Spremi oglas">
</span>
</span>
<span class="lead" data-fff="bb">Auto u odlicnom stanju.</span>
<ul class="tags hide-on-small-only"><li>
Godište
 : 
2005
</li>
<li>
km
 : 
267.000
</li>
<li>Starost : Rabljeno</li>
<li>
kW
 : 
48
</li>
</ul>
</span>
<span class="foot">
<ul class="info">
<li class="icon-marker">Sisačko-moslavačka</li>
<li class="icon-time">Objava  08.10.2022.</li>
</ul>
<span class="price"><span>2.600 €</span> ~ 19.537 kn</span></span>
</span>
</a>
</div>

In [11]:
cijena_euri = rezultat[0].find('span', {'class':'price'}).span.text  # izdvajanje texta za cijenu u eurima
cijena_euri

'2.600 €'

In [12]:
cijena_kune = rezultat[0].find('span', {'class':'price'}).span.next_sibling   # izdvajanje texta za cijenu u kunama
cijena_kune

' ~ 19.537 kn'

### Izdvajanje/ciljanje - željenih informacija

In [13]:
# Naslov 
# Godište
# Kilometraža
# Snaga
# Lokacija
# Cijena

### Naslov
#### Traženje naslova oglasa unutar rezultata-prvi oglas, pomoću .find i atributa, i čišćenje texta samog uz .get i .strip funkcije

In [14]:
rezultat[0].find('span', {'class':'title px18'}).get_text().strip()

'Nissan Micra 1.5dci'

### Godište
##### Ovdje mi je sve bilo baš izazovno, jer unutar 'ul' (unordered) liste imam 'li' (listu nekoliko stavki), pa svaka stavka je razdvojena ':' delimiterom tako da baš sam se namučio u potrzi riješenja, i evo jedno od koje sam skonato i primjenio-'Godište' ,'Kilometraža', 'Snaga'

In [15]:
#godiste = rezultat[0].find('ul')
#for li in godiste.find_all("li"):
#    print(li.text, end=" ")

In [16]:
lista_ul = rezultat[0].find('ul', {'class':'tags hide-on-small-only'})
lista_li = lista_ul.find_all('li')
for stavka in lista_li:
    stavkaTXT = stavka.get_text()
    #print(stavka)
    if 'Godište' in stavkaTXT:
        godiste = stavkaTXT.split()[-1]
print(godiste)        

2005


### Kilometraža

In [17]:
lista_ul = rezultat[0].find('ul', {'class':'tags hide-on-small-only'})
lista_li = lista_ul.find_all('li')
for stavka in lista_li:
    stavkaTXT = stavka.get_text()
    #print(stavka)
    if 'km' in stavkaTXT:
        kilometri = stavkaTXT.split()[-1]
print(kilometri)        

267.000


### Snaga

In [18]:
lista_ul = rezultat[0].find('ul', {'class':'tags hide-on-small-only'})
lista_li = lista_ul.find_all('li')
for stavka in lista_li:
    stavkaTXT = stavka.get_text()
    #print(stavka)
    if 'kW' in stavkaTXT:
        snagaKW = stavkaTXT.split()[-1]
print(snagaKW) 

48


### Lokacija

In [19]:
rezultat[0].find('li', {'class':'icon-marker'}).get_text()

'Sisačko-moslavačka'

### Cijena

In [20]:
cijena_euri = rezultat[0].find('span', {'class':'price'}).span.text
cijena_euri

'2.600 €'

In [21]:
cijena_kune = rezultat[0].find('span', {'class':'price'}).span.next_sibling
cijena_kune

' ~ 19.537 kn'

### Stavljnje svega unutar For-Loop petlje

In [40]:
# Kreiranje praznih lista svih ciljanih informacija koje ću popunjavati
# 'try' i 'except' blok mi pomaže u slučaju reklama kojih ima na svkoj stranici cca 6 komada

naslov = []
godiste = []
kilometri = []
snagakW = []
lokacija = []
cijena_kn = []
cijena_Eur = []

for oglas in rezultat:
    
    # naslov
    try:
        naslov.append(oglas.find('span', {'class':'title px18'}).get_text().strip())
    except:
        naslov.append('n/a')
        
        
    # godiste
    try:
        lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
        lista_li = lista_ul.find_all('li')
        for stavka in lista_li:
            stavkaTXT = stavka.get_text()
            if 'Godište' in stavkaTXT:
                god = stavkaTXT.split()[-1]
        godiste.append(int(god))       
    except:
        godiste.append('n/a')    
    
    
    # kilometri
    try:
        lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
        lista_li = lista_ul.find_all('li')
        for stavka in lista_li:
            stavkaTXT = stavka.get_text()
            if 'km' in stavkaTXT:
                kilom = stavkaTXT.split()[-1]
        kilometri.append(str(kilom))       
    except:
        kilometri.append('n/a')    
        
    
    # snaga
    try:
        lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
        lista_li = lista_ul.find_all('li')
        for stavka in lista_li:
            stavkaTXT = stavka.get_text()
            if 'kW' in stavkaTXT:
                power = stavkaTXT.split()[-1]
        snagakW.append(int(power))       
    except:
        snagakW.append('n/a')    
        
    
    # lokacija
    try:
        lokacija.append(oglas.find('li', {'class':'icon-marker'}).get_text())
    except:
        lokacija.append('n/a')
        
    
    # cijena Euri
    try:
        cijena_Eur.append(oglas.find('span', {'class':'price'}).span.get_text())
    except:
        cijena_Eur.append('n/a')
    
    # cijena Kune
    try:
        cijena_kn.append(oglas.find('span', {'class':'price'}).span.next_sibling)
    except:
        cijena_kn.append('n/a')

TypeError: int() argument must be a string, a bytes-like object or a number, not 'list'

In [41]:
cijena_kn

['n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a',
 'n/a']

### Kreiranje 'pandas' podatkovnog oblika

In [32]:
index_HR = pd.DataFrame({'Naslov':naslov, 'Godište':godiste, 'Kilometraža':kilometri,'Snaga-kW':snagakW, 
                         'Lokacija':lokacija, 'Cijena-Eur':cijena_Eur, 'Cijena-kn':cijena_kn})

In [33]:
index_HR

Unnamed: 0,Naslov,Godište,Kilometraža,Snaga-kW,Lokacija,Cijena-Eur,Cijena-kn
0,Nissan Micra 1.5dci,2005.0,267.0,48.0,Sisačko-moslavačka,,
1,,,,,,,
2,Peugeot 308 SW 1.6 HDI,2008.0,335.0,80.0,Brodsko-posavska,,
3,Audi A5 Coupe 2.0 Tfsi,2013.0,192.0,80.0,Šibensko-kninska,,
4,BMW serija 3 325i,2005.0,163.5,160.0,Brodsko-posavska,,
5,Honda Prelude 2.0i + LPG,1998.0,293.115,98.0,Splitsko-dalmatinska,,
6,Peugeot 206 HDI,2005.0,130.0,50.0,,,
7,BMW serija 1 120d Coupe,2009.0,240.0,130.0,,,
8,Mercedes-Benz CLK coupe 320 Elegance,1998.0,185.0,160.0,Krapinsko-zagorska,,
9,Mercedes-Benz A-klasa 160 CDI,2005.0,272.0,60.0,Vukovarsko-srijemska,,


#### Data Cleaning

In [34]:
index_HR['Cijena-kn'] = index_HR['Cijena-kn'].apply(lambda x:x.strip(' kn').strip(' ~'))  # uklanjanje simbola koji mi ne triba

In [35]:
index_HR['Cijena-Eur'] = index_HR['Cijena-Eur'].apply(lambda x:x.strip(' €'))

In [36]:
index_HR

Unnamed: 0,Naslov,Godište,Kilometraža,Snaga-kW,Lokacija,Cijena-Eur,Cijena-kn
0,Nissan Micra 1.5dci,2005.0,267.0,48.0,Sisačko-moslavačka,,/a
1,,,,,,,/a
2,Peugeot 308 SW 1.6 HDI,2008.0,335.0,80.0,Brodsko-posavska,,/a
3,Audi A5 Coupe 2.0 Tfsi,2013.0,192.0,80.0,Šibensko-kninska,,/a
4,BMW serija 3 325i,2005.0,163.5,160.0,Brodsko-posavska,,/a
5,Honda Prelude 2.0i + LPG,1998.0,293.115,98.0,Splitsko-dalmatinska,,/a
6,Peugeot 206 HDI,2005.0,130.0,50.0,,,/a
7,BMW serija 1 120d Coupe,2009.0,240.0,130.0,,,/a
8,Mercedes-Benz CLK coupe 320 Elegance,1998.0,185.0,160.0,Krapinsko-zagorska,,/a
9,Mercedes-Benz A-klasa 160 CDI,2005.0,272.0,60.0,Vukovarsko-srijemska,,/a


### Output in Excel

In [37]:
index_HR.to_excel('jedna_str_Index-HR.xlsx', index=False)

### Part 2 - Pagination 

In [43]:
naslov = []
godiste = []
kilometri = []
snagakW = []
lokacija = []
cijena_kn = []
cijena_Eur = []

for i in range(1,11):
    
    # webstranica unutar varijable 'webstranica'
    webstranica = "https://www.index.hr/oglasi/osobni-automobili/gid/27?pojamZup=-2&tipoglasa=1&grad=0&naselje=0&cijenaod=0&cijenado=46394055&num=200&elementsNum=50&sortby= + str(i)"
    
    # zahtjev prema sajtu
    povrat = requests.get(webstranica) 
    
    # soup objekt
    soup = BeautifulSoup(povrat.content, 'html.parser')
    
    # povrat-rezultat
    rezultat = soup.find_all('div', {'class': 'OglasiRezHolder'})
    
    
    for oglas in rezultat:
    
        # naslov
        try:
            naslov.append(oglas.find('span', {'class':'title px18'}).get_text().strip())
        except:
            naslov.append('n/a')


        # godiste
        try:
            lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
            lista_li = lista_ul.find_all('li')
            for stavka in lista_li:
                stavkaTXT = stavka.get_text()
                if 'Godište' in stavkaTXT:
                    god = stavkaTXT.split()[-1]
            godiste.append(int(god))       
        except:
            godiste.append('n/a')    


        # kilometri
        try:
            lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
            lista_li = lista_ul.find_all('li')
            for stavka in lista_li:
                stavkaTXT = stavka.get_text()
                if 'km' in stavkaTXT:
                    kilom = stavkaTXT.split()[-1]
            kilometri.append(str(kilom))       
        except:
            kilometri.append('n/a')    


        # snaga
        try:
            lista_ul = oglas.find('ul', {'class':'tags hide-on-small-only'})
            lista_li = lista_ul.find_all('li')
            for stavka in lista_li:
                stavkaTXT = stavka.get_text()
                if 'kW' in stavkaTXT:
                    power = stavkaTXT.split()[-1]
            snagakW.append(int(power))       
        except:
            snagakW.append('n/a')    


        # lokacija
        try:
            lokacija.append(oglas.find('li', {'class':'icon-marker'}).get_text())
        except:
            lokacija.append('n/a')


        # cijena Euri
        try:
            cijena_Eur.append(oglas.find('span', {'class':'price'}).span.get_text())
        except:
            cijena_Eur.append('n/a')

        # cijena Kune
        try:
            cijena_kn.append(oglas.find('span', {'class':'price'}).span.next_sibling)
        except:
            cijena_kn.append('n/a')

In [44]:
index_HR = pd.DataFrame({'Naslov':naslov, 'Godište':godiste, 'Kilometraža':kilometri,'Snaga-kW':snagakW, 
                         'Lokacija':lokacija, 'Cijena-Eur':cijena_Eur, 'Cijena-kn':cijena_kn})

In [45]:
index_HR

Unnamed: 0,Naslov,Godište,Kilometraža,Snaga-kW,Lokacija,Cijena-Eur,Cijena-kn
0,Fiat 500 1.3 jtd,2008,245.000,55,Splitsko-dalmatinska,7.700 €,~ 58.016 kn
1,,,,,,,
2,Ford Focus Karavan 1.5TDCi Business - top stan...,2018,124.101,88,Zagrebačka,13.450 €,~ 101.066 kn
3,Nissan Micra 1.5dci,2005,267.000,48,Sisačko-moslavačka,2.600 €,~ 19.537 kn
4,Peugeot 308 SW 1.6 HDI,2008,335.000,80,Brodsko-posavska,2.999 €,~ 22.535 kn
...,...,...,...,...,...,...,...
555,Smart fortwo coupe,2000,167.000,40,Grad Zagreb,1.700 €,~ 12.809 kn
556,"BMW serija 4 Coupe 425d Automatik *LED, Kamera...",2018,105.973,155,Grad Zagreb,30.513 €,~ 229.900 kn
557,"BMW serija 2 Gran Tourer 216i *NAVIGACIJA,LED*",2019,118.672,80,Grad Zagreb,18.568 €,~ 139.900 kn
558,"Mercedes-Benz A-klasa 180d AUTOMATIK *LED, KAM...",2019,91.471,85,Grad Zagreb,27.859 €,~ 209.900 kn


### Data clenanig

In [46]:
index_HR['Cijena-kn'] = index_HR['Cijena-kn'].apply(lambda x:x.strip(' kn').strip(' ~'))  # uklanjanje simbola koji mi ne triba
index_HR['Cijena-Eur'] = index_HR['Cijena-Eur'].apply(lambda x:x.strip(' €'))

In [47]:
index_HR

Unnamed: 0,Naslov,Godište,Kilometraža,Snaga-kW,Lokacija,Cijena-Eur,Cijena-kn
0,Fiat 500 1.3 jtd,2008,245.000,55,Splitsko-dalmatinska,7.700,58.016
1,,,,,,,/a
2,Ford Focus Karavan 1.5TDCi Business - top stan...,2018,124.101,88,Zagrebačka,13.450,101.066
3,Nissan Micra 1.5dci,2005,267.000,48,Sisačko-moslavačka,2.600,19.537
4,Peugeot 308 SW 1.6 HDI,2008,335.000,80,Brodsko-posavska,2.999,22.535
...,...,...,...,...,...,...,...
555,Smart fortwo coupe,2000,167.000,40,Grad Zagreb,1.700,12.809
556,"BMW serija 4 Coupe 425d Automatik *LED, Kamera...",2018,105.973,155,Grad Zagreb,30.513,229.900
557,"BMW serija 2 Gran Tourer 216i *NAVIGACIJA,LED*",2019,118.672,80,Grad Zagreb,18.568,139.900
558,"Mercedes-Benz A-klasa 180d AUTOMATIK *LED, KAM...",2019,91.471,85,Grad Zagreb,27.859,209.900


In [48]:
index_HR.to_excel('deste_str_Index-HR.xlsx', index=False)