# Webscraping: HTML Parsing

## Environment setup

In [3]:
from google.colab import drive, files
import json
drive.mount('/mntDrive') 
path = "/mntDrive/My Drive/Colab Notebooks/"

Mounted at /mntDrive


## The HTML story

__HTML__ is a markup language, its basic build blocks are the `<tag>`s.<br>
(Almost) every `<tag>` has two parts:

- Opening `<tag>` 
- Closing `</tag>` 

Important html `<tag>`s:

- `<html>some text</html>`
- `<head>some text</head>`
- `<body>some text</body>`
- `<h1>some text</h1>`, ..., `<h6></h6>`
- `<div>some text</div>`
- `<p>some text</p>`
- `<span>some text</span>`
- `<section>some text</section>`
- `<a href="">some text</a>`
- `<img src="">`
- `<br>`
- ```
<table>
    <thead>
        <tr>
            <th></th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td></td>
            ...
        </tr>
    </tbody>
</table>
 ```
- `<ul></ul>` / `<ol></ol>` + `<li></li>`
    
Tags can have different attributes and values associated with them:
- `<a>`: href
- `<img>`: src

## Let's see an end-to-end example:

`<a href="https://evk.hu/"> This is the website of EVK </a>`
- Tag: `<a>`
- Attribute: `href`
- Attribute value: `"https://evk.hu/"`
- Text: `This is the website of EVK`

<a href="https://evk.hu/"> This is the website of EVK </a>

Most important methods:
- `.find(tag, {attribute_name : attribute_value})`
- `.find_all(tag, {attribute_name : attribute_value})`
- `.get(attribute)`
- `.get_text()`
- `.select()`



## Workflow of HTML based scraping
Websites are rendered HTML codes. 
1. Using Python, we request to receive these lines of codes with the `requests` package. 
2. Inspect thet HTML code to find the tags you need.
3. Parse it with a package called `BeautifulSoup` 
4. Find the adequate structure for data storage.

## Let's get data from [hasznaltauto.hu](https://www.hasznaltauto.hu/)!

- Choose a make and type and search for it. 
- Get the hyperlinks for all cars from the **first page**.



In [41]:
import requests
from bs4 import BeautifulSoup

In [42]:
url = "https://www.hasznaltauto.hu/talalatilista/PDNG2VG3R3NDAEH5C57QCCNXVV4WZNJKKKCVNKWU25UCAQZQXYGLFHLIAHY66HJHFFG3EPDFOSHD2ZZOY4ATSX6JPOIFSLUFQ2EBK6IFHNWMJBVRJSFHAQ4L4YFHLJAWLJEACZT4ODL6GJ7FJOGBQGRIEHOMIZRPM56ZFBTBAO7LBSVFEQZSTREUQHHSDM4UAJVV7DHO5VPBD2O2KOPVKHMYLCOMDW52ZURULVT625JFJYGBDUKBQFK6DTEFHJ3AZC66AWDTR4PM2CJDXWQJ7HOTHOOCHHFBV6EHWOLSSE6IW3KJHWLD3MKBJ5B7AXZ7LSYMOUE3DCJAMV4XZ5NLDN7JTC7QO774H4NR5QKPWL4BW7NDBYMDUITHQFBR2IWZL4VMID2PS2RCFNZNHN5NKXX3WPO7KXNVIKWGHQLLFBKNTQ5L6T64MMEVNBGI7M3EXZOK6FX5SWUC45JYUOMSYGI3TYNMIF7LP4ZKH5LT6NNDKKUOCPYRBDXMYIMLLHLGDJI2GVC4ODGQ4BTXQVVKYAGGYCC2FWAAO5YVPHKX3OOSVGLVOGPOFPEL44UZ457RELCYWLS6RLGYHAZZB4IV3BN66ZP7UHDTMORXGBRWBXUYFXLHMHJFG3JQ4BLYU67CDEN3IN6SVF6D46TPY6PR5KMFBDBUL4TBBLQ2NWOAPKEPHVSVUCR7UHECDGRWQUGH4SIVBQG6QCPLQASMZVTHK2QCI62JPJB5ZLLD5KTEYWNSM53NQYOM6BGDMVJGQQ4OJ3SKSGXC5PXCPQMPO6ELF4NUKF3NI2T24WWIN3UKUE4JFL6A3BAZ3D3O3TWPKH3UVAW3UQNRR67XNBUNR4"

In [43]:
response = requests.get(url)

In [44]:
response.status_code

200

In [45]:
response.content

b'<!DOCTYPE html>\n<html lang="hu-HU">\n<head>\n    <link href="https://www.hasznaltauto.hu/favicon.ico" rel="shortcut icon" type="image/x-icon"; />\n    <link rel="stylesheet" href="https://bmh.jofogas.hu/hza/css-tracking.css" type="text/css" />\n    <meta charset="UTF-8"/>\n\n    <meta name="viewport" content="width=device-width, maximum-scale=1.0, minimum-scale=1.0, initial-scale=1.0, user-scalable=no" />\n    <meta name="format-detection" content="telephone=no">\n    <meta name="google" content="nositelinkssearchbox">\n    <script type="text/javascript" src="//try.abtasty.com/a08ec2f1cebf271595ee53f9ff0855fd.js"></script>\n    <script id="Cookiebot" src="https://consent.cookiebot.com/uc.js" data-cbid="f64b158b-39e4-4449-bb68-d72b6089afc5" type="text/javascript" data-culture="HU" async></script>\n\n        <title>Haszn\xc3\xa1ltaut\xc3\xb3.hu - Elad\xc3\xb3 haszn\xc3\xa1lt \xc3\xa9s \xc3\xbaj aut\xc3\xb3 keres\xc5\x91</title>\n\n    <script type="application/ld+json">{\n    "@contex

In [46]:
soup = BeautifulSoup(response.content, 'html.parser')

In [47]:
car_list = []
car_listing = soup.find("div", {"class" : "list-view"})
for tag in car_listing.find_all("h3"):
  new_car_link = tag.find("a").get("href")
  car_list.append(new_car_link)

In [48]:
car_list

['https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_2_d_super_q4_automata-16383936',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_super_q4_automata_my20_uj_modell_keszletrol-15934741',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_super_q4_automata_my20_uj_modell_keszletrol-15934626',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_2_d_super_q4_automata_executive-navi-xenon-kamera-radar-16410056',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata-16256973',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata_afa-s-16188486',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio-16439923',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata-16006304',
 'https://www.ha

In [None]:
car_links = []
view_list = soup.find("div", {"class": 'list-view'})

In [None]:
for car in view_list.find_all("h3"):
  car_links.append(car
                   .find("a")
                   .get("href")
                   )
car_links

['https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_veloce_q4_automata_afa-s_ar-16037970',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_0_veloce_q4_automata-16407950',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_super_1_6_felujitando_1972-14430282',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_szervizkonyv-csere_lehet-16107397',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super-16447919',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_automata_felbor_navi_xenon_garancia-16257270',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super-16153413',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_automata-16148656',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giu

## Lab: Get articles from [portfolio.hu](https://portfolio.hu)!
- Use the provided link which contains articles about a specific keyword
- Get the hyperlinks to all the articles from the **first page**.

In [28]:
url = "https://www.portfolio.hu/kereses?q=soros&page=2"
response = requests.get(url)

In [29]:
response.status_code

200

In [30]:
soup = BeautifulSoup(response.content)

In [31]:
article_section = soup.find('section', {'class': 'article-lists'})

In [None]:
for article in article_section.find_all("article"):
    print(article
           .find("h3")
           .find("a")
           .get("href")
           )

In [None]:
# Your code goes here

## Let's get back to cars!

- Using the links we collected eariler, we could get some more details as well.
- Iterate over the hyperlinks, get more detils using `pd.read_html`.

In [32]:
import pandas as pd
url = "https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_0_super_automata_facelift_13_ker-15339751"

df_list = pd.read_html(url)

In [36]:
df = df_list[0]
df

Unnamed: 0,"Ár, költségek","Ár, költségek.1"
0,Alaptípus ára:,11 820 000 Ft
1,Extrákkal növelt ár:,12 360 000 Ft
2,Akciós ár:,10 249 000 Ft
3,Akció feltételei:,Egyeztetni szükséges a 20 4...
4,Vételár EUR:,€ 28 375
5,Finanszírozás kalkulátor HIRDETÉS,Finanszírozás kalkulátor HIRDETÉS
6,Általános adatok,Általános adatok
7,Átvehető:,2020.
8,Évjárat:,2020
9,Állapot:,Normál


In [37]:
df.rename(columns={"Ár, költségek": "features", "Ár, költségek.1":"values"}, inplace=True)
df

Unnamed: 0,features,values
0,Alaptípus ára:,11 820 000 Ft
1,Extrákkal növelt ár:,12 360 000 Ft
2,Akciós ár:,10 249 000 Ft
3,Akció feltételei:,Egyeztetni szükséges a 20 4...
4,Vételár EUR:,€ 28 375
5,Finanszírozás kalkulátor HIRDETÉS,Finanszírozás kalkulátor HIRDETÉS
6,Általános adatok,Általános adatok
7,Átvehető:,2020.
8,Évjárat:,2020
9,Állapot:,Normál


In [38]:
df.set_index('features', inplace=True)
df

Unnamed: 0_level_0,values
features,Unnamed: 1_level_1
Alaptípus ára:,11 820 000 Ft
Extrákkal növelt ár:,12 360 000 Ft
Akciós ár:,10 249 000 Ft
Akció feltételei:,Egyeztetni szükséges a 20 4...
Vételár EUR:,€ 28 375
Finanszírozás kalkulátor HIRDETÉS,Finanszírozás kalkulátor HIRDETÉS
Általános adatok,Általános adatok
Átvehető:,2020.
Évjárat:,2020
Állapot:,Normál


In [39]:
df.T

features,Alaptípus ára:,Extrákkal növelt ár:,Akciós ár:,Akció feltételei:,Vételár EUR:,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,Átvehető:,Évjárat:,Állapot:,Kivitel:,Jármű adatok,Kilométeróra állása:,Szállítható szem. száma:,Ajtók száma:,Saját tömeg:,Teljes tömeg:,Csomagtartó:,Klíma fajtája:,Motor adatok,Üzemanyag:,Hengerűrtartalom:,Teljesítmény:,Henger-elrendezés:,Hajtás:,Sebességváltó fajtája:,Okmányok,Okmányok jellege:,Műszaki vizsga érvényes:,Abroncs,Nyári gumi méret:
values,11 820 000 Ft,12 360 000 Ft,10 249 000 Ft,Egyeztetni szükséges a 20 4...,€ 28 375,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2020.0,2020,Normál,Sedan,Jármű adatok,2 km,5 fő,4,1 429 kg,1 929 kg,480 liter,Digitális kétzónás klíma,Motor adatok,Benzin,1 995 cm³,"148 kW, 201 LE",Soros,Hátsó kerék,Automata (8 fokozatú tiptronic),Okmányok,Okmányok nélkül,2024,Abroncs,225/50 R 17


In [49]:
car_list

['https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_2_d_super_q4_automata-16383936',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_super_q4_automata_my20_uj_modell_keszletrol-15934741',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_super_q4_automata_my20_uj_modell_keszletrol-15934626',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_2_d_super_q4_automata_executive-navi-xenon-kamera-radar-16410056',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata-16256973',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata_afa-s-16188486',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio-16439923',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/stelvio/alfa_romeo_stelvio_2_0_t_super_q4_automata-16006304',
 'https://www.ha

In [50]:
dataframes = []
for car_link in car_list:
  df = pd.read_html(car_link)[0]
  df.rename(columns={"Ár, költségek": "features", "Ár, költségek.1":"values"}, inplace=True)
  df.set_index('features', inplace=True)
  dataframes.append(df.T)

In [52]:
final = pd.concat(dataframes)
final.to_csv(path + "cars.csv")

In [53]:
final

Unnamed: 0,Vételár:,Vételár EUR:,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,Évjárat:,Állapot:,Kivitel:,Jármű adatok,Kilométeróra állása:,Szállítható szem. száma:,Ajtók száma:,Szín:,Saját tömeg:,Teljes tömeg:,Csomagtartó:,Klíma fajtája:,Motor adatok,Üzemanyag:,Hengerűrtartalom:,Teljesítmény:,Henger-elrendezés:,Hajtás:,Sebességváltó fajtája:,Okmányok,Okmányok jellege:,Abroncs,Nyári gumi méret:,Alaptípus ára:,Extrákkal növelt ár:,Akciós ár:,Akció feltételei:,Átvehető:,Kárpit színe (1):,Hátsó nyári gumi méret:,Tető:,Műszaki vizsga érvényes:,Téli gumi méret:,Kárpit színe (2):,Finanszírozás,Finanszírozás:,Egyéb költségek:,Fizetendő magyarországi forgalomba helyezés esetén:,Hátsó téli gumi méret:,Alvázszám:,Ellenőrzöm
values,8 490 000 Ft,€ 23 505,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017,Kitűnő,Városi terepjáró (crossover),Jármű adatok,136 400 km,5 fő,5,Piros,1 734 kg,2 330 kg,525 liter,Digitális kétzónás klíma,Motor adatok,Dízel,2 143 cm³,"154 kW, 209 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,235/60 R 18,,,,,,,,,,,,,,,,,,
values,,€ 42 056,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2020,Újszerű,Városi terepjáró (crossover),Jármű adatok,5 km,5 fő,5,Ezüst (metál),1 660 kg,2 300 kg,525 liter,Digitális kétzónás klíma,Motor adatok,Benzin,1 995 cm³,"148 kW, 201 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,235/55 R 19,14 190 000 Ft,18 935 000 Ft,15 990 000 Ft,Érdeklődjön az akció pontos feltételeiről!,2020.0,Barna,235/55 R 19,,,,,,,,,,,
values,,€ 42 056,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2020,Újszerű,Városi terepjáró (crossover),Jármű adatok,5 km,5 fő,5,Szürke (metál),1 660 kg,2 300 kg,525 liter,Digitális kétzónás klíma,Motor adatok,Benzin,1 995 cm³,"148 kW, 201 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,235/55 R 19,14 190 000 Ft,18 935 000 Ft,15 990 000 Ft,Érdeklődjön az akció pontos feltételeiről!,2020.0,Barna,235/55 R 19,,,,,,,,,,,
values,8 999 000 Ft,€ 24 914,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/7,Kitűnő,Városi terepjáró (crossover),Jármű adatok,141 123 km,5 fő,5,Sötétszürke (metál),1 734 kg,2 330 kg,525 liter,Digitális kétzónás klíma,Motor adatok,Dízel,2 143 cm³,"154 kW, 209 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,235/60 R 18,,,,,,Sötétszürke,,Lemeztető,2023/11,,,,,,,,,
values,8 999 000 Ft,€ 24 914,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/6,Kitűnő,Városi terepjáró (crossover),Jármű adatok,95 100 km,5 fő,5,Piros,1 735 kg,2 300 kg,525 liter,Digitális többzónás klíma,Motor adatok,Benzin,1 995 cm³,"206 kW, 280 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,,,,,,,Fekete,,,2022/9,225/45 R 20,,,,,,,,
values,9 699 000 Ft,€ 26 852,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/1,Kitűnő,Városi terepjáró (crossover),Jármű adatok,113 000 km,5 fő,5,Szürke (metál),1 735 kg,2 300 kg,525 liter,Digitális többzónás klíma,Motor adatok,Benzin,1 995 cm³,"206 kW, 280 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,,,,,,,Fekete,,,2022/9,255/45 R 20,,,,,,,,
values,10 390 000 Ft,€ 28 765,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/12,Normál,Terepjáró,Jármű adatok,67 383 km,5 fő,5,Kék,,,,Automata klíma,Motor adatok,Dízel,2 143 cm³,"110 kW, 150 LE",,,Automata,Okmányok,Érvényes magyar okmányokkal,,,,,,,,Fekete,,,,,,,,,,,,
values,10 490 000 Ft,€ 29 042,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2019/2,Normál,Városi terepjáró (crossover),Jármű adatok,15 762 km,5 fő,5,Szürke (metál),1 660 kg,2 300 kg,525 liter,Automata klíma,Motor adatok,Benzin,1 995 cm³,"148 kW, 201 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,,,,,,,,Fekete,,,2023/2,,Szürke,,,,,,,
values,10 890 000 Ft,€ 30 150,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/8,Kitűnő,Városi terepjáró (crossover),Jármű adatok,93 800 km,5 fő,5,Szürke,1 735 kg,2 300 kg,525 liter,Digitális kétzónás klíma,Motor adatok,Benzin,1 995 cm³,"206 kW, 280 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,255/45 R 20,,,,,,Fekete,,Motoros napfénytető,2021/8,255/45 R 19,,,,,,,,
values,10 990 000 Ft,€ 30 426,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/7,Újszerű,Városi terepjáró (crossover),Jármű adatok,54 000 km,5 fő,5,Piros,1 735 kg,2 300 kg,525 liter,Digitális többzónás klíma,Motor adatok,Benzin,1 995 cm³,"206 kW, 280 LE",Soros,Összkerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,Abroncs,235/60 R 18,,,,,,Barna,,,2022/8,,,Finanszírozás,20%-tól elvihető,,,,,
