# Webscraping: HTML Parsing

## Environment setup

In [None]:
from google.colab import drive, files
import json
drive.mount('/mntDrive') 
path = "/mntDrive/My Drive/Colab Notebooks/"

Mounted at /mntDrive


## The HTML story

__HTML__ is a markup language, its basic build blocks are the `<tag>`s.<br>
(Almost) every `<tag>` has two parts:

- Opening `<tag>` 
- Closing `</tag>` 

Important html `<tag>`s:

- `<html>some text</html>`
- `<head>some text</head>`
- `<body>some text</body>`
- `<h1>some text</h1>`, ..., `<h6></h6>`
- `<div>some text</div>`
- `<p>some text</p>`
- `<span>some text</span>`
- `<section>some text</section>`
- `<a href="">some text</a>`
- `<img src="">`
- `<br>`
- ```
<table>
    <thead>
        <tr>
            <th></th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td></td>
            ...
        </tr>
    </tbody>
</table>
 ```
- `<ul></ul>` / `<ol></ol>` + `<li></li>`
    
Tags can have different attributes and values associated with them:
- `<a>`: href
- `<img>`: src

## Let's see an end-to-end example:

`<a href="https://evk.hu/"> This is the website of EVK </a>`
- Tag: `<a>`
- Attribute: `href`
- Attribute value: `"https://evk.hu/"`
- Text: `This is the website of EVK`


<a href="https://evk.hu/"> This is the website of EVK </a>

Most important methods:
- `.find(tag, {attribute_name : attribute_value})`
- `.find_all(tag, {attribute_name : attribute_value})`
- `.get(attribute)`
- `.get_text()`
- `.select()`



## Workflow of HTML based scraping
Websites are rendered HTML codes. 
1. Using Python, we request to receive these lines of codes with the `requests` package. 
2. Inspect thet HTML code to find the tags you need.
3. Parse it with a package called `BeautifulSoup` 
4. Find the adequate structure for data storage.

## Let's get data from [hasznaltauto.hu](https://www.hasznaltauto.hu/)!

- Choose a make and type and search for it. 
- Get the hyperlinks for all cars from the **first page**.



In [1]:
import requests
from bs4 import BeautifulSoup

In [None]:
url = "https://www.hasznaltauto.hu/talalatilista/PDNG2VGLR3NTADH4C57UD3B4WZKY4LIWBVIAIBIK6RVDAMPDFB5DBEDEMPRSB726ZJ3FHWM3SOERTCPESARYGWDOYTOYXPAQTGBIANJZBF5WZMZNMO44Q7EHA32Q3GSAHW2BEGPI5HA73CE7UWVTBIDPUEBN6ZO3QNMIYSK2QY23RUSIDOJSYREWZUM7QSEZWXELA4PF4TPP4FIRV466W42VBM5JIF3QU3U7HCBM567W6IVLYGAT2SWQ2K7TQUCEUWQMTPXAXDTACHPKGMDHUQJ7SXJTWXACLRQOZCFVTS4ETHWFV2RBDS47LCRCSBP75HQYMHP2IYDR623QO7C2EL7WMU7OM366TX7M7BSH6CBQZ7SG27FCH6UBFC4MBMPRQHGE72ODF5DYNAREXOVQM6WTL753HW4PVL5EEXGHQBJVBSTKQQ37D64VMGVFB2YRM7WULPSYR43YFPBW72BHVNTDNR4WQEC6NT74STFWZ7NJK3DFTATOEGM43CCCCKBTZ42KCJVJXDPYMDIM6YDPLNACNAGVOCWZC3CFVXHFMDKX5JKS4RBVZRFYDDRGLDEXIO6IV4LKRBM7VA4DEXHRA3MNVZYZ65COXGU46OIDPODFJSPGGMYNHVDI6T4JSYSNHRRY3JRDCXN6PI7XP36PDDI2BCIO5EIPSP3Z2YX7VIKOPJKLJ4T7TEMCHGR2QUMFNAIV7QSBQONJSATUYNPLK4QGA42NOWD3SKWX6U6RRGOSE63LKOHGPAX6HJV3IJKLM5ZFJJ7Y3PYI7YFXTORGY5NFUWMURDMPTSV2DPNBF5H6I2WQE3U7GMMMTOW75HMORVAZWNH37AFQRX4NJY"

In [None]:
response = requests.get(url)
response.status_code

200

In [None]:
soup = BeautifulSoup(response.content, 'html.parser')

In [None]:
car_links = []
view_list = soup.find("div", {"class": 'list-view'})

In [None]:
for car in view_list.find_all("h3"):
  car_links.append(car
                   .find("a")
                   .get("href")
                   )
car_links

['https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_veloce_q4_automata_afa-s_ar-16037970',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_0_veloce_q4_automata-16407950',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_super_1_6_felujitando_1972-14430282',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_szervizkonyv-csere_lehet-16107397',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super-16447919',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_automata_felbor_navi_xenon_garancia-16257270',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super-16153413',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_2_d_super_automata-16148656',
 'https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giu

## Lab: Get articles from [portfolio.hu](https://portfolio.hu)!
- Use the provided link which contains articles about a specific keyword
- Get the hyperlinks to all the articles from the **first page**.

In [6]:
url = "https://www.portfolio.hu/kereses?q=soros&page=2"
response = requests.get(url)

In [7]:
response.status_code

200

In [8]:
soup = BeautifulSoup(response.content, 'html.parser')

In [9]:
article_section = soup.find('section', {'class': 'article-lists'})
for article in article_section.find_all("article"):
    print(article
           .find("h3")
           .find("a")
           .get("href")
           )

https://www.portfolio.hu/unios-forrasok/20201112/mit-keszul-megvetozni-a-magyar-kormany-es-mi-lenne-ennek-a-kovetkezmenye-457166
https://www.portfolio.hu/uzlet/20201111/meg-durvabban-visszafoghatjak-az-olaj-kitermeleset-457046
https://www.portfolio.hu/unios-forrasok/20201111/visszaszolt-a-nemet-kormanytag-orban-viktor-vetofenyegetesere-456896
https://www.portfolio.hu/gazdasag/20201110/megallapodtak-az-eu-s-szervek-a-kovetkezo-heteves-penzugyi-keretrol-456856
https://www.portfolio.hu/unios-forrasok/20201110/megvan-az-ujabb-nagy-brusszeli-alku-az-eu-s-koltsegvetes-es-a-sajat-forras-novelese-kapott-zold-lampat-456830
https://www.portfolio.hu/unios-forrasok/20201110/ugy-tunik-nem-fog-vetozni-a-magyar-kormany-igy-ketsegesek-a-2021-utani-eu-penzeink-456820
https://www.portfolio.hu/unios-forrasok/20201110/nem-szamol-orban-viktor-koltsegvetesi-vetojaval-az-europai-neppart-frakciovezetoje-456726
https://www.portfolio.hu/gazdasag/20201108/orban-viktor-levelet-kuldott-az-eu-csucsvezetoinek-kesz-m

## Let's get back to cars!

- Using the links we collected eariler, we could get some more details as well.
- Iterate over the hyperlinks, get more detils using `pd.read_html`.

In [None]:
import pandas as pd

df = pd.read_html("https://www.hasznaltauto.hu/szemelyauto/alfa_romeo/giulia/alfa_romeo_giulia_2_0_super_automata_62_000km_mo_-i_vezetett_szervizkonyv-16167867")[0]

In [None]:
df.rename(columns={"Ár, költségek": "features", "Ár, költségek.1":"values"}, inplace=True)
df.set_index('features', inplace=True)
df.T

features,Vételár:,Vételár EUR:,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,Évjárat:,Állapot:,Kivitel:,Finanszírozás,Finanszírozás:,Jármű adatok,Kilométeróra állása:,Szállítható szem. száma:,Ajtók száma:,Szín:,Kárpit színe (1):,Kárpit színe (2):,Saját tömeg:,Teljes tömeg:,Csomagtartó:,Klíma fajtája:,Motor adatok,Üzemanyag:,Hengerűrtartalom:,Teljesítmény:,Henger-elrendezés:,Hajtás:,Sebességváltó fajtája:,Okmányok,Okmányok jellege:,Műszaki vizsga érvényes:,Abroncs,Nyári gumi méret:
values,8 390 000 Ft,€ 23 356,Finanszírozás kalkulátor HIRDETÉS,Általános adatok,2017/10,Megkímélt,Sedan,Finanszírozás,35%-tól elvihető,Jármű adatok,61 926 km,5 fő,4,Fehér,Barna,Fekete,1 504 kg,2 005 kg,480 liter,Digitális kétzónás klíma,Motor adatok,Benzin,1 995 cm³,"147 kW, 200 LE",Soros,Hátsó kerék,Automata (8 fokozatú tiptronic),Okmányok,Érvényes magyar okmányokkal,2021/10,Abroncs,225/45 R 18


In [None]:
dataframes = []
for car_link in car_links:
  df = pd.read_html(car_link)[0]
  df.rename(columns={"Ár, költségek": "features", "Ár, költségek.1":"values"}, inplace=True)
  df.set_index('features', inplace=True)
  dataframes.append(df.T)

In [None]:
final = pd.concat(dataframes)
final.to_csv(path + "cars.csv")