# Szemantikus web

A [szemantikus web](https://hu.wikipedia.org/wiki/Szemantikus_web) célja, hogy az interneten található információkat egységes, nemzetközileg elfogadott formában strukturálja, így azok nemcsak emberek, hanem gépek számára is könnyen értelmezhetők legyenek.

Vegyünk például egy videót: a szemantikus web lehetővé teszi, hogy a videóhoz tartozó legfontosabb jellemzőket (például a címét, leírását, thumbnailját, készítőjét és megjelenési dátumát) egy szabványos szerkezetbe csomagoljuk. Ezt a struktúrát más videómegosztó oldalak is felhasználhatják arra, hogy saját tartalmaikat hasonló módon leírják, ezáltal a különböző platformokon található információk könnyebben összehasonlíthatóvá és újrafelhasználhatóvá válnak.

A strukturált adatok használatának köszönhetően ugyanazzal a szoftverrel kiolvasható például egy Amazonon található termék és egy eMAG-on található termék leírása is. Ezeket az adatokat keresőmotorok (például a Google) is felhasználják, amikor megjelenítenek egy terméket, egy videót, vagy épp összegyűjtik egy ismert személy nyilvános adatait. Hasonló elven működik a [Discord](https://discord.com) is: amikor valaki beilleszt egy linket a csevegésbe, a program a háttérben kinyeri és megjeleníti a weboldal metaadatait, például a címet, képet és leírást.

<div style="display: flex; flex-direction: row; width: 30%; gap: 1em"><img src="https://i.imgur.com/o7eJgf4.png" /><img src="https://i.imgur.com/D7KqSOw.png" /> <img src="https://i.imgur.com/yVPn9tc.png" /></div>

A szemantikus web egyik legelterjedtebb adatleíró formátuma a `JSON-LD` (JSON for Linking Data), amelyet a weboldalak egy speciális `<script>` tagban helyeznek el. Ennek MIME-típusa `application/ld+json`, és ez tartalmazza azokat az adatokat, amelyeket a keresőmotorok vagy más alkalmazások képesek értelmezni és feldolgozni.

# Példa

Pythonban használhatjuk az eddig már ismert `httpx` csomagot, hogy letöltsünk egy weboldalt, illetve a `beautifulsoup4` csomagot, hogy feldolgozzuk a HTML tartalmakat.

Legelső lépésben telepítsük ezeket a könyvtárakat. Ez a következő paranccsal tehetjük meg, ha nincsenek fent: `python -m pip install --upgrade httpx beautifulsoup4`

Készítünk egy függvényt, amivel letöltjük egy megadott URL szemantikus adatait. Egy oldalon több szemantikus adat is található:

In [None]:
import httpx
from bs4 import BeautifulSoup
import json

def fetch_jsonld_data(url):
	# Töltsük le a weboldal tartalmát
	response = httpx.get(url)
	html_content = response.text

	# Keressük ki a weboldalból a JSON-LD adatokat
	soup = BeautifulSoup(html_content, "html.parser")
	jsonld_scripts = soup.find_all("script", type="application/ld+json")

	# Dekódoljuk a JSON adatokat
	jsonld_data = [json.loads(script.string) for script in jsonld_scripts]

	return jsonld_data

url = 'https://en.wikipedia.org/wiki/Tabby_cat'
jsonld_datas = fetch_jsonld_data(url)

jsonld_datas

Akár a cikk képét is meg tudjuk jeleníteni:

In [None]:
from IPython.display import Image

image_url = jsonld_datas[0]['image']
Image(httpx.get(image_url).content)

## Feladatok

1. Keress [eMAG](https://www.emag.ro/)-on egy terméket, és jelenítsd meg a hozzátartozó metaadatokat (a HTML `<head>` részében keresd)! Érdekeltek vagyunk a termék nevében, leírásában, és ha elérhető, akkor az árában is. **Segítség**: Keresd meg azt a metaadatot a listából, aminek a típusa `Product`. 

2. Használd fel ugyanezt a kódot, hogy egy [eBay](https://www.ebay.com/)-ről származó termék adatait is kiirasd! Itt elégséges csak a termék nevét és árát kiírni. Vigyázat: az eMAG-on RON-ban vannak az árak, eBay-en pedig EUR-ban! Használd a `priceCurrency` nevű adattagot a pénznem kiiratásához!

3. Strukturált adatokat nem csupán JSON-LD formátumban lehet kinyerni. Próbáld kinyerni a következő cikk nevét és leírását a `twitter` prefixel rendelkező metatagokból: https://undertaleyellow.fandom.com/wiki/Clover. Használd a `View page source` gombot, hogy megtekintsd az oldal forráskódját!

4. Látogass el egy tetszőleges film [IMDb](https://www.imdb.com/) oldalára, és keresd meg az alábbi adatokat az oldal HTML kódjában található metatag(ek)ből: (1) a film címe; (2) megjelenés éve; (3) IMDb érékelés; (4) műfaj(ok). Ha nincsenek külön tagek erre, használj egyszerű szövegfeldolgozást a metatag(ek) feldarabolásához.

5. Amikor például megosztasz egy cikket pl. Facebookon, az automatikusan a posztba beilleszti a cikk címét, leírását és képét - ezek az Open Graph (OG) metaadatokból jönnek. Látogass el egy tetszőleges hírportálra (pl. [index.hu](https://index.hu/), [24.hu](https://24.hu), [maszol.ro](https://maszol.ro/), [bbc.co.uk](www.bbc.com) stb.) és keresd ki egy tetszőleges cikk esetén, hogy miket jelenítene meg abban az esetben, ha a cikket megosztanánk egy közösségi oldalon. 

6.  A Wikipédián levő adatok egy SPARQL nevű lekérdezőnyelv segítségével kereshetők. Keresd meg az összes olyan személyt a https://query.wikidata.org/querybuilder oldal segítségével, aki a Marosvásárhelyi Bolyai Farkas Elméleti Líceumban tanult (`educated at`). Másold ki és elemezd a SPARQL lekérdezést.