# Szemantikus Web

A [szemantikus web](https://hu.wikipedia.org/wiki/Szemantikus_web) lényege, hogy az interneten talált információkat nemzetközileg elismert és előre egyeztetett formában strukturálja.

Például, hogyha egy videóról lenne szó, akkor a videó nevét, leírását, thumbnailjét, készítőjének nevét, és kiadási dátumát egy videót leíró struktúrába tudnánk csomagolni a szemantikus web segítségével. Ezt a struktúrát más videómegosztó oldalak is felhasználhatják, hogy a saját videóikat felcímkézzék.

Ugyanazzal a szoftverrel kiolvashatóvá válik így például egy Amazon termék adata és egy eMAG termék adata. Ezeket az információkat felhasználhatják a keresőmotrok is, például mikor megjelenítenek egy terméket, egy videót, vagy amikor megjelenítenek több információt egy keresett személyről, stb. A [Discord](https://discord.com) chat program is felhasználhatja ezeket az adatokat, hogy megjelenítse egy elküldött link metaadatait beágyazott formában.

<div style="display: flex; flex-direction: row; width: 30%; gap: 1em"><img src="https://i.imgur.com/o7eJgf4.png" /><img src="https://i.imgur.com/D7KqSOw.png" /></div>

A szemantikus web egyik reprezentációs nyelve a [JSON-LD (JSON for Linking Data)](https://json-ld.org/). Ezeket az adatokat a weboldalak egy `script` tagban tárolják, aminek a MIME `type`-ja `application/ld+json`.

# Példa

Pythonban használhatjuk a `requests` csomagot, hogy letöltsünk egy weboldalt, illetve a `beautifulsoup4` csomagot, hogy feldolgozzuk a HTML tartalmakat.

Legelső lépésben telepítsük ezeket a könyvtárakat:

In [None]:
!python -m pip install --upgrade requests beautifulsoup4

Készítünk egy függvényt, amivel letöltjük egy megadott URL szemantikus adatait. Egy oldalon több szemantikus adat is található:

In [None]:
import requests
from bs4 import BeautifulSoup
import json

def fetch_jsonld_data(url):
	# Töltsük le a weboldal tartalmát
	response = requests.get(url)
	html_content = response.text

	# Keressük ki a weboldalból a JSON-LD adatokat
	soup = BeautifulSoup(html_content, "html.parser")
	jsonld_scripts = soup.find_all("script", type="application/ld+json")

	# Dekódoljuk a JSON adatokat
	jsonld_data = [json.loads(script.string) for script in jsonld_scripts]

	return jsonld_data

url = 'https://en.wikipedia.org/wiki/Tabby_cat'
jsonld_datas = fetch_jsonld_data(url)

jsonld_datas

Akár a cikk képét is meg tudjuk jeleníteni:

In [None]:
from IPython.display import Image

image_url = jsonld_datas[0]['image']
Image(requests.get(image_url).content)

## Feladatok

1. Keress eMAG-on egy terméket, és jelenítsd meg a hozzátartozó metaadatokat! Érdekeltek vagyunk a termék nevében, leírásában, és ha elérhető, az árában. Segítség: Keresd meg azt a metaadatot a listából, aminek a típusa `Product`. 

2. Használd fel ugyanezt a kódot, hogy egy eBay-ről származó termék adatait is kiirasd! Itt elégséges csak a termék nevét és árát kiírni. Vigyázat: az eMAG-on RON-ban vannak az árak, eBay-en pedig EUR-ban! Használd a `priceCurrency` nevű adattagot a pénznem kiiratásához!

3. Strukturált adatokat nem csupán JSON-LD formátumban lehet kinyerni. Próbáld kinyerni a következő cikk nevét és leírását a `twitter` prefixel rendelkező metatagokból: https://undertaleyellow.fandom.com/wiki/Clover. Használd a `View page source` gombot, hogy megtekintsd az oldal forráskódját!

4.  A Wikipédián levő adatok egy SPARQL nevű lekérdezőnyelv segítségével kereshetők. Keresd meg az összes olyan személyt a https://query.wikidata.org/querybuilder oldal segítségével, aki a Marosvásárhelyi Bolyai Farkas Elméleti Líceumban tanult (`educated at`). Másold ki és elemezd a SPARQL lekérdezést.