# Adatbányászat - Web scraping

Adatok és információk weboldalakról kinyerésével foglalkozik.

### Szükséges könyvtárak telepítése, importálása

In [1]:
#%pip install bs4
#%pip install requests

In [2]:
from bs4 import BeautifulSoup
import requests as re
import time

## 1. Mintafeladat

https://www.scrapethissite.com/pages/simple/ weboldalról gyűjtsük ki az adatokat.

<b>Megoldáshoz vezető lépések:</b>
1. weboldal felmérése
2. kérdés(ek) megfogalmazása
3. adatgyűjtés
4. küzdelem a begyűjtött adatokkal
5. kérdés(ek) megválaszolása
6. megoldás bemutatása mások számára is érthető módon

### Weboldal elérése

In [3]:
url = "https://www.scrapethissite.com/pages/simple/"

response = re.get(url)
print(response)

<Response [200]>


## <code>print()</code> limitálása

Az adatbányászat témakörnél előfordul, hogy egy egyszerű <code>print()</code> utasítás kimenete terjedelmes és rontja a jegyzet olvashatóságát. Az alábbi függvény segítségével limitáljuk a kimenetet. Általában 1000 karakterből el tudjuk dönteni a kimenet helyességét, de szükség esetén könnyen növelhető, csökkenthető.

<code>obj</code> - mit szeretnénk kiíratni?

<code>length</code> - hány karakternyit szeretnék kiíratni?

In [4]:
def printLimited(obj, length):
    print(str(obj)[:length])

### Weboldal tartalmának kinyerése

In [5]:
soup = BeautifulSoup(response.text, "html.parser")

printLimited(soup, 1000)

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Countries of the World: A Simple Example | Scrape This Site | A public sandbox for learning web scraping</title>
<link href="/static/images/scraper-icon.png" rel="icon" type="image/png"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="A single page that lists information about all the countries in the world. Good for those just get started with web scraping." name="description"/>
<link crossorigin="anonymous" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.5/css/bootstrap.min.css" integrity="sha256-MfvZlkHCEqatNoGiOXveE8FIwMzZg4W85qfrfIFBfYc= sha512-dTfge/zgoMYpP7QbHy4gWMEGsbsdZeCXz7irItjcC3sPUFtf0kuFbDz/ixG7ArTxmDjLXDmezHubeNikyKGVyQ==" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Lato:400,700" rel="stylesheet" type="text/css"/>
<link href="/static/css/styles.css" rel="stylesheet" type="text/css"/>
<meta content="noindex" name="robots"/>
<link h

### Cím kiíratása - <code>title</code>

In [6]:
print(soup.title)
print(soup.title.string)

<title>Countries of the World: A Simple Example | Scrape This Site | A public sandbox for learning web scraping</title>
Countries of the World: A Simple Example | Scrape This Site | A public sandbox for learning web scraping


### Ország(ok) nevei - <code>find</code> és <code>find_all</code>

In [7]:
#h3
countries = soup.find()

printLimited(countries, 500)

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Countries of the World: A Simple Example | Scrape This Site | A public sandbox for learning web scraping</title>
<link href="/static/images/scraper-icon.png" rel="icon" type="image/png"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="A single page that lists information about all the countries in the world. Good for those just get started with web scraping." name="description"/>
<link crossorigin="ano


### Ország(ok) adatai

Milyen tag tartalmazza a kívánt adatot? Van azonosítója?

In [8]:
print(soup.find("span", class_="country-capital").text)

Andorra la Vella


### Leg... országok

- Mennyi a legnagyobb ország népessége?
- Milyen lenne az "átlagos" ország?
- Hány ország adatait gyűjtöttük ki?

In [9]:
population = soup.find_all("span", class_="country-population")

population_numbers = []

for item in population:
    population_numbers.append(int(item.text))

## 2. Kiválasztott weboldal elérése

200-as kód sikeres lekérést jelöl

In [10]:
url = "https://hu.wikipedia.org/wiki/Kateg%C3%B3ria:N%C3%B6v%C3%A9nycsal%C3%A1dok"

response = re.get(url)
print(response.status_code)

if response.status_code == 200:
    print("Siker!")

200
Siker!


## BeautifulSoup könyvtár alapok

Weboldal struktúrájának kinyerése

In [11]:
soup = BeautifulSoup(response.text, "html.parser")

### Feladat - ellenőrizd le a <code>soup</code> változó tartalmát!

In [12]:
printLimited(soup, 500)

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs


A kiíratást meg lehet csinálni szebben is a <code>prettify()</code> paranccsal, viszont az eredménye a <code>printLimited()<code> függvény miatt nem fog látszódni.

In [13]:
printLimited(soup.prettify(), 500)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-


### Bizonyos HTML tag keresése

<code>prettify()</code> itt is működik

In [14]:
articles = soup.find("div")
printLimited(articles, 500)

<div class="vector-header-container">
<header class="vector-header mw-header">
<div class="vector-header-start">
<nav aria-label="Wiki" class="vector-main-menu-landmark" role="navigation">
<div class="vector-dropdown vector-main-menu-dropdown vector-button-flush-left vector-button-flush-right" id="vector-main-menu-dropdown">
<input aria-haspopup="true" aria-label="Főmenü" class="vector-dropdown-checkbox" data-event-name="ui.dropdown-vector-main-menu-dropdown" id="vector-main-menu-dropdown-checkb


A választott weboldalon jobb kattintás után <code>Vizsgálat</code> (<code>Inspect</code>) funkció sok hasznos információt árul el a weboldal felépítéséről.

<img src="web_scraping_1.png">

In [15]:
#mw-category mw-category-columns

articles = soup.find("div", class_="mw-category mw-category-columns")
printLimited(articles, 500)

<div class="mw-category mw-category-columns"><div class="mw-category-group"><h3> </h3>
<ul><li><a href="/wiki/N%C3%B6v%C3%A9nycsal%C3%A1dok_list%C3%A1ja" title="Növénycsaládok listája">Növénycsaládok listája</a></li></ul></div><div class="mw-category-group"><h3>A</h3>
<ul><li><a href="/wiki/Alk%C3%B6rm%C3%B6sf%C3%A9l%C3%A9k" title="Alkörmösfélék">Alkörmösfélék</a></li>
<li><a href="/wiki/%C3%81ltiszafaf%C3%A9l%C3%A9k" title="Áltiszafafélék">Áltiszafafélék</a></li>
<li><a href="/wiki/Amarilliszf%


In [16]:
links = []
for link in articles.find_all('a'):
    links.append("https://hu.wikipedia.org"+link.get('href'))

for item in links:
    print(item)

https://hu.wikipedia.org/wiki/N%C3%B6v%C3%A9nycsal%C3%A1dok_list%C3%A1ja
https://hu.wikipedia.org/wiki/Alk%C3%B6rm%C3%B6sf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/%C3%81ltiszafaf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Amarilliszf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Anacampserotaceae
https://hu.wikipedia.org/wiki/Ann%C3%B3naf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Apodanthaceae
https://hu.wikipedia.org/wiki/Ar%C3%A1liaf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Arauk%C3%A1riaf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/%C3%81rvacsal%C3%A1nf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Bab%C3%A9rf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/B%C3%A1lv%C3%A1nyfaf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Ban%C3%A1nf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Barkamirtuszf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/Beg%C3%B3niaf%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/B%C3%A9kasz%C5%91l%C5%91f%C3%A9l%C3%A9k
https://hu.wikipedia.org/wiki/B%C3%A9katutajf%C3%A9l

## Egy weblap adatainak kigyűjtése

<img src="web_scraping_2.png">

In [17]:
#mw-content-text > div.mw-content-ltr.mw-parser-output > p:nth-of-type(2)
#firstHeading > span.mw-page-title-main

url = "https://hu.wikipedia.org/wiki/Z%C3%A1szpaf%C3%A9l%C3%A9k"
response = re.get(url)
soup = BeautifulSoup(response.text, "html.parser")

x = soup.select("#mw-content-text > div.mw-content-ltr.mw-parser-output > p:nth-of-type(2)")
title = soup.select("#firstHeading > span.mw-page-title-main")
print(title[0].text)
print(x[0].text)

Zászpafélék
Gyöktörzses vagy hagymás évelő növények. A legtöbb faj rizómás és leveles szárú. Virágaik végállóak, sugarasan szimmetrikusak, lepelleveleik pedig szabadok. Termésük egységesen toktermés. Sok génusz levelei örvösen állnak, tenyeresen erezettek, kivéve éppen a névadó zászpa (Veratrum) nemzetséget. Fontos jellegzetességük, hogy a csucsorokhoz hasonlóan erősen mérgező és rákkeltő szteroid alkaloidokat tartalmaznak. Amikor a történelmi Magyarország hegyvidékein a tárnics (Gentiana) gyökerét gyűjtötték szeszfőzéshez, gyakran összetévesztették a zászpával, és ez súlyos mérgezésekhez vezetett.



## Összes weblap adatainak kigyűjtése fájlba

In [18]:
f = open("data_plant.csv", "a", encoding = "utf-8")

for item in range(0,len(links)):    
    response = re.get(links[item])
    soup = BeautifulSoup(response.text, "html.parser")
    title = soup.select("#firstHeading > span.mw-page-title-main")[0].text
    description = soup.find("div", {"class": "mw-content-ltr mw-parser-output"}).find_all("p")[2].text
      
    f.write(str(title) + ',' + str(description))    
    print("|", end="")
    time.sleep(1)

f.close()

|

|

|

|

|

|

|

|

|

|

|

|

|

|

KeyboardInterrupt: 

## Adatok alapján új HTML fájl generálása

In [20]:
data = []

for item in range(0,len(links)):    
    response = re.get(links[item])
    soup = BeautifulSoup(response.text, "html.parser")
    title = soup.select("#firstHeading > span.mw-page-title-main")[0].text
    description = soup.find("div", {"class": "mw-content-ltr mw-parser-output"}).find_all("p")[2].text
    #print(str(item) + ". weboldal feldolgozva:")    
    data.append([title, description])
    if item%50 != 0:
        print("|", end="")
    else:
        print("\n")
        print("|", end="")
    time.sleep(1)

print("\n" + str(data[5]))



||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||
['Annónafélék', 'Az annónafélék (Annonaceae) a liliomfa-virágúak (Magnoliales) rendjének egyik családja, bár egyes szerzők külön rendet, az annónavirágúakét (Annonales) alkotnák meg nekik.\n']


In [21]:
print(data)

[['Növénycsaládok listája', 'A táblázatokban alfabetikus sorrendben latin név szerint vannak felsorolva a családok.\n'], ['Alkörmösfélék', 'Az alkörmösfélék (Phytolaccaceae) a szegfűvirágúak (Caryophyllales) rendjének egyik családja. 16 nemzetségébe mintegy 120 faj tartozik.\n'], ['Áltiszafafélék', 'Az áltiszafafélék és a tiszafák hasonlóságát régebben konvergens sajátosságoknak hitték, és ez ki is fejeződött a rendszerekben. Soó Rezső az áltiszafaféléket a valódi tűlevelűek rendjébe (Coniferales) helyezi, a ciprusfélék (Cupressaceae) és az araukáriafélék (Araucariaceae) közé, míg a tiszafáknak külön rendet nyit. Hortobágyi Tibor már külön osztályt nyit a tiszafáknak (Taxopsida), az áltiszafák viszont a tűlevelűek osztályában maradnak (Coniferopsida). A legújabb genetikai, sejttani, kemotaxonómiai vizsgálatok azonban egyértelműen tanúsítják, hogy az áltiszafák a tiszafák testvércsoportja, és a hasonló sajátosságok (törzsszerkezet, levelek egy síkban helyezkednek el az ágvégeken, egy ma

In [22]:
with open("index.html", "w", encoding = "utf-8") as f:
    f.write("<!DOCTYPE html>\n")
    f.write("<html>\n")
    f.write("<head>\n")
    f.write("<title>Title and Description</title>\n")
    f.write("</head>\n")
    f.write("<body>\n")

    for title, description in data:
        f.write(f"<h1>{title}</h1>\n")        
        f.write(f"<p>{description}</p>\n")
        f.write("<hr>\n") 
            
    f.write("</body>\n")
    f.write("</html>\n")

A ()-ben található részeket emeljük ki.

In [23]:
description = description.replace("(", "<i>(")
description = description.replace(")", ")</i>")

# 3. Marvel karakterek

In [24]:
url = "https://en.wikipedia.org/wiki/List_of_Ultimate_Marvel_characters"

response = re.get(url)
print(response.status_code)

if response.status_code == 200:
    print("Siker!")

soup = BeautifulSoup(response.text, "html.parser")

200
Siker!


In [25]:
printLimited(soup, 1000)

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-pinned-disabled vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-not-available" dir="ltr" lang="en">
<head>
<meta charset="utf-8"/>
<title>List of Ultimate Marvel characters - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu

## Linkek elkészítése

In [28]:
#mw-content-text > div.mw-content-ltr.mw-parser-output > ul:nth-child(5) > li:nth-child(3) > a

characters = soup.select("#mw-content-text > div.mw-content-ltr.mw-parser-output > ul > li > a")
#print(characters)

links = []
for link in characters:
    links.append("https://en.wikipedia.org"+link.get('href'))

for i in range(0,10):    
    print(links[i])

https://en.wikipedia.org/wiki/Garret_Dillahunt
https://en.wikipedia.org/wiki/Bolivar_Trask
https://en.wikipedia.org/wiki/Sentinel_(comics)
https://en.wikipedia.org/wiki/Polaris_(Marvel_Comics)
https://en.wikipedia.org/wiki/List_of_Marvel_Comics_characters:_G#Grendel
https://en.wikipedia.org/wiki/Marvel_Cinematic_Universe
https://en.wikipedia.org/wiki/Hela_(Marvel_Cinematic_Universe)
https://en.wikipedia.org/wiki/Gorr_(Marvel_Cinematic_Universe)
https://en.wikipedia.org/wiki/Disney%2B
https://en.wikipedia.org/wiki/Marvel_Cinematic_Universe


## Linkek szűrése és adatgyűjtés

Amelyik linkben "#" szerepel, az egy gyűjtőlap. Azokat a karaktereket kihagyjuk.

In [27]:
for item in range(0,15):        
    response = re.get(links[item])
    if "#" or "(" not in response:
        soup = BeautifulSoup(response.text, "html.parser")
        title = soup.select("#firstHeading > span.mw-page-title-main")[0].text
        description = soup.find("div", {"class": "mw-content-ltr mw-parser-output"}).find_all("p")[2].text
        print(str(item) + ". weboldal feldolgozva:")
        print(title)
        print(description)  
        open("data_marvel.csv", "a", encoding = "utf-8").write(str(title) + ',' + str(description))    
    else:
        time.sleep(1)

0. weboldal feldolgozva:
Ant-Man
Created by Stan Lee, Larry Lieber and Jack Kirby, his first appearance was in Tales to Astonish #27 (January 1962) as Dr. Henry Pym; however, he first appeared in costume as Ant-Man in Tales to Astonish #35 (September 1962). The persona was originated by  the brilliant scientist Hank Pym's superhero alias after inventing a substance that can change size (Pym Particles), but reformed thieves Scott Lang and Eric O'Grady also took on the Ant-Man mantle after the original changed his superhero identity to various other aliases, such as Giant-Man, Goliath, and Yellowjacket. Pym's Ant-Man is also a founding member of the super hero team known as the Avengers. The character has appeared in several films based on the Marvel character, such as Ant-Man (2015), Captain America: Civil War (2016), Ant-Man and the Wasp (2018), Avengers: Endgame (2019), and Ant-Man and the Wasp: Quantumania (2023).

1. weboldal feldolgozva:
Abomination (character)
Debuting in the Silv