# Webscraping

A requests az egyik legegyszerűbb html python modul. A requests az urllib3 kliens-t használja.

A requests.get függvény egy stringet vár paraméterként, ami az elérni kívánt weboldal címe.

In [1]:
import requests

In [24]:
# működő weboldal
req = requests.get('https://www.portfolio.hu/arfolyam/EURHUF=X/euro')

In [25]:
req.status_code

200

In [26]:
# weboldal nem létezik, 404-es hiba
incorrect_res = requests.get('https://www.portfolio.hu/error/EURHUF=X/euro')

In [27]:
incorrect_res.status_code

404

In [28]:
# weboldal létezik, lényegében helyes, de nem azt adja, amire számítunk
incorrect_res2 = requests.get('https://www.portfolio.hu/arfolyam/EURHUF=X/euros')

In [29]:
incorrect_res2.status_code

200

In [30]:
# már az oldal elérésénél hibát dob (nem 404)
incorrect_res3 = requests.get('https://www.portfoliom.hu/arfolyam/EURHUF=X/euro')

SSLError: HTTPSConnectionPool(host='www.portfoliom.hu', port=443): Max retries exceeded with url: /arfolyam/EURHUF=X/euro (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:852)'),))

In [31]:
incorrect_res3.status_code

NameError: name 'incorrect_res3' is not defined

### Try - Except - Else - Finally
- A try lehetővé teszi egy blokk tesztelését.
- Az except-ben a try-ban futtatott kód valamilyen hibája esetén lehet műveleteket végrehajtani.
- Az else ág (try -ágban), lehetővé teszi a hiba nélküli futás esetén kód végrehajtását.
- A finally utáni parancs minden esetben le fog futni.
- A try-else utáni bármelyik ág kihagyható, az except ágból többet is létre lehet hozni (különböző hibák).

In [32]:
url = 'https://www.portfolio.hu/arfolyam/EURHUF=X/euro'
try:
    response = requests.get(url)
except:
    print('Error loading the page: ' + url)
else:
    if (response.status_code == 200):
        print('Loading page was successful: ' + url)
    else:
        print('Loading page ' + url + " resulted in error " + str(response.status_code))
finally:
    print('Going to sleep.')

Loading page was successful: https://www.portfolio.hu/arfolyam/EURHUF=X/euro
Going to sleep.


In [33]:
# Még egy példa, Definiáljunk egy függvényt
def divby(x):
    return(1/x)

In [34]:
L = [1,-1,0,0.5,"alma",[3,2]]
for i in L:
    try:
        divby(i)
    except:
        pass
    else:
        print(i)

1
-1
0.5


In [35]:
L = [1,-1,0,0.5,"alma",[3,2]]
for i in L:
    try:
        divby(i)
    except ZeroDivisionError:
        print('0-val osztás.')
    except TypeError:
        print('Típushiba')
    except:
        print('Ismeretlen hiba.')
    else:
        print(i)

1
-1
0-val osztás.
0.5
Típushiba
Típushiba


# Requests Content
Térjünk vissza az eredeti problémához

In [36]:
req = requests.get('https://www.portfolio.hu/arfolyam/EURHUF=X/euro')

In [37]:
# Response objektum
req

<Response [200]>

In [38]:
# A teljes bájtkódot visszakapjuk a content attributummal - onnan látjuk, hogy b'-vel kezdődik
req.content

b'<!doctype html>\n<html lang="hu">\n    <head>\n        <title>Euro \xc3\xa1rfolyam (EUR/HUF) - Portfolio.hu </title>\n        <meta charset="utf-8">\n        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\n        <meta name="csrf-token" content="TQfAdZhyZxvuvQJztvxvbP2TblJtDO0Ymix82Cv4">\n        <meta name="user" content="out">\n        <meta http-equiv="refresh" content="1740">\n        <meta name="description" content="Euro \xc3\xa1rfolyam (EUR/HUF). Folyamatosan friss\xc3\xbcl\xc5\x91 \xc3\xa1rfolyamadatok, nyit\xc3\xb3- \xc3\xa9s z\xc3\xa1r\xc3\xb3\xc3\xa1rfolyamok, r\xc3\xa9szv\xc3\xa9nypiaci h\xc3\xadrek \xc3\xa9s elemz\xc3\xa9sek egy helyen.">\n        <link rel="stylesheet" href="https://assets.portfolio.hu/css/app.css?id=c19b96e0b5a5e5a0c615">\n        \t\n\t        <script>\n            dataLayer = [];\n        </script>\n            <link rel="canonical" href="https://www.portfolio.hu" />\n    <script type="application/ld+json">\n\

In [39]:
# könnyen text-é konvertálhatunk, az encoding attributum 'utf-8'-ra állítása lehet hasznos még.
req.encoding = 'utf-8'
req.text

'<!doctype html>\n<html lang="hu">\n    <head>\n        <title>Euro árfolyam (EUR/HUF) - Portfolio.hu </title>\n        <meta charset="utf-8">\n        <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">\n        <meta name="csrf-token" content="TQfAdZhyZxvuvQJztvxvbP2TblJtDO0Ymix82Cv4">\n        <meta name="user" content="out">\n        <meta http-equiv="refresh" content="1740">\n        <meta name="description" content="Euro árfolyam (EUR/HUF). Folyamatosan frissülő árfolyamadatok, nyitó- és záróárfolyamok, részvénypiaci hírek és elemzések egy helyen.">\n        <link rel="stylesheet" href="https://assets.portfolio.hu/css/app.css?id=c19b96e0b5a5e5a0c615">\n        \t\n\t        <script>\n            dataLayer = [];\n        </script>\n            <link rel="canonical" href="https://www.portfolio.hu" />\n    <script type="application/ld+json">\n\t{\n\t\t"@context": "http://schema.org",\n\t\t"@type": "WebPage",\n\t\t"name": "Portfolio.hu - Online gazd

In [40]:
# Bontsuk szét a html oldalt
# A header attributum egy dictionary.
req.headers

{'Server': 'nginx', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Cache-Control': 'no-cache, private', 'Date': 'Wed, 15 Apr 2020 21:26:42 GMT', 'Set-Cookie': 'XSRF-TOKEN=eyJpdiI6IkhtTVpNZkNPUzh6Ykh0UFV4RjVlZ0E9PSIsInZhbHVlIjoiRVNpOGxpMmNWckVJcjhSVnBVYVJzelNwUFNOc2FcL2pJN0dlbnBVQVY4aUprMHJadVZKOU1uMW5MNE9VaUN5SWEiLCJtYWMiOiJmYTcxYWVjNDE1MDMyYjE3OTRiYzRmODc3ZDQ3NjAzYzNlODFmMjcwZDZjNDY1YjcyOTcyMjg3ZmI2YWVjNmJlIn0%3D; expires=Thu, 16-Apr-2020 21:26:42 GMT; Max-Age=86400; path=/; domain=portfolio.hu, uniqID=de9c6a41d1d382e47a66f76fb67397c7; expires=Mon, 14-Apr-2025 21:26:42 GMT; Max-Age=157680000; path=/; domain=portfolio.hu; httponly, PF=831tT1ivWoZLDcQKkI5of7aUn4AukuqU4OMXoSmA; path=/; domain=portfolio.hu; httponly, device_type=desktop; expires=Mon, 14-Apr-2025 21:26:42 GMT; Max-Age=157680000; path=/; domain=portfolio.hu; httponly', 'Access-Control-Allow-Credentials': 'true', 'Content-Encoding': 'gzip'}

In [41]:
req.headers['Content-Type']

'text/html; charset=UTF-8'

In [42]:
treq = req.text
type(treq)

str

In [50]:
# find - str metódus, a string elejétől az első találatot keresi, bemenete egy másik string. rfind - ugyanez hátulról indulva.
print(treq.find('nyitó'))
print(treq.rfind('nyitó'))

514
608319


In [51]:
ind1 = treq.find('nyitó')
treq[ind1-5:ind1+150]

'tok, nyitó- és záróárfolyamok, részvénypiaci hírek és elemzések egy helyen.">\n        <link rel="stylesheet" href="https://assets.portfolio.hu/css/app.css?'

In [144]:
ind2 = treq.rfind('nyitó')
treq[ind2-50:ind2+150]

'     <tr>\n                                    <td>nyitó:</td>\n                                    <td id="stat-open" class="text-right" colspan="2">351.64</td>\n                                </tr>\n  '

### Reguláris kifejezések
A probléma, nem tudjuk a két találat között volt-e még információ, ami nekünk kellhet, találat, amit nem vettünk észre.

További lehetőség string-ben való keresésre, mintafelismerésre az re csomag.

Online regexp teszter: https://pythex.org/

In [55]:
import re

In [83]:
# A . bármilyen karaktert helyettesíthet, a * ilyen karakterből akármennyit jelölhet a mintában.
m = re.search('<tr>.*<td>nyitó:</td>.*</tr>',treq)

In [84]:
# NoneType: Probléma a newline (\n) miatt
m.group(0)

AttributeError: 'NoneType' object has no attribute 'group'

In [89]:
m = re.search('<tr>.*<td>nyitó:</td>.*</tr>',treq, re.DOTALL)

In [91]:
# Houston: újabb probléma, a * mintaillesztés greedy (mohó), ezért a lehető leghosszabb találatot írja ki...
m.group(0)

'<tr>\n                                    <td>nyitó:</td>\n                                    <td id="stat-open" class="text-right" colspan="2">351.64</td>\n                                </tr>\n                                <tr>\n                                    <td>előző záró:</td>\n                                    <td id="stat-close" class="text-right" colspan="2"></td>\n                                </tr>\n                                <tr>\n                                    <td>napi átlag:</td>\n                                    <td id="stat-avg" class="text-right" colspan="2"></td>\n                                </tr>\n                                <tr>\n                                    <td>napi min.:</td>\n                                    <td id="stat-min" class="text-right" colspan="2"></td>\n                                </tr>\n                                <tr>\n                                    <td>napi max.:</td>\n                         

In [129]:
# Megoldás: *? ez ugyanaz az illesztés, csak nem mohón.
m = re.search('<tr>.*?<td>nyitó:</td>.*?</tr>',treq, re.DOTALL)

In [130]:
m.group(0)

'<tr>\n                                    <td>nyitó:</td>\n                                    <td id="stat-open" class="text-right" colspan="2">351.64</td>\n                                </tr>'

In [95]:
nyit = m.group(0)

In [96]:
ar = re.search('>[0-9.]*<',nyit)

In [99]:
ar.group(0)

'>351.64<'

In [107]:
ar.group(0)[1:-1]

'351.64'

Építsük ezt össze:

In [109]:
def openurl(url):
    try:
        response = requests.get(url)
    except:
        print('Error loading the page: ' + url)
    else:
        if (response.status_code == 200):
            print('Loading page was successful: ' + url)
        else:
            print('Loading page ' + url + " resulted in error " + str(response.status_code))
    return response

In [136]:
def getprice(url='https://www.portfolio.hu/arfolyam/EURHUF=X/euro', content='nyitó'):
    response = openurl(url)
    response.encoding = 'utf-8'
    rt = response.text
    m = re.search('<td>' + content + ':</td>.*?</tr>',rt, re.DOTALL)
    subm = m.group(0)
    ar = re.search('>[0-9.]*<',subm)
    return ar.group(0)[1:-1]

In [137]:
getprice()

Loading page was successful: https://www.portfolio.hu/arfolyam/EURHUF=X/euro


'351.64'

In [145]:
getprice(url='https://www.portfolio.hu/arfolyam/EURUSD=X/eurusd')

Loading page was successful: https://www.portfolio.hu/arfolyam/EURUSD=X/eurusd


'1.0983'

In [146]:
getprice(content='előző záró')

Loading page was successful: https://www.portfolio.hu/arfolyam/EURHUF=X/euro


''