In [2]:
import json
import asyncio
from datetime import datetime
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup
import pandas as pd
import dateparser
import re
import unicodedata

In [3]:
URL = "https://sports2.tippmixpro.hu/hu/esemenyek/11/labdarugas/anglia/premier-liga/manchester-city-leeds/286347330800881664/all"

In [4]:
df = pd.read_excel("../../Book1.xlsx")
kelllista = df[df['Unnamed: 0'] == 'tippmix'].values[0][1:].tolist()

In [5]:
def normalize_text(s):
    s = s.lower()
    s = unicodedata.normalize('NFD', s)
    s = ''.join(c for c in s if unicodedata.category(c) != 'Mn')
    s = s.replace(' ', '_')
    return s

In [6]:
def get_key(soup):
    hazai = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Home').get_text())
    venged = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Away').get_text())
    s = soup.select_one('.MatchTime__InfoPart').get_text()
    datum = dateparser.parse(s, languages=['hu']).strftime("%Y-%m-%d")
    return f'{hazai}-{venged}-{datum}'

In [7]:
def parse_html(html, kell=None):
    """
    Szinkron feldolgozás.
    Adatkinyerés
    """

    markets = {}

    soup = BeautifulSoup(html, "html.parser")

    container = soup.select_one(".MarketGroupsItem")

    if container is None:
        # nincs fő konténer -> üres eredmény
        return markets

    if kell: 
        kell.append('Gólszám - Rendes játékidő')


    for article in container.select("article"):
        
        soradatok = {}

        header_el = article.select_one(".Market__CollapseText")
        header_text = header_el.get_text(strip=True) if header_el else ""

        
        if kell: # ha van kell lista
            if header_text not in kell: # akkor ha nincsen benne a text akkor ki kell hagyni
                continue

        oddsgroup = article.select("ul.Market__OddsGroups")  # li elemek listája ezen az ul tag-en belül

        print(header_text)

        if len(oddsgroup) == 0:  
            print('bezárt menü')
            continue

        ligroup = oddsgroup[0].find_all('li', recursive=False)
        print('ligroup (sorok) száma:', len(ligroup))
    
        alcimCount = len(oddsgroup[0].find_all("li", class_="Market__OddsGroupTitle"))
        print('alcímek száma:', alcimCount)

        
        # ha nincsen alcím és nincsen header
        if len(ligroup) == 1 and alcimCount == 0: 
            print('1. osztály')

            if header_text == 'Gólszám - Rendes játékidő':
                header_text = header_text + ' - paros paratlan'
                print(header_text)
                            
            group = ligroup[0] # egy eleme van akkor a gorup legyen az egyetlen elem

            for alcim in group.find_all("li"):
                oszlop = [i.get_text(strip=True) for i in alcim.find_all('span')]
                if len(oszlop) < 2:
                    print('zárolt oszlop!')
                    continue
                soradatok[oszlop[0]] = oszlop[1]     # oszlop 0 itt lehet névcsere
                     
        # ha van alcím

        # a header száma egyezik a lingroup számmal
        elif alcimCount == len(ligroup):
            print('2. osztály')

            if header_text == 'Gólszám - Rendes játékidő':
                print()
                continue
                
            print('egyezik a lingroup és a header szám (kihagyás)!!!!')
            print()
            continue

        # egy header van (header van az első helyen)
        elif "Market__HeadersWrapper" in ligroup[0].get("class", []):
            header_titles = [i.get_text(strip=True) for i in ligroup[0].find_all('li')]
            #print('\t\t header:', header_titles)
            print('3. osztály')

            if header_text == 'Gólszám - Rendes játékidő':
                header_text = header_text + ' - tobb kevesebb'
                print(header_text)

            # ha van header akkor még el kell dönteni, hogy van-e Market__OddsGroupTitle
            if ligroup[1].select_one("li.Market__OddsGroupTitle"):
                
                for li in ligroup[1:]:
                    ossdd = [ods.get_text(strip=True) for ods in li.find_all('li')]
                    soradatok[ossdd[0]] = {header_titles[0]:ossdd[1], header_titles[2]:ossdd[2]}

            # nincsen header, csak sok alcím
            else:
                print('4. osztály')
                print('Nincsen header %%%%%')
                for sor in ligroup[1:]:
                    for i, oszlop in enumerate(sor.find_all('li')):
                        if len(oszlop.find_all('span')) != 2:
                            continue

                        text, odds = [m.get_text(strip=True) for m in oszlop.find_all('span')]
                        #print(header_titles[i], text, odds)
                        #print(text, odds)
                        soradatok[text] = odds
                        
        markets[header_text] = soradatok
        print(soradatok)
        print()
        
    return get_key(soup), markets

In [8]:
html = ''
# ------------- ASYNC LOOP -------------
async def run_scraper(url, headless=True, interval_sec=60, iterations=None, parser_fn=parse_html, on_result=None):
    """
    - Megnyitja a böngészőt és az oldalt.
    - Ciklusban (percenként) lekéri az oldal tartalmát.
    - A HTML-t átadja egy SZINKRON parser_fn-nek.
    - Ha adsz on_result callbacket (szinkron), annak átadja az eredményt.
    - iterations: ha None -> végtelen ciklus, ha szám -> ennyiszer fut.
    """
    global html
    
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=headless)
        context = await browser.new_context()
        page = await context.new_page()

        try:
            # első betöltés
            await page.goto(url, timeout=45000)
            await page.wait_for_selector(".MarketGroupsItem", timeout=15000)


            count = 0
            while True:
                try:
                    await page.reload(timeout=45000)
                    await page.wait_for_selector(".MarketGroupsItem", timeout=15000)
                    
                except Exception:
                    # ha reload nem ok, próbálkozhatsz goto-val
                    await page.goto(url, wait_until="domcontentloaded", timeout=45000)

                # HTML kiolvasása (ASYNC), majd átadjuk a SZINKRON parsernek
                html = await page.content()
                key, result = parser_fn(html)

                # ha adtál callbacket, itt megkapja az eredményt (SZINKRON)
                if on_result:
                    on_result(result)
                else:
                    # default: csak kiírjuk (váz)
                    print(result)

                count += 1
                if iterations is not None and count >= iterations:
                    break

                await asyncio.sleep(interval_sec)

        finally:
            await context.close()
            await browser.close()

In [9]:
await run_scraper(URL, headless=False, interval_sec=60, iterations=1)

1X2 - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Manchester City': '1,27', 'Döntetlen': '5,75', 'Leeds': '10,00'}

Mindkét csapat szerez gólt - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Igen': '2,01', 'Nem': '1,73'}

1X2 + Mindkét csapat szerez gólt - Rendes játékidő
ligroup (sorok) száma: 4
alcímek száma: 0
3. osztály
4. osztály
Nincsen header %%%%%
{'Hazai és Nem': '1,99', 'Hazai és Igen': '2,85', 'Döntetlen és Nem': '13,50', 'Döntetlen és Igen': '7,25', 'Vendég és Nem': '15,00', 'Vendég és Igen': '15,00'}

Gólszám - Rendes játékidő
ligroup (sorok) száma: 16
alcímek száma: 15
3. osztály
Gólszám - Rendes játékidő - tobb kevesebb
{'0,5': {'Több, mint': '', 'Kevesebb, mint': '14,00'}, '1,5': {'Több, mint': '1,15', 'Kevesebb, mint': '4,75'}, '2': {'Több, mint': '1,23', 'Kevesebb, mint': '3,80'}, '2,25': {'Több, mint': '1,39', 'Kevesebb, mint': '2,80'}, '2,5': {'Több, mint': '1,54', 'Kevesebb, mint': '2,34'}, '2,75': {'Több, mint': 

IndexError: list index out of range

In [11]:
key, m = parse_html(html, kell=kelllista)

1X2 - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Manchester City': '1,27', 'Döntetlen': '5,75', 'Leeds': '10,00'}

Mindkét csapat szerez gólt - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Igen': '2,01', 'Nem': '1,73'}

Gólszám - Rendes játékidő
ligroup (sorok) száma: 16
alcímek száma: 15
3. osztály
Gólszám - Rendes játékidő - tobb kevesebb
{'0,5': {'Több, mint': '', 'Kevesebb, mint': '14,00'}, '1,5': {'Több, mint': '1,15', 'Kevesebb, mint': '4,75'}, '2': {'Több, mint': '1,23', 'Kevesebb, mint': '3,80'}, '2,25': {'Több, mint': '1,39', 'Kevesebb, mint': '2,80'}, '2,5': {'Több, mint': '1,54', 'Kevesebb, mint': '2,34'}, '2,75': {'Több, mint': '1,67', 'Kevesebb, mint': '2,10'}, '3': {'Több, mint': '1,86', 'Kevesebb, mint': '1,86'}, '3,25': {'Több, mint': '2,11', 'Kevesebb, mint': '1,66'}, '3,5': {'Több, mint': '2,36', 'Kevesebb, mint': '1,53'}, '3,75': {'Több, mint': '2,70', 'Kevesebb, mint': '1,41'}, '4': {'Több, mint': '3,40', 'Kevese

In [13]:
key, m = parse_html(html, kell=kelllista)

1X2 - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Manchester City': '1,27', 'Döntetlen': '5,75', 'Leeds': '10,00'}

Mindkét csapat szerez gólt - Rendes játékidő
ligroup (sorok) száma: 1
alcímek száma: 0
1. osztály
{'Igen': '2,01', 'Nem': '1,73'}

Gólszám - Rendes játékidő
ligroup (sorok) száma: 16
alcímek száma: 15
3. osztály
Gólszám - Rendes játékidő - tobb kevesebb
{'0,5': {'Több, mint': '', 'Kevesebb, mint': '14,00'}, '1,5': {'Több, mint': '1,15', 'Kevesebb, mint': '4,75'}, '2': {'Több, mint': '1,23', 'Kevesebb, mint': '3,80'}, '2,25': {'Több, mint': '1,39', 'Kevesebb, mint': '2,80'}, '2,5': {'Több, mint': '1,54', 'Kevesebb, mint': '2,34'}, '2,75': {'Több, mint': '1,67', 'Kevesebb, mint': '2,10'}, '3': {'Több, mint': '1,86', 'Kevesebb, mint': '1,86'}, '3,25': {'Több, mint': '2,11', 'Kevesebb, mint': '1,66'}, '3,5': {'Több, mint': '2,36', 'Kevesebb, mint': '1,53'}, '3,75': {'Több, mint': '2,70', 'Kevesebb, mint': '1,41'}, '4': {'Több, mint': '3,40', 'Kevese

In [214]:
def odd_to_float(odd):
    return float(0 if odd == '' else odd.replace(',', '.'))

In [227]:
adatok = {}
for k, v in m.items():
    market = df.columns[df.loc[df['Unnamed: 0'] == 'tippmix'].iloc[0] == k].tolist()[0]
    print(market)

    oddadatok = {}

    for nev, odd in v.items():
        nev = normalize_text(nev).replace(',', '.')
        
        if type(odd) == dict: 
            
            for alcim, alodd in odd.items():
                alodd = odd_to_float(alodd)
                alcim = normalize_text(alcim).replace(',', '')
                tcim = nev+'_'+alcim
                oddadatok[tcim] = alodd
                print('\t', tcim, '\t', alodd)
        else:
            oddadatok[nev] = odd_to_float(odd)
            print('\t', nev, '\t', odd)
            
    adatok[market] = oddadatok

vegkimenetel
	 portugalia 	 1,25
	 dontetlen 	 6,50
	 magyarorszag 	 12,00
mindket_csapat_szerez_golt 
	 igen 	 1,97
	 nem 	 1,88
golszam
	 0.5_tobb_mint 	 0.0
	 0.5_kevesebb_mint 	 17.5
	 1.5_tobb_mint 	 1.14
	 1.5_kevesebb_mint 	 5.75
	 1.75_tobb_mint 	 1.16
	 1.75_kevesebb_mint 	 5.25
	 2_tobb_mint 	 1.18
	 2_kevesebb_mint 	 4.85
	 2.25_tobb_mint 	 1.31
	 2.25_kevesebb_mint 	 3.45
	 2.5_tobb_mint 	 1.43
	 2.5_kevesebb_mint 	 2.8
	 2.75_tobb_mint 	 1.52
	 2.75_kevesebb_mint 	 2.52
	 3_tobb_mint 	 1.65
	 3_kevesebb_mint 	 2.24
	 3.25_tobb_mint 	 1.87
	 3.25_kevesebb_mint 	 1.93
	 3.5_tobb_mint 	 2.05
	 3.5_kevesebb_mint 	 1.77
	 3.75_tobb_mint 	 2.33
	 3.75_kevesebb_mint 	 1.61
	 4_tobb_mint 	 2.7
	 4_kevesebb_mint 	 1.46
	 4.25_tobb_mint 	 3.0
	 4.25_kevesebb_mint 	 1.38
	 4.5_tobb_mint 	 3.25
	 4.5_kevesebb_mint 	 1.33
	 4.75_tobb_mint 	 3.95
	 4.75_kevesebb_mint 	 1.25
	 5_tobb_mint 	 5.0
	 5_kevesebb_mint 	 1.17
	 5.25_tobb_mint 	 5.25
	 5.25_kevesebb_mint 	 1.15
	 5.5_tobb_mint 	

In [15]:
df

Unnamed: 0.1,Unnamed: 0,végkimenetel,mindkét csapat szerez gólt,gólszám,ázsiai hendikep,páros vagy páratlan a gólszám,hendikep,döntetlenre nem lehet fogadni
0,tippmix,1X2 - Rendes játékidő,Mindkét csapat szerez gólt - Rendes játékidő,Gólszám - Rendes játékidő,Ázsiai hendikep - Rendes játékidő,Gólszám - Rendes játékidő,Hendikep - Rendes játékidő,Döntetlennél a tét visszajár - Rendes játékidő
1,ivibet,1X2,Mindkét csapat betalál,Összesítet,ázsiai hendikep,Páros/ páratlan,Hendikep,xre nincs fogadás


1X2 - Rendes játékidő !
Mindkét csapat szerez gólt - Rendes játékidő !
Hendikep - Rendes játékidő !
Döntetlennél a tét visszajár - Rendes játékidő !
Ázsiai hendikep - Rendes játékidő !
Gólszám - Rendes játékidő !
Gólszám - Rendes játékidő

Gólszám - Rendes játékidő

In [17]:
def egysegesito_tippmix(m, df):
    adatok = {}
    for k, v in m.items():
        market = df.columns[df.loc[df['Unnamed: 0'] == 'tippmix'].iloc[0] == k].tolist()[0]

        oddadatok = {}

        for nev, odd in v.items():
            nev = normalize_text(nev).replace(',', '.')

            if type(odd) == dict:

                for alcim, alodd in odd.items():
                    alodd = odd_to_float(alodd)
                    alcim = normalize_text(alcim).replace(',', '')
                    tcim = nev + '_' + alcim
                    oddadatok[tcim] = alodd
            else:
                oddadatok[nev] = odd_to_float(odd)

        adatok[market] = oddadatok

    return adatok

def get_key(soup):
    hazai = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Home').get_text())
    venged = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Away').get_text())
    s = soup.select_one('.MatchTime__InfoPart').get_text()
    datum = dateparser.parse(s, languages=['hu']).strftime("%Y-%m-%d")
    return f'{hazai}-{venged}-{datum}-tippmix'

In [122]:
soup = None
def parse_html2(html, df, kell=None):
    """
    Szinkron feldolgozás.
    Adatkinyerés
    """
    markets = {}

    soup = BeautifulSoup(html, "html.parser")

    container = soup.select_one(".MarketGroupsItem")

    if container is None:
        # nincs fő konténer -> üres eredmény
        return markets

    if kell:
        kell.append('Gólszám - Rendes játékidő')

    for article in container.select("article"):

        soradatok = {}

        header_el = article.select_one(".Market__CollapseText")
        header_text = header_el.get_text(strip=True) if header_el else ""

        if kell:  # ha van kell lista akkor,
            if header_text not in kell:  # ha nincsen benne a text akkor ki kell hagyni
                continue

        oddsgroup = article.select("ul.Market__OddsGroups")  # li elemek listája ezen az ul tag-en belül

        if len(oddsgroup) == 0:
            continue

        ligroup = oddsgroup[0].find_all('li', recursive=False)

        alcimCount = len(oddsgroup[0].find_all("li", class_="Market__OddsGroupTitle"))

        # ha nincsen alcím és nincsen header
        if len(ligroup) == 1 and alcimCount == 0:

            if header_text == 'Gólszám - Rendes játékidő':
                header_text = header_text + ' - paros paratlan'

            group = ligroup[0]  # egy eleme van akkor a gorup legyen az egyetlen elem

            for alcim in group.find_all("li"):
                oszlop = [i.get_text(strip=True) for i in alcim.find_all('span')]
                if len(oszlop) < 2:
                    continue
                soradatok[oszlop[0]] = oszlop[1]  # oszlop 0 itt lehet névcsere

            print('1 osztály')

        # ha van alcím

        # a header száma egyezik a lingroup számmal
        elif alcimCount == len(ligroup):

            if header_text == 'Gólszám - Rendes játékidő':
                continue

            print('2 osztály')
            print(header_text)
            print()
            
            continue
            # be kéne itt még fejezni ezt a lehetőséget

        
        # egy header van (header van az első helyen)
        elif "Market__HeadersWrapper" in ligroup[0].get("class", []):
            header_titles = [i.get_text(strip=True) for i in ligroup[0].find_all('li')]

            if header_text == 'Gólszám - Rendes játékidő':
                header_text = header_text + ' - tobb kevesebb'

            # ha van header akkor még el kell dönteni, hogy van-e Market__OddsGroupTitle
            if ligroup[1].select_one("li.Market__OddsGroupTitle"):

                for li in ligroup[1:]:
                    ossdd = [ods.get_text(strip=True) for ods in li.find_all('li')]
                    soradatok[ossdd[0]] = {header_titles[0]: ossdd[1], header_titles[2]: ossdd[2]}
            
                print('3 osztály, 1 opció')
            
            # nincsen header, csak sok alcím
            else:
                cimek = [i.get_text(strip=True) for i in ligroup[0].find_all('li')]
                
                print(cimek)
                
                for sor in ligroup[1:]:
                    for i, oszlop in enumerate(sor.find_all('li')):
                        
                        #print(cimek[i])
                        
                        if len(oszlop.find_all('span')) != 2:
                            continue
                            
                        text, odds = [m.get_text(strip=True) for m in oszlop.find_all('span')] # ['-3,5', '5,25']

                        textt = f'{'1' if i == 0 else '2'}_{text}'
                        print(textt, odds)
                        soradatok[textt] = odds

                print('3 osztály, 2 opció')
                
        print(header_text)
        print(soradatok)
        print()
                
        markets[header_text] = soradatok
        
    return markets

In [123]:
m = parse_html2(html, df=df, kell=kelllista)

1 osztály
1X2 - Rendes játékidő
{'Manchester City': '1,27', 'Döntetlen': '5,75', 'Leeds': '10,00'}

1 osztály
Mindkét csapat szerez gólt - Rendes játékidő
{'Igen': '2,01', 'Nem': '1,73'}

3 osztály, 1 opció
Gólszám - Rendes játékidő - tobb kevesebb
{'0,5': {'Több, mint': '', 'Kevesebb, mint': '14,00'}, '1,5': {'Több, mint': '1,15', 'Kevesebb, mint': '4,75'}, '2': {'Több, mint': '1,23', 'Kevesebb, mint': '3,80'}, '2,25': {'Több, mint': '1,39', 'Kevesebb, mint': '2,80'}, '2,5': {'Több, mint': '1,54', 'Kevesebb, mint': '2,34'}, '2,75': {'Több, mint': '1,67', 'Kevesebb, mint': '2,10'}, '3': {'Több, mint': '1,86', 'Kevesebb, mint': '1,86'}, '3,25': {'Több, mint': '2,11', 'Kevesebb, mint': '1,66'}, '3,5': {'Több, mint': '2,36', 'Kevesebb, mint': '1,53'}, '3,75': {'Több, mint': '2,70', 'Kevesebb, mint': '1,41'}, '4': {'Több, mint': '3,40', 'Kevesebb, mint': '1,27'}, '4,25': {'Több, mint': '3,60', 'Kevesebb, mint': '1,25'}, '4,5': {'Több, mint': '4,05', 'Kevesebb, mint': '1,20'}, '5,5': {'Több

In [119]:
m

{'1X2 - Rendes játékidő': {'Manchester City': '1,27',
  'Döntetlen': '5,75',
  'Leeds': '10,00'},
 'Mindkét csapat szerez gólt - Rendes játékidő': {'Igen': '2,01',
  'Nem': '1,73'},
 'Gólszám - Rendes játékidő - tobb kevesebb': {'0,5': {'Több, mint': '',
   'Kevesebb, mint': '14,00'},
  '1,5': {'Több, mint': '1,15', 'Kevesebb, mint': '4,75'},
  '2': {'Több, mint': '1,23', 'Kevesebb, mint': '3,80'},
  '2,25': {'Több, mint': '1,39', 'Kevesebb, mint': '2,80'},
  '2,5': {'Több, mint': '1,54', 'Kevesebb, mint': '2,34'},
  '2,75': {'Több, mint': '1,67', 'Kevesebb, mint': '2,10'},
  '3': {'Több, mint': '1,86', 'Kevesebb, mint': '1,86'},
  '3,25': {'Több, mint': '2,11', 'Kevesebb, mint': '1,66'},
  '3,5': {'Több, mint': '2,36', 'Kevesebb, mint': '1,53'},
  '3,75': {'Több, mint': '2,70', 'Kevesebb, mint': '1,41'},
  '4': {'Több, mint': '3,40', 'Kevesebb, mint': '1,27'},
  '4,25': {'Több, mint': '3,60', 'Kevesebb, mint': '1,25'},
  '4,5': {'Több, mint': '4,05', 'Kevesebb, mint': '1,20'},
  '5,5'

In [120]:
def get_key(soup):
    hazai = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Home').get_text()).replace('_', ' ').split()[0]
    venged = normalize_text(soup.select_one('.MatchDetailsHeader__PartName--Away').get_text()).replace('_', ' ').split()[0]
    s = soup.select_one('.MatchTime__InfoPart').get_text()
    datum = dateparser.parse(s, languages=['hu']).strftime("%Y-%m-%d")
    return f'{hazai}-{venged}-{datum}-tippmix'

In [124]:
get_key(soup)

AttributeError: 'NoneType' object has no attribute 'select_one'