In [56]:
from bs4 import BeautifulSoup
from IPython.display import display, clear_output
import json
import os
import re

---

In [32]:
from collections import deque

class UniqueStack:
    def __init__(self, maxlen):
        self.stack = deque(maxlen=maxlen)
        self.set_items = set()

    def push(self, item):
        if item in self.set_items:
            self.stack.remove(item)  # ha már benne van, eltávolítjuk (hogy újra a tetejére kerüljön)
        elif len(self.stack) == self.stack.maxlen:
            removed = self.stack.popleft()
            self.set_items.remove(removed)
        self.stack.append(item)
        self.set_items.add(item)

    def __contains__(self, item):
        return item in self.set_items

    def __repr__(self):
        return f"Stack(top -> bottom): {list(reversed(self.stack))}"

In [33]:
def parse_number(s):
    s = s.strip().replace(',', '.')
    try:
        if s.endswith('E'):
            return int(float(s[:-1]) * 1000)
        return int(float(s))
    except:
        return None

def parse_facebook_stats(text):
    # Összes szám kinyerése
    raw_numbers = re.findall(r"[\d.,]+\s*E?", text)
    numbers = [parse_number(n) for n in raw_numbers if parse_number(n) is not None]

    if not numbers:
        return {"reakció": None, "hozzászólás": None, "megosztás": None}

    # Duplikált második érték szűrése, ha megegyezik az elsővel
    if len(numbers) >= 2 and numbers[0] == numbers[1]:
        del numbers[1]

    reakcio = numbers[0]
    hozzaszolas = None
    megosztas = None

    if len(numbers) >= 3:
        hozzaszolas = numbers[-2]
        megosztas = numbers[-1]
    elif len(numbers) == 2:
        megosztas = numbers[1]

    return {
        "reakció": reakcio,
        "hozzászólás": hozzaszolas,
        "megosztás": megosztas
    }


In [34]:
def open_html(path):
    with open(path, "r", encoding="utf-8") as f:
        soup = BeautifulSoup(f, "lxml")
    return soup

In [45]:
def get_post_from_html(soup):
    posts = []
    divs = soup.find_all('div')
    
    # minden div-et szülőnek veszek
    for parent in soup.find_all("div"):
    
        # lekérem a közvetlen gyerekeket
        children = parent.find_all("div", recursive=False)
    
        for i in range(len(children) - 2):
            d1, d2, d3 = children[i], children[i+1], children[i+2]
    
            # Ellenőrizzük, hogy az első két divnek VAN class-listája és a haramadinak pedig NINCSEN
            if not d1.has_attr("class") or not d2.has_attr("class") or d3.has_attr("class"):
                continue
            
            c1, c2 = d1["class"], d2["class"]
            
            if ("html-div" in c1 and "html-div" in c2): # ("html-div" in c1 and "xdj266r" in c1 and "x14z9mp" in c1)
    
                text = " ".join(div.get_text() for div in d2.find_all("div") if div.get("dir") == "auto" and div.get("style") == "text-align: start;")
                
                if text.endswith('Továbbiak'):
                    #print('NINCSEN NYITVA \n')
                    continue
                elif text.strip() == '':
                    #print('Üres szöveg \n')
                    continue
    
                szerzo = d1.find("strong", class_="html-strong").get_text()
                stats_text = d3.find("div", class_="x1n2onr6").get_text()
                stats = parse_facebook_stats(stats_text)
                
                #print(szerzo, text, stats_text, stats, '\n', sep='\n')
                posts.append({'szerzo': szerzo, 'text': text, **stats})

    return posts

---

In [61]:
url = './../snapshots'

lrp = UniqueStack(maxlen=20) # last read posts
allposts = []

for filename in sorted(os.listdir(url)):
    
    if filename.endswith(".html"):
        clear_output(wait=True)
        
        path = os.path.join(url, filename)
        print(f'Feldolgozás: {filename}')
        print('Összes poszt:', len(allposts))
        soup = open_html(path)
        posts = get_post_from_html(soup)
        
        for post in posts:
            if post['text'] in lrp:
                continue
            else:
                #print(post)
                lrp.push(post['text'])
                allposts.append(post)
        #break

Feldolgozás: page_snapshot_0742.html


In [62]:
len(allposts)

275589

In [63]:
allposts_save = allposts.copy()

In [64]:
len(allposts_save)

275589

In [65]:
allposts_save[-1]

{'szerzo': 'Péter Magyar',
 'text': 'Oszd meg! Záró gondolatok az európai parlamenti vitáról és hétről 10 percben.  ',
 'reakció': 12000,
 'hozzászólás': 886,
 'megosztás': 1800}

In [78]:
def unique(lista):
    unique_dicts = []
    seen = set()
    
    for d in lista:
        items_tuple = tuple(sorted(d.items()))
        if items_tuple not in seen:
            seen.add(items_tuple)
            unique_dicts.append(d)
    return unique_dicts


In [79]:
len(unique(allposts_save))

981

In [68]:
unique_dicts[-1]

{'szerzo': 'Péter Magyar',
 'text': 'Oszd meg! Záró gondolatok az európai parlamenti vitáról és hétről 10 percben.  ',
 'reakció': 12000,
 'hozzászólás': 886,
 'megosztás': 1800}

In [69]:
def export_posts_to_json(posts_list, filename):
    jsonobj = {'Metadata': {'Lementett postok száma': len(posts_list), 'Kezdeti dátum': '2025.07.08', 'Befejező dátum': '2024.10.22'}, 
               'Posztok': posts_list}
    
    # exp json file
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(jsonobj, f, ensure_ascii=False, indent=2)

In [70]:
export_posts_to_json(unique_dicts, 'posztok_exp_1.json')

In [71]:
posts = get_post_from_html(soup)

In [73]:
len(posts)

738

In [80]:
len(unique(posts))

738