In [1]:
from bs4 import BeautifulSoup

In [2]:
from IPython.display import display, HTML

In [3]:
from models import FAQ
from utils import get_html, question2label

In [30]:
source_id = "he"
source_name = "Hessische Landesregierung"
source_url = "https://www.hessen.de/fuer-buerger/corona-hessen/fragen-und-antworten-zu-den-wichtigsten-regelungen"

In [49]:
import re

enumeration_regex = re.compile(r'[1-9]+\. ')

def remove_enumeration(string: str):
    return enumeration_regex.sub("", string)

def is_enumeration_tag(tag):
    if tag.string: return enumeration_regex.match(tag.string)
    

def is_question_tag(tag):
    if tag.string: return tag.string.strip().endswith("?")
    else: return False

def is_stop_signal(tag):
    return tag.name == "hr" or tag.string == "Bildergalerie:"

def make_faq(question_tag, answer_tag, faqs):    
    faq = {}
        
    faq["q_txt"]: str = question_tag.get_text().strip()
    faq["a_html"]: str = answer_tag.encode_contents()
    faq["a_txt"]: str = answer_tag.get_text().strip()
    faq["src_id"] = source_id
    faq["src_url"]: str = source_url
    faq["src_name"]: str = source_name
    faq["id"]: str = question2label(faq["src_id"], faq["q_txt"])
    faq["nationwide"] = False 

    faqs.append(FAQ(**faq))    

In [57]:
html = get_html(source_url)
soup = BeautifulSoup(html, features="lxml")

In [64]:
content_div = soup.find("div", class_="he_content_body")
topic_links = content_div.find("ul").find_all("a")

h3_tags = content_div.find_all("h3")
question_tags = [tag for tag in h3_tags if is_question_tag(tag)]

faqs = []

for question_tag in question_tags:
    answer_tags = []
    for tag in question_tag.next_siblings:
        if is_question_tag(tag):
            if len(answer_tags) > 1:
                answer_html = "".join(str(tag) for tag in answer_tags)
                answer_soup = BeautifulSoup(answer_html, features="lxml")
            else:
                answer_soup = answer_tags[0]

            make_faq(question_tag, answer_soup, faqs)

            break
        else:
            answer_tags.append(tag)
        
print(faqs[0].src_url)
print("---")
print(faqs[0].q_txt)
print("---")
print(faqs[0].a_txt)
print("---")
display(HTML(faqs[0].a_html))




https://www.hessen.de/fuer-buerger/corona-hessen/fragen-und-antworten-zu-den-wichtigsten-regelungen
---
Kontaktbeschränkungen: Wen darf ich wo treffen?
---
Der Aufenthalt im öffentlichen Raum ist nur alleine, mit den Angehörigen des eigenen und eines weiteren Hausstandes bis zu einer Gruppengröße von höchstens fünf Personen gestattet; dazugehörige Kinder bis zum Alter von einschließlich 14 Jahren bleiben unberücksichtigt. Bei Begegnungen mit anderen Personen ist ein Mindestabstand von 1,5 Metern einzuhalten. Öffentliche Verhaltensweisen wie beispielsweise Tanzveranstaltungen, die generell dazu geeignet sind, das Abstandsgebot zu gefährden, sind unabhängig von der Personenzahl untersagt.  Das gemeinsame Feiern im öffentlichen Raum ist untersagt. Der Verzehr von alkoholischen Getränken im öffentlichen Raum ist untersagt. Verstöße werden mit einem Bußgeld belegt. Ab dem 11. Januar 2021 gilt: Private Treffen dürfen dann mit nur noch einem Hausstand und einer weiteren Person stattfinden. Ki

In [68]:
def get_faq():
    html = get_html(source_url)
    soup = BeautifulSoup(html, features="lxml")
    
    content_div = soup.find("div", class_="he_content_body")
    topic_links = content_div.find("ul").find_all("a")

    h3_tags = content_div.find_all("h3")
    # question_tags = [tag for tag in h3_tags if is_question_tag(tag)]
    question_tags = h3_tags[1:-2]

    faqs = []

    for question_tag in question_tags:
        answer_tags = []
        for tag in question_tag.next_siblings:
            if is_question_tag(tag):
                if len(answer_tags) > 1:
                    answer_html = "".join(str(tag) for tag in answer_tags)
                    answer_soup = BeautifulSoup(answer_html, features="lxml")
                else:
                    answer_soup = answer_tags[0]

                make_faq(question_tag, answer_soup, faqs)

                break
            else:
                answer_tags.append(tag)
            
    return faqs

In [67]:
faqs_ = get_faq()
len(faqs_)

8

In [None]:
test_id = 17

print(faqs_[test_id].src_url)
print("---")
print(faqs_[test_id].q_txt)
print("---")
print(faqs_[test_id].a_txt)
print("---")
display(HTML(faqs_[test_id].a_html))

In [None]:
query_question = "Kultureinrichtungen und Kulturschaffende"

faq = [faq for faq in faqs_ if faq.q_txt == query_question][0]

print(faq.a_txt)
print("-----")
display(HTML(faq.a_html))