# html.parser
html.parser는 html 문서를 파싱할 때 사용하는 모듈

# 예제 1
html 파일에서 내용을 굵은 글씨로 표시하는 태그와 태그 사이의 문자열을 모두 찾아서 출력하는 프로그램

In [1]:
# html_sample_1.html

In [2]:
from html.parser import HTMLParser

In [3]:
class MyHTMLParser(HTMLParser):  # HTMLParser 클래스 상속
    def __init__(self):
        HTMLParser.__init__(self)
        self.is_strong = False

    def handle_starttag(self, tag, attrs):  # 태그가 열릴 때 호출
        if tag == 'strong':  # <strong> 태그 시작
            self.is_strong = True

    def handle_endtag(self, tag):  # 태그가 닫힐 때 호출
        if tag == 'strong':  # </strong> 태그 닫힘
            self.is_strong = False

    def handle_data(self, data):  # 해당 태그 사이의 문자열을 data 변수로 전달
        if self.is_strong:  # <strong> ~ </strong> 구간인 경우
            print(data)  # 데이터를 출력        

In [4]:
with open('html_sample_1.html') as f:
    parser = MyHTMLParser()
    parser.feed(f.read())

practicality
never
Now
right


# 예제 2
html 파일에서 <a> 태그와 </a> 태그 사이의 하이퍼링크를 모두 찾아서 출력하는 프로그램

In [5]:
# html_sample_2.html

In [6]:
from html.parser import HTMLParser

In [7]:
class MyHTMLParser(HTMLParser):  # HTMLParser 클래스 상속
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []

    def handle_starttag(self, tag, attrs):  # 태그가 열릴 때 호출
        if tag == 'a':  # <a> 태그 시작
            if len(attrs) == 0:  # <a> 태그 속성이 없을 경우
                pass
            else:  # <a> 태그 속성이 있을 경우
                for (variable, value) in attrs:
                    if variable == "href":  # 속성 변수가 하이퍼링크일 경우
                        self.links.append(value)
                        print(value)

In [9]:
with open('html_sample_2.html') as f:
    parser = MyHTMLParser()
    parser.feed(f.read())

https://www.google.com
https://www.youtube.com
https://www.fastcampus.co.kr


In [10]:
parser.links

['https://www.google.com',
 'https://www.youtube.com',
 'https://www.fastcampus.co.kr']