# **Chapter 9. [인터넷/웹] 최신 뉴스 이메일로 받아보기**


---
### 📝 **학습 목차**
> 9-1. 프로젝트 개요 <br>
> 9-2. 웹브라우저 실행 및 저장 - webbrowser, urllib <br>
> **9-3. 웹페이지에서 원하는 텍스트만 추출- html.parser** <br>
> 9-4. 이메일 확인하기 - poplib <br>
> 9-5. 이메일 보내기 - smtplib <br>
> 9-6. 최신 뉴스 확인하기 - BeautifulSoup <br>
> 9-7. 프로젝트 실습

## 9-3. 웹페이지에서 원하는 텍스트만 추출

> ### html.parser
>  - `html.parser` 는 HTML 문서를 파싱할 때 사용하는 모듈

#### 예제 1
HTML 파일에서 내용을 굵은 글씨로 표시하는 <strong> 태그와 </strong> 태그 사이의 문자열을 모두 찾아서 출력하는 프로그램

In [None]:
# html_sample_1.html

<html>
<head>
<title>Python Zen</title>
</head>
<body>
<h2>The Zen of Python, by Tim Peters</h2>
<ul>
  <li>Beautiful is better than ugly.</li>
  <li>Explicit is better than implicit.</li>
  <li>Simple is better than complex.</li>
  <li>Complex is better than complicated.</li>
  <li>Flat is better than nested.</li>
  <li>Sparse is better than dense.</li>
  <li>Readability counts.</li>
  <li>Special cases aren't special enough to break the rules.</li>
  <li>Although <strong>practicality</strong> beats purity.</li>
  <li>Errors should <strong>never</strong> pass silently.</li>
  <li>Unless explicitly silenced.</li>
  <li>In the face of ambiguity, refuse the temptation to guess.</li>
  <li>There should be one-- and preferably only one --obvious way to do it.</li>
  <li>Although that way may not be obvious at first unless you're Dutch.</li>
  <li><strong>Now</strong> is better than never.</li>
  <li>Although never is often better than <strong>right</strong> now.</li>
  <li>If the implementation is hard to explain, it's a bad idea.</li>
  <li>If the implementation is easy to explain, it may be a good idea.</li>
  <li>Namespaces are one honking great idea -- let's do more of those!</li>
</ul>
</body>
</html>

In [None]:
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):   # HTMLParser 클래스 상속
    def __init__(self):
        HTMLParser.__init__(self)
        self.is_strong = False

    def handle_starttag(self, tag, attrs):   # 태그가 열릴 때 호출
        if tag == 'strong':                  # <strong> 태그 시작
            self.is_strong = True

    def handle_endtag(self, tag):            # 태그가 닫힐 때 호출
        if tag == 'strong':                  # </strong> 태그 닫힘
            self.is_strong = False

    def handle_data(self, data):             # 해당 태그 사이의 문자열을 data 변수로 전달
        if self.is_strong:                   # <strong>~</strong> 구간인 경우
            print(data)                      # 데이터를 출력

In [1]:
with open('html_sample_1.html') as f:
    parser = MyHTMLParser()
    parser.feed(f.read())

practicality
never
Now
right


#### 예제 2
HTML 파일에서 문서를 연결하는 \<a> 태그와 \</a> 태그 사이의 하이퍼링크를 모두 찾아서 출력하는 프로그램

In [None]:
# html_sample_2.html

<a href="https://www.google.com"> Google </a>

<A Href="https://www.youtube.com"> YouTube </a>

<A HREF="https://www.fastcampus.co.kr"> FastCampus </a>

In [3]:
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):   # HTMLParser 클래스 상속
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []

    def handle_starttag(self, tag, attrs):    # 태그가 열릴 때 호출
        if tag == "a":                        # <a> 태그 시작
            if len(attrs) == 0:               # <a> 태그 속성이 없을 경우
                pass          
            else:                             # <a> 태그 속성이 있을 경우
                for (variable, value) in attrs:
                    if variable == "href":    # 속성 변수가 하이퍼링크일 경우
                        self.links.append(value)
                        print(value)

In [4]:
with open('html_sample_2.html') as f:
    parser = MyHTMLParser()
    parser.feed(f.read())

https://www.google.com
https://www.youtube.com
https://www.fastcampus.co.kr


In [5]:
parser.links

['https://www.google.com',
 'https://www.youtube.com',
 'https://www.fastcampus.co.kr']