# **Chapter 9. [인터넷/웹] 최신 뉴스 이메일로 받아보기**


---
### 📝 **학습 목차**
> 9-1. 프로젝트 개요 <br>
> 9-2. 웹브라우저 실행 및 저장 - webbrowser, urllib <br>
> 9-3. 웹페이지에서 원하는 텍스트만 추출- html.parser <br>
> 9-4. 이메일 확인하기 - poplib <br>
> 9-5. 이메일 보내기 - smtplib <br>
> 9-6. 최신 뉴스 확인하기 - BeautifulSoup <br>
> **9-7. 프로젝트 실습**

## 9-7. 최신 뉴스 이메일로 받아보기 📰

> ### 진행 순서
>  1. 뉴스 홈페이지 접속
>  2. 웹페이지 저장
>  3. 뉴스 속보 크롤링
>  4. 이메일 보내기
>  5. 이메일 수신 확인

#### 9-7-1. 뉴스 홈페이지 접속

In [1]:
import webbrowser

# 네이버 뉴스 속보 홈 (연합뉴스)
url = 'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&sid1=001&sid2=140&oid=001&isYeonhapFlash=Y'

In [2]:
# 브라우저 실행
webbrowser.open(url)

True

#### 9-7-2. 웹페이지 저장

In [4]:
import urllib

In [7]:
# 뉴스 속보 페이지를 html 파일로 저장
def save_to_html(url):   
    with urllib.request.urlopen(url) as s:           # 웹 페이지 리소스 객체 생성
        with open('breaking_news.html', 'wb') as f:
            f.write(s.read())                        # 리소스 내용을 읽어서 html 파일로 저장

In [8]:
save_to_html(url)

#### 9-7-3. 뉴스 속보 크롤링

In [9]:
from bs4 import BeautifulSoup
import requests

# 헤더 추가
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}

# 서버 응답 확인
response = requests.get(url, headers=headers)

In [10]:
# BeautifulSoup 객체 생성
beautifulSoup = BeautifulSoup(response.content, "html.parser")

In [16]:
# 페이지 제목 크롤링
page_title = beautifulSoup.title.string
print(page_title)

연합뉴스
			 속보 홈 : 네이버 뉴스	


In [26]:
# 공백 제거
import re
regex = re.compile(r'[\n\r\t]')
page_title = regex.sub(' ', page_title)

In [27]:
page_title

'연합뉴스      속보 홈 : 네이버 뉴스 '

In [14]:
# 페이지 상단 텍스트 크롤링
main_contents = beautifulSoup.find("dl", attrs={"class":"type04"}).get_text()
print(main_contents)




'적반하장' 북한군 총참모부 "남측은 무모한 도발 중단하라"
"도발 묵과 안 하고 철저하고 압도적 군사적 대응"남측의 정상적 훈련 트집 잡으며 9·19 군사합의 어겼으면서 되레 큰 소리북한, 오후...
            연합뉴스2022.10.15


北, 새벽 이어 오후에도 동·서해 포격도발…9·19합의 내팽개쳐연합뉴스2022.10.14


北, 역대급 도발 배경은…핵보유 자신감 바탕 의도적 긴장 고조연합뉴스2022.10.14


대통령실 "9·19군사합의 유지 여부, 北태도에 달렸다"연합뉴스2022.10.14


美 "北, 도발중단해야…美, 비핵화 위한 대화·외교에 열려있어"연합뉴스2022.10.15






In [15]:
# 페이지 하단 텍스트 크롤링
sub_contents = beautifulSoup.find("ul", attrs={"class":"type02"}).get_text()
print(sub_contents)



'이스타 채용 부정' 이상직 전 의원 구속…법원 "도주 우려"
연합뉴스
2022.10.15. 오전 12:34


인천서 성 소수자 퀴어축제 열려…인근서 반대 집회도
연합뉴스
2022.10.15. 오후 1:42


의정부시장 "모든 행정 수단 동원, 김근식 의정부 이송 막겠다"
연합뉴스
2022.10.15. 오전 10:29


이재명, 바이든에 IRA 개정 요청 서한 "한미, 미래산업 파트너"
연합뉴스
2022.10.15. 오후 1:25


옐런 美재무 "물가잡기 할 일 더 있다"…강달러 지속 재확인
연합뉴스
2022.10.15. 오전 5:00


편의점 비닐봉지 한달후엔 못쓴다…시행초기 혼란 우려도
연합뉴스
2022.10.15. 오전 7:27


나토 전폭기 띄우고 러시아 ICBM 훈련…맞불 무력시위 재점화
연합뉴스
2022.10.15. 오전 10:49


평택 제빵공장서 20대 여성 소스 배합 기계에 껴 숨져
연합뉴스
2022.10.15. 오후 12:37


BTS 따라 아미도 부산행…"팬 된 이유? '나 자신 사랑하라' 알려줘"
연합뉴스
2022.10.15. 오후 1:43




#### 9-7-4. 이메일 보내기

In [38]:
#  멀티파트 객체 생성
import smtplib
from email.mime.multipart import MIMEMultipart
msg = MIMEMultipart() 

In [39]:
# 이메일 송수신자 설정
msg['From'] = 'belief.park705@gmail.com'
msg['To'] = 'belief@postech.ac.kr'

In [40]:
# 날짜 설정
from email.utils import formatdate
msg['Date'] = formatdate(localtime=True)  # 현재 지역에 맞는 날짜
msg['Date']

'Sat, 15 Oct 2022 15:21:50 +0900'

In [41]:
# 이메일 제목/본문 작성
from email.header import Header
from email.mime.text import MIMEText
msg['Subject'] = Header(s = page_title, charset='utf-8')
body = MIMEText(main_contents + sub_contents, _charset='utf-8')

In [42]:
# 메일 본문 추가
msg.attach(body)

In [43]:
# 파일 첨부
import os
from email.mime.base import MIMEBase
from email.encoders import encode_base64

files = list()
files.append('breaking_news.html')

for f in files:
    part = MIMEBase('application', "octet-stream")
    part.set_payload(open(f, "rb").read())
    encode_base64(part)                           # 바이너리 파일 base64 인코딩
    part.add_header('Content-Disposition', 'attachment; filename="%s"' % os.path.basename(f))
    msg.attach(part)                              # 파일 첨부

In [44]:
# 메일 발송
import getpass

mailServer = smtplib.SMTP_SSL('smtp.gmail.com')                  # SMTP 서버를 사용한 메세지 발송
mailServer.login('belief.park705@gmail.com', getpass.getpass())  # 본인 계정과 비밀번호 사용 (Gmail : 앱 비밀번호)
mailServer.send_message(msg)
mailServer.quit()

········


(221,
 b'2.0.0 closing connection s21-20020a056a00195500b00562ef28aac6sm2835609pfk.185 - gsmtp')

#### 9-7-5. 이메일 수신 확인

In [46]:
import poplib

# 암호화된 소켓 연결 (기본 995 포트)
server = poplib.POP3_SSL('outlook.office365.com', port=995)

In [47]:
# ID 입력
server.user('belief@postech.ac.kr')

b'+OK'

In [48]:
# Password 입력
import getpass
server.pass_(getpass.getpass())

········


b'+OK User successfully logged on.'

In [50]:
import email
from email.header import decode_header, make_header

# 가장 최근 메세지 확인
recent_no = server.stat()[0]

# 메세지 가져오기 (바이트 문자열, 두번째 요소가 메세지 내용)
server.retr(recent_no)

# 줄바꿈으로 메세지 내용 조인
raw_email = b'\n'.join(server.retr(recent_no)[1])

# 메세지 객체 생성
message = email.message_from_bytes(raw_email)

In [51]:
# 송신자 확인
fr = message.get('From')
print(fr)

beliefpark705@gmail.com


In [52]:
# 제목 확인
subject = make_header(decode_header(message.get('Subject')))
print(subject)

연합뉴스      속보 홈 : 네이버 뉴스 


In [71]:
# 본문 확인
attachments = []

if message.is_multipart():
    # 멀티 파트라면 여러개로 나누어진 메세지를 하니씩 처리
    for part in message.walk():
        ctype = part.get_content_type()
        cdispo = str(part.get('Content-Disposition'))
        print(ctype)
        
        # 컨텐츠에 첨부파일이 있다면
        if 'attachment' in cdispo:
            name = part.get_filename()
            data = part.get_payload(decode=True)
            f = open(name,'wb')
            f.write(data)
            f.close()
            attachments.append(name)    
        
        # 컨텐츠가 text/plain 이고, 첨부파일이 없다면
        if ctype == 'text/plain' and 'attachment' not in cdispo:
            body = part.get_payload(decode=True)  # 메세지 내용 추출
        
else:
    # 싱글 파트라면
    body = message.get_payload(decode=True)       # 메세지 내용 추출

multipart/mixed
text/plain
application/octet-stream


In [72]:
body = body.decode('utf-8')

print(f"보낸사람:{fr}")
print(f"제목:{subject}")
print(f"내용:{body}")
print(f"첨부파일:{attachments}")

보낸사람:beliefpark705@gmail.com
제목:연합뉴스      속보 홈 : 네이버 뉴스 
내용:


'적반하장' 북한군 총참모부 "남측은 무모한 도발 중단하라"
"도발 묵과 안 하고 철저하고 압도적 군사적 대응"남측의 정상적 훈련 트집 잡으며 9·19 군사합의 어겼으면서 되레 큰 소리북한, 오후...
            연합뉴스2022.10.15


北, 새벽 이어 오후에도 동·서해 포격도발…9·19합의 내팽개쳐연합뉴스2022.10.14


北, 역대급 도발 배경은…핵보유 자신감 바탕 의도적 긴장 고조연합뉴스2022.10.14


대통령실 "9·19군사합의 유지 여부, 北태도에 달렸다"연합뉴스2022.10.14


美 "北, 도발중단해야…美, 비핵화 위한 대화·외교에 열려있어"연합뉴스2022.10.15





'이스타 채용 부정' 이상직 전 의원 구속…법원 "도주 우려"
연합뉴스
2022.10.15. 오전 12:34


인천서 성 소수자 퀴어축제 열려…인근서 반대 집회도
연합뉴스
2022.10.15. 오후 1:42


의정부시장 "모든 행정 수단 동원, 김근식 의정부 이송 막겠다"
연합뉴스
2022.10.15. 오전 10:29


이재명, 바이든에 IRA 개정 요청 서한 "한미, 미래산업 파트너"
연합뉴스
2022.10.15. 오후 1:25


옐런 美재무 "물가잡기 할 일 더 있다"…강달러 지속 재확인
연합뉴스
2022.10.15. 오전 5:00


편의점 비닐봉지 한달후엔 못쓴다…시행초기 혼란 우려도
연합뉴스
2022.10.15. 오전 7:27


나토 전폭기 띄우고 러시아 ICBM 훈련…맞불 무력시위 재점화
연합뉴스
2022.10.15. 오전 10:49


평택 제빵공장서 20대 여성 소스 배합 기계에 껴 숨져
연합뉴스
2022.10.15. 오후 12:37


BTS 따라 아미도 부산행…"팬 된 이유? '나 자신 사랑하라' 알려줘"
연합뉴스
2022.10.15. 오후 1:43


첨부파일:['breaking_news.html']


In [76]:
# 첨부파일 열기
webbrowser.open('file://' + os.path.realpath(attachments[0]))

True