# 2. 문서 데이터

프로그램은 데이터를 처리하기 위해 사용하는데, 가장 중요한 데이터가 바로 **문서 데이터**이다. 
따라서 문서 데이터를 잘 다루는 도구와 친숙해지는 것이 매우 중요하며, 
그만큼 문서 데이터를 다루는 다양한 도구가 존재한다.
여기서는 문서 검색 도구를 활용하는 방법을 배우면서 주어진 문서를 조작 및 처리하여
원하는 정보를 얻어내는 기초적인 도구 사용법을 다룬다.

## 다루는 내용
* 인터넷 상의 문서 가져오기
* 문서에서 원하는 정보 추출오기
* 문자열 활용
* 문자열 메소드 소개 및 활용
* 모듈 활용
    * urllib.request 모듈
    * time 모듈

## 도구 1: 웹페이지의 소스코드 문서 가져오기

### 웹페이지 HTML 소스코드

먼저 웹페이지의 소스코드가 무엇인지부터 알아야 한다.
예를 들어 아래 사이트를 웹브라우저를 이용하여 방문하면 아래 사진처럼 보인다.

http://beans-r-us.appspot.com/prices.html

<p>
<table cellspacing="20">
<tr>
<td>
<img src="images/beans02.png" style="width:700px">
</td>
</tr>
</table>
</p>

하지만 웹브라우저가 우리에게 보여주는 것은 소스코드를 예쁘게 포장해서 보여주는 것이며, 
실제 소스코드는 아래 사진에서와 같이 전혀 다른 모습이다.

<p>
<table cellspacing="20">
<tr>
<td>
<img src="images/beans01.png" style="width:700px">
</td>
</tr>
</table>
</p>

위 소스코드는 HTML이라는 웹서버 개발 전용 프로그래밍언어로 작성된 코드이다.
위 코드 안에는 웹브라우저를 통해 전달되는 정보 내용 뿐만 아니라 바탕화면 색깔, 
글자 크기 및 폰트 등 웹페이지를 꾸미는 다양한 정보도 포함되어 있다.
웹브라우저는 내용과 정보를 함께 해석하여 사용자에게 적절한 방식으로 전달한다.

### 웹페이지 소스코드 문서 가져오기

앞서 언급한 소스코드 문서의 이름은 `prices.html`이며, 
이 문서는 `beans-r-us.appspot.com`이라는 웹서버에 저장되어 있다.

우리가 위 웹페이지의 주소 링크를 눌러 웹사이트에 접속한다는 것은 바로 
`beans-r-us.appspot.com` 서버에 소스코드 문서인
`index.html` 문서 내용을 보여달라고 요청하는 것이며,
해당 웹서버는 요청된 소스코드 문서를 웹브라우저에게 넘겨주고,
웹브라우저는 소스코드에 포함된 정보 내용을 함께 소스코드에 함께 
포함된 꾸미기 양식에 맞추어 예쁘게 포장하여 사용자에게 보여준다.

웹브라우저를 이용하지 않으면서 파이썬과 같은 프로그래밍언어를 이용하여 
특정 웹페이지의 소스코드를 직접 가져올 수 있다.
파이썬의 경우 예를 들어 `urllib.request` 라는 모듈을 활용하면 된다.

먼저 언급된 모듈을 임포트 해야 한다.

In [5]:
import urllib.request

#### 주의사항
* 모듈과 모듈의 활용에 대해서는 이후 자세히 다룬다. 
* 여기서는 모듈을 활용해야 한다는 사실과 어떻게 활용하는지만 기억한다.
* 모듈을 활용하는 가장 기본적인 방법은 해당 모듈을 임포트하는 것이다.
* 여기서는 특정 모듈을 임포트해야 한다라는 점만 기억하고 넘어간다.

이제 앞서 언급된 웹사이트의 HTML 소스코드를 가져오기 위해 아래와 같이 
`urllib.request` 모듈에 포함된 `urlopen`이란 함수를 활용하면 된다.

In [6]:
page = urllib.request.urlopen("http://beans-r-us.appspot.com/prices.html")

이제 `page` 변수에는 `urlopen` 함수가 읽어 와서 리턴하는 앞서 언급된 사이트의 HTML 소스코드가 할당된다.
그런데 다음처럼 `page` 내용을 직접 확인하려면 무언가 이상한 정보만 보여진다.

In [7]:
print(page)

<http.client.HTTPResponse object at 0x10716eef0>


이유는 `urlopen` 함수가 가져와 리턴하는 값에는 소스코드 이외에 소스코드가 담겨있는 HTML 문서와 관련된 
다른 정보도 함께 들어 있기 때문이다. 보다 자세한 사항은 지금 굳이 알 필요 없다.

소스코드 문서에서 소스코드만 추출하려면 아래와 같이 하면 된다.

In [9]:
text = page.read().decode("utf8")

이제 `text` 변수에는 해당 웹사이트의 소스코드가 할당된다.

In [10]:
print(text)

<html><head><title>Welcome to the Beans'R'Us Pricing Page</title>
<link rel="stylesheet" type="text/css" href="beansrus.css" />
</head><body>
<h2>Welcome to the Beans'R'Us Pricing Page</h2>
<p>Current price of coffee beans = <strong>$5.85</strong></p>
<p>Price valid for 15 minutes from Mon Mar 26 12:40:03 2018.</p>
</body></html>


`text` 변수에 할당된 값은 상당히 긴 문자열이다.

In [11]:
type(text)

str

앞서 사용한 `print` 함수는 문자열 자료형을 나타내는 인용부호도 보여주지 않고, 줄바꾸기 기호를 보여주는 대신에
실제로 줄바꾸기를 실행해서 나름 예쁘게 보여주고 있다. 
하지만 `text`에 할당된 문자열의 본색은 좀 더 이상하다.

In [13]:
text

'<html><head><title>Welcome to the Beans\'R\'Us Pricing Page</title>\n<link rel="stylesheet" type="text/css" href="beansrus.css" />\n</head><body>\n<h2>Welcome to the Beans\'R\'Us Pricing Page</h2>\n<p>Current price of coffee beans = <strong>$5.85</strong></p>\n<p>Price valid for 15 minutes from Mon Mar 26 12:40:03 2018.</p>\n</body></html>'

즉, 앞서 언급하였듯이 하나의 상당히 긴 문자열이다. 실제로 줄바꾸기 기호(`\n`)가 6번 사용되었음을
확인 할 수 있다. 실제로 앞서 `print` 함수를 호출했을 때의 결과에서 총 7줄이 보인다. 즉, 
줄바꾸기를 6번 한 결과이다.

<p>
<table cellspacing="20">
<tr>
<td>
<img src="images/beans03.png" style="width:700px">
</td>
</tr>
</table>
</p>

## 도구 2: 문자열에서 정보 찾기

앞서 `text` 변수에 할당된 값은 HTML 소스코드를 하나의 긴 문장으로 담고 있는 문자열임을 확인하였다.
실제로 줄바꾸기 기호(`\n`)도 하나의 문자이며 공백(` `), 인용부호(`'`) 등도 모두 하나의 문자로 처리된다.

### 문자열 자료형

문자열 자료형은 문자열, 즉, 문자들을 나열한 값들을 일컫는 자료형이다. 
모든 프로그래밍언어에 공통으로 사용되며, 프로그래밍 요소 중에 가장 핵심이라고 할 수 있다.
파이썬에서 문자열 자료형은 `str`로 표시되며 string(스트링, 문자열)의 줄임말이다.

문자열 자료형은 시퀀스(sequence) 자료형(data type)의 한 종류이며,
문자열 자료형에 대한 보다 자세한 설명은 [2장 추가자료](https://github.com/liganega/bpp/blob/master/notes/02-ThinkPython-Strings.ipynb)를 참조하면 된다.
문자열 이외에 시퀀스 자료형으로 불리는 자료형에는 리스트, 어레이, 튜플, 사전 등이 있으며
이후에 함께 살펴볼 것이다.

### 문자열 색인과 `find` 메소드

`text` 변수에 할당된 소스코드 문자열에서 커피 원두콩의 시세 정보만을 추출하고자 할 때 색인(인덱스, 오프셋) 정보를 활용한다. 

현재 원두콩의 시세 정보는 `5.85`인데 어떻게 시세 정보만을 프로그램이 추출할 수 있도록 할 수 있을까?
즉, 사람이 눈으로 보면서, 영어 문장을 이해하면서 시세 정보를 찾는 방식이 아니라
기계가 순전히 문자들의 모양만 보고 시세 정보를 알아내야 한다.

#### 주의사항
* `5.85` 부분은 위 프로그램을 실행할 때마다 변한다. 
* 다만, 소수점을 포함해서 길이가 4인 문자열이라는 점은 변하지 않는다.

가장 간단한 방법은 `'5.85'`라는 부분 문자열이 `text`에 할당된 문자열의 어느 곳에 위치하는지를 알아내는 것이다.
이를 위해 **색인** 정보를 활용한다.

먼저, `5.85`의 첫째 `5`의 색인을 수동으로 확인해 보면 234임을 알 수 있고, 그곳에서부터 4개의 문자를 읽으면
아래에서 보듯이 원하는 시세 정보임을 알 수 있다.
아래 코드는 색인 정보와 슬라이싱 기술을 활용한 결과를 보여준다.

In [15]:
text[234:238]

'5.85'

그런데 위와 같이 수동으로 색인을 확인하면 웹사이트의 소스코드가 조금만 변경되어도 문제를 발생시킬 수 있다. 

예를 들어, 주요 고객에게만 제공하는 좀 더 저렴한 커피 원두콩 시세 정보를 전달하는 아래 사이트에 
동일한 프로그램을 적용하면 엉뚱한 결과를 얻게 된다.

http://beans-r-us.appspot.com/prices-loyalty.html

In [16]:
import urllib.request

page = urllib.request.urlopen("http://beans-r-us.appspot.com/prices-loyalty.html")
text = page.read().decode("utf8")

In [17]:
text[234:238]

'bean'

수동으로 색인을 확인하는 방법의 한계를 극복하기 위해 다른 도구를 활용해야 하는데,
여기서는 `find`라는 문자열 메소드를 사용한다.

다시 원래의 질문으로 돌아가서 어떻게 시세 정보가 시작하는 곳의 색인을 구할 수 있는지 생각해보자.
원하는 색인을 특징지울 수 있는 무언가를 찾아야 한다.

예를 들어, 시세 정보는 `'>$'` 라는 문자열 바로 다음부터 시작한다는 특징을 이용한다.
즉, 문자열 `'>$'`가 `text`에 할당된 문자열의 어느 위치에서 시작하는지를 알아내기만 하면 된다.
그리고 이 정보는 바로 `find` 메소드가 찾아준다.

In [18]:
text.find('>$')

249

즉, 249번 색인 위치에서부터 `'>$'`가 시작한다는 의미이다.
따라서 그보다 2보다 큰 251번 색인에서 시세 정보가 시작한다는 것을 알게 되었다.
따라서 시세 정보를 아래와 같이 알아낼 수 있다.

In [23]:
where = text.find('>$') + 2
price = text[where : where + 4]

In [24]:
price

'4.44'

이렇게 `find` 메소드를 활용하면 웹사이트가 조금 변경된다 하더라도 동일한 프로그램을 이용하여 가격정보를 얻어낼 수 있다.

* 커피 원두콩 시세 정보 사이트(일반고객용)

In [28]:
import urllib.request

page = urllib.request.urlopen("http://beans-r-us.appspot.com/prices.html")
text = page.read().decode("utf8")

where = text.find('>$') + 2
price = text[where : where + 4]

print(price)

6.96


* 커피 원두콩 시세 정보 사이트(주요고객용)

In [29]:
import urllib.request

page = urllib.request.urlopen("http://beans-r-us.appspot.com/prices-loyalty.html")
text = page.read().decode("utf8")

where = text.find('>$') + 2
price = text[where : where + 4]

print(price)

4.47


## 이번에 배운 프로그래밍 도구
*

## 이번에 사용한 파이썬 도구
* 