# 웹상의 정보를 추출하는 방법 

파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 "urllib 라이버르리"를 사용합니다. 이 라이브러리를 이용하면 HTTP 또는 FTP를 사용해 데이터를 다운로드할 수 있음.

urllib은 URL을 다루는 모듈을 모아 놓은 패키지라고 할 수 있음.

그중에서도 urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능을 제공함. 또한 인증, 리다이렉트, 쿠키(Cookie) 처럼 인터넷을 이용한 다양한 요청과 처리를 지원함

# urllib.request를 이용한 다운로드

일단 웹 사이트에서 파일을 다운로드하는 방법을 살펴봄

파일을 다운로드할 때는 urllib.request 모듈에 있는 urlretrieve() 함수를 사용함. 이 함수를 이용하면 직접 파일을 다운로드할 수 있음.

다음 코드는 웹에 있는 PNG 파일을 "test.png"라는 이름의 파일로 저장한 예임.


In [4]:
# 라이브러리 읽어 들이기
import urllib.request

# URL과 저장 경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test.png"

# 다운로드
urllib.request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


파이썬 라이브러리를 사용하려면 import 구문을 사용해 라이브러리를 읽어 들여야함. 프로그램에서는 urllib.request 모듈을 읽어 들입니다. "urllib.request"처럼 " " 으로 구분된 모듈을 지정한 것은 "urllib 패키지 내부에 있는 request 모듈" 이라는 의미임

프로그램의 2번에서 파일을 다운로드함. urlretrieve()의 첫 번째 매개변수에 URL을, 두 번째 매개변수에 저장할 파일의 경로를 지정함.

파이썬을 이용하면 파일을 다운로드할 때 이처럼 몇 줄의 코드만 있으면됨.

# urlopen()으로 파일에 저장하는 방법

방금 살펴본 예제에서는 request.urlretrieve() 함수를 사용해 파일에 곧바로 저장했는데, 이번에 request.urlopen()을 사용하는 방법을 소개하겠슴.
request.urlopen()을 사용하면 곧바로 파일로 저장하는 것이 아니라 데이터를 파이썬 메모리 위에 올릴 수 있음.

그럼 request.urlopen()을 아ㅣ용해 메모리 위에 데이터를 올리고, 이후에 파일을 저장해보겠음. 이 과정은 데이터를 추출하고, 파일로 저장하는 흐름에 따라 진행됨

In [6]:
import urllib.request 

# URL과 저장 경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"

# 다운로드 - 1
mem = urllib.request.urlopen(url).read()

# 파일로 저장하기 - 2
with open(savename, mode = "wb") as f:
    f.write(mem)
    print("저장되었습니다")

저장되었습니다


(1)에서는 urlopen() 함수로 PNG 파일의 URL리소스를 염. 이어서 read() 메서드로 데이터를 읽어 들임.
그리고(2)에서는 파일을 여는 open() 함수로 파일을 엽니다. 이때 파일을 읽고 쓰기 모드를 나타내는 mode를 "wb"로 파일을 염."w"는 쓰기 모드, "b"는 바이너리 모드를 의미함.

그리고 write() 메서드로 다운로드한 바이너리 데이터를 파일에 저장함


# 웹에서 데이터 추출하기

이어서 웹에서 XML 또는 HTML 등의 텍스트 기반 데이터를 다운로드하는 방법을 소개하겠습니다. 이번에는 간단한 다운로드 예로 필자가 운용하고 있는 웹 API를 사용해보겠음

### http://api.aoikujira.com/

# 클라이언트 접속 정보 출력해보기

일단 기본적인 사용법을 살펴보겠음. 다음은 IP 주소, UserAgent 등의 클라이언트 접속 정보를 출력하는 "IP 확인 API"에 접근해서 정보를 추출하는 프로그램임

In [10]:
# IP 확인 API로 접근해서 결과 출력하기
# 모듈 읽어 들이기 - 1
import urllib.request

# 데이터 읽어 들이기 - 2
url = "http://api.aoikujira.com/ip/ini"
res = urllib.request.urlopen(url)
data = res.read()

# 바이너리 문자열로 변환하기 - 3
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=223.39.188.57
REMOTE_HOST=223.39.188.57
REMOTE_PORT=56344
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




결과를 확인했으면 프로그램을 살펴봅시다. 프로그램 (1)에서는 urllib.request 모듈을 읽어 들임.

이어서 프로그램의 (2)에서는 request.urlopen() 메서드를 호출함. 그리고 read() 메서드를 사용해 데이터를 읽어 들임.

read() 메서드로 읽어 들인 데이터는 바이너리 데이터임. 따라서 프로그램(3)에서 decode() 메서드를 사용해 바이너리를 문자열로 변환함. 문자열로 변환한 이후에 print() 함수로 표준 출력에 데이터를 출력함

만약 FTP 상의 리소스를 추출하고 싶으면 request.urlopen()에 지정한 URL을 "http://"에서 "ftp://"로 변경하면됨.

# 매개변수를 추가해 요청을 전송하는 방법

이어서 URL에 매개변수를 추가해 요청을 전송하는 방법을 확인해보겠음. 이번 예제에서는 기상청의 RSS 서비스를 사용해보겠음. 기상청 RSS는 다음과 같은 URL에 지역번호를 지정하면 해당 지역의 정보를 제공해줌.

### http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp

이때 지역 번호는 매개변수로 지정함.

파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parser 모듈의 urlencode() 함수를 사용해 매개변수를 URL 인코딩함.

그럼 실제로 지역 번호를 사용해 기상 정보를 가져오는 프로그램을 만들어봅시다.

In [15]:
import urllib.request
import urllib.parse

API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# 매개변수를 URL 인코딩함 -1
values = {
  
}
params = urllib.parse.urlencode(values)

#  요청 전용 URL을 생성함 - 2
url = API + "?" + params
print("url=", url)

# 다운로드함 - 3
data = urllib.request.urlopen(url).read()
text = data.decode("utf-8")
print(text)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2020년 05월 09일 (토)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2020년 05월 09일 (토)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
	<header>
		<title>전국 육상중기예보</title>
		<tm>202005090600</tm>
		<wf><![CDATA[○ (강수) 15일(금)은 제주도와 남부지방, 충청도에 비가 시작되어 16일(토)은 전국에 비가 오겠습니다.<br />○ (기온) 19일(화)까지 낮 기온은 어제(17~29도)와 비슷한 18~28도의 분포가 되겠습니다.<br />          한편, 13일(수)~15일(금)과 17일(일)~19일(화) 내륙을 중심으로 25도 이상 오르는 곳이 많아 덥겠으나, <br />                16일(토)은 비로 인해 낮 기온이 오르지 못해 20~24도의 분포가 되겠습니다.]]></wf>
	</header>
	<body>
			

프로그램의 (1)에서는 딕셔너리(dict) 자료형의 매개변수를 URL 인코딩함. URL 인코딩을 위해 urllib.parse 모듈을 사용함.

이어서 프로그램의 (2)에서는 요청 전용 URL을 생성하고, 표준 출력에 URL을 출력함. URL인코딩 결과가 위의 실행 결과의 첫 번째 출에 출력된 것임.
이처럼 요청을 전송할 때는 다음과 같은 URL을 보내게됨.

URL 끝부분에 "?"을 입력하고, "<key>=<values>" 형식으로 매개변수를 작성하면됨. 여러 개의 매개변수를 사용할 때는 "&"을 사용해 구분해줌.
   
사실 이번 예제에서는 매개변수로 간단한 숫자를 사용하므로 복잡한 처리를 따로 사용하지 않고 매개변수를 곧바로 URL에 지정해서 사용해도 됨. 하지만 매개변수에 한국어 등이 포함돼 있다면 URL 인코딩을 해야함.

# 매개변수를 명령줄에서 지정하기

그런데 현재 프로그램은 매개변수를 코드에 입력해야 하므로 다른 지역의 정보를 알아내고 싶을 때는 프로그램을 열고 수정해야함. 이런 귀찮은 과정을 거치지 않고 명령줄에서 곧바로 지역 번호를 입력하고 사용할 수 있다면 어떨까?


In [19]:
#!/usr/bin/env python3

# 라이브러리를 읽어 드림 -- 1
import sys 
import urllib.request as req
import urllib.parse as parse

# 멸령줄 매개변수 추출 -- 2
if len(sys.argv) <= 1:
    print("USAGE: download-forecast-argv <Region Number>")
    sys.exit()
regionNumber = sys.argv[1]

# 매개변수를 인코딩함 -- 3
API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
values = {
    'stnId' : 'regionNumber'
}

params = parse.urlencode(values)
url = API + "?" + params
print("url=", url)

# 다운로드함 -- 4
data = req.urlopen(url).read()
text = data.decode("utf-8")
print(text)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=regionNumber



$python3 download-forecast-argv 108 
$python3 download-forecast-argv 109
$python3 download-forecast-argv 184

입력한 명령줄 매개변수에 따라 결과가 달라질 것임. 그럼 파이썬 프로그램을 확인해봅시다.

프로그램(1)에서는 라이브러리를 읽어 들임. 명령줄 매개변수를 추출할 때 사용하는 sys 모듈을 읽어 들임. 또한 import 구문에 as를 지정해서 모듈을 원하는 이름으로 사용할 수 있게 했음. 현재 코드에서는 urllib.request를 req이라는 이름으로, urllib.parse는 parse라는 이름으로 선언함. 이처럼 모듈에 별칭(alias)을 정의하면 프로그램을 작성할 때 키보드를 입력하는 횟수를 줄 일 수 있음.

이어서 프로그램의 (2)를 살펴보겠음. 여기서는 명령줄 매개변수를 조정함. 명령줄 매개변수는 sys.argv에 리스트 형태로 들어옴. sys.argv[0]에는 스크립트의 이름, sys.argv[1] 이후에는 명령줄 매개변수가 설정됨. 몇 개의 매개변수가 지정돼 있는지는 len(sys.argv) 처럼len() 함수를 사용해 확인할 수 있음. 그리고 파이썬 프로구램을 중단할 때는 sys.exit() 또는 quit() 함수를 사용함. 

프로그램의 (3)에서는 URL 매개변수를 생성하기 위해 URL 인코딩함. 사실 숫자로 입력하므로 따로 필요는 없지만 한국어 등을 사용할 때는 필수이므로 기억해두는 것이 좋음. 이부분을 제외하면 이전에 만든 프로그램과 완전히 같은 프로그램임. 프로그램의 (4)에서 데이터를 추출하고, 결과를 표준 출력에 출력함.

