## 1-1 데이터 다운로드하기
### 이장에서 배울 내용
* 파이썬의 네트워크 라이브러리 urlib
* urllib을 이용한 다운로드

### 웹상의 정보를 추출하는 방법
* 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 'urllib' 라이브러리 사용
* 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
* urllib은 URL을 다루는 모듈을 모아 놓은 패키지
* urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

### urllib.request를 이용한 다운로드
* urllib.request 모듈에 있는 urlretrieve() 함수 이용
* 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [1]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)
print("저장되었습니다")

mem=request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다
저장되었습니다..


![이미지확인](test.png)

### urlopen()으로 파일에 저장하는 방법
* request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [6]:
from urllib import request
# URL과 저장경로 지정하기
url="http://uta.pw/shodou/img/28/214.png"
savename="test1.png"
#다운로드
mem=request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


![저장그림확인](test1.png)

### 웹에서 데이터 추출하기
* XML 또는 HTML 등의 텍스트 기반 데이터 다운로드법
* 책과 함께 제공되는 웹 API <http://api.aoikujira.com/>

#### 클라이언트 접속 정보 출력해보기
* IP 주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP 확인 API" 접근해서 정보를 추출하는 프로그램

In [10]:
# IP 확인 API로 접근해서 결과 출력하기
# 모듈 읽어 들이기
from urllib import request

#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=116.127.90.25
REMOTE_HOST=116.127.90.25
REMOTE_PORT=35750
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.6
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




#### 매개변수를 추가해 요청을 전송하는 방법
* 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기
<http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp>
* 참고: 기상청 RSS <http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp>

|매개변수 | 의미|
|:---|:---|
|stnid | 기상정보를 알고 싶은 지역을 지정|

* 지역번호는 다음과 같음

지역 | 지역번호 | 지역 | 지역번호
---|:---|:---|:---
전국 | 108 | 전라북도 | 146
서울/경기도 | 109 | 전라남도 | 156
강원도 | 105 | 경상북도 | 143
충청북도 | 131 | 경상남도 | 159
충청남도 | 133 | 제주특별자치도 | 184

* 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.

In [2]:
from urllib import request, parse

API="http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnid':'108'
}

params=parse.urlencode(values)

#요청 전용 URL을 생성한다
url=API+"?"+params
print("url=", url)
#다운로드 한다.
data=request.urlopen(url).read()
text=data.decode("utf-8")
print(text)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnid=108
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</link>
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubDate>2019년 08월 15일 (목)요일 06:00</pubDate>
 <item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2019년 08월 15일 (목)요일 06:00 발표</title>
<link>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</link>
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
	<header>
		<title>전국 육상중기예보</title>
		<tm>201908150600</tm>
		<wf><![CDATA[기압골의 영향으로 21일은 제주도와 전남, 경남에 22일은 중부지방(강원영동 제외)에 비가 오겠습니다.<br />그 밖의 날은 북태평양고기압의 가장자리에 들어 구름많은 날이 많겠습니다.<br />기온은 평년(최저기온: 18~24℃, 최고기온: 26~31℃)보다 조금 높겠습니다.<br />강수량은 평년(6~16mm)과 비슷하거나 조금 많겠으나, 강원영동과 전북, 경북은 적겠습니다.<br /><br />* 낮 기온이 내륙을 중심으로 33도 이상 오르면서 무덥겠고, 열대야가 나타나는 곳이 있겠으니,<br />  건강관리에 

* GET 방식으로 매개변수 전송법
http://example.com?key1=value1&key2=value2...