# 웹 크롤링1

# 실습코드
Q: 실습 파트의 코드를 작성하고 그 코드를 작성한 이유에 대해서 (강의에서 배운 내용 위주로) 주석으로 작성해주기 바랍니다.

## 1. urllib
* 파이썬은 웹 사이트에 있는 데이터를 추출하기 위해 urllib 라이브러리 사용
* 이를 이용해 HTTP 또는 FTP를 사용해 데이터 다운로드 가능
* urllib 은 URL을 다루는 모듈을 모아 놓은 패키지
* urllib.request 모듈은 웹 사이트에 있는 데이터에 접근하는 기능 제공, 또한 인증, 리다렉트, 쿠키처럼 인터넷을 이용한 다양한 요청과 처리가 가능

In [77]:
from urllib import request    # urllib 라이브러리 불러오기

## 1.1 urllib.request 를 이용한 다운로드
* urllib.re1quest 모듈에 있는 urlretrieve()함수 이용
* 다음의 코드는 PNG 파일을 test.png 라는 이름의 파일로 저장하는 예제임

In [78]:
# 라이브러리 읽어들이기
from urllib import request

url = "http://uta.pw/shodou/img/28/214.png"     # url 변수에 주소 입력
savename = "test.png"           # 파일 저장

request.urlretrieve(url,savename)    # 파일에 직접 저장
print("저장되었습니다")

저장되었습니다


## 1.2 urlopen으로 파일에 저장하는 방법
* request.urlopen()은 메모리에 데이터를 올린 후 파일에 저장하게 된다.

In [79]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:   
    f.write(mem)               # f.write 를 씀으로써 화면에 출력이 아닌 파일에 결과값을 반영
    print("저장되었습니다..")

저장되었습니다..


## 1.3 API 사용하기
### 클라이언트 접속 정보 출력 (기본)
* API는 사용자의 요청에 따라 정보를 반환하는 프로그램
* IP주소, UserAgent 등 클라이언트 접속정보 출력하는 "IP확인 API" 접근해서 정보를 추출하는 프로그램

In [80]:
# 데이터 읽어들이기
url = "http://api.aoikujira.com/ip/ini"
res = request.urlopen(url)
data = res.read()  # .read 를 이용해서 주소의 내용을 data에 저장

# 바이너리를 문자열로 변환하기
text = data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=221.153.206.48
REMOTE_HOST=221.153.206.48
REMOTE_PORT=38926
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup
* 스크레이핑(Scraping or Crawling)이란 웹 사이트에서 데이터를 추출하고, 원하는 정보를 추출하는 것을 의미
* BeautifulSoup 란 파이썬으로 스크레이핑할 때 사용되는 라이브러리로서 HTML/XML 에서 정보를 추출할 수 있도록 도와줌. 그러나 다운로드 기능은 없음
* 파이썬 라이브러리는 pip 명령어를 이용해 설치 가능. Python Package Index(PyPI)에 있는 패키지 명령어를 한줄로 설치 가능
pip install beautifulsoup4

### 패키지 import 및 예제 HTML

In [81]:
from bs4 import BeautifulSoup

In [82]:
html = """             
<html><body>
    <h1>스크레이핑이란?</h1>
    <p>웹 페이지를 분석하는 것</p>
    <p>원하는 부분을 추출하는 것</p>
</body><html>
"""      # html에 태그 별 내용 저장

## 2.1 기본 사용
* 다음은 Beautifulsoup를 이용하여 웹사이트로부터 HTML을 가져와 문자열로 만들어 이용하는 예제임
* h1 태그를 접근하기 위해 html-body-h1 구조를 사용하여 soup.html.body.h1 이런식으로 이용하게 됨.
* p 태그는 두개가 있어 soup.html.body.p 한 후 next_sibling을 두 번 이용하여 다음 p를 추출. 한번만 하면 그 다음 공백이 추출됨.
* HTML 태그가 복잡한 경우 이런 방식으로 계속 진행하기는 적합하지 않음.

### 2) HTML 분석하기

In [83]:
soup = BeautifulSoup(html, 'html.parser')  #BeautifulSoup를 이용하여 html를 불러옴

### 3) 원하는 부분 출력하기

In [84]:
h1 = soup.html.body.h1         # h1태그 저장
p1 = soup.html.body.p          # p의 첫번째 문장 저장
p2 = p1.next_sibling.next_sibling  # p의 다음 문장 저장

### 4) 요소의 글자 출력하기

In [85]:
print(f"h1 = {h1.string}")    
print(f"p = {p1.string}")
print(f"p = {p2.string}")

h1 = 스크레이핑이란?
p = 웹 페이지를 분석하는 것
p = 원하는 부분을 추출하는 것


## 2.2 요소를 찾는 method
### 단일 element 추출: find()
BeautifulSoup는 루트부터 하나하나 요소를 찾는 방법 말고도 find()라는 메소드를 제공함

In [86]:
soup = BeautifulSoup(html, 'html.parser')

* 1) find() 메서드로 원하는 부분 추출하기

In [87]:
title = soup.find("h1")      # h1태그 부분을 찾아 저장
body = soup.find("p")
print(title)                # title 변수 출력

<h1>스크레이핑이란?</h1>


* 2) 텍스트 부분 출력하기

In [88]:
print(f"#title = {title.string}" )         # title 부분 텍스트 출력
print(f"#body = {body.string}" )           # body 부분 텍스트 출력    태그 p의 첫문장밖에 출력되지 않음.

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


### 복수 elements 추출: find_all()
여러개의 태그를 한번에 추출하고자 할때 사용함. 다음의 예제에서는 여러개의 태그를 추출하는 법을 보여주고 있음.

In [89]:
html = """ 
<html><body>
    <ul>
        <li><a href="http://www.naver.com">naver</a></li>
        <li><a href="http://www/daum.net">daum</a></li>
    </ul>
</body></html>
"""                    # html 의 태그 요소들 저장

soup = BeautifulSoup(html, 'html.parser')

* 1) find_all() 메서드로 추출하기

In [90]:
links = soup.find_all("a")       # a href로 되어있는 태그 부분 링크에 저장
print(links, len(links))         # links에 들어가있는 태그 다 출력

[<a href="http://www.naver.com">naver</a>, <a href="http://www/daum.net">daum</a>] 2


* 2) 링크 목록 출력하기

In [91]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string     # 링크에 있는 문구 text 변수에 저장
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www/daum.net


## 3. Css Selector
Css Selector란, 웹상의 요소에 css를 적용하기 위한 문법으로, 즉 요소를 선택하기 위한 패턴입니다.


## BeautifulSoup 에서 Css Selector 사용하기

In [92]:
html = """
<html><body>
<div id =  "meigen">
    <h1>위키북스 도서</h1>
    <ul class = "items">
        <li>유니티 게임 이펙트 입문</li>
        <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
        <li>모던 웹사이트 디자인의 정석</li>
    </ul>
</div>
</body></html>
"""

# HTML 분석하기
soup = BeautifulSoup(html, 'html.parser')

* 필요한 부분을 CSS 쿼리로 추출하기

In [93]:
# 타이틀 부분 추출하기 --- (#3)
h1 = soup.select_one("div#meigen > h1").string   # div meigen의 h1 태그 내용 문자열로 저장
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (#4)
li_list = soup.select("div#meigen > ul.items > li")  # div meigen의 ul items 에서 li태그 내용 저장
for li in li_list:    
    print(f"li = {li.string}")   # 순서대로 출력

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제

앞서 배운 urllib과 BeautifulSoup를 조합하면, 웹스크레이핑 및 API요청 작업을 쉽게 수행하실 수 있습니다.

1. URL을 이용하여 웹으로부터 html을 읽어들임(urllib)
2. html 분석 및 원하는 데이터를 추출(BeautifulSoup)

In [94]:
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보
* 다양한 금융 정보가 공개돼 있는 "네이버 금융"에서 원/달러 환율 정보를 추출해보자!
* 네이버 금융의 시장 지표 페이지 http://finance.naver.com/marketindex/
* 다음은 원/달러 환율 정보를 추출하는 프로그램임

### 1) HTML 가져오기

In [95]:
url = "https://finance.naver.com/marketindex/"       
res = request.urlopen(url)     # 주소 res 변수에 저장.

### 2) HTML 분석하기

In [96]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [97]:
price = soup.select_one("div.head_info > span.value").string   # span.value 태그 부분중 첫번째 요소만 반영하여 문자열로 저장.
print("usd/krw =", price) 

usd/krw = 1,173.00


## 4.2. 기상청 RSS
* 기상청 RSS에서 특정 내용을 추출하는 예제
* 기상청 RSS에서 XML 데이터를 추출하고 XML 내용을 출력
* 기상청의 RSS 서비스에 지역 번호를 지정하여 데이터 요청해보기
http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp
* 참고: 기상청 RSS: http://www.kma.go.kr/weather/lifenindustry/service_rss.jsp

* 파이썬으로 요청 전용 매개변수를 만들 때는 urllib.parse 모듈의 urlencode() 함수를 사용해 매개변수를 URL로 인코딩한다.

### 1) HTML 가져오기

In [98]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnld':'109'               # css 선택자 속성
}

params=parse.urlencode(values)        # URL을 튜플의 하위 클래스인 ParseResult 클래스로 변환할 수 있다.
url += "?"+params # URL에 매개변수 추가
print("url=",url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnld=109


### 2) HTML 분석하기

In [99]:
soup = BeautifulSoup(res, "html.parser")

### 3) 원하는 데이터 추출하기

In [100]:
header = soup.find("header")

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

전국 육상중기예보
○ (기온) 이번 예보기간 낮 기온은 20~25도로 어제(21~28도)와 비슷하거나 조금 낮겠고, 아침 기온은 10~18도로 선선하겠습니다. <br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 28일(월)은 동해상과 남해상에서 물결이 2.0~4.0m로 매우 높게 일겠습니다.


* css selector 기반

In [101]:
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text

print(title)
print(wf)

AttributeError: 'NoneType' object has no attribute 'text'

## 4.3. 윤동주 작가의 작품 목록
* 위키문헌에 (https://ko.wikisource.org/wiki) 공개되어 있는 윤동주의 작품목록을 가져오기
* 윤동주 위키
  - (https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)
* 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS선택자가 카피됨
   - #mw-content-text > div > ul:nth-child(6) > li > b > a
* nth-child(n) 은 n 번째 요소를 의미, 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup nth-child 지원하지 않음
   - Recall PR7 Problem1

In [None]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다  -> select_one과 다른점
a_list = soup.select("#mw-content-text   ul > li a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

## 일반문제

In [None]:
from bs4 import BeautifulSoup
from urllib import request

### 1. 네이버 뉴스 헤드라인
배운 내용을 바탕으로 네이버 뉴스(https://news.naver.com/)에서 헤드라인 뉴스의 제목을 추출해보고자 합니다.
Q: 다음의 코드에 css selector를 추가하여 최신 기사의 헤드라인을 스크레이핑하는 코드를 완성하시오.

In [None]:
url = "https://news.naver.com/"

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_title > a"

for a in soup.select(selector):
    title = a.text
    print(title)  
    
# 출력이 안되는데 이유는 아마 네이버에서 링크를 타고 오는 것을 막아서 그런 것 같다.
# 링크를 타고 눌러보면 뉴스 페이지가 뜨지 않고 오류가 뜬다.

### 2. 시민의 소리 게시판
다음은 서울시 대공원의 시민의 소리 게시판입니다.

https://www.sisul.or.kr/open_content/childrenpart/qna/qnaMsgList.do?pgno=1
해당 페이지에 나타난 게시글들의 제목을 수집하고자 합니다.
Q: 다음의 코드에 css selector를 추가하여 해당 페이지에서 게시글의 제목을 스크레이핑하는 코드를 완성하시오.

In [None]:
url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"
# url 주소와 특정 페이지 주소 합침

res = request.urlopen(url_board)    # 특정페이지 주소 반환
soup = BeautifulSoup(res, "html.parser")     # python 객체로 변환

#selector = "#detail.con > div.generalboard > table > tbody > tr > td.left.title > a"
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"  # title들 selector 변수에 저장
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text)     # 선택자에서 타이틀 리스트에 추가
    links.append(url_head + a.attrs["href"])  # url_head와 href의 인자를 넘겨 합친다.
    
print(titles, links)

### 추가 내용
수집된 자료를 데이터프레임으로 만들어 csv로 저장하는 것이 일반적입니다.

In [None]:
import pandas as pd

board_df = pd.DataFrame({"title":titles, "link": links})     # dataframe을 생성한다. titles과 links로 구성
board_df.head()