# 웹 크롤링1 - Static Crawling  

  
  

------------

## 1. urllib

In [2]:
# 라이브러리 읽어들이기

from urllib import request

### 1.1. urllib.request 를 이용한 다운로드

In [3]:
# test.png의 이름으로 저장한다. 
url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)
print("저장되었습니다.")

저장되었습니다.


### 1.2. urlopen으로 파일에 저장하는 방법

In [4]:
# url과 이름 지정
url="http://uta.pw/shodou/img/28/214.png"
savename="test1.png"
# 다운로드
mem = request.urlopen(url).read()
#파일로 저장, wb는 write/binary
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


### 1.3. API 사용하기

In [5]:
# 데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

# 바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)



[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=211.246.68.22
REMOTE_HOST=211.246.68.22
REMOTE_PORT=35736
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup

In [6]:
# BeautifulSoup import

from bs4 import BeautifulSoup

In [7]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

### 2.1. 기본 사용

In [8]:
# soup 만들기
soup = BeautifulSoup(html, 'html.parser')

In [9]:
# h1 태그 불러오기
h1 = soup.html.body.h1
# p1 태그 불러오기
p1 = soup.html.body.p
# p1의 다음 태그 불러오기
p2 = p1.next_sibling.next_sibling

In [10]:
# f-string을 사용하여 프린트
print(f"h1 = {h1.string}")
print(f"p = {p1.string}")
print(f"p = {p2.string}")

h1 = 스크레이핑이란?
p = 웹 페이지를 분석하는 것
p = 원하는 부분을 추출하는 것


### 2.2. 요소를 찾는 method

In [11]:
soup = BeautifulSoup(html, 'html.parser')

In [12]:
# find를 통해 tag 찾기
title = soup.find("h1")
body = soup.find("p")
print(title)
print(body)

<h1>스크레이핑이란?</h1>
<p>웹 페이지를 분석하는 것</p>


In [13]:
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [14]:
# find_all 을 통해 해당 태그 다 찾기
links = soup.find_all("a")
print(links, len(links))

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


In [15]:
# a 태그 내의 속성인 'href' 가져오기
for a in links:
    href = a.attrs['href']
    text = a.string
    print(text, ">", href)

naver > http://www.naver.com
daum > http://www.daum.net


## 3. CSS Selector

| 서식 | 설명 |
--------|------------
|*| 모든 요소를 선택|
|<요소 이름> | 요소 이름을 기반으로 선택|
|.<클래스 이름> | 클래스 이름을 기반으로 선택|
#<id 이름> | id 속성을 기반으로 선택|


| 메서드 | 설명 |
--------|------
soup.select_one(선택자)| CSS 선택자로 요소 하나만을 추출
soup.select(선택자) | CSS 선택자로 요소 여러 개를 리스트 추출


In [16]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

- 필요한 부분을 CSS 쿼리로 추출하기

In [17]:
# 타이틀 부분 추출하기
h1 = soup.select_one("div#meigen > h1").string
print(f"h1 = {h1}")

h1 = 위키북스 도서


In [18]:
# select, CSS 통해서 가져오기
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
    print(f"li = {li.string}")

li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제

urlib X BeautifulSoup 
= html 불러 들여서 (urllib) 데이터 추출 (BeautifulSoup) 가능

In [23]:
# 라이브러리 임포트

from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보

In [26]:
# 웹페이지를 가져온다
url = "https://finance.naver.com/marketindex/"
res = request.urlopen(url)

In [27]:
# bs4를 통해 크롤링
soup = BeautifulSoup(res, "html.parser")

In [28]:
# <div class="head_info">
# <span calss="value">
price = soup.select_one("div.head_info > span.value").string
print("usd/krw = ", price)

usd/krw =  1,163.00


### 4.2. 기상청 RSS

In [47]:
# HTML 가져오기

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# 경상북도 가져오기
values = {
    "stnId" : "143"
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=143


In [48]:
res = request.urlopen(url)

soup = BeautifulSoup(res, "html.parser")

In [51]:
header = soup.find("header")

# 태그 찾은 후 텍스트 가져오기
title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

경상남,북도 육상중기예보
○ (기온) 이번 예보기간 낮 기온은 21~26도로 어제(21일, 23~26도)보다 조금 낮겠고, 아침 기온은 11~18도로 선선하겠습니다.<br />          특히, 경남내륙을 중심으로 아침 기온이 15도 이하로 낮아 낮과 밤의 기온차가 크겠습니다.<br />○ (해상) 남해동부해상은 25일(금), 동해남부해상은 25일(금)~27일(일) 물결이 2~5m로 매우 높게 일겠고, 그 밖의 날은 1~3m로 일겠습니다.<br />○ (주말전망) 26일(토)은 구름많다가 오후에는 맑겠고, 27일(일)은 맑겠습니다. 아침 기온은 11~17도, 낮 기온은 23~25도의 분포를 보이겠습니다.


In [55]:
# select 통해 가져온 후 텍스트 불러오기
title = soup.select_one("header > title").text
wf = header.select_one("header > wf").text

print(title)
print(wf)

경상남,북도 육상중기예보
○ (기온) 이번 예보기간 낮 기온은 21~26도로 어제(21일, 23~26도)보다 조금 낮겠고, 아침 기온은 11~18도로 선선하겠습니다.<br />          특히, 경남내륙을 중심으로 아침 기온이 15도 이하로 낮아 낮과 밤의 기온차가 크겠습니다.<br />○ (해상) 남해동부해상은 25일(금), 동해남부해상은 25일(금)~27일(일) 물결이 2~5m로 매우 높게 일겠고, 그 밖의 날은 1~3m로 일겠습니다.<br />○ (주말전망) 26일(토)은 구름많다가 오후에는 맑겠고, 27일(일)은 맑겠습니다. 아침 기온은 11~17도, 낮 기온은 23~25도의 분포를 보이겠습니다.


### 4.3. 윤동주 작가의 작품 목록

In [56]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-contnet-text > ul > li > a
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f" - {name}")

 - 하늘과 바람과 별과 시
 - 증보판
 - 서시
 - 자화상
 - 소년
 - 눈 오는 지도
 - 돌아와 보는 밤
 - 병원
 - 새로운 길
 - 간판 없는 거리
 - 태초의 아침
 - 또 태초의 아침
 - 새벽이 올 때까지
 - 무서운 시간
 - 십자가
 - 바람이 불어
 - 슬픈 족속
 - 눈감고 간다
 - 또 다른 고향
 - 길
 - 별 헤는 밤
 - 흰 그림자
 - 사랑스런 추억
 - 흐르는 거리
 - 쉽게 씌어진 시
 - 봄
 - 참회록
 - 간(肝)
 - 위로
 - 팔복
 - 못자는밤
 - 달같이
 - 고추밭
 - 아우의 인상화
 - 사랑의 전당
 - 이적
 - 비오는 밤
 - 산골물
 - 유언
 - 창
 - 바다
 - 비로봉
 - 산협의 오후
 - 명상
 - 소낙비
 - 한난계
 - 풍경
 - 달밤
 - 장
 - 밤
 - 황혼이 바다가 되어
 - 아침
 - 빨래
 - 꿈은 깨어지고
 - 산림
 - 이런날
 - 산상
 - 양지쪽
 - 닭
 - 가슴 1
 - 가슴 2
 - 비둘기
 - 황혼
 - 남쪽 하늘
 - 창공
 - 거리에서
 - 삶과 죽음
 - 초한대
 - 산울림
 - 해바라기 얼굴
 - 귀뚜라미와 나와
 - 애기의 새벽
 - 햇빛·바람
 - 반디불
 - 둘 다
 - 거짓부리
 - 눈
 - 참새
 - 버선본
 - 편지
 - 봄
 - 무얼 먹구 사나
 - 굴뚝
 - 햇비
 - 빗자루
 - 기왓장 내외
 - 오줌싸개 지도
 - 병아리
 - 조개껍질
 - 겨울
 - 트루게네프의 언덕
 - 달을 쏘다
 - 별똥 떨어진 데
 - 화원에 꽃이 핀다
 - 종시


# 일반문제 

-------

## 1. 네이버 뉴스 헤드라인

In [68]:
# naver에서 크롤링을 막아둔 것 같다.

url = "https://news.naver.com/"
res = request.urlopen(url).read()

soup = BeautifulSoup(res, "html.parser")

li_list = soup.select("div.hdline_news > li > a")
for li in li_list:
    print(f"li = {li.string}")

HTTPError: HTTP Error 500: Internal Server Error

## 2. 시민의 소리 게시판

In [32]:
# 서울시대공원 시민의 소리

url_head = "https://www.sisul.or.kr"

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"



res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

In [46]:
#detail_con > div.generalboard > table > tbody > tr:nth-child(1) > td.left.title > a
# 태그의 nth-child()는 지원하지 않는다. 

selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"

soup.select(selector)
titles = []
links = []
for a in soup.select(selector):
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

['관리인 마스크', '어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청 ', '마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.', '공원 내 마스크 착용', '청춘핫도그 점장님과 직원분께 감사드립니다', '카드결제를 거부하는 매점을 신고합니다', '참얼굴만큼예쁘고맘씨좋은 여직원을 만나 고마워서 글을남깁니다.', '놀이동산에서 불쾌함을 겪었습니다', '서문 플래카드', '간만에 친절한 아가씨를 만났어요.(놀이동산)'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=8Hvsiuxz2Q3XbpCUMlG1Dd99kjPBmPEPjbNnRAVkaC72ZXQoVE5Ss2mcjaH7hDca.etisw2_servlet_user?qnaid=QNAS20200917000010&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=8Hvsiuxz2Q3XbpCUMlG1Dd99kjPBmPEPjbNnRAVkaC72ZXQoVE5Ss2mcjaH7hDca.etisw2_servlet_user?qnaid=QNAS20200902000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=8Hvsiuxz2Q3XbpCUMlG1Dd99kjPBmPEPjbNnRAVkaC72ZXQoVE5Ss2mcjaH7hDca.etisw2_servlet_user?qnaid=QNAS20200826000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=8Hvsiuxz2Q3XbpCUMlG1Dd99kjPBmPEPjbNnRAVkaC72ZXQoVE5Ss2mcjaH7hDca.etisw2

In [48]:
# title과 link를 가져온다. 

import pandas as pd

board_df = pd.DataFrame({"title":titles, "link": links})
board_df.head()

Unnamed: 0,title,link
0,관리인 마스크,https://www.sisul.or.kr/open_content/childrenp...
1,어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청,https://www.sisul.or.kr/open_content/childrenp...
2,"마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.",https://www.sisul.or.kr/open_content/childrenp...
3,공원 내 마스크 착용,https://www.sisul.or.kr/open_content/childrenp...
4,청춘핫도그 점장님과 직원분께 감사드립니다,https://www.sisul.or.kr/open_content/childrenp...


In [49]:
# csv로 추출!
board_df.to_csv("board.csv", index=False)