#  웹 크롤링1 - Static Crawling 

## 1. urllib

In [2]:
from urllib import request # urllib는 url을 다루는 모듈 모아 놓은 패키지 

### 1.1. urllib.request를 이용한 다운로드 

In [3]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png" # url 읽어오기 
savename="test.png"  # test.png 만든다.

request.urlretrieve(url,savename) # png 파일을 test.png로 저장
print('저장되었습니다')

저장되었습니다


### 1.2. urlopen으로 파일에 저장하는 방법 

In [5]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read() # 메모리에 데이터를 올린 후 파일에 저장 
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f: 
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


### 1.3. API 사용하기 

In [6]:
# 데이터 읽어들이기 
url="http://api.aoikujira.com/ip/ini" # url을 가져온다
res=request.urlopen(url) # 메모리에 데이터를 올린 후 파일에 저장 
data=res.read() # 읽어들임

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=14.39.246.6
REMOTE_HOST=14.39.246.6
REMOTE_PORT=50698
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.7
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




## 2. BeautifulSoup

### 패키지 import 및 예제 HTML

In [7]:
from bs4 import BeautifulSoup # HTML/XML에서 정보를 추출할 수 있도록 도와주는 라이브러리

In [8]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

### 2.1. 기본 사용

####  2) HTML 분석하기

In [9]:
soup = BeautifulSoup(html, 'html.parser') # html 가져오기 

#### 3) 원하는 부분 추출하기

In [10]:
h1 = soup.html.body.h1 # h1 태그를 접근 
p1 = soup.html.body.p  # p 태그는 2개 두개로 나눠서 접근 
p2 = p1.next_sibling.next_sibling # next_sibling을 두번 이용하여 P추출 

#### 4) 요소의 글자 출력하기

In [11]:
print(f"h1 = {h1.string}") # 위에서 추출한 부분에 요소 출력 
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


### 2.2. 요소를 찾는 method

#### 단일 element 추출: find()

In [12]:
soup = BeautifulSoup(html, 'html.parser') # html 가져오기

+ 1) find() 메서드로 원하는 부분 추출하기

In [13]:
title = soup.find("h1") # find()를 통해 원하는 부분 추출 
body  = soup.find("p")
print(title)

<h1>스크레이핑이란?</h1>


+ 2) 텍스트 부분 출력하기

In [15]:
print(f"#title = {title.string}" )  # 텍스트 부분 출력 
print(f"#body = {body.string}")

#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


#### 복수 elements 추출: find_all()

In [17]:
# 여러개의 태그를 추출 
html = """
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')

+ 1) find_all() 메서드로 추출하기

In [18]:
links = soup.find_all("a") # 복수의 요소를 추출해서 
print(links, len(links))   # 링크와 길이 출력    

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2


+ 2) 링크 목록 출력하기

In [19]:
for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href) # 텍스트인 naver,daum과 href의 속성에 있는 속성값 추출

naver > http://www.naver.com
daum > http://www.daum.net


## 3. Css Selector

### BeautifulSoup에서 Css Selector 사용하기

In [20]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

+ 필요한 부분을 CSS 쿼리로 추출하기

In [21]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string # CSS 선택자로 요소 하나를 추출 
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li") # CSS 선택자로 요소 여러 개를 리스트로 추출
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


## 4. 활용 예제

In [22]:
from bs4 import BeautifulSoup
from urllib import request, parse

### 4.1. 네이버 금융 - 환율 정보

#### 1) HTML 가져오기

In [5]:
url = "https://finance.naver.com/marketindex/" # 네이버 금융 url 불러오기 
res = request.urlopen(url) # 메모리에 데이터를 올린 후 파일에 저장 

#### 2)HTML 분석하기¶


In [6]:
soup = BeautifulSoup(res, "html.parser")

#### 3) 원하는 데이터 추출하기

In [7]:
price = soup.select_one("div.head_info > span.value").string # 요소 하나 
print("usd/krw =", price) # 가격 출력 

usd/krw = 1,175.00


### 4.2. 기상청 RSS

#### 1) HTML 가져오기

In [26]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


#### 2) HTML 분석하기

In [27]:
soup = BeautifulSoup(res, "html.parser")

#### 3) 원하는 데이터 추출하기

In [28]:
header = soup.find("header") # header를 찾아 header에 저장 

title = header.find("title").text  # header 요소 중 title
wf = header.find("wf").text        # header 요소 중 wf

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(25일, 24~27도)과 비슷하거나 조금 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


+ css selector 기반

In [29]:
title = soup.select_one("header > title").text
wf = header.select_one("header wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 1일(목) 오후~2일(금) 오전에는 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 낮 기온은 20~25도로 오늘(25일, 24~27도)과 비슷하거나 조금 낮겠고, 아침 기온은 9~17도로 선선하겠습니다.<br />          특히, 내륙을 중심으로 낮과 밤의 기온차가 10도 내외로 크겠습니다.<br />○ (해상) 서해중부해상의 물결은 0.5~2.0m로 일겠습니다.


### 4.3. 윤동주 작가의 작품 목록

In [30]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC" # url 가져오기
res = request.urlopen(url) # 메모리에 데이터를 올린 후 파일에 저장  
soup = BeautifulSoup(res, "html.parser") # html 가져오기 

a_list = soup.select("#mw-content-text   ul > li  a") # css selector로 원하는 데이터 추출 
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


### 일반 문제

In [16]:
from bs4 import BeautifulSoup
from urllib import request
import requests

#### 1. 네이버  뉴스 헤드라인 

In [18]:
# 네이버에서 크롤링이 안되기 때문에 
# headers 정보에  User-Agent 를 넣어줌
# 헤더(header)는, 접속하는 사람/프로그램에 대한 정보를 가지고 있음
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
url ="https://news.naver.com/"
res = requests.get(url, headers = headers).text # url을 요청해서 텍스트화해서 저장 

soup = BeautifulSoup(res, "html.parser") # html 가져오기 

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"
# 원하는 데이터 추출 

for a in soup.select(selector): # selector 안의 요소 반복 
    title = a.text # a에서 text를 title에 저장
    print(title)   # title 출력 


                                        정의당 대표 선거 결선으로…‘김종철 vs 배진교’ 2파전
                                    

                                        ‘김정은 사과’ 내세워 돌변… 대북규탄결의안 발빼는 與
                                    

                                        최대집 의협 회장 불신임안 부결… 내년 4월 임기 채운다
                                    

                                        “대단히 미안”하다면서 또 NLL 걸고 넘어진 북한
                                    

                                        술 취해 차로 행인 치고 포장마차 손님까지 들이받아 12명 부상
                                    


#### 2. 시민의 소리 게시판

In [11]:
url_head = "https://www.sisul.or.kr" # url 가져오기  

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"
# url 가져오기  + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1" 추가 

res = request.urlopen(url_board)  # url을 요청해서 텍스트화해서 저장 
soup = BeautifulSoup(res, "html.parser") # html 가져오기 

# selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"
titles = [] # 빈 리스트를 만듬
links = []
for a in soup.select(selector):
    titles.append(a.text) # text가 나오면 titles 리스트에 추가 
    links.append(url_head + a.attrs["href"]) # links 리스트에 추가 
    
print(titles, links) # titles, links 출력 


['관리인 마스크', '어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청 ', '마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.', '공원 내 마스크 착용', '청춘핫도그 점장님과 직원분께 감사드립니다', '카드결제를 거부하는 매점을 신고합니다', '참얼굴만큼예쁘고맘씨좋은 여직원을 만나 고마워서 글을남깁니다.', '놀이동산에서 불쾌함을 겪었습니다', '서문 플래카드', '간만에 친절한 아가씨를 만났어요.(놀이동산)'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=k3asiGOo04zZgXj2ohi1HKFeXa4NEVxYoPYSHDV1Iypw4FHlVfYva2CunMoNXECl.etisw2_servlet_user?qnaid=QNAS20200917000010&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=k3asiGOo04zZgXj2ohi1HKFeXa4NEVxYoPYSHDV1Iypw4FHlVfYva2CunMoNXECl.etisw2_servlet_user?qnaid=QNAS20200902000003&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=k3asiGOo04zZgXj2ohi1HKFeXa4NEVxYoPYSHDV1Iypw4FHlVfYva2CunMoNXECl.etisw2_servlet_user?qnaid=QNAS20200826000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=k3asiGOo04zZgXj2ohi1HKFeXa4NEVxYoPYSHDV1Iypw4FHlVfYva2CunMoNXECl.etisw2

In [19]:
import pandas as pd # 판다스를 불러옴


board_df = pd.DataFrame({"title": titles, "link": links}) # 데이터 프레임을 만들어 저장 
board_df.head()

Unnamed: 0,title,link
0,관리인 마스크,https://www.sisul.or.kr/open_content/childrenp...
1,어린이 대공원 쓰레기집하장 내 쓰레기 제거 요청,https://www.sisul.or.kr/open_content/childrenp...
2,"마스크미착용으로 축구 및, 베트민턴 치는 인원이 너무 많아요.",https://www.sisul.or.kr/open_content/childrenp...
3,공원 내 마스크 착용,https://www.sisul.or.kr/open_content/childrenp...
4,청춘핫도그 점장님과 직원분께 감사드립니다,https://www.sisul.or.kr/open_content/childrenp...


In [None]:
board_df.to_csv("board.csv", index=False) # board.csv라는 이름의 csv파일로 저장 