# 웹 스크래핑
## 1) urllib.request 모듈을 이용한 웹 스크래핑
### 네이버 주식 검색

In [24]:
# 네이버 주식 검색
import urllib.request
import re

url = 'https://finance.naver.com/item/main.nhn?code=005930'

html = urllib.request.urlopen(url)
html_contents = str(html.read().decode("ms949"))
# print(html_contents)  ->> 내용보기

# 첫번째 패턴
stock_results = re.findall('(\<dl class=\"blind\"\>)([\s\S]+?)(\<\/dl\>)', html_contents)
# print('--------------------------------------------')
# print(stock_results)
# print('--------------------------------------------')

samsung_stock = stock_results[0]
samsung_index = samsung_stock[1]
# print('--------------------------------------------')
# print(samsung_stock)
# print('--------------------------------------------')
# print(samsung_index)
# print('--------------------------------------------')

# 주식정보만 추출
index_list = re.findall('(\<dd\>)([\s\S]+?)(\<\/dd\>)', samsung_index)
# print('--------------------------------------------')
# print(index_list)
# print('--------------------------------------------')

for index in index_list:
    print(index[1])


2022년 07월 29일 16시 11분 기준 장마감
종목명 삼성전자
종목코드 005930 코스피
현재가 61,400 전일대비 하락 500 마이너스 0.81 퍼센트
전일가 61,900
시가 62,400
고가 62,600
상한가 80,400
저가 61,300
하한가 43,400
거래량 15,036,436
거래대금 929,433백만


## 2) Beautiful Soup을 이용한 웹 스크래핑
* HTML과 XML파일로 부터 데이터를 추출하기 위한 라이브러리
* pip install bs4

## CSS 선택자 사용하기
* 1) soup.select_onr("선택자") : CSS 선택자로소 요소 하나를 추출
* 2) soup.selec("선택자") : CSS 선택자로 요소 여러개를 리스트로 추출

### 예제 1) 네이버 금융에서 원/달러 환율 정보 추출

In [25]:
from bs4 import BeautifulSoup
import urllib.request as req

url = 'https://finance.naver.com/marketindex/'

# urlopen()으로 데이타 가져오기
res = req.urlopen(url)
res = res.read().decode('cp949')

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(res, 'html.parser')
# print(soup)

# 원달러 환율 데이터 추출하기
# #exchangeList > li.on > a.head.usd > div > span.value 
price = soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value').string
print('usd/krw = ', price)

# 엔달러
# #worldExchangeList > li.on > a.head.jpy_usd > div > span.value
#exchangeList > li.on > a.head.eur > div > span.value
price = soup.select_one('#worldExchangeList > li.on > a.head.jpy_usd > div > span.value').string
print('usd/jpy = ', price)


usd/krw =  1,307.00
usd/jpy =  133.6200


### 예제 2) 네이버 실시간 영화 랭킹

In [26]:
from bs4 import BeautifulSoup
import requests

# 네이버 영화 랭킹 사이트
url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'

response = requests.get(url)
source = response.text
# print(source)

# BeautifulSoup으로 분석하기
soup = BeautifulSoup(source, 'html.parser')

# 네이버 영화 랭킹 데이터 추출하기
#old_content > table > tbody > tr:nth-child(2) > td.title > div > a
movieList = soup.select('#old_content > table > tbody > tr > td.title > div > a')

for rank, data in enumerate(movieList, start=1):
    print(rank, data.text)

1 한산: 용의 출현
2 외계+인 1부
3 탑건: 매버릭
4 헤어질 결심
5 범죄도시2
6 그레이 맨
7 토르: 러브 앤 썬더
8 비상선언
9 미니언즈2
10 더 킬러: 죽어도 되는 아이
11 헌트
12 마녀(魔女) Part2. The Other One
13 뒤틀린 집
14 명탐정 코난: 할로윈의 신부
15 엘비스
16 썸머 필름을 타고!
17 놉
18 뽀로로 극장판 드래곤캐슬 대모험
19 브로커
20 임파서블 러브
21 명량
22 아이를 위한 아이
23 멘
24 쥬라기 월드: 도미니언
25 메모리
26 리미트
27 노량: 죽음의 바다
28 굿 럭 투 유, 리오 그랜드
29 크라임스 오브 더 퓨처
30 극장판 주술회전 0
31 오펜하이머
32 특송
33 초록밤
34 닥터 스트레인지: 대혼돈의 멀티버스
35 스파이형 모델
36 불릿 트레인
37 큐어
38 극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021
39 범죄도시
40 버즈 라이트이어
41 탑건
42 DC 리그 오브 슈퍼-펫
43 배드 럭 뱅잉
44 노스맨
45 실종
46 미친 능력
47 로스트 도터
48 섹스 앤 퓨리
49 귀멸의 칼날: 아사쿠사 편
50 핸썸
