<a href="https://colab.research.google.com/github/Hany-Kim/DataPreprocessing_and_SearchLibrary_KOSA/blob/main/DAY_24_05_28/numpyDay7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4장. 웹 데이터 수집

## 1절. 뷰티풀솝과 파서

### 1.1. Beautiful Soup
뷰티풀솝은 screen-scraping 프로젝트를 위한 파이썬 라이브러리.\
screen-scraping의 대표적인 예는 웹 화면에서 데이터를 가져오는 웹 크롤링으로 3가지 특징이 있다.
* 구문 분석, 트리 탐색, 검색 및 수정을 위한 몇 가지 간단한 방법과 파이썬 관용구를 제공하며 문서를 분석하고 필요한 것을 추출하는 도구.\
뷰티풀솝을 이용하면 데이터 수집 응용프로그램을 작성하기 쉽다.
* 문서를 UTF-8로 자동 변환한다.\
문서에 인코딩을 지정하지 않고 뷰티풀솝에서 인코딩을 감지할 수 없다면 인코딩에 대해 생각할 필요가 없다. 그럴 경우는 원래 인코딩을 저장하면 된다.
* 뷰티풀솝은 lxml 및 html5lib과 같은 파이썬 파서 라이브러리를 사용할 수 있다. 이를 이용하면 속도를 개선시키거나 호환성이 높은 응용프로그램을 만들 수 있다.

In [1]:
!pip install BeautifulSoup4



### 1.2. 파서라이브러리

### 1.3. Select API

### 1.4. DOM의 이해

### 1.5. CSS 선택자

1) CSS 선택자 설명을 위한 HTML 파일

In [2]:
%%writefile 'sample.html'
<html>
    <head>
        <title>HTML Sample</title>
    </head>
    <body>
        <h1>Hello CSS</h1>
        <div id="subject">선택자</div>
        <div class="contents">선택자를 어떻게 작성하느냐에 따른 <span>다른<b>요소가 반환</b></span>됩니다.</div>
        <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>
    </body>
</html>

Writing sample.html


2) 로컬 HTML 파일 불러오기

In [3]:
!pip install requests_file

Collecting requests_file
  Downloading requests_file-2.1.0-py2.py3-none-any.whl (4.2 kB)
Installing collected packages: requests_file
Successfully installed requests_file-2.1.0


In [4]:
import os
absolute_path = os.path.abspath('sample.html')
drive, path = os.path.splitdrive(absolute_path)

<Response [200]> 이 나오면 서버에서 정상적으로 페이지를 가져온 것

In [5]:
import requests
from requests_file import FileAdapter
s = requests.Session()
s.mount('file://', FileAdapter())
res = s.get('file://' + path.replace('\\', '/'))
res

<Response [200]>

3) HTML 문서 파싱

In [6]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.content, 'html.parser')

4) 태그 선택자 ('element')

In [7]:
el = soup.select_one('h1')
print(el)

<h1>Hello CSS</h1>


In [8]:
el.text, el.name, el.attrs

('Hello CSS', 'h1', {})

5) 다중(그룹) 선택자 ('selector1, selector2, selectorN')

In [9]:
soup.select('h1, span')

[<h1>Hello CSS</h1>, <span>다른<b>요소가 반환</b></span>]

6) 내포 선택자 ('ancestor descendant')

In [10]:
soup.select('div b')

[<b>요소가 반환</b>, <b>활용</b>]

7) 자식 선택자 ('parent > child')

In [11]:
soup.select('div > b')

[<b>활용</b>]

8) 클래스 선택자 ('.class')

In [12]:
soup.select('div.contents')

[<div class="contents">선택자를 어떻게 작성하느냐에 따른 <span>다른<b>요소가 반환</b></span>됩니다.</div>]

In [13]:
soup.select('.contents')

[<div class="contents">선택자를 어떻게 작성하느냐에 따른 <span>다른<b>요소가 반환</b></span>됩니다.</div>]

9) 아이디(id) 선택자 ('#id')

In [14]:
soup.select_one('#subject')

<div id="subject">선택자</div>

10) 속성 선택자 [name='value']

In [15]:
soup.select_one('[id=subject]')

<div id="subject">선택자</div>

### 실습
requests를 이용한 웹 데이터 수집

네이버 증권 페이지에서 환율 데이터 가져오기

In [16]:
url = 'https://finance.naver.com/marketindex/'
market_index = requests.get(url)
market_index

<Response [200]>

In [17]:
soup = BeautifulSoup(market_index.content, 'html.parser')
price = soup.select_one('div.head_info > span.value')
print(price.text)

1,362.90


yes24 베스트 셀러 목록 가져오기

In [18]:
import requests

In [19]:
url = 'https://www.yes24.com/Product/Category/BestSeller?categoryNumber=001&pageNumber=1&pageSize=24'
best_seller = requests.get(url)
print(best_seller)
#yesBestList > li:nth-child(1) > div > div.item_info > div.info_row.info_name > a.gd_name

<Response [200]>


In [20]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(best_seller.content, 'html.parser')

In [39]:
print(soup)


<!DOCTYPE html >

<html lang="ko">
<head><link <meta="" content="IE=Edge" href="https://m.yes24.com/Home/Best?DispNo=001" http-equiv="X-UA-Compatible" media="only screen and(max-width: 640px)" rel="alternate"/>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type"/>
<meta content="dpr, width, viewport-width, rtt, downlink, ect, UA, UA-Platform, UA-Arch, UA-Model, UA-Mobile, UA-Full-Version" http-equiv="Accept-CH"/>
<meta content="86400" http-equiv="Accept-CH-Lifetime"/>
<meta content="unsafe-url" name="referrer"/>
<meta content="width=1170" name="viewport"/>
<title> 국내도서 종합 베스트 - 예스24 </title>
<meta content="예스24" name="title"/>
<meta content="YOUR EVERY STORY 문화 콘텐츠 플랫폼, 예스24" name="description"/>
<meta content="인터넷 서점, 온라인 쇼핑, 상품 추천, 쇼핑몰, 상품 검색, 도서 정보, 국내도서, 외국도서, 전자책, eBook, 이북, 크레마, 공연, 콘서트, 뮤지컬, 음반, 예매, DVD, 블루레이, 예스24, YES24, 교보문고, 알라딘, 리센스, 예스24 도서용품, 친환경 PB 브랜드, 사은품, 굿즈" name="keywords"/>
<link href="//www.yes24.com/OpensearchDescription.xml" rel="search" title="YE

In [23]:
best_list = soup.select('#yesBestList div.item_info')
print(len(best_list))

24


In [26]:
print(best_list[0].select_one('.gd_name').text)

선재 업고 튀어 대본집 세트


In [28]:
for i in range(len(best_list)):
    print(best_list[i].select_one('.gd_name').text)

선재 업고 튀어 대본집 세트
나는 다정한 관찰자가 되기로 했다
하루 한 장 나의 어휘력을 위한 필사 노트
나를 소모하지 않는 현명한 태도에 관하여
불변의 법칙
흔한남매 과학 탐험대 10 생태계
세이노의 가르침
어떻게 살 것인가
오늘부터는 오를 집만 보인다
원피스 ONE PIECE 108
꽃길이 따로 있나, 내 삶이 꽃인 것을
마흔에 읽는 쇼펜하우어
홀썸의 집밥 예찬
빨모쌤의 라이브 영어회화
부자의 마지막 가르침
신화의 숲
국어 잘하는 아이가 이깁니다
돈의 심리학 (30만 부 기념 스페셜 에디션) 
내 몸 혁명
Go Go 카카오프렌즈 32 아르헨티나
변방에서 중심으로
내일의 으뜸
일류의 조건
흔한남매 16


cine21은 영화 데이터를 비동기로 추가로 불러오기때문에 아래 링크에서는 영화제목에 대한 데이터로 접근이 안된다. 이후 배우는 셀레니움을 사용하면 해결할 수 있다.

In [30]:
url_cine = 'http://www.cine21.com/rank/boxoffice/domestic'
cine_rank = requests.get(url_cine)
print(cine_rank)

<Response [200]>


In [31]:
from bs4 import BeautifulSoup
cine_soup = BeautifulSoup(cine_rank.content, 'html.parser')

In [38]:
print(cine_soup)

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="1641311652800771" property="fb:pages"/>
<meta content="vTM0gmeRzJwn1MIM1LMSp3cxP_SaBzch1ziRY255RHw" name="google-site-verification"/>
<meta content="5yOe6b_e_3rr7vNDwgXJw_8wLZQGx4lJ_V48KNPrqkA" name="google-site-verification"/>
<meta content="20defde86fc4464f2693891567a98905bd0a60d1" name="naver-site-verification"/>
<meta content="dmds9ks357rhqvdnk" name="dailymotion-domain-verification"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<title>씨네21</title>
<link href="/inc/www/css/default1.css" media="all" rel="stylesheet" type="text/css"/>
<link href="/inc/www/css/content1.css" media="all" rel="stylesheet" type="text/css"/>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.12.0/jquery.min.js"></script>
<meta conten

In [49]:
# #boxoffice_list_content > ul > li:nth-child(1) > a > div.mov_name
boxoffice_list = cine_soup.select('#boxoffice_list_content')
print(len(boxoffice_list))

0


moviechart에서 영화제목 리스트 불러오기

In [50]:
# #content > div.wArea.space > div.movieBox > ul > li:nth-child(1) > div > div.movie-title > h3 > a
url_movie = 'https://www.moviechart.co.kr/rank/realtime/index/image'
movie_rank = requests.get(url_movie)
print(movie_rank)

<Response [200]>


In [61]:
print(type(movie_rank))

<class 'requests.models.Response'>


In [73]:
if movie_rank.status_code == 200 :
    print('영화 정보를 출력합니다.')
    movie_soup = BeautifulSoup(movie_rank.content, 'html.parser')
    movie_list = movie_soup.select('#content > div.wArea.space > div.movieBox > ul > li > div > div.movie-title a')
    print(f"수집한 영화 수: {len(movie_list)}")
    for i in range(len(movie_list)):
        print(f"{i + 1}번 : {movie_list[i].text}")
else :
    print('페이지에 연결할 수 없습니다.')

영화 정보를 출력합니다.
수집한 영화 수: 20
1번 : 설계자
2번 : 퓨리오사: 매드맥스 사가
3번 : 극장판 하이큐!! 쓰레기장의 결전
4번 : 범죄도시4
5번 : 드림 시나리오
6번 : 그녀가 죽었다
7번 : 청춘 18X2 너에게로 이어지는 길
8번 : 바커스: 슈퍼스타가 될 거야
9번 : 결속밴드 라이브 -항성-
10번 : 분노의 강
11번 : 소울메이트
12번 : 혹성탈출: 새로운 시대
13번 : 악마와의 토크쇼
14번 : 오늘부터 댄싱퀸
15번 : 창가의 토토
16번 : 시민덕희
17번 : 별처럼 빛나는 너에게 더무비-일섬일섬량성성
18번 : 챌린저스
19번 : 가필드 더 무비
20번 : 정욕


In [1]:
! pip install selenium

Collecting selenium
  Downloading selenium-4.21.0-py3-none-any.whl (9.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.5/9.5 MB[0m [31m43.9 MB/s[0m eta [36m0:00:00[0m
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.25.1-py3-none-any.whl (467 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m467.7/467.7 kB[0m [31m37.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl (17 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
import selenium
print(selenium.__version__)

4.21.0


In [3]:
from selenium import webdriver

클라우드 서버에 설치된 colab이 실행되므로, 클라우드 서버에서 크롬이 동작된다.\
그래서 오류가 나온다.\
아나콘다에서 실행하면 정상 동작한다.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [4]:
driver = webdriver.Chrome()

SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally.
  (session not created: DevToolsActivePort file doesn't exist)
  (The process started from chrome location /root/.cache/selenium/chrome/linux64/125.0.6422.78/chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)
Stacktrace:
#0 0x58a6f1f3ee8a <unknown>
#1 0x58a6f1c2845c <unknown>
#2 0x58a6f1c5d6f8 <unknown>
#3 0x58a6f1c5963b <unknown>
#4 0x58a6f1ca3b19 <unknown>
#5 0x58a6f1c97253 <unknown>
#6 0x58a6f1c671c7 <unknown>
#7 0x58a6f1c67b3e <unknown>
#8 0x58a6f1f052cb <unknown>
#9 0x58a6f1f09377 <unknown>
#10 0x58a6f1ef1dfe <unknown>
#11 0x58a6f1f09e42 <unknown>
#12 0x58a6f1ed679f <unknown>
#13 0x58a6f1f2e178 <unknown>
#14 0x58a6f1f2e34b <unknown>
#15 0x58a6f1f3dfbc <unknown>
#16 0x787895154ac3 <unknown>
