# 크롤링(Crawling)
- 1. 정적크롤링
- 2. 동적크롤링

In [None]:
# BeautifulSoup

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [None]:
url = 'https://www.naver.com'

page = urlopen(url)
soup = BeautifulSoup(page, 'lxml')
soup

# 파서(parser)
- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공하는 방법
  - lxml
    - c언어로 구현되어 속도가 가장 빠름
  - html5lib
    - 웹브라우저 현태로 HTML을 분석
    - 속도가 가장 느림
    - 가장 안정적임
  - html.parser
    - lxml, html5lib의 중간속도가 됩니다.


In [3]:
import time

In [4]:
s =time.time()
BeautifulSoup(page, 'lxml')
lxml_time = time.time()- s
###########
s = time.time()
BeautifulSoup(page, 'html5lib')
html5lib_time = time.time()- s
##########
s = time.time()
BeautifulSoup(page, 'html.parser')
htmlparser_time = time.time()- s

print('lxml 시간:', lxml_time)
print('html5lib 시간:', html5lib_time)
print('htmlparser 시간:', htmlparser_time)

lxml 시간: 0.0018162727355957031
html5lib 시간: 0.005862236022949219
htmlparser 시간: 0.0004153251647949219


In [5]:
## magic keyword
%%timeit
BeautifulSoup(page, 'lxml')

The slowest run took 6.63 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 5: 115 µs per loop


In [6]:
html = '''<html>
<head>
  <title class='t' id='ti'> test site</title>
</head>
<body>
  <p>test</p>
  <p>test1</p>
  <p>test2</p>
</body>
</html>
'''

In [8]:
soup = BeautifulSoup(html, 'lxml')
tag_title = soup.title
tag_title

<title class="t" id="ti"> test site</title>

In [9]:
# 태그의 속성 값 가져오기
print(tag_title.attrs)

{'class': ['t'], 'id': 'ti'}


In [10]:
print(tag_title['class'])

['t']


In [11]:
print(tag_title['id'])

ti


In [14]:
#태그의 내용들고오기
print(tag_title.text)
tag_title.string

 test site


' test site'

In [13]:
tag_title.string

' test site'

In [None]:
# 네이버나 다음의 title tag 값 출력하기

In [16]:
url = 'https://www.naver.com'
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')
soup.title.text

'NAVER'

## text와 string 함수의 차이
- text
  - 하위 태그들의 값도 모두 출력
- string
  - 정확한 해당 태그에 대한 값만 출력

In [17]:
html = '''<html>
<head>
  <title class='t' id='ti'> test site</title>
</head>
<body>
  <p>text_test
    <span>test1</span>
    <span>test2</span>
    <span>test3</span>
  </p>
</body>
</html>
'''

In [18]:
soup = BeautifulSoup(html,'lxml')
tag_p = soup.p
print('---- text ---')
print(tag_p.text)
print('---- string ---')
print(tag_p.string)

---- text ---
text_test
    test1
test2
test3

---- string ---
None


# 원하는 요소에 접근하기
# find_all()

In [19]:
# soup.title
soup.find_all('title')

[<title class="t" id="ti"> test site</title>]

In [22]:
soup.find_all('span')

[<span>test1</span>, <span>test2</span>, <span>test3</span>]

In [21]:
soup.find_all('span')[1]

<span>test2</span>

In [23]:
soup.find_all('span')[1:]

[<span>test2</span>, <span>test3</span>]

In [24]:
result = []
for tag in soup.find_all('span')[1:]:
  mid_result = tag.text
  result.append(mid_result)
print(result)

['test2', 'test3']


In [27]:
import copy
result2 = result.copy()

In [30]:
result2[0] = 'test1'

In [31]:
# 수집된 정보를 dataframe으로 변경
import pandas as pd
df = pd.DataFrame(zip(result, result2))
df

Unnamed: 0,0,1
0,test2,test1
1,test3,test3


In [33]:
html = '''<html>
<head>
  <title>test_site</title>
</head>
<body>
  <p>
    <span class ="c">test1</span>
    <span id="d">test2</span>
  </p>
</body>
</html>'''

In [35]:
soup = BeautifulSoup(html, 'lxml')
# id 값으로 태그 가져오기
soup.find_all('span', id='d')
soup.find('span', id='d')

<span id="d">test2</span>

In [38]:
# class 값으로 태그 가져오기
# 'class_' 형태 변수 주의
soup.find_all('span', class_='c')
soup.find('span', class_='c').text

'test1'

In [39]:
# 여러가지의 tag값 들고오기
soup.find_all(['title','span'])

[<title>test_site</title>,
 <span class="c">test1</span>,
 <span id="d">test2</span>]

In [40]:
html = '''<html>
<head>
  <title>test_site</title>
</head>
<body>
  <p>test1
    <a>a tag1</a>
    <b>b tag1</b>
  </p>
  <p class = 'd' >test2
    <a>a tag2</a>
    <b>b tag2</b>
  </p>
  <p class= 'c'>test3
    <a>a tag3</a>
    <b>b tag3</b>
  </p>
</body>
</html>'''

In [47]:
# 1. 모든 p태그 들고오기
soup = BeautifulSoup(html, 'lxml')
soup.find_all('p')
# 2. class c인 p 태그에서 b태그 값만 가져오기
soup = BeautifulSoup(html, 'lxml')
# find ver.
soup.find('p', class_='c').b
# find_all ver.
soup.find_all('p', class_='c')[0].b.text
# 3. 첫번째 p 태그에서 a 태그 들고오기
soup.find('a')

<a>a tag1</a>

In [48]:
soup.find_all('a')[0]

<a>a tag1</a>

# select()
- find_all()과 마찬가지로 매칭되는 모든 결과값을 리스트로 반환
- 클래스는 마침표(.) 아이디는 샵(#)으로, 자식 태그는 띄어쓰기로 표현
- select_one()으로 하나의 결과값을 반환할수 있음 find()와 유사

In [49]:
html = '''<html>
<head>
  <title>test_site</title>
</head>
<body>
  <div>
    <p id='i' class='a'>test1</p>
    <p class ='d'>test2</p>
  </div>
  <p class='d'>test3</p>
  <a>a tag</a>
  <b>b tag</b>
</body>
</html>'''

In [50]:
soup = BeautifulSoup(html, 'lxml')
soup.find_all('p')

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]

In [51]:
soup.find('body').find('div').find_all('p')[1]

<p class="d">test2</p>

In [52]:
soup.select('body div p')[1]

<p class="d">test2</p>

In [53]:
# select를 이용한 id접근 방법
soup.select('body p#i')

[<p class="a" id="i">test1</p>]

In [54]:
# class를 이용한 select
soup.select('body p.a')

[<p class="a" id="i">test1</p>]

In [55]:
# <p class ='d'>test2</p> 만 출력하기
soup.select('body div p.d')

[<p class="d">test2</p>]

In [56]:
soup.select('body p.d')

[<p class="d">test2</p>, <p class="d">test3</p>]

# 1. 네이버 영화 랭킹 크롤링
# 2. 다음 영화 랭킹 크롤링

In [57]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [59]:
# 네이버 영화랭킹
url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
# 영화 랭킹의 제목 정보 출력

In [67]:
html = urlopen(url)
soup = BeautifulSoup(html, 'lxml')
# soup.select('div.tit3 a')
ranks = []
titles = []
for idx, tag in enumerate(soup.select('div.tit3 a')):
  rank = idx + 1
  title = tag.text
  ranks.append(rank)
  titles.append(title)
# print(ranks)
print(len(ranks))
# print(titles)
print(len(titles))

50
50


In [69]:
import pandas as pd
df_naver_movie_rank = pd.DataFrame(zip(ranks, titles),
                                   columns=['rank','title'])
df_naver_movie_rank.head()

Unnamed: 0,rank,title
0,1,닥터 스트레인지: 대혼돈의 멀티버스
1,2,신비한 동물들과 덤블도어의 비밀
2,3,공기살인
3,4,니 부모 얼굴이 보고 싶다
4,5,범죄도시2


In [None]:
# 다음 영화랭킹
url = 'https://movie.daum.net/ranking/reservation'

In [73]:
# 네이버 영화 댓글 수집
# 영화제목, 평점, 댓글 수집
url='https://movie.naver.com/movie/point/af/list.naver?&page='

In [None]:
titles = []
stars = []
comments =[]
new_url = url+str(1)
html = urlopen(new_url)
soup = BeautifulSoup(html, 'lxml')
for i in soup.select('td.title'):
  title = i.select_one('a.movie.color_b').text
  star = i.select_one('em').text
  # commet = i.select_one('a.report')['onclick'].split(',')[2]
  comment = i.select_one('br').next_sibling.strip()
  titles.append(title)
  stars.append(star)
  comments.append(comment)

In [86]:
# 댓글, 평점, 영화제목 크롤링 함수
def page_crawling(page_num):
  titles = []
  stars = []
  comments =[]
  url='https://movie.naver.com/movie/point/af/list.naver?&page='
  new_url = url+str(page_num)
  html = urlopen(new_url)
  soup = BeautifulSoup(html, 'lxml')
  for i in soup.select('td.title'):
    title = i.select_one('a.movie.color_b').text
    star = i.select_one('em').text
    comment = i.select_one('br').next_sibling.strip()
    titles.append(title)
    stars.append(star)
    comments.append(comment)
  return titles, stars, comments

In [88]:
fin_title = []
fin_star = []
fin_comment = []
for num in range(1,11):
  titles, stars, comment = page_crawling(num)
  fin_title.extend(titles)
  fin_star.extend(stars)
  fin_comment.extend(comment)
print(len(fin_title))
print(len(fin_star))
print(len(fin_comment))

100
100
100


In [89]:
df_movie_comment = pd.DataFrame(zip(fin_title, fin_star, fin_comment))
df_movie_comment.head()

Unnamed: 0,0,1,2
0,닥터 스트레인지: 대혼돈의 멀티버스,8,공포영화식 연출이 신선하게 느껴졌습니다. 몇몇 이해되지 않는 장면이 있었지만 충분히...
1,연애 빠진 로맨스,9,담백하게 힘빼고 재밌는 연애이야기적절히 영화적인 감칠맛나는 대사가 매력적이다
2,닥터 스트레인지: 대혼돈의 멀티버스,4,부제가 내마음과 같다.진짜 대혼돈이였음....
3,닥터 스트레인지: 대혼돈의 멀티버스,10,cg 볼거리가 많아서 기억에 많이 남네요ㅎㅎ
4,니 부모 얼굴이 보고 싶다,6,그렇게 묘사했어야 했나뭔가 좀 아쉬운하지만 볼만한


# 동적 크롤링

- selenium으로 구조에 접근하는 방법
  - 단일객체 반환(bs4 find()와 같은 형태)
    - find_element_by_id
    - find_element_by_xpath
    - find_element_by_tag_name
    - find_element_by_partial_link_text
    - find_element_by_name
    - find_element_by_class_name
    - find_element_by_css_selector
  - 리스트객체 반환(bs4 find_all()와 같은 형태)
    - find_elements_by_id
    - find_elements_by_xpath
    - find_elements_by_tag_name
    - find_elements_by_partial_link_text
    - find_elements_by_name
    - find_elements_by_class_name
    - find_elements_by_css_selector

In [93]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.1.5-py3-none-any.whl (979 kB)
[K     |████████████████████████████████| 979 kB 5.2 MB/s 
[?25hCollecting trio~=0.17
  Downloading trio-0.20.0-py3-none-any.whl (359 kB)
[K     |████████████████████████████████| 359 kB 59.5 MB/s 
[?25hCollecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting urllib3[secure,socks]~=1.26
  Downloading urllib3-1.26.9-py2.py3-none-any.whl (138 kB)
[K     |████████████████████████████████| 138 kB 67.4 MB/s 
Collecting outcome
  Downloading outcome-1.1.0-py2.py3-none-any.whl (9.7 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting sniffio
  Downloading sniffio-1.2.0-py3-none-any.whl (10 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.1.0-py3-none-any.whl (24 kB)
Collecting pyOpenSSL>=0.14
  Downloading pyOpenSSL-22.0.0-py2.py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 3.3 MB/s 
[?

In [1]:
from selenium import webdriver
import time

In [9]:
driver = webdriver.Chrome('/content/chromedriver.exe')

  """Entry point for launching an IPython kernel.


WebDriverException: ignored