# 정적 크롤링 모듈

In [6]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [7]:
url = "https://www.naver.com"
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")

In [6]:
print(soup)

<!DOCTYPE html>
<html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"/> <meta content="index,nofollow" name="robots"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양

## 파서

- 내가 원하는 데이터를 특정패턴이나 순서로 추출하여 정보를 가공해주는 프로그램
    - lxml
        - c언어로 구현되어 속도가 가장 빠름
    - html.parser
        - lxml과 html5lib의 중간 속도
    - html5lib
        - 웹브라우저 형태로 HTML을 분석
        - 속도가 가장 느림
        - 가장 안정적

In [9]:
# html을 예쁘게 출력
print(soup.prettify())

<!DOCTYPE html>
<html class="fzoom" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="origin" name="Referrer"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=1190" name="viewport"/>
  <title>
   NAVER
  </title>
  <meta content="NAVER" name="apple-mobile-web-app-title"/>
  <meta content="index,nofollow" name="robots"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/>
  <meta content="네이버" property="og:title"/>
  <meta content="https://www.naver.com/" property="og:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/>
  <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/>
  <meta content="summary" name="twitter:card"/>
  <meta content="" name="twitter:title"/>
  <meta content="https://www.naver.com/" name="twitter:url"/>
  <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twi

## 속성 데이터

In [8]:
html = """<html><head> <title class="t" id="ti">test site</title> </head><body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>
"""

- html
    - head
        - title
            - 속성
                - class: t
                - id: ti
    - body
        - p
        - p
        - p

In [9]:
soup = BeautifulSoup(html, "lxml")

In [10]:
print(soup)

<html><head> <title class="t" id="ti">test site</title> </head><body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>



In [11]:
tag_title = soup.title # soup 안에서 title 태그 찾기

In [12]:
print(tag_title)
print(tag_title.attrs) # 태그의 속성 가져오기
print(tag_title["class"]) # 키가 없으면 에러발생
print(tag_title["id"])

<title class="t" id="ti">test site</title>
{'class': ['t'], 'id': 'ti'}
['t']
ti


In [1]:
tag_title["class1"]

NameError: name 'tag_title' is not defined

In [13]:
# tag 타입은 딕셔너리처럼 접근할 수 있고 딕셔너리 문법을 그대로 적용할 수 있음
tag_title.get("class1","default_value")

'default_value'

In [14]:
type(tag_title)

bs4.element.Tag

### 태그 접근

In [15]:
tag_title = soup.title # title 태그
print(tag_title)

<title class="t" id="ti">test site</title>


In [16]:
print(tag_title.text)
print(tag_title.string)
print(tag_title.name)

test site
test site
title


In [17]:
# text와 string의 차이
html = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""

- html
    - head
        - title
    - body
        - p
            - span
            - span

In [19]:
soup = BeautifulSoup(html, 'lxml')

tag_p = soup.p

data_text = tag_p.text
data_string = tag_p.string

print(data_text, type(data_text))
print(data_string, type(data_string))

test1test2 <class 'str'>
None <class 'NoneType'>


- text : 하위 태그들의 값도 모두출력
- string : 정확히 해당 태그에 대한 값만 출력

In [21]:
# string으로 test1을 출력하려면
tag_p.span.string

'test1'

### 자식 태그 접근

- content와 children 속성을 이용하여 자식태그 가져오기

In [23]:
tag_p_children = soup.p.contents
print(tag_p_children)

[<span>test1</span>, <span>test2</span>]


In [24]:
tag_p_children = soup.p.children # children으로 가져온 값은 반복문을 사용해야함

for child in tag_p_children:
    print(child)

<span>test1</span>
<span>test2</span>


### 부모 태그 접근

- parent와 parents 로 부모태그 가져오기

In [27]:
tag_span = soup.span
tag_title = soup.title

span_parent = tag_span.parent
title_parent = tag_title.parent

print(span_parent)
print(title_parent)

<p><span>test1</span><span>test2</span></p>
<head><title>test site</title></head>


In [29]:
span_parents = tag_span.parents
title_parents = tag_title.parents

for parent in span_parents:
    print(parent)
print()
for parent in title_parents:
    print(parent)

<p><span>test1</span><span>test2</span></p>
<body> <p><span>test1</span><span>test2</span></p> </body>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>

<head><title>test site</title></head>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>


### 형제 태그 접근

- 형제 태그 : 동등한 위치의 태그

In [30]:
tag_span

<span>test1</span>

In [31]:
a = tag_span.next_sibling
print(a)

<span>test2</span>


In [33]:
b = a.previous_sibling
print(b)

<span>test1</span>


In [35]:
print(a.next_sibling)
print(b.previous_sibling)

None
None


### 다음 요소, 이전 요소 접근하기

- next_element, previous_element
- 형제 태그와의 차이
    - 형제 태그 : 동일한 위치의 태그들만
    - 요소 : 태그도 포함하지만 그 안의 자식태그와 문자도 포함하는 개념

In [36]:
html = """<html> <head><title>test site</title></head> <body> <p><a>test1</a><b>test2</b><c>test3</c></p> </body></html>"""

- html
    - head
        - title
    - body
        - p
            - a
            - b
            - c

In [38]:
soup = BeautifulSoup(html,'lxml')
tag_a = soup.a
tag_a

<a>test1</a>

In [44]:
tag_a_nexts = tag_a.next_elements
for tag in tag_a_nexts:
    print (tag)

test1
<b>test2</b>
test2
<c>test3</c>
test3
 


## 원하는 요소에 접근하기

- find_all()
    - 원하는 태그들을 리스트 형태로 가져오기

In [45]:
html = """
<html>
<head>
<title>test site</title>
</head> 
<body>
<p id="i" class="a">test1</p>
<p id="d" class="d">test2</p>
<p class="c">test3</p>
</p>
<a>a tag</a> 
<b>b tag</b>
</body></html>"""

- html
    - head
        - title
    - body
        - p(id = i, class = a)
        - p(id = d, class = d)
        - p(class = c)
        - p
        - a
        - b

In [46]:
soup = BeautifulSoup(html, 'lxml')

In [48]:
soup.find_all("p")

[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

- id 값으로 태그 가져오기

In [49]:
soup.find_all(id = "d")

[<p class="d" id="d">test2</p>]

In [51]:
# id의 존재여부로 데이터가져오기
print(soup.find_all(id = True))

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]


In [53]:
print(soup.body.find_all(id = False))

[<p class="c">test3</p>, <a>a tag</a>, <b>b tag</b>]


- 원하는 태그, 원하는 id 값으로 태그 가져오기

In [55]:
print(soup.find_all("p", id = "d"))
print(soup.find_all("p", id = "c"))

[<p class="d" id="d">test2</p>]
[]


- text 속성으로 태그 가져오기

In [57]:
print(soup.find_all("p", text = "test1")) # p 태그 중에서 test1 이라는 값을 가진태그
print(soup.find_all("p", text = "t"))

[<p class="a" id="i">test1</p>]
[]


  print(soup.find_all("p", text = "test1")) # p 태그 중에서 test1 이라는 값을 가진태그
  print(soup.find_all("p", text = "t"))


- limit로 가져오는 태그 수 제한

In [58]:
print(soup.find_all("p"))

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


In [60]:
print(soup.find_all("p", limit = 1))
print(soup.find_all("p", limit = 2))
print(soup.find_all("p", limit = 5))

[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


In [61]:
# find_all에 아무런값도 넣지않으면 모든 태그를 가져옴
soup.find_all()

[<html> <head><title>test site</title></head> <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body></html>,
 <head><title>test site</title></head>,
 <title>test site</title>,
 <body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>,
 <p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>,
 <a>a tag</a>,
 <b>b tag</b>]

- 여러 태그 동시에 가져오기

In [62]:
soup.find_all(["a", "b"])

[<a>a tag</a>, <b>b tag</b>]

- find_all() 연속으로 사용하기

In [65]:
tag_body = soup.find_all("body")
print(tag_body)
tag_body[0].find_all("p")

[<body> <p class="a" id="i">test1</p><p class="d" id="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body>]


[<p class="a" id="i">test1</p>,
 <p class="d" id="d">test2</p>,
 <p class="c">test3</p>]

### find()
- 하나의 요소만 가져옴
- 찾고자 하는 요소가 하나만 있을 때 사용
    - 예) id값으로 접근

In [66]:
soup.find("p")

<p class="a" id="i">test1</p>

In [68]:
print(soup.find("p", class_ = "d"))
print(soup.find("p", id = "i"))

<p class="d" id="d">test2</p>
<p class="a" id="i">test1</p>


In [69]:
# 연속으로 find() 사용
soup.find("body").find("p", class_ = "d")

<p class="d" id="d">test2</p>

### select()
- find_all()과 마찬가지로 매칭되는 모든 결과를 리스트로 반환
- 클래스는 마침표(.), 아이드는 샵(#)으로 자손태그는 띄어쓰기로 표현 자식태그는 (>)로 표현
- select_ one() 으로 하나의 결과만 반환하는 것도 가능

In [73]:
print(soup.select("p")) # p 태그들
print(soup.select(".d")) # 클래스가 d인 태그들
print(soup.select("p.d")) # 클래스가 d인 p태그들
print(soup.select("#i")) # 아이디가 i인 태그들
print(soup.select("p#i")) # 아이디가 i인 p태그

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]
[<p class="d" id="d">test2</p>]
[<p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>]


#### html = """
<html>
    <head>
        <title>test site</title>
    </head>
    <body>
        <div>
            <p id="i" class="a">test1</p>
            <p class="d">test2</p>
        </div>
        <p class="d">test3</p></p>
        <a>a tag</a> 
        <b>b tag</b>
    </body>
</html>"""

- html
    - head
        - title
    - body
        - div
            - p(id = i, class = a)
            - p(class = d)
        - p(class = d)        
        - a
        - b

In [75]:
soup = BeautifulSoup(html, "lxml")

In [76]:
print(soup.select("body p")) # body의 자손인 p태그들
print(soup.select("body > p")) # body의 자식인 p태그

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test3</p>]


In [77]:
print(soup.select("body .d")) # body 자손이면서 클래스가 d인 태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [78]:
print(soup.select("body p.d")) # body 자손이면서 클래스가 d인 p태그들

[<p class="d">test2</p>, <p class="d">test3</p>]


In [79]:
print(soup.select("body #i")) # body 자손이면서 id가 i인 태그들

[<p class="a" id="i">test1</p>]


In [81]:
print(soup.select("body p#i")) # body 자손이면서 id가 i인 p태그들

[<p class="a" id="i">test1</p>]


In [83]:
print(soup.select("div p")) # div 자손인 p태그들

[<p class="a" id="i">test1</p>, <p class="d">test2</p>]


## 웹크롤링 허용 문제

- 모든 사이트에는 웹 크롤링 권한에 관해 명시한 페이지가 있음
    - 사이트 url끝에 robots.txt를 붙여서 확인
        - 예) https://www.google.com/robots.txt
        - Disallow : 허용되지 않는 경로
        - allow : 크롤링을 허용하는 경로

In [112]:
url = "https://ai-dev.tistory.com/1"
page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [115]:
# 제목수집
soup.select_one(".hgroup > h1").string.strip()

'크롤링의 세계에 오신 것을 환영합니다.'

In [131]:
# hello world 수집
soup.select_one("#article-view p").string

'Hello, world!'

## 예제 1-2. 티스토리 크롤링

In [169]:
url = "https://ai-dev.tistory.com/2"
page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

td = soup.select("tbody td")

for text in td:
    print(text.string)

상품
색상
가격
셔츠1
빨강
20000
셔츠2
파랑
19000
셔츠3
초록
18000
바지1
검정
50000
바지2
파랑
51000


In [186]:
list = soup.select("ul[data-ke-list-type='disc'] > li")
for i in list:
    print(i.string)
[i.string for i in list]

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스


['모니터', 'CPU', '메모리', '그래픽카드', '하드디스크', '키보드', '마우스']

In [191]:
list = soup.select("div.tt_article_useless_p_margin ul li")
for i in list:
    print(i.string)

모니터
CPU
메모리
그래픽카드
하드디스크
키보드
마우스


In [2]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
url = "https://music.bugs.co.kr/chart"
page = urlopen(url)

soup = BeautifulSoup(page, "lxml")

In [3]:
soup

<!DOCTYPE html>
<html lang="ko">
<head>
<!-- bgsweb-www908 -->
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="노래추천, 음악추천, 플레이리스트, essential, 에센셜, 스트리밍, 스밍, 뮤직PD, 노래듣기, 음악다운로드, 페이코" name="keywords"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<script type="text/javascript">
	if(!(location.href.indexOf("music.bugs.co.kr/newPlayer") >= 0 || location.href.indexOf("music.bugs.co.kr/newRadio") >= 0 || location.href.indexOf("localhost") >= 0
        || location.href.indexOf("help.bugs.co.kr") >= 0))
		document.domain = 'bugs.co.kr';

	var g_urlBase = "https://www.bugs.co.kr";
	var g_urlWww = "https://www.bugs.co.kr";
	var g_urlSecure = "https://secure.bugs.co.kr";
	var g_urlMusic = "https://music.bugs.co.kr";
	var g_urlMusicSecure = "https://music.bugs.co.kr";
	var g_urlMember = "https://secure.bugs.co.kr/member";
	var g_urlFile = "https://file.bugsm.co.kr/wbugs";
	var g_urlFile_n ="https://file.bugsm.co.kr/nbugs"; 
	//

In [25]:
for data in soup.select("#CHARTrealtime p.title"):
    print(data.text.strip())
    


Love 119
To. X
비의 랩소디
Perfect Night
Drama
MANIAC
에피소드
Get A Guitar
DASH
I AM
그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
You & Me
인사
헤어지자 말해요
Ditto
한 페이지가 될 수 있게
Baddie
Yes or No (Feat. 허윤진 of LE SSERAFIM, Crush)
ETA
Discord
Hype Boy
Love Lee
첫 눈
후라이의 꿈
Talk Saxy
Seven (feat. Latto) - Clean Ver.
넌 쉽게 말했지만
Super Shy
Steal The Show (From “엘리멘탈”)
잠시라도 우리
Standing Next to You
GODS
Chill Kill
예뻤어
숲
화이트 (White)
Spicy
Off The Record
너의 모든 순간
사건의 지평선
그대가 내 안에 박혔다
Kitsch
별 떨어진다 (I Do)
기억해줘요 내 모든 날과 그때를
머물러주오 (Prod. 안신애 & Philtre)
Attention
After LIKE
LOVE DIVE
한번만 더
Either Way
사랑할 수밖에
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
음악의 신
퀸카 (Queencard)
OMG
이브, 프시케 그리고 푸른 수염의 아내
꿈
Try Again
New Jeans
잘 지내자, 우리 (여름날 우리 X 로이킴)
Fast Forward
Dangerously
I Don’t Think That I Like Her
그대가 내 안에 박혔다(그내박)
Underwater
파이팅 해야지 (Feat. 이영지)
I Love You (Prod. 김도훈)
모든 날, 모든 순간 (Every day, Every Moment)
Smoke (Prod. Dynamicduo, Padi)
주저하는 연인들을 위해
I Love You
DIE 4 YOU
손오공
건물 사이에 피어난 장미 (Rose Blossom)
사랑인가 봐
달빛에 그려지는
다정히 내 이름을 부르면
UNFOR

In [71]:
print("제목\t 가수\t 앨범\t")
for data in soup.select(".byChart > tbody"):
    for char in data.select("tr"):
        print("{0:20s} \t {1:20s}\t {2:10s}\t".format(char.select_one("p.title").text.strip(),char.select_one("p.artist").text.strip(),char.select_one("a.album").text.strip()), end = '\n')

제목	 가수	 앨범	
Love 119             	 RIIZE               	 Love 119  	
To. X                	 태연 (TAEYEON)        	 To. X - The 5th Mini Album	
비의 랩소디               	 임재현                 	 비의 랩소디    	
Perfect Night        	 LE SSERAFIM (르세라핌)  	 Perfect Night	
Drama                	 aespa               	 Drama - The 4th Mini Album	
MANIAC               	 VIVIZ (비비지)         	 The 4th Mini Album 'VERSUS'	
에피소드                 	 이무진                 	 에피소드      	
Get A Guitar         	 RIIZE               	 Get A Guitar	
DASH                 	 NMIXX               	 Fe3O4: BREAK	
I AM                 	 IVE (아이브)           	 I've IVE  	
그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection)) 	 너드커넥션(Nerd Connection)	 그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))	
You & Me             	 제니 (JENNIE)         	 JENNIE Special Single [You & Me]	
인사                   	 범진                  	 인사        	
헤어지자 말해요             	 박재정                 	 1집 Alone  	
Ditto                	 NewJeans            	 NewJeans 'O