# 고급 HTML 분석

### BeautifulSoup을 사용해 고유명사 불러오기

'http://www.pythonscraping.com/pages/warandpeace.html'

In [11]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs0bj = BeautifulSoup(html, "html.parser")

In [12]:
# 등장인물이 말하는 대사 : 빨간색
# 등장인물의 이름 : 녹색

# BeautifulSoup 객체에 findAll 함수를 쓰면 <span class = "green"><\span> 태그에 들어있는 텍스트만 선택해서
# 고유명사로 이루어진 파이썬 리스트를 추출할 수 있다.

nameList = bs0bj.findAll("span", {"class":"green"})
for name in nameList:
    print(name.get_text())

# 이 코드는 모든 고유명사를 순서대로 출력한다.

# 이전에는 bs0bj.tagName 을 호출에서 페이지에 처음 나타난 태그를 찾아 출력
# 위의 코드는 bs0bj.findAll(tagName, tagAttributes)을 호출해서 첫 번째 태그만이 아니라 페이지의 태그 전체를 찾은 것

# 이름 리스트를 만든 뒤에 리스트의 모든 이름을 순회하며 name.get_text()를 호출해 태그를 제외하고 콘텐츠만 출력
# ,get_text()는 현재 문서에서 모든 태그를 제거하고 텍스트만 들어 있는 문자열을 반환한다.
# 주로 최종 데이터를 출력하거나 저장, 조작하기 직전에만 사용할 것
# 일반적으로는 문서의 태그 구조를 가능한 유지해야 한다.

print(nameList)


Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
[<span class="green">Anna
Pavlovna Scherer</span>, <span class="green">Empress Marya
Fedorovna</span>, <span class="green">Prince Vasili Kuragin</span>, <span class="green">Anna Pavlovna</span>, <span class="green">St. Petersburg</span>, <span class="green">the prince</span>, <span class="green">Anna Pavlovna</span>, <span class="green">Anna Pavlovna</span>, <span class="green">the prince</span>, <span class="green">the prince

### find() 와 findAll()
- BeautifulSoup에서 가장 자주 쓰는 함수
- HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링할 수 있다.

findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

* tag        : 태그 이름인 문자열을 넘기거나, 태그 이름으로 이루어진 파이썬 리스트를 넘길 수도 있음
    - .findAll({"h1", "h2", "h3"})
* attributes : 속성으로 이루어진 파이썬 딕셔너리를 받고, 그중 하나에 일치하는 태그를 찾는다.
    - .findAll("span", {"class":{"green", "red"}})
* recursive  : 불리언, 문서에서 얼마나 깊이 찾아 들어가고 싶은지를 지정한다.
* text       : 태그의 속성이 아니라 텍스트 콘텐츠에 일치한다.
    - ex) 'the prince'가 몇 번 나타났는지 보려면
    - nameList = bs0bj.findAll(text="the prince")
    - print(len(nameList))
* limit      : 이 변수는 페이지의 항목 처음 몇 개에만 관심이 있을 경우에만 사용
* keyword    : 특정 속성이 포함된 태그를 선택할 때 사용한다.
    - allText = bs0bj.findAll(id="text")
    - print(allText[0].get_text())

In [6]:
allText = bs0bj.findAll(id="text")
print(allText[0].get_text())


"Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news."

It was in July, 1805, and the speaker was the well-known Anna
Pavlovna Scherer, maid of honor and favorite of the Empress Marya
Fedorovna. With these words she greeted Prince Vasili Kuragin, a man
of high rank and importance, who was the first to arrive at her
reception. Anna Pavlovna had had a cough for some days. She was, as
she said, suffering from la grippe; grippe being then a new word in
St. Petersburg, used only by the elite.

All her invitations without exception, written in French, and
delivered by a scarlet-liveri

### 트리이동
- findAll 함수는 이름과 속성에 따라 태그를 찾는다
- 지금까지는 BeautifulSoup 트리를 단방향으로 이동하는 방법을 봤다

#### 문서 안에서의 위치를 기준으로 태그를 찾는 방법
http://www.pythonscraping.com/pages/page3.html

In [18]:
# 자식과 자손

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs0bj = BeautifulSoup(html, "html.parser")

for child in bs0bj.find("table", {"id":"giftList"}).children:
    print(child)
    
# giftList 테이블에 들어 있는 제품 행 목록을 출력
# children() 대신 descendants() 함수를 썼다면 테이블에 포함된 태그가 20개 이상 출력됐을 것
# 거기에는 img, span, tb 태그 등이 모두 포함됐을 것



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [20]:
# 형제 다루기
# next_siblings() 함수는 테이블에서 데이터를 쉽게 수집할 수 있다. 특히 테이블에 타이틀 행이 있을 때 유용

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs0bj = BeautifulSoup(html, "html.parser")

for sibling in bs0bj.find("table", {"id":"giftList"}).tr.next_siblings:
    print(sibling)
    
# 첫번째 타이틀 행을 제외한 모든 제품 행
# 객체는 자기 자신의 형제가 될 수 없음, 객체의 형제를 가져올 때, 객체 자체는 항상 그 목록에서 제외
# 다음 형제만 가져온다. 예를 들어 우리가 목록 중간에 있는 임의의 행을 선택하고 next_siblings 함수를 호출했다면,
# 그 다음에 있는 만 반환한다. 즉, 타이틀 행을 선택하고 next_siblings을 호출하면 타이틀 행 자체를 제외한 모든 테이블 행을 선택



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [22]:
# 부모 다루기
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs0bj = BeautifulSoup(html, "html.parser")

print(bs0bj.find("img", {"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())


$15.00



### 정규 표현식
1. 글자 a를 최소한 한 번 쓰시오.
1. 그 뒤에 b를 정확히 다섯 개 쓰시오.
1. 그 뒤에 c를 짝수 번 쓰시오.
1. 마지막에 d가 있어도 되고 없어도 된다.

aa*bbbbb(cc)*(d | )

aa*
 - a*는 a가 몇 개든 상관없고 0개여도 된다는 뜻
 - aa*는 a가 최소 1번 나오는 식이 된다

bbbbb
 - b를 5개 연이어 사용

(cc)*
 - c 두 개를 괄호 안에 쓰고 그 뒤에 c의 쌍이 임의의 숫자만큼 있음

(d | )
 - 표현식 중간에 있는 막대는 '이거 아니면 저거'라는 뜻
 - 여기서는 'd 다음에 공백을 쓰거나, 아니면 d 없이 공백만 쓴다'는 뜻

In [25]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs0bj = BeautifulSoup(html, "html.parser")

images = bs0bj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})
for image in images:
    print(image["src"])

# web Scraping with python page. 49

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg
