# Keep in Mind
**"코드부터 짜려고 달려들지 말자!"**

# 1. 트리 탐색하기
HTML 페이지 트리 구조 안에서 구조를 탐색하는 메서드로 다음의 두 가지가 있다.

## findAll(), find() 함수
* findAll(tag, attributes, recursive, text, limit, keywords)
* find(tag, attributes, recursive, text, keywords)


1. `tag`
    - 태그 이름인 문자열을 넘기거나, 태그 이름으로 이루어진 파이썬 리스트를 인자로 넘긴다.
    - 해당하는 모든 태그를 찾는다.

2. `attributes`
    - 속성으로 이루어진 파이썬 딕셔너리를 인자로 받는다.
    - 그 중 하나에 일치하는 태그를 찾아 모두 반환한다.

3. `recursive`
    - 문서에서 얼마나 깊이 찾아 들어가고 싶은지 나타내는 불리언 값을 인자로 받는다.
        - `True` : 일치하는 태그를 찾아 자식, 자식의 자식 등 모든 값을 반환한다.
        - `False` : 문서 내 일치하는 최상위 태그만을 반환한다.
    - 기본 설정값은 `True`로, 원하는 것이 무엇인지 알고 있으며 성능이 중요한 상황이 아니라면 그대로 두는 것이 좋다.

4. `text`
    - 매개변수로 받은 텍스트가 들어 있는 값을 모두 반환한다.
    - 주로 특정 텍스트가 몇 번 나타났는지 확인할 때 사용한다.

5. `limit`
    - `findAll()` 함수에만 사용되며, 페이지의 처음 항목 몇 개를 불러올 것인지 지정한다.
    - `find()` 함수는 `findAll()` 함수에서 `limit` 매개변수를 1로 지정한 것과 같다.
    - 페이지에 나타난 순서대로 찾기 때문에, 원하는 추출 순서와 일치한다는 보장은 없다.

6. `keyword`
    - 특정 속성이 포함된 태그를 선택할 때 사용한다.
    - `keyword` 매개변수에 파이썬 예약어인 class를 사용하면 오류가 발생한다. 따라서 클래스 속성이 포함된 태그를 찾고자 할 때는 다음의 방법을 사용한다.
        - `bs.findAll(`class_` = ~)`
        - `bs.findAll('', {'class' : ~})`


CSS 선택자를 알아두자. https://code.tutsplus.com/ko/tutorials/the-30-css-selectors-you-must-memorize--net-16048

### get_text()
- 모든 태그를 제거하고 유니코드 텍스트만 들어 있는 문자열을 반환한다.
- 마지막, 즉, 최종 데이터를 출력하거나 저장, 조작하기 직전에만 사용하는 것이 좋다.

In [5]:
# findAll 함수 이용해 warandpeace.html 페이지에서 고유명사 추출
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://www.pythonscraping.com/pages/warandpeace.html")
bs = BeautifulSoup(html, 'html.parser')

nameList = bs.findAll('span', class_ = 'green')
for name in nameList:
    print(name.get_text()) # 그냥 name을 출력하면 텍스트만 나오지 않는다.

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [11]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://sirzzang.github.io/categories/Programming/")
bs = BeautifulSoup(html, 'html.parser')

# a 태그, permalink가 속성으로 있는 것에 title이 있다.
# https://aboooks.tistory.com/147
title_list = bs.findAll('a', {'rel' : 'permalink'})
for title in title_list:
    print(title.get_text(), end = "")

[자료구조] 우선순위 큐(힙)
[백준] BOJ1655 가운데를 말해요
[백준] BOJ11286 절댓값 힙
[백준] BOJ11279 최대 힙
[알고리즘] 정렬 알고리즘(Sort Algorithm)
[백준] BOJ5430 AC
[자료구조] 연결 리스트(Linked List)
[백준] BOJ1021 회전하는 큐
[백준] BOJ11866 요세푸스 문제 0
[백준] BOJ2164 카드2
[백준] BOJ18258 큐 2
[백준] BOJ10799 쇠막대기
Programming 시작
[Python] Matplotlib 라이브러리 정리
[Python] Python, 두 번 검색하지 말자!
[Python] OS 모듈 정리


### 탐색 시 사용할 수 있는 필터

태그, 속성 등을 사용해 컨텐츠에 접근하는 방법 말고, 다음과 같은 필터를 사용하여 컨텐츠에 접근할 수도 있다.

1. 문자열 : 해당하는 문자열이 들어 있는 태그를 모두 찾는다.
2. 정규표현식 : `match()` 메서드를 사용해 정규표현식에 맞는 태그를 모두 찾는다.
3. 리스트 : 리스트 내의 항목이 들어 있는 태그를 모두 찾는다.
4. `True` : 참인 값, 즉, 태그만을 모두 찾는다. 텍스트 문자열은 찾지 않는다.
5. 함수 : 함수의 값이 `True`인 태그를 모두 반환한다. `lambda` 표현식을 사용할 수 있다.

#### 정규표현식 사용

* 정규 표현식 : 정규 문자열(선형 규칙을 연달아 적용해 생성할 수 있는 문자열)을 식별하는 데 쓰이는 식.
* 자주 쓰이는 파이썬 정규 표현식
    - `*` : 바로 앞에 있는 문자, 하위 표현식, 대괄호로 묶인 문자들이 0번 이상 나타난다.
    - `+` : 
    
    ...



In [25]:
# page3.html에서 정규표현식을 활용해 이미지 불러오기
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs = BeautifulSoup(html, 'html.parser')
images = bs.findAll('img', {'src' : re.compile("\.\.\/img\/gifts\/img.*\.jpg")})
for image in images:
    # print(image.get_text()) : 아무 것도 안 나온다.
    print(image) # 이미지 태그 안에 들어 있는 텍ㅠ스트임.
    print(image.attrs) # 이미지 태그의 속성값 : src
    print(image.get("src")) # 접근방법 1
    print(image["src"]) # 접근방법 2

<img src="../img/gifts/img1.jpg"/>
{'src': '../img/gifts/img1.jpg'}
../img/gifts/img1.jpg
../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/>
{'src': '../img/gifts/img2.jpg'}
../img/gifts/img2.jpg
../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/>
{'src': '../img/gifts/img3.jpg'}
../img/gifts/img3.jpg
../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/>
{'src': '../img/gifts/img4.jpg'}
../img/gifts/img4.jpg
../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/>
{'src': '../img/gifts/img6.jpg'}
../img/gifts/img6.jpg
../img/gifts/img6.jpg


re.compile("https:\/\/movie-phinf.pstatic.net\/") : 의도한 건 밑에 6개였는데, 전체 이미지가 다 나온다.
밑에 애들은 width가 108이다.

In [48]:
# https://movie.naver.com/에서 하단 6개 영화 이미지와 링크 긁어와서 데이터프레임 생성하기
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pandas as pd

html = urlopen("https://movie.naver.com/")
bs = BeautifulSoup(html, 'html5lib')
photos = bs.findAll('img', {'src' : re.compile("https:\/\/movie-phinf.pstatic.net\/"),
                           'width' : 108})
for photo in photos:
    print(photo["src"])

https://movie-phinf.pstatic.net/20191025_155/1571993457632EK63z_JPEG/movie_image.jpg?type=n108_108_2
https://movie-phinf.pstatic.net/20200109_76/1578536963089lJJIi_JPEG/movie_image.jpg?type=n108_108_2
https://movie-phinf.pstatic.net/20200304_167/1583287809972arq7I_JPEG/movie_image.jpg?type=n108_108_2
https://movie-phinf.pstatic.net/20200130_107/1580352220947zdBum_JPEG/movie_image.jpg?type=n108_108_2
https://movie-phinf.pstatic.net/20200311_56/1583894374054efRvf_JPEG/movie_image.jpg?type=n108_108_2
https://movie-phinf.pstatic.net/20200313_297/1584064288399LeFbU_JPEG/movie_image.jpg?type=n108_108_2


#### 속성에 접근
* 태그에서 `.attrs` 메서드 사용.
* 딕셔너리이므로, 키를 찾아 접근 가능.

In [60]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pandas as pd

html = urlopen("https://movie.naver.com/")
bs = BeautifulSoup(html, 'html5lib')
p_tags = bs.p
print(p_tags.attrs)
print(p_tags['class'])

{'id': '_all_view_go', 'class': ['all_view_go']}
['all_view_go']


#### 람다 표현식

In [78]:
# 속성이 여섯 개인 태그 가져오기
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pandas as pd

html = urlopen("https://movie.naver.com/")
bs = BeautifulSoup(html, 'html5lib')
print("속성 개수로 찾으면 : {}".format(bs.findAll(lambda tag: len(tag.attrs) == 6)))

# 텍스트를 통해 똑같은 결과 가져오기
print("텍스트로 찾으면: ")
print(bs.findAll(lambda tag: tag.get_text() == "전체보기"))

속성 개수로 찾으면 : [<a href="/movie/running/premovie.nhn" id="movieChartAllView" onblur="movieChart.restartTimer();" onclick="clickcr(this, 'run.all', '', '', event);" onfocus="oTimer.abort();" title="전체보기">전체보기</a>, <img alt="내 손 안 영화매거진 무료로 구독하세요" border="0" height="196" src="https://movie-phinf.pstatic.net/20190807_250/1565166612614kpGNm_JPEG/%B3%D7%C0%CC%B9%F6%BF%B5%C8%AD_PC_%BD%BA%C6%F7%C6%AE%B6%F3%C0%CC%C6%AE_%BE%BE%B3%D7%C7%C3%B7%B9%C0%CC%B9%E8%B3%CA.jpg" title="스포트라이트 배너" width="210"/>]
텍스트로 찾으면: 
[<p class="all_view_go" id="_all_view_go"><a href="/movie/running/premovie.nhn" id="movieChartAllView" onblur="movieChart.restartTimer();" onclick="clickcr(this, 'run.all', '', '', event);" onfocus="oTimer.abort();" title="전체보기">전체보기</a></p>, <a href="/movie/running/premovie.nhn" id="movieChartAllView" onblur="movieChart.restartTimer();" onclick="clickcr(this, 'run.all', '', '', event);" onfocus="oTimer.abort();" title="전체보기">전체보기</a>]


# 2. 트리 이동하기
HTML 페이지 트리 구조 안에서 태그들의 문서 안 위치를 기준으로 트리 내비게이션을 활용해 컨텐츠에 접근할 수 있다.

* 먼저 HTML을 트리 구조로 나타낼 수 있어야 한다.
* 자식, 자손, 부모, 형제 관계의 선택자들을 다음과 같은 메서드로 선택할 수 있다.


1. 내려가기
    - `.children` : 자식 태그만 찾을 때.
    - `.decendants` : 자손 태그를 모두 찾을 때.
    
2. 올라가기
    - `.parent()` : 한 요소의 부모를 찾을 때.
    - `.parents()` : 한 요소의 부모들을 모두 찾을 때.
    
3. 옆으로 가기
    - `.next_siblings()` : 해당 요소 다음의 형제들을 찾을 때. 테이블 구조 같이 첫 행이 헤더인 경우 유용하게 사용할 수 있다.
    - `.previous_siblings()` : 원하는 형제 태그 목록의 마지막에 있는 태그 선택.
    - `.next_sibling()`, `.previous_sibling()` : 위와 거의 같지만, 리스트가 아니라 태그 하나만을 반환.

4. 앞뒤로 가기


page3.html의 웹페이지 구조를 나타내면 다음과 같다.
`.contents()` 메서드를 통해 어떤 태그가 하위에 존재하는지 알 수 있다.


```
* html
    - head
    - body
        - div#wrapper
            - h1
            - div#content
            - table#giftList
                - tbody
                    - tr
                        - th
                        - th
                        - th
                        - th
                    - tr.gift#gift1
                        - td
                        - td
                            - span.excitingNote
                        - td
                        - td
                            - img
                    - tr.gift#gift2
                        - td
                        - td
                            - span.excitingNote
                        - td
                        - td
                   - tr.gift#gift3
                   ...
           
        - div#footer  
```


In [88]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs = BeautifulSoup(html, 'lxml')

# 자식, 자손 태그 찾기
for child in bs.find('table', {'id' : 'giftList'}).children:
    print(child) # 자식 태그 : 제품 행 목록을 출력.
print("="*50)
for descendant in bs.find('table', {'id' : 'giftList'}).descendants:
    print(descendant) # 자손 태그 모두 출력 : th, img, span 등 태그 하나씩 출력



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [95]:
# 부모 태그 선택
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html= urlopen("http://www.pythonscraping.com/pages/page3.html")
bs = BeautifulSoup(html, 'html.parser')

print(bs.find("img", {"src" : "../img/gifts/img3.jpg"}).parent) # td 선택.

<td>
<img src="../img/gifts/img3.jpg"/>
</td>


In [100]:
# 형제 태그 선택자를 이용해 테이블 헤더를 제외한 내용만 출력
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html= urlopen("http://www.pythonscraping.com/pages/page3.html")
bs = BeautifulSoup(html, 'html.parser')

# bs.find("table", {"id" : "giftList"}) # 전체 테이블 구조
# bs.find("table", {"id" : "giftList"}).tr # 헤더
print(bs.find("table", {"id" : "giftList"}).tr.next_siblings) # 형제 관계에 있는 다음 태그 : generator이므로 이 자체로는 출력되지 않음.
for gift in bs.find("table", {"id" : "giftList"}).tr.next_siblings:
    print(gift)

<generator object next_siblings at 0x0000021C1CC752B0>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" i

In [106]:
# 부모, 형제 태그를 모두 사용해 이동하며 gift2의 가격 선택
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html= urlopen("http://www.pythonscraping.com/pages/page3.html")
bs = BeautifulSoup(html, 'html.parser')

bs.find("img", {"src" : "../img/gifts/img2.jpg"}).parent.previous_sibling.get_text().strip("\n")

'$10,000.52'