# BeautifulSoup
- HTML 문서에서 원하는 부분출 추출해내는 라이브러리
- 'requests'는 HTML을 텍스트 형태로 출력할 뿐이지 실제 HTML 태그를 다루지는 않는다.
- BeautifulSoup 라이브러리는 위의 텍스트 결과를 실제 HTML 코드로 변환해준다. 

## BeautifulSoup
- BeautifulSoup()
    - 문자열 HTML 코드를 실제 HTML 코드로 변환해주는 함수

    ```python
    BeautifulSoup(문자열, 'html.parser')
    # 문자열을 HTML 코드로 해석해서 읽어라
    ```

- find_all()
    - HTML 코드에서 우리가 원하는 부분을 모두 가져오는 함수
    - 원하는 부분을 지정할 때 사용하는 것은 태그와  Selector
    - 해당 태그의 모든 HTML 코드를 리스트 형태로 반환

    ```python
    # <div id="example1">
    실제HTML코드.find_all("div") # 태그 이름
    실제HTML코드.find_all(id="example1") # 선택자 정보

    # <div id="example1">, <span class="example2">
    실제HTML코드.find_all(["div", "span"]) # 태그 이름
    실제HTML코드.find_all(attrs = {"id":"example1", "class":"example2"}) # 선택자 정보
    ```



- find()
    - 하나의 부분만 가져오는 함수

    ```python
    # <div id="example1">
    실제HTML코드.find("div") # 태그 이름
    실제HTML코드.find(id="example1") # 선택자 정보
    실제HTML코드.find(attrs = {"id":"example1"}) # 선택자 정보
    실제HTML코드.find(attrs = {"class":"example1"})
    실제HTML코드.find("div", {"id":"example1"}) # 태그 이름 + 선택자 정보
    실제HTML코드.find('div', {"class":"example1"})
    ```

# 함수 find() vs find_all()
- 두 함수의 차이점을 이해하면 효율적으로 크롤링을 할수 있다. 
- 로또 당첨 번호를 조회해 보자
- [당첨번호 확인](https://dhlottery.co.kr/gameResult.do?method=byWin)

In [6]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

In [31]:
#로또 당첨 번호를 불러와 보세요.
# 결과
# 12 17 20 ... 36

In [None]:
# find로 찾기

In [66]:

lotto_url = requests.get('https://dhlottery.co.kr/gameResult.do?method=byWin')
lotto_bs = bs(lotto_url.text, 'html.parser')

In [52]:
result = lotto_bs.find('div', {'class':'nums'})
# print(result)

result_win = result.find('div', {'class':'num win'})
# 보너스는 제외시키기

for i in result_win.find_all('span'):
    print(i.text)

# 보너스 번호 추가
print("<보너스번호>")
result_bonus = result.find('div', {'class':'num bonus'})
result_bonus_num = result_bonus.find_all('span')[0].text
print(result_bonus_num)


12
17
20
26
28
36
<보너스번호>
4


In [None]:
# select로 찾기

In [53]:
css_soup = lotto_bs.select('div.nums > div.num.win')

In [55]:
for item in css_soup[0].find_all('p'):
    print(item.text)


12
17
20
26
28
36



# URL 패턴
- https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1
- url 패턴 : query="검색값"&page="페이지값"

- [참고: URL 인코딩/디코딩 (URL Encoding/Decoding)](https://it-eldorado.tistory.com/143)  
<img src="https://blog.kakaocdn.net/dn/caNQvW/btq4JfrNJfP/zdIHGBlZFZr26k2XeHJhbK/img.png">

In [None]:
# 검색어를 입력받고 환경 닷컴에서 검색된 결과 중 첫번째 페이지의 제목만 출력하세요.

corona_url = requests.get('https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1', verify = False)
corona_bs = bs(corona_url.text , 'html.parser')


In [85]:
worldcup_url = requests.get('https://search.naver.com/search.naver?query=%EC%9B%94%EB%93%9C%EC%BB%B5&nso=&where=blog&sm=tab_opt')
worldcup_bs = bs(worldcup_url.text , 'html.parser')

In [145]:
result = worldcup_bs.find('div', {'class':'total_group'})


result_thumnail = result.find_all('a')[0].text

print(result_thumnail)


 카타르 월드컵 8강 브라질 크로아티아 중계방송 MBC SBS KBS 해설진 승부예측 분석 다시보기 선발 명단 프리뷰 2022 카타르 월드컵 8강 진출팀이 모두 가려졌고 이제...  


In [None]:
#옳바른 방법

In [144]:
naver_bs.find_all("div", {"class":"total_area"})[0].find("a", {"class":"api_txt_lines total_tit"}).text

'카타르 월드컵 8강 브라질 크로아티아 중계방송 MBC SBS KBS... '

In [None]:
query = input("검색어를 입력하세요 : ")
naver_url = f"https://search.naver.com/search.naver?query={query}&nso=&where=blog&sm=tab_opt"
naver_raw = requests.get(naver_url, verify=False)
naver_bs = bs(naver_raw.text, "html.parser")
for i in naver_bs.find_all("div", {"class":"total_area"}):
    print(i.find("a", {"class":"api_txt_lines total_tit"}).text)

In [40]:
query = input("장르를 입력하세요.: ")

list_gnr = ['발라드','댄스','랩/힙합','R&B/Soul','인디음악','록/메탈','트로트','포크/블루스']

if query not in list_gnr:
    print('다시 입력하세요.')

gnr = 100 * (list_gnr.index(query) + 1)

    
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko'}

url = f'https://www.melon.com/genre/song_list.htm?gnrCode=GN0{gnr}'
melon_url = requests.get(url, headers= header)
melon_bs = bs(melon_url.text, 'html.parser')

i = 0
for item in melon_bs.find_all('div', {'ellipsis rank01'}):
    i += 1
    print(f"{i}.{item.text}")


# for item in melon_bs.find_all('div', {'wrap_song_info'}):
#     print(item.text)



1.
WINTER ISLAND

2.
OUT NOW

3.
Christmas Time

4.
Where R U (Feat. 공시아)

5.
첫눈

6.
사랑은 쿵쿵쿵

7.
Free Run

8.
나와!

9.
Amazing

10.
Airplane

11.
Two inches (Feat. 자주)

12.
치즈떡볶이

13.
Reset

14.
메리 메리 크리스마스

15.
오늘도 나는 달린다

16.
Emerald Green

17.
소중했던 그해 겨울밤

18.
Flash

19.
바빠(Feat.U.J,원업)

20.
Dear. Winter

21.
Far Away

22.
Merry Christmas (Feat. 솔)

23.
크리스마스 팡파레

24.
Girl In The Mirror (Feat. Frawley)

25.
고백

26.
Shine tiger

27.
Re CoCoGirl

28.
무화 (Feat. 천누리)

29.
Dream land

30.
Mr. H (Feat. 우주(wouldu))

31.
중독(Feat. 616 khan a.k.a keezy)(Prod by Encode Mafia)

32.
하모 Yeah!

33.
Cheshire

34.
Back Down

35.
뭉치는 우리 집으로 데려갈게

36.
DESSERT

37.
All or Nothing

38.
Day by Day

39.
크리스마스 소원

40.
WHEN I MOVE

41.
사랑을 위한 챌린지 노래 (feat. 주디)

42.
빙글빙글 (Vocal by 성민) (Rap by LEF-T)

43.
Handle

44.
지구를 위하여

45.
Birthday

46.
A to Z

47.
Higher Up

48.
Christmas party

49.
Trust Yourself (Inst.)

50.
약속해



In [231]:
url = 'https://finance.naver.com/sise/'
finace_url = requests.get(url)
finace_bs = bs(finace_url.text, 'html.parser')


for item in finace_bs.find('ul', {'class':'lst_pop'}).find_all('a'):
    print(item.text)

# for item in finace_bs.find_all('ul', {'class':'lst_pop'}):
#     print(item.text)


삼성전자
새빗켐
카카오
포바이포
위메이드
LG전자
한국조선해양
LG에너지솔루션
TIGER 200 IT
SK이노베이션
