# BeautifulSoup
- HTML 문서에서 원하는 부분출 추출해내는 라이브러리
- 'requests'는 HTML을 텍스트 형태로 출력할 뿐이지 실제 HTML 태그를 다루지는 않는다.
- BeautifulSoup 라이브러리는 위의 텍스트 결과를 실제 HTML 코드로 변환해준다. 

## BeautifulSoup
- BeautifulSoup()
    - 문자열 HTML 코드를 실제 HTML 코드로 변환해주는 함수

    ```python
    BeautifulSoup(문자열, 'html.parser')
    # 문자열을 HTML 코드로 해석해서 읽어라
    ```

- find_all()
    - HTML 코드에서 우리가 원하는 부분을 모두 가져오는 함수
    - 원하는 부분을 지정할 때 사용하는 것은 태그와  Selector
    - 해당 태그의 모든 HTML 코드를 리스트 형태로 반환

    ```python
    # <div id="example1">
    실제HTML코드.find_all("div") # 태그 이름
    실제HTML코드.find_all(id="example1") # 선택자 정보

    # <div id="example1">, <span class="example2">
    실제HTML코드.find_all(["div", "span"]) # 태그 이름
    실제HTML코드.find_all(attrs = {"id":"example1", "class":"example2"}) # 선택자 정보
    ```



- find()
    - 하나의 부분만 가져오는 함수

    ```python
    # <div id="example1">
    실제HTML코드.find("div") # 태그 이름
    실제HTML코드.find(id="example1") # 선택자 정보
    실제HTML코드.find(attrs = {"id":"example1"}) # 선택자 정보
    실제HTML코드.find(attrs = {"class":"example1"})
    실제HTML코드.find("div", {"id":"example1"}) # 태그 이름 + 선택자 정보
    실제HTML코드.find('div', {"class":"example1"})
    ```

# 함수 find() vs find_all()
- 두 함수의 차이점을 이해하면 효율적으로 크롤링을 할수 있다. 
- 로또 당첨 번호를 조회해 보자
- [당첨번호 확인](https://dhlottery.co.kr/gameResult.do?method=byWin)

In [2]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

In [31]:
#로또 당첨 번호를 불러와 보세요.
# 결과
# 12 17 20 ... 36

In [None]:
# find로 찾기

In [3]:

lotto_url = requests.get('https://dhlottery.co.kr/gameResult.do?method=byWin')
lotto_bs = bs(lotto_url.text, 'html.parser')

In [4]:
result = lotto_bs.find('div', {'class':'nums'})
# print(result)

result_win = result.find('div', {'class':'num win'})
# 보너스는 제외시키기

for item in result_win.find_all('span'):
    print(item.text)

# 보너스 번호 추가
print("<보너스번호>")
result_bonus = result.find_all('div', {'class':'num bonus'})[0]
# result_bonus_num = result_bonus.find_all('span')[0].text
print(result_bonus.text)


6
14
15
19
21
41
<보너스번호>

보너스
37



In [44]:
# select로 찾기

In [16]:
css_soup = lotto_bs.select('div.nums > div.num.win')

In [17]:
for item in css_soup[0].find_all('span'):
    print(item.text)

6
14
15
19
21
41


# URL 패턴
- https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1
- url 패턴 : query="검색값"&page="페이지값"

- [참고: URL 인코딩/디코딩 (URL Encoding/Decoding)](https://it-eldorado.tistory.com/143)  
<img src="https://blog.kakaocdn.net/dn/caNQvW/btq4JfrNJfP/zdIHGBlZFZr26k2XeHJhbK/img.png">

In [5]:
worldcup_url = requests.get('https://search.naver.com/search.naver?query=%EC%9B%94%EB%93%9C%EC%BB%B5&nso=&where=blog&sm=tab_opt')
worldcup_bs = bs(worldcup_url.text , 'html.parser')

In [6]:
result = worldcup_bs.find('div', {'class':'total_group'})


result_thumnail = result.find_all('a')[0].text

print(result_thumnail)


 2002년의 월드컵 신화를 썼을 일도 없었을 거라는 점입니다. 한국 축구협회에서... 하필이면 한국이 월드컵 개최국이기 때문인데, 당시까지 월드컵 역사상, 개최국이...  


In [7]:
#옳바른 방법

In [8]:
naver_bs.find_all("div", {"class":"total_area"})[0].find("a", {"class":"api_txt_lines total_tit"}).text

NameError: name 'naver_bs' is not defined

In [27]:
query = input("검색어를 입력하세요 : ")
naver_url = f"https://search.naver.com/search.naver?query={query}&nso=&where=blog&sm=tab_opt"
naver_raw = requests.get(naver_url, verify=False)
naver_bs = bs(naver_raw.text, "html.parser")
for i in naver_bs.find_all("div", {"class":"total_area"}):
    print(i.find("a", {"class":"api_txt_lines total_tit"}).text)



2002년 월드컵 히딩크 감독 인생스토리 (근황, 네덜란드)
2022 카타르월드컵 8강 모로코 대 포르투갈 분석 4강 진출팀... 
[2022 카타르월드컵] 브라질과 아르헨티나
사막 월드컵과 제로에너지빌딩
카타르월드컵⚽️ 조별매치 3경기 직관 후기
[축구] 카타 월드컵이 남긴 숙제
이강인의 성장(feat.손흥민, 2014 브라질 월드컵)
2022 카타르 월드컵 8강 모로코 대 포르투갈 - 일정, 전력분석... 
카타르 월드컵 8강 크로아티아 브라질 분석 전적 피파랭킹... 
2022 카타르월드컵 16강 결과 및 8강 대진표 승리예상
카타르 월드컵 일정 시간 ✔️우승후보 브라질 탈락... 
2022 카타르 월드컵 크로아티아대 브라질 경기 분석... 
삼바 축구의 침몰, 카타르 월드컵 8강전 첫 경기 브라질 VS... 
2022 카타르 월드컵 8강 대진표 일정 결승전 도!
브라질 크로아티아 축구 중계 카타르 월드컵 8강 경기 무료... 
월드컵 공인구 언제부터 썼을까?? 월드컵 공인구의 역사 - 2
2022 카타르 월드컵 8강 일정, 대진표, 진출팀 (ft. 벤투)
2022 카타르 월드컵 모로코대 포르투갈 분석 경기일정... 
2022 카타르월드컵 8강 잉글랜드 대 프랑스 분석 4강 진출팀... 
크로아티아 브라질 분석 승부예측 카타르 월드컵 8강 MBC SBS... 
안티 아르헨티나를 만들어준 월드컵 경기
포르투갈 모로코 중계방송 카타르 월드컵 8강 토너먼트... 
2022 카타르 월드컵 8강 잉글랜드 대 프랑스 - 경기 일정, 전력... 
[카타르 월드컵] 모로코 8강진출, 관전 포인트 3가지
2022 FIFA 카타르 월드컵 8강 일정과 프리뷰, 8강 골키퍼들... 
2022 카타르 월드컵 네덜란드대 아르헨티나 역대 전적... 
카타르 월드컵 8강 포르투갈 모로코 분석 전적 피파랭킹... 
카타르 월드컵 8강전 제2경기에서 아르헨티나, 승부차기 끝에... 
2026 월드컵은 밴쿠버, 토론토에서
2022 카타르 월드컵은 왜 감동적이었을까?⚽️


In [54]:
query = input("장르를 입력하세요.: ")

list_gnr = ['발라드','댄스','랩/힙합','R&B/Soul','인디음악','록/메탈','트로트','포크/블루스']

if query not in list_gnr:
    print('다시 입력하세요.')

gnr = 100 * (list_gnr.index(query) + 1)

    
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko'}

url = f'https://www.melon.com/genre/song_list.htm?gnrCode=GN0{gnr}'
melon_url = requests.get(url, headers= header)
melon_bs = bs(melon_url.text, 'html.parser')

songs = melon_bs.find_all('div', {'ellipsis rank01'})
singers = melon_bs.find_all('div', {'ellipsis rank02'})

print(query, '\n')

i = 0
for item, j in zip(songs, singers):
    i += 1
    song = item.text
    singer = j.find('a').text
    print(f"{i}.{singer} : {song}")


# for item in melon_bs.find_all('div', {'wrap_song_info'}):
#     print(item.text)



발라드 

1.먼데이 키즈 (Monday Kiz) : 
추억 일기

2.경서예지 : 
그 겨울이 잠든 거리에서

3.리제(이지혜) : 
안아볼까

4.투앤비 (2NB) : 
얼마나 더 아파해야 이별이 끝이 날까

5.진민호 : 
Goodbye My Love

6.조동희 : 
우리가 사랑이라 말하는 것들

7.시하 : 
크리스마스 선물처럼

8.클랑 (KLANG) : 
Let it go

9.아웃오브캠퍼스 : 
계단

10.배찬미 : 
못 이룬 날들에게 (With.미소)

11.유키카 : 
우주의 법칙

12.신현우 : 
헤어지자 (2022)

13.바닐라무스(Vanilla Mousse) : 
O Holy Night

14.Aalia (알리아) : 
숨멎

15.겸 (GYE0M) : 
나쁜 꿈

16.유난이 : 
작아지는 마음

17.한준우 : 
그 밤이 내 곁에 머물러 있어 (Feat. 이성근)

18.봉구 (길구봉구) : 
받아주기를

19.한혜진 × 기안84 : 
겨울고백

20.Sondia : 
너란이름

21.클래스메이트 : 
우리 이별하긴 했나요

22.셀린 (Celine) : 
Starry Night

23.기록희 (Original 은가은) : 
단 하루만

24.김대연 : 
For You

25.모닝커피 (Morning Coffee) : 
언제나 너만 사랑할 사람

26.캐롤소녀 : 
해피 크리스마스

27.양성준 : 
기다리는 곳(feat.정수인)

28.팔빈 (Falvin) : 
웃음만 나잖아

29.팔빈 (Falvin) : 
운명 같은 사람

30.지성철 : 
기차를 타고

31.겨레 : 
그대로만 (Stay)

32.E℃ (이섭씨) : 
지나간다 (feat. 서우연)

33.백주 : 
그 곳에 다시 한 번 서다

34.선하 : 
아빠

35.양재동 사람들 : 
기다리는 것도, 지우는 것도 (Vocal by NAEUN)

36.이혜인 : 
닮고 싶은 너

37.All the Way : 
겨울밤 (Vocal 김훨)

38.정빈 : 
I love

In [55]:
tab_name = melon_bs.find('div', {"wrap_tabmenu01 type08"}).find_all('a')
for i in tab_name:
    print(i.get_text())


# for item in melon_bs.find_all('div', {"wrap_tabmenu01 type08"}):
#     print(item.text)

발라드
댄스
랩/힙합
R&B/Soul
인디음악
록/메탈
트로트
포크/블루스


In [57]:
url = 'https://finance.naver.com/sise/'
finace_url = requests.get(url)
finace_bs = bs(finace_url.text, 'html.parser')


for item in finace_bs.find('ul', {'class':'lst_pop'}).find_all('a'):
    print(item.text)

# for item in finace_bs.find_all('ul', {'class':'lst_pop'}):
#     print(item.text)


삼성전자
카카오
NAVER
LG화학
현대차
SK하이닉스
KODEX 레버리지
코오롱인더우
DL이앤씨
두산에너빌리티
