# BeautifulSoup
- HTML 문서에서 원하는 부분출 추출해내는 라이브러리
- 'requests'는 HTML을 텍스트 형태로 출력할 뿐이지 실제 HTML 태그를 다루지는 않는다.
- BeautifulSoup 라이브러리는 위의 텍스트 결과를 실제 HTML 코드로 변환해준다. 

## BeautifulSoup
- BeautifulSoup()
    - 문자열 HTML 코드를 실제 HTML 코드로 변환해주는 함수

    ```python
    BeautifulSoup(문자열, 'html.parser')
    # 문자열을 HTML 코드로 해석해서 읽어라
    ```

- find_all()
    - HTML 코드에서 우리가 원하는 부분을 모두 가져오는 함수
    - 원하는 부분을 지정할 때 사용하는 것은 태그와  Selector
    - 해당 태그의 모든 HTML 코드를 리스트 형태로 반환

    ```python
    # <div id="example1">
    실제HTML코드.find_all("div") # 태그 이름
    실제HTML코드.find_all(id="example1") # 선택자 정보

    # <div id="example1">, <span class="example2">
    실제HTML코드.find_all(["div", "span"]) # 태그 이름
    실제HTML코드.find_all(attrs = {"id":"example1", "class":"example2"}) # 선택자 정보
    ```



- find()
    - 하나의 부분만 가져오는 함수

    ```python
    # <div id="example1">
    실제HTML코드.find("div") # 태그 이름
    실제HTML코드.find(id="example1") # 선택자 정보
    실제HTML코드.find(attrs = {"id":"example1"}) # 선택자 정보
    실제HTML코드.find("div", {"id":"example1"}) # 태그 이름 + 선택자 정보
    ```

# 함수 find() vs find_all()
- 두 함수의 차이점을 이해하면 효율적으로 크롤링을 할수 있다. 
- 로또 당첨 번호를 조회해 보자
- [당첨번호 확인](https://dhlottery.co.kr/gameResult.do?method=byWin)

In [1]:
from bs4 import BeautifulSoup
import requests

In [2]:
def lotto_win():
    lotto_url = "https://dhlottery.co.kr/gameResult.do?method=byWin"
    raw = requests.get(lotto_url)

    soup = BeautifulSoup(raw.text, "html.parser")
    box = soup.find("div", {"class":"num win"})
    numbers = box.find_all("span")
    for num in numbers:
        print(num.text)

In [3]:
lotto_win()

3
6
14
22
30
41


In [4]:
finance_url = "https://finance.naver.com/sise/"
finance_raw = requests.get(finance_url)
finance_html = finance_raw.text

In [6]:
soup = BeautifulSoup(finance_html, "html.parser")

In [12]:
s_1 = soup.find('ul', {"id":"popularItemList"})
s_2 = s_1.find_all("a")
# s_2 = s_1.find_all("li")

In [18]:
for j,i in enumerate(s_2):
    print(f"{j+1} {i.text}")

1 에코프로
2 마녀공장
3 현대바이오
4 삼성전자
5 두산에너빌리티
6 한일사료
7 에코프로비엠
8 POSCO홀딩스
9 이수스페셜티케미컬
10 이수페타시스


# URL 패턴
- https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1
- url 패턴 : query="검색값"&page="페이지값"

- 한경 사이트에서 검색어를 입력하면 기사 제목을 3페이지 까지 크롤링하도록 작성해 보세요
```
다음날 느껴지는 입체 탄력피부 비결은 아모레퍼시픽 TR... 
비피도 주가 아모레퍼시픽 마이크로바이옴 관련주 분석
아모레퍼시픽 팝업 전시, 유행화장전 꿀잼 방문후기... 
오프화이트 아모레퍼시픽 프로텍션박스 개봉기
신용산 쌀국수 베트남 음식 맛집 아모레퍼시픽 포포유 맛있어
아모레퍼시픽 유행화장 팝업전시, 한남동 storyA 꼭 방문해봐요
아모레퍼시픽 마케팅 지원자 모의면접 피드백 (1분 자기소개... 
아모레퍼시픽을 선택할 것인가, 하나투어를 선택할 것인가
아모레퍼시픽 유행화장 전시에서 레트로 시간여행하고온 후기!
아모레퍼시픽 팝업 전시! 유행화장전으로 시간 여행 떠나요~
국내 주식 아모레퍼시픽 유상증자 및 역삼각합병(삼각합병)
오프화이트 X 아모레퍼시픽 프로텍션 박스 소장가치 100%야
경제기사)_동아에스티_라네즈_아모레퍼시픽_포스코... 
아모레퍼시픽 빈티지에센스 , 더 맑고 더 탄력있는 항산화에너지
[아모레퍼시픽×금귤] ★필독 틈새공지★ 10월부터 쿠폰... 
서울 성수 나들이 : 아모레퍼시픽 성수점, 커먼그라운드... 
아모레퍼시픽 타임레스폰스앰플, 압도적 입체 탄력앰플 추천
아모레퍼시픽 타임 레스폰스 앰플 ! 입체 탄력 케어에 도움을... 
아모레퍼시픽(090430) 종목분석 리포트 2022.07.29 교보증권
아모레퍼시픽 본사 All about Amore 행사 초청으로... 
아모레퍼시픽 '22.1Q 실적 리뷰 : 부진의 정점과 긍정적 변화
수혜주 - 아모레퍼시픽, LG생활건강, 한국콜마, 코스맥스... 
(화장품 관련주) 아모레퍼시픽 주가 전망은?
LG생활건강, 아모레퍼시픽, 네오팜 - 화장품업계는 중국없으면... 
화장품 관련주 아모레퍼시픽 주가, 3분기 실적발표 어닝쇼크... 
삼성전자_이재용_메타_LG생활건강_아모레퍼시픽_한국은행_RP매입
아모레퍼시픽 주가, 전망 알아볼까요?
아모레퍼시픽 주가 알아보기
서울 전시 안드레아스 거스키 사진전 @아모레퍼시픽미술관
아모레퍼시픽몰 뷰티포인트 5천원 바이탈뷰티 100원딜 이벤트... 
```



- [참고: URL 인코딩/디코딩 (URL Encoding/Decoding)](https://it-eldorado.tistory.com/143)  
<img src="https://blog.kakaocdn.net/dn/caNQvW/btq4JfrNJfP/zdIHGBlZFZr26k2XeHJhbK/img.png">

In [31]:
def hankyung_news(query, pages):
    for page_num in range(1, pages+1):
        hankyung_url = f"https://search.hankyung.com/search/news?query={query}&page={page_num}"
        hankyung_raw = requests.get(hankyung_url)
        hankyung_bs = BeautifulSoup(hankyung_raw.text, "html.parser")
        for i in hankyung_bs.find("div", {"class":"section_cont"}).find_all("li"):
            print(i.find("em", {"class":"tit"}).text)


In [32]:
query = input("검색어를 입력 하세요 : ")
pages = int(input("몇페이지 까지 검색하실건가요 : "))
hankyung_news(query, pages)

억대 연봉 약사→광고 회사 CEO…'캠핑 인 러브2', 화려한 출연자 스펙 공개
북한 역도, 쿠바 대회 불참…사실상 파리올림픽 출전 불가(종합)
중국 5월 소비자물가 0.2% 상승…생산자물가는 4.6% 하락
세이브더칠드런, '네팔 아동노동 근절 캠페인' 추진
캐나다, 산불로 대기질 최악…당국, 마스크 착용 지침 다시 꺼냈다
관광지 물가 논란 '뜨끔'…제주 '바가지 방지' 나선다
경기교육청, 올해 하반기 검정고시 8월 10일 시행
목발 짚고 나타난 최태원 "엑스포 유치에 중요한 행사"(종합)
휴가철 앞두고 '제주 관광 바가지 방지' 입법 추진
[주말극장가] '범죄도시 3' 독주 계속…800만 관객 돌파 시도
中 당국, 자동차 판매촉진 캠페인…"보조금 지원·구매 우대"
[르포] 일본 오염수 방류 임박에 부산 수산업계 '초긴장'
"티켓 값 20만원"…하이브, 업계 공룡의 부담스러운 '팬心 인질극'[TEN초점]
진원생명과학, 코로나 DNA·mRNA 백신 교차접종 연구 학술지 게재
미련 없이 사표 던진 20년차 기자…퇴사하고 뭐하나 봤더니 [긱스]
세종시청 앞, 공원·주차 겸한 '광장주차장' 만든다
[해외 바이오 기업] 모든 바이오텍의 롤모델, 리제네론파마슈티컬스
"엄청난 통증"…최태원 회장, 깁스한 채 부산행 '부상투혼'
6년 만에 만난 한일 상의 "오사카-부산 엑스포 협력"
6년만에 다시 만난 한일상의…"오사카-부산 엑스포 협력"
EU, 새 난민정책 잠정합의…나눠받거나 1인당 3천만원 내거나
산청세계전통의약항노화엑스포 조직위, 일본서 관광객 유치전
10기 옥순♥유현철, 재혼 앞두고 동거 시작…'2억9천' PD "결혼 장려도 만류도 NO" [일문일답]
재택근무 장려했던 구글 "주 3회 사무실 출근 고과에 반영"
P의 거짓·워헤이븐·TL…국제 게임쇼 수놓은 K-게임
최태원 회장, 아킬레스건 파열 불구 부산행
최태원, 다리 깁스하고 부산行…"엑스포 유치에 중요한 행사"
"여름 성수기 맞아 항공 운임 반등할 것…LCC에 주목해야"-한국
'봇물' 터진 해외여행…결국 이렇게 

```
1 - 블링 (BLING) : 해피클 미리클
2 - 쎄몽히어로 : 내안의 히어로를 찾아서
3 - AMOS1 : Santa Claus
4 - Weeekly (위클리) : Happy Christmas
5 - TO1 (티오원) : OVERLAP
6 - 백예슬 : 크리스마스가 찾아온 길
7 - 펀치펀치 (Punch Punch) : WINTER ISLAND
8 - EEDO : OUT NOW
9 - Ziodina (지오디나) : Christmas Time
10 - 도람 : 너야 (Feat. NO.I)
11 - Musist : Where R U (Feat. 공시아)
12 - 샌드박스 네트워크 : 첫눈
```

In [74]:
# 멜론 차트 
# melon_raw = requests.get(melon_url, headers = header)
# melon_bs = BeautifulSoup(melon_raw.text, "html.parser")
# tab_name = melon_bs.find("div", {"class":"wrap_tabmenu01 type08"}).find_all("a")

# for i in tab_name:
#     print(i.text)
#     print(i.attrs['href'])

def get_gens(url, header=header):
    melon_raw = requests.get(melon_url, headers = header)
    melon_bs = BeautifulSoup(melon_raw.text, "html.parser")
    tab_name = melon_bs.find("div", {"class":"wrap_tabmenu01 type08"}).find_all("a")

    gen_dic = {}
    for i in tab_name:
        print(i.text)
        gen_dic[i.text] = i.attrs['href']

    gen_key = input("원하는 장르를 입력 하세요 : ")
    root_url = "https://www.melon.com"
    gen_url = gen_dic[gen_key]
    url = f"{root_url}{gen_url}"
    return url 
# header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko'}
# melon_url = "https://www.melon.com/genre/song_list.htm"
# get_gens(melon_url, header)

def get_table(url, header=header):
    table_raw = requests.get(url, headers = header)
    table_bs = BeautifulSoup(table_raw.text, "html.parser")
    songs = table_bs.find_all("div", {"class": "ellipsis rank01"})
    singers = table_bs.find_all("div", {"class": "ellipsis rank02"})
    return singers, songs

def print_table(singers, songs):
    for rank, song_info in enumerate(zip(singers, songs)):
        singer, song = song_info
        singer = singer.find("a").text
        song = song.find("a").text
        print(rank+1, singer, song)



In [75]:
# url = 'https://www.melon.com//genre/song_list.htm?gnrCode=GN0300'
# table_raw = requests.get(url, headers = header)
# table_bs = BeautifulSoup(table_raw.text, "html.parser")
# songs = table_bs.find_all("div", {"class": "ellipsis rank01"})
# singers = table_bs.find_all("div", {"class": "ellipsis rank02"})

In [76]:
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv:11.0) like Gecko'}
melon_url = "https://www.melon.com/genre/song_list.htm"
gen_url = get_gens(melon_url, header)
sing,song = get_table(gen_url, header)
print_table(sing,song)

발라드
댄스
랩/힙합
R&B/Soul
인디음악
록/메탈
트로트
포크/블루스
1 SWITCH Shut Off
2 Remind Voice Question
3 Maniac Brass Sensation
4 Arvia Area Truth
5 AMBITION INCEPTION
6 gwangil_masion (광일맨션) 靑春 (청춘)
7 플레야 Sacrifice
8 트러스트(Trust) Robots
9 P1Harmony JUMP
10 퀸덤퍼즐 RISE UP
11 강다니엘 Wasteland
12 THE NEW SIX (TNX) Kick It 4 Now
13 XODIAC THROW A DICE
14 Maniac Brass Rub
15 Arvia Area Simple
16 Remind Voice Plunge
17 tripleS (트리플에스) Cherry Gene
18 스타데이즈 (STARDAYS) Galassia
19 Hit Boost Crucial
20 Forest Music Vast Ocean
21 프로미스나인 #menow
22 Maniac Brass Parade
23 Arvia Area Precious
24 Remind Voice Escape
25 영후드 (YOUNgHOOD) DREAM GIRL
26 브레이브걸스 Shiny World
27 @IN_어스 SPACEMAN
28 Radio Not Ready or Not
29 비비안 (VIVIAN) What I Want
30 Crusadope Boom (Feat. Seon, Jason)
31 Musist 소문 (Feat. 김윤재)
32 조미 (ZHOUMI) Mañana (Our Drama) (Feat. 은혁)
33 이소예 일종의 고백 (Rabbit loves you)
34 인더스튜디오(INTHESTUDIO) BA LA LA
35 Dustin (더스틴) BLACKLIST
36 박로시 LUV Myself
37 NINE to SIX Don't Call Me
38 HORI7ON(호라이즌) Lovey Dovey
39 DIAWINGS Fin

In [67]:
sing[0].find("a").text

'SWITCH'