# BeautifulSoup
- HTML 문서에서 원하는 부분출 추출해내는 라이브러리
- 'requests'는 HTML을 텍스트 형태로 출력할 뿐이지 실제 HTML 태그를 다루지는 않는다.
- BeautifulSoup 라이브러리는 위의 텍스트 결과를 실제 HTML 코드로 변환해준다. 

## BeautifulSoup
- BeautifulSoup()
    - 문자열 HTML 코드를 실제 HTML 코드로 변환해주는 함수

    ```python
    BeautifulSoup(문자열, 'html.parser')
    # 문자열을 HTML 코드로 해석해서 읽어라
    ```

- find_all()
    - HTML 코드에서 우리가 원하는 부분을 모두 가져오는 함수
    - 원하는 부분을 지정할 때 사용하는 것은 태그와  Selector
    - 해당 태그의 모든 HTML 코드를 리스트 형태로 반환

    ```python
    # <div id="example1">
    실제HTML코드.find_all("div") # 태그 이름
    실제HTML코드.find_all(id="example1") # 선택자 정보

    # <div id="example1">, <span class="example2">
    실제HTML코드.find_all(["div", "span"]) # 태그 이름
    실제HTML코드.find_all(attrs = {"id":"example1", "class":"example2"}) # 선택자 정보
    ```



- find()
    - 하나의 부분만 가져오는 함수

    ```python
    # <div id="example1">
    실제HTML코드.find("div") # 태그 이름
    실제HTML코드.find(id="example1") # 선택자 정보
    실제HTML코드.find(attrs = {"id":"example1"}) # 선택자 정보
    실제HTML코드.find("div", {"id":"example1"}) # 태그 이름 + 선택자 정보
    ```

# 함수 find() vs find_all()
- 두 함수의 차이점을 이해하면 효율적으로 크롤링을 할수 있다. 
- 로또 당첨 번호를 조회해 보자
- [당첨번호 확인](https://dhlottery.co.kr/gameResult.do?method=byWin)

In [18]:
#command shift c
#내가 푼 방법
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

html = urlopen('https://dhlottery.co.kr/gameResult.do?method=byWin')
lotto_bs = bs(html, "html.parser")


result_win = lotto_bs.find("div", class_="num win")

find_all_span = result_win.find_all("span")
find_all_span

for item in find_all_span:
    print(item.text)

result_bonus = lotto_bs.find("div", class_="num bonus")
result_bonus_num = result_bonus.find_all("span")[0].text
print(result_bonus_num)


12
17
20
26
28
36
4


In [16]:
#강사님이 풀어주신 방법
url = 'https://dhlottery.co.kr/gameResult.do?method=byWin'
lotto_raw = requests.get(url)

lotto_bs = bs(lotto_raw.text, "html.parser")

result = lotto_bs.find("div",{"class":"nums"})

result_win = result.find("div", {"class":"num win"})
print("로또 당첨번호")
for i in result_win.find_all("span"):
    print(i.text)

print("보너스 번호")
result_bonus = result.find("div", {"class":"num bonus"})
result_bonus_num = result_bonus.find_all("span")[0].text
print(result_bonus_num)

로또 당첨번호
12
17
20
26
28
36
보너스 번호
4


# URL 패턴
- https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1
- url 패턴 : query="검색값"&page="페이지값"

In [19]:
#검색어를 입력받고 한경 닷컴에서 검색된 결과중 뉴스의 첫번째 페이지 제목만 출력

In [37]:
from urllib import parse

search = input("검색어 입력하세요")
url1 = 'https://search.hankyung.com/apps.frm/search.news?query='
url2 = '&page=1'

newUrl = url1+parse.quote_plus(search)+url2

hk_raw = requests.get(newUrl)

hk_bs = bs(hk_raw.text, "html.parser")


hk_soup = hk_bs.select("div.section.hk_news > div.section_cont > ul.article")
for item in hk_soup[0].find_all("a"):
    print(item.text)



10월 경상수지 8.8억달러 '힘겨운 흑자'..."당분간 변동성 커"



"내년부터 콘돔 공짜"…프랑스 대통령 '깜짝 발언' 왜?

#프랑스
#마크롱
#콘돔


中언론인 "전국 신규감염 1.6만명?…베이징만 2만명 넘을 것"



지리산이 고품질 보장…대한민국 대표 '산청곶감' 초매식



"중국 Z세대, 방역 완화에 화장품 '보복 소비' 늘 것"



"감염자 폭증 부담" vs "성장 회복"…중국 '위드 코로나' 엇갈린 시선

#글로벌마켓
#마켓
#중국
#코로나
#위드 코로나
#신규 감염자
#감염자 급증
#제로 코로나
#JP모간


중국 도매물가 두달 연속 마이너스…깊어진 불황

#글로벌마켓
#마켓
#CPI
#PPI
#자동차
#중국
#도매물가
#마이너스
#내년 경제정책
#코로나 사태


작년 운수업 매출액 28%↑…40년만에 최대폭 증가



코로나 사망자 중 60세 이상이 96%…집중접종기간 31일까지 연장



방역 수칙에 마스크 해제? 유지?…이달 중 확정

#마스크


In [99]:
#검색어 입력받고 네이버 블로그에서 검색된 결과중 첫번째 페이지의 제목만 출력
query = input("검색어 입력:")
naver_url = f'https://search.naver.com/search.naver?query={query}&nso=&where=blog&sm=tab_opt'
naver_raw = requests.get(naver_url)
naver_bs = bs(naver_raw.text, "html.parser")

#for item in result_naver[0].find_all("a"):
 #   print(item.text)

#naver_bs.find_all("div", {"class":"total_area"})[0].find("a", {"class":"api_txt_lines total_tit"}).text
for i in naver_bs.find_all("div", {"class":"total_area"}):
    print(i.find("a", {"class":"api_txt_lines total_tit"}).text)

#태그 구별 잘 해야 됨


#naver_soup = naver_bs.select("ul.lst_total > li.bx > div.total_wrap.api_ani_send > div.total_area > div.total_info")
#naver_soup.find("a")
#for item in naver_soup:
#    print(item.text)

카타르 월드컵 8강 브라질 크로아티아 중계방송 MBC SBS KBS... 
2022 카타르월드컵 8강 모로코 대 포르투갈 분석 4강 진출팀... 
사막 월드컵과 제로에너지빌딩
모로코 스페인 중계 카타르월드컵 스페인 모로코 하이라이트... 
카타르월드컵⚽️ 조별매치 3경기 직관 후기
2022 카타르 월드컵 크로아티아대 브라질 예상 (크로아티아... 
2022 카타르 월드컵 크로아티아대 브라질 경기 분석... 
2022 카타르월드컵 16강 결과 및 8강 대진표 승리예상
카타르 월드컵 8강 크로아티아 브라질 분석 전적 피파랭킹... 
카타르월드컵, 8강 진출팀 최종 확정! 포르투갈과 모로코 경기... 
2022 카타르 월드컵 8강 대진표 일정 결승전 도!
크로아티아 브라질 분석 승부예측 카타르 월드컵 8강 MBC SBS... 
축알못의 2022 월드컵 한국팀 총평: C
2022 카타르 월드컵 8강 일정, 대진표, 진출팀 (ft. 벤투)
2022 카타르월드컵 8강 진출국가 대진표 4강 진출팀 예상
월드컵 공인구 언제부터 썼을까?? 월드컵 공인구의 역사 - 2
월드컵 축구대표팀 입국 현장
[카타르 월드컵] 모로코 8강진출, 관전 포인트 3가지
2022 카타르 월드컵은 왜 감동적이었을까?⚽️
2022 카타르 월드컵 크로아티아 대 브라질 분석 경기일정... 
브라질 상대로 카타르 월드컵 16강전 친선경기외 첫 승리로 8강... 
[2022 월드컵] 대한민국-브라질 16강전 프리뷰: 세트피스를... 
2022 카타르 월드컵 16강전 vs 브라질 (12.05)
2026 월드컵은 밴쿠버, 토론토에서
대한민국 카타르 월드컵, 손흥민과 황희찬 합작 역전골 16강... 
대한민국 : 브라질 월드컵 16강전 축구 경기결과!
#다시 2002년 같았던, 카타르월드컵
2022 카타르월드컵 8강 크로아티아 대 브라질 분석 피파랭킹
2022 카타르 월드컵 네덜란드대 아르헨티나 예상 (네덜란드... 
내 생애 첫 FIFA 월드컵과 '삼바축구' 브라질 대표팀 이야기


- [참고: URL 인코딩/디코딩 (URL Encoding/Decoding)](https://it-eldorado.tistory.com/143)  
<img src="https://blog.kakaocdn.net/dn/caNQvW/btq4JfrNJfP/zdIHGBlZFZr26k2XeHJhbK/img.png">