## 모듈 import 방법 및 기본 사용법

In [None]:
from bs4 import BeautifulSoup

html_text = "<ul><li>뉴스 </li><li>증권</li><li>사전</li></ul>"
soup = BeautifulSoup(html_text, "html.parser")
list = soup.select("ul > li")
print(list)

### 1. soup 객체 생성

In [None]:
from bs4 import BeautifulSoup
html_text = '''
<ul> 
  <li>1교시</li>
  <li>2교시</li>
</ul>

<ol> 
  <li>3교시</li>
  <li>4교시</li>
</ol>
'''

soup = BeautifulSoup(html_text, "html.parser")
soup

### 2. select() 메소드

In [None]:
# 3교시, 4교시 선택하기
li_list = soup.select("ol li")
li_list

### 3. text 속성

In [None]:
# li_list에 저장된 요소들을 반복문으로 접근해 출력
for element in li_list:
    print(element)

In [None]:
# li_list에 저장된 요소들에서 tag를 제거한 순수 텍스트로 출력
for element in li_list:
    print(element.text)

### 연습1) BS로 데이터 선택하기

- BeautifulSoup 모듈과 CSS Selector를 활용해 아래의 html 태그 데이터에서 '매출액/100/200'만 선택하여 출력해 봅시다.

In [None]:
from bs4 import BeautifulSoup

html_text = """
<table>
    <thead>
        <tr>
            <th>재무정보</th>
            <th>2018</th>
            <th>2019</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>매출액</td>
            <td>100</td>
            <td>200</td>
        </tr>
    </tbody>
</table>
"""

soup = BeautifulSoup(html_text, "html.parser")
titles = soup.select("tbody tr")
for title in titles:
    print(title.text)

### 연습2) BS로 데이터 선택하기

 - BeautifulSoup 모듈과 CSS Selector를 활용해 아래에서 '100'만 선택하여 출력해 봅시다.<br>
   *힌트1 : nth-child() 사용 시 오류가 날 경우 nth-of-type()을 사용해 보세요!<br>
   *힌트2 : soup.select() 메소드는 요소 하나만 선택하더라도 리스트 형태로 결과값을 리턴합니다.

In [None]:
# nth-child() 사용
data = soup.select("tbody tr td:nth-child(2)")
print(data[0].text)

# soup.select 사용
data = soup.select("tbody tr td")
print(data[1].text)

### 연습3) BS로 데이터 선택하기

- BeautifulSoup 모듈과 CSS Selector를 활용해 아래에서 '새우깡'만 선택하여 출력해 봅시다.<br>
  *힌트 : soup.select() 메소드는 요소 하나만 선택하더라도 리스트 형태로 결과값을 리턴합니다.

In [None]:
from bs4 import BeautifulSoup

html_text = """
<div>
        <div class="snack">
                <div id="first">양파링</div>
                <div id="second">새우깡</div>
        </div>
        <div class="icecream">
                <div>빵빠레</div>
                <div>죠스바</div>
        </div>
</div>
"""

soup = BeautifulSoup(html_text, "html.parser")
data = soup.select("#second")
print(data)
print(data[0].text)

### 연습4) BS로 데이터 선택하기

- BeautifulSoup 모듈과 CSS Selector를 활용해 아래에서 '죠스바'만 선택하여 출력해 봅시다.<br>
  *힌트1 : nth-child() 사용 시 오류가 날 경우 nth-of-type()을 사용해 보세요!<br>
  *힌트2 : soup.select() 메소드는 요소 하나만 선택하더라도 리스트 형태로 결과값을 리턴합니다.

In [None]:
# nth-child() 사용
data = soup.select("div.icecream div:nth-child(2)")
print(data[0].text)

In [None]:
# soup.select 사용
data = soup.select("div.icecream div")
print(data[1].text)

### 4. requests 모듈로 받아온 html text를 BS로 파싱하기 - 시크릿 모드로 실습

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/" # 네이버 뉴스
res = requests.get(url, verify=False)
soup = BeautifulSoup(res.text, "html.parser")
soup

In [None]:
# soup으로 가져온 내용은 크롬의 시크릿창에서 확인 가능(일반 창에서는 클래스명이 다름)
news_list = soup.select(".cjs_t") # 좌측 본문에 언론사별로 나온 뉴스 타이틀
for news in news_list:
    print(news.text)

## 실전연습) 네이버증권 금융관련 주요뉴스 가져오기(HTML)

아래 링크로 접속해 금융관련 주요뉴스 6건의 제목을 뽑아 출력해 보세요.<br>
링크 : https://finance.naver.com/

In [None]:
# 1. 모듈 불러오기
import requests
from bs4 import BeautifulSoup as bs
import warnings

# 2. SSL 경고창 없애기
warnings.filterwarnings(action="ignore")

# 3. 목표url을 문자열로 입력한 후 url 변수명으로 저장
url = "http://finance.naver.com"

# 4. requests모듈의 get() 메소드를 사용하여 접속을 시도하고, 그 결과(객체)를 res변수에 저장
res = requests.get(url, verify=False)

# 5. res.text 속성을 사용하여 받아온 html 데이터를 아웃풋 창에 print
# print(res.text)

# 6. 파싱하기
soup = bs(res.text, "html.parser")
soup

In [None]:
# 7. 주요뉴스 CSS 찾아서 변수에 저장
sel = ".section_strategy a"
titles = soup.select(sel)
titles

In [None]:
# 8. 루프(반목문)를 돌면서 제목을 아웃풋 창에 출력
for title in titles[:-1]: #주요뉴스 더보기 제외 -> [:-1]
    print(title.text)