## Requests, BeautifulSoup, Selenium 다운로드

In [None]:
!pip3 install requests
!pip3 install bs4
!pip3 install selenium

In [None]:
# 모듈 설치 에러시

# 터미널에서 which python 명령 후 경로 확인
# jupyter notebook에서 아래 코드 입력
from sys import executable
print(executable)

# 두 경로가 다르면 주피터 노트북에 설치하기 위해선 경로 명시가 필요함

# 예시
!/Users/hona/miniconda3/bin/python3 -m pip install bs4
!/Users/hona/miniconda3/bin/python3 -m pip install selenium

### robots.txt 확인

In [None]:
import requests 

url = "https://www.zigbang.com/"
res = requests.get(url)

In [None]:
print(res)
res.text

#### HTTP 상태 코드
 - 1xx (정보): 요청을 받았으며 프로세스를 계속한다
 - 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다
 - 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다
 - 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다
 - 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다

[출처: 위키피디아](https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C)

In [None]:
res.status_code # HTTP 상태 코드 

## 1. 정적 페이지

In [None]:
import requests

url = 'https://edition.cnn.com/2023/02/03/europe/bobi-worlds-oldest-ever-dog-intl-scli'
res = requests.get(url)

print(res) # 응답 객체
res.text # HTML 텍스트

### BeautifulSoup

In [None]:
# 임시 html 텍스트
html = '''
<html>
  <head>
    <title>Example HTML</title>
  </head>
  <body>
    <div id='first' class='Example'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='second' class='Example'>
      <p>Text1</p>
      <p>Text2</p>
      <p>Text3</p>
    </div>
  </body>
</html>
'''

In [None]:
from bs4 import BeautifulSoup

# 첫 번째 인자: 파싱할 객체
# 두 번째 인자: 사용할 parser(구문 분석기)
soup = BeautifulSoup(html, 'html.parser') 

find(), find_all()

태그 검색   
- find(tag, attributes, recursive, text, keywords)   
- find_all(tag, attributes, recursive, text, limit, keywords)   

get_text()

태그 내 텍스트 반환(부모 태그의 경우 자식 태그의 텍스트를 모두 반환)

In [None]:
tag = soup.find('h3')
print(tag)
tag.get_text()

In [None]:
tag = soup.find('p')
print(tag)
tag.get_text()

In [None]:
# find_all은 list 형태로 값 반환
soup.find_all('p')

In [None]:
soup.find_all('p')[2].get_text()

In [None]:
# 개수 제한
soup.find_all('p', limit=2)

In [None]:
# 여러 태그
soup.find_all({'p', 'h3'})

In [None]:
soup.find('div')

In [None]:
soup.find('div').get_text().replace('\n', '')

In [None]:
# 특정 속성을 가진 태그 검색
soup.find('div', {'id': 'second'})

In [None]:
# keyword 매개변수 이용
soup.find('div', id='second')

In [None]:
soup.find('div', id='second', class_='Example')

In [None]:
# 속성이 여러 개일 경우
attrs = {
    'id': 'second',
    'class': 'Example'
}
soup.find('div', attrs)

CNN 뉴스 다시 가져와서 확인해보기

In [None]:
url = 'https://edition.cnn.com/2023/02/03/europe/bobi-worlds-oldest-ever-dog-intl-scli'
res = requests.get(url)

# 첫번째 인자를 텍스트로 넣어줘야 함
soup = BeautifulSoup(res.text, 'html.parser')

In [None]:
soup.find('h1').get_text()

In [None]:
soup.find('div')

## 2. 동적 페이지 -  Selenium

In [None]:
import selenium
from selenium import webdriver

driver = webdriver.Chrome()

In [None]:
''' 옵션 설정

chrome_options = webdriver.ChromeOptions()

chrome_options.add_argument('--headless') #내부 창을 띄울 수 없으므로 설정 / COLAB에선 반드시 사용해야 함


# 브라우저 창이 안뜨고 실행
options.add_argument('headless')

# 브라우저 사이즈 설정
options.add_argument('window-size=1920x1080')

# 옵션 적용
driver = webdriver.Chrome(path, options=options)
'''

In [None]:
# 실행이 안될 시
!pip install webdriver_manager

import selenium
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(ChromeDriverManager().install())

In [None]:
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 해당 URL로 이동
driver.get('https://www.naver.com/') 

# 웹 페이지 요소 로드를 기다림
driver.implicitly_wait(5)

\* 셀레니움 사용 시 브라우저에서 해당 웹 페이지의 요소들을 로드하는 데 시간이 좀 걸리기 때문에, element가 존재하지 않는다는 error가 발생할 수 있다.   
그럴 경우 해당 요소가 전부 준비가 될 때까지 대기해야 한다.

```python
driver.implicitly_wait(time_to_wait=5)
```
-> 찾으려는 element가 로드될 때까지 지정한 시간만큼 대기할 수 있도록 설정   
위 방법은 암시적 대기 방식으로, webdriver에 영구적으로 작용된다.   
time_to_wait=5: 5초까지 기다림

https://workingwithpython.com/selenium-waits/

네이버 금융 주요뉴스 헤드라인 크롤링 

#### CSS Selector
HTML 요소를 선택해주는 요소
- 태그 선택자
- 클래스 선택자(.)
- ID 선택자(#)
- 자식 선택자(>)
- 하위 선택자( )

In [None]:
# 현재 열려있는 페이지 url 찾기
url = driver.current_url
url

### XPATH를 이용하여 웹 페이지 요소 가져오기

In [None]:
# XPATH를 이용하여 검색창에 해당하는 요소 찾기
search = driver.find_element(By.XPATH, '//*[@id="query"]')

In [None]:
# 검색어 입력
search.send_keys('연세대학교')

In [None]:
# Keys.RETURN = Enter 입력
search.send_keys(Keys.RETURN)

In [None]:
img = driver.find_element(By.XPATH, '//*[@id="main_pack"]/div[3]/div[2]/div[1]/div/div[2]/a/img')
img_url = img.get_attribute('src')

In [None]:
print(img_url)

In [None]:
# 브라우저 닫기
driver.close()

## Thanks to 19기 배지호, 20기 임우찬