## Requests, BeautifulSoup, Selenium 다운로드

In [None]:
!pip3 install requests
!pip3 install bs4
!pip3 install selenium

### 과제 제출 형식

1번 과제 : 가져온 데이터를 이용하여 column이 월(Month),
일(Day), 학사 일정(event)인 데이터프레임 만들기

2번 과제 : 고려대학교 썸네일 이미지 출력하기. 어려우시면
썸네일 이미지 URL만 적어두셔도 됩니다.
(*힌트 : from PIL import Image와 import urllib.request)

*파일 형식 : 22기_OOO_크롤링과제.ipynb

## 1. 연세대학교 홈페이지

* 연세대학교 홈페이지에서 2, 3월 학사정보 가져오기
* 연세대학교 홈페이지 (https://www.yonsei.ac.kr/sc/)
* 학사지원 - 학사일정
* 가져온 데이터를 이용하여 column이 월(Month), 일(Day), 학사 일정(event)인 데이터프레임 만들기

In [None]:
import requests

url = 'https://edition.cnn.com/2023/02/03/europe/bobi-worlds-oldest-ever-dog-intl-scli'
res = requests.get(url)

print(res) # 응답 객체
res.text # HTML 텍스트

### BeautifulSoup

In [None]:
# 임시 html 텍스트
html = '''
<html>
  <head>
    <title>Example HTML</title>
  </head>
  <body>
    <div id='first' class='Example'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='second' class='Example'>
      <p>Text1</p>
      <p>Text2</p>
      <p>Text3</p>
    </div>
  </body>
</html>
'''

In [19]:
from bs4 import BeautifulSoup

# 첫 번째 인자: 파싱할 객체
# 두 번째 인자: 사용할 parser(구문 분석기)
soup = BeautifulSoup(html, 'html.parser') 

find(), find_all()

태그 검색   
- find(tag, attributes, recursive, text, keywords)   
- find_all(tag, attributes, recursive, text, limit, keywords)   

get_text()

태그 내 텍스트 반환(부모 태그의 경우 자식 태그의 텍스트를 모두 반환)

In [20]:
tag = soup.find('h3')
print(tag)
tag.get_text()

<h3 title="Good Content Title">Contents Title</h3>


'Contents Title'

In [21]:
tag = soup.find('p')
print(tag)
tag.get_text()

<p>Test contents</p>


'Test contents'

In [22]:
# find_all은 list 형태로 값 반환
soup.find_all('p')

[<p>Test contents</p>, <p>Text1</p>, <p>Text2</p>, <p>Text3</p>]

In [23]:
soup.find_all('p')[2].get_text()

'Text2'

In [24]:
# 개수 제한
soup.find_all('p', limit=2)

[<p>Test contents</p>, <p>Text1</p>]

In [25]:
# 여러 태그
soup.find_all({'p', 'h3'})

[<h3 title="Good Content Title">Contents Title</h3>,
 <p>Test contents</p>,
 <p>Text1</p>,
 <p>Text2</p>,
 <p>Text3</p>]

In [26]:
soup.find('div')

<div class="Example" id="first">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [27]:
soup.find('div').get_text().replace('\n', '')

'Contents TitleTest contents'

In [28]:
# 특정 속성을 가진 태그 검색
soup.find('div', {'id': 'second'})

<div class="Example" id="second">
<p>Text1</p>
<p>Text2</p>
<p>Text3</p>
</div>

In [29]:
# keyword 매개변수 이용
soup.find('div', id='second')

<div class="Example" id="second">
<p>Text1</p>
<p>Text2</p>
<p>Text3</p>
</div>

In [30]:
soup.find('div', id='second', class_='Example')

<div class="Example" id="second">
<p>Text1</p>
<p>Text2</p>
<p>Text3</p>
</div>

In [31]:
# 속성이 여러 개일 경우
attrs = {
    'id': 'second',
    'class': 'Example'
}
soup.find('div', attrs)

<div class="Example" id="second">
<p>Text1</p>
<p>Text2</p>
<p>Text3</p>
</div>

CNN 뉴스 다시 가져와서 확인해보기

In [32]:
url = 'https://www.yonsei.ac.kr/sc/'
res = requests.get(url)

# 첫번째 인자를 텍스트로 넣어줘야 함
soup = BeautifulSoup(res.text, 'html.parser')

In [33]:
soup.find('h1').get_text()

'\n      Sorry, Spike. There’s a new world’s oldest living dog – and he’s the oldest ever recorded\n    '

In [34]:
soup.find('div')

<div class="header__wrapper-inner">
<div class="ad-feedback__modal modal__overlay" id="ad-feedback__modal-overlay" style="display:none">
<div class="ad-feedback__container">
<form class="ad-feedback__form">
<div class="ad-feedback__heading">
<h3 class="ad-feedback__heading__text">CNN values your feedback</h3>
<div class="ad-feedback__heading__close" id="ad-feedback__close-icon"></div>
</div>
<div class="ad-feedback__content-container" data-sentiment="ad">
<div class="ad-feedback__question-container">
                                                        1. How relevant is this ad to you?
                                                </div>
<div class="ad-feedback__answers-container">
<div class="ad-feedback__emoji-container">
<input aria-label="Bad" class="ad-feedback__emoji-radio-input" id="ad-feedback__0-bad" name="ad" type="radio" value="1"/>
<label class="ad-feedback__emoji-base ad-feedback__emoji-bad" for="ad-feedback__0-bad">
</label>
</div>
<div class="ad-feedback__emoji-con

## 2. 동적 페이지 -  Selenium

* 고려대학교 네이버 썸네일 이미지 가져오기
* 고려대학교 썸네일 이미지 출력하기

(*힌트: from PIL import Image와 import urllib.request)

In [35]:
import selenium
from selenium import webdriver

driver = webdriver.Chrome()

In [36]:
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 네이버로 URL 이동
driver.get('https://www.naver.com/') 

# 웹 페이지 요소 로드를 기다림
driver.implicitly_wait(5)

### XPATH를 이용하여 웹 페이지 요소 가져오기

In [37]:
# XPATH를 이용하여 검색창에 해당하는 요소 찾기
search = driver.find_element(By.XPATH, '//*[@id="query"]')

In [38]:
# '고려대학교' 검색어 입력
search.send_keys('고려대학교')

In [39]:
# Keys.RETURN = Enter 입력
search.send_keys(Keys.RETURN)

In [40]:
img = driver.find_element(By.XPATH, '//*[@id="main_pack"]/div[3]/div[2]/div[1]/div/div[2]/a/img')
img_url = img.get_attribute('src')

In [42]:
print(img_url)

https://search.pstatic.net/common?type=f&size=174x174&quality=100&direct=true&src=https%3A%2F%2Fldb-phinf.pstatic.net%2F20150831_220%2F1441001225877J3yXl_JPEG%2F11591604_0.jpg


In [43]:
# 브라우저 닫기
driver.close()

## Thanks to 19기 배지호, 20기 임우찬