In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [None]:
!pip install selenium

In [2]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

# 4.Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


## 4.1 HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## 4.2 HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

## 4.3 정적크롤링

#### 4.3.1 라이브러리

##### 4.3.1.1 requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://jsonplaceholder.typicode.com/users/1")
bs = BeautifulSoup(response.text, 'lxml')
bs

###### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



###### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

###### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

##### 4.3.1.2 BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

###### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

###### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 4.3.2 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [None]:
response = '''
<div id="contents"> 
  <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

In [None]:
bs = BeautifulSoup(response, 'lxml')

In [None]:
bs.select('div')[0]

In [None]:
bs.select('div')[1]

In [None]:
bs.select('div')[2]

In [None]:
bs.select('div')[2].select('a')

In [None]:
bs.select('div')[2].select('a')[0]

In [None]:
bs.select('div')[2].select('a')[1]

In [None]:
bs.select('div')[2].select('a')[2]

In [None]:
bs.select('div > span')

In [None]:
bs.select('div > a')

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
[tag.text.strip() for tag in bs.select('div > a')]

In [None]:
bs.select('#contents')

In [None]:
bs.select('div#contents')

In [None]:
bs.select('div.data2')

#### 네이버 뉴스

개별 뉴스

In [None]:
response = requests.get(
    'https://n.news.naver.com/mnews/article/023/0003759424',
    headers={
    'User-Agent': 'Mozilla 5.0'
    })
bs = BeautifulSoup(response.text, 'lxml')

In [None]:
title = bs.select('h2#title_area > span')[0].text.strip()
time = bs.select('span.media_end_head_info_datestamp_time._ARTICLE_DATE_TIME')[0].text.strip()
author = bs.select('em.media_end_head_journalist_name')[0].text.strip()
contents = bs.select('#newsct_article')[0].text.strip()

한 페이지 내용 수집

In [None]:
def get_bs_from_url(url):
    response = requests.get(
        url,
        headers={
        'User-Agent': 'Mozilla 5.0'
        }
    )

    bs = BeautifulSoup(response.text, 'lxml')

    return bs

In [None]:
bs = get_bs_from_url('https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023')

In [None]:
titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]

In [None]:
bs.select('div.list_body.newsflash_body li')

In [None]:
news = pd.DataFrame({
    'title': titles,
    'url': urls
})

In [None]:
news

페이지 전체

In [None]:
total_news = pd.DataFrame(columns=['title', 'url'])
for page in range(1, 8):
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20230422&page={page}'
    bs = get_bs_from_url(url)

    titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
    urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]

    news = pd.DataFrame({
    'title': titles,
    'url': urls
    })

    total_news = pd.concat([total_news, news])

특정 날짜 범위

In [None]:
total_news = pd.DataFrame(columns=['date', 'title', 'url'])
for date in tqdm(pd.date_range('20230401', '20230423')):
    date = date.strftime("%Y%m%d")

    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date={date}&page=10000'
    bs = get_bs_from_url(url)
    last_page_num = int(bs.select('.paging > strong')[0].text.strip())

    for page in range(1, last_page_num+1):
        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date={date}&page={page}'
        bs = get_bs_from_url(url)

        titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
        urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]

        news = pd.DataFrame({
        'date': date,
        'title': titles,
        'url': urls
        })

        total_news = pd.concat([total_news, news])

In [None]:
total_news

여러 언론사

In [None]:
total_news = pd.DataFrame(columns=['date', 'oid', 'title', 'url'])
for oid in tqdm(['023', '028']):
    for date in pd.date_range('20230401', '20230423'):
        date = date.strftime("%Y%m%d")

        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
        bs = get_bs_from_url(url)
        last_page_num = int(bs.select('.paging > strong')[0].text.strip())

        for page in range(1, last_page_num+1):
            url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
            bs = get_bs_from_url(url)

            titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
            urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]

            news = pd.DataFrame({
            'date': date,
            'oid': oid,
            'title': titles,
            'url': urls
            })

            total_news = pd.concat([total_news, news])

In [None]:
total_news

Naver News Crawler

In [None]:
def naver_news_crawler(oids, start_date, end_date):
    total_news = pd.DataFrame(columns=['date', 'oid', 'title', 'url'])

    for oid in tqdm(oids):
        for date in pd.date_range(start_date, end_date):
            date = date.strftime("%Y%m%d")

            url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
            bs = get_bs_from_url(url)
            last_page_num = int(bs.select('.paging > strong')[0].text.strip())

            for page in range(1, last_page_num+1):
                url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
                bs = get_bs_from_url(url)

                titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
                urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]

                news = pd.DataFrame({
                'date': date,
                'oid': oid,
                'title': titles,
                'url': urls
                })

                total_news = pd.concat([total_news, news])

    return total_news

In [None]:
naver_news_crawler(['023', '025', '028'], '20230421', '20230423')

#### 네이버 증권

In [None]:
response = requests.get('https://finance.naver.com/item/main.naver?code=086520#')
bs = BeautifulSoup(response.text, 'lxml')

In [None]:
current_price = int(bs.select('div.today > p.no_today')[0].select('span.blind')[0].text.strip().replace(',', ''))

In [None]:
int(current_price.replace(',', ''))

#### 다음 증권

In [None]:
import json

In [None]:
response = requests.get('https://finance.daum.net/domestic/market_cap')
bs = BeautifulSoup(response.text, 'lxml')

In [None]:
bs.select('div.leftW')

In [None]:
headers = {
    'User-Agent': 'Mozilla 5.0',
    'referer': 'https://finance.daum.net/domestic/market_cap',
}
response = requests.get(
    'https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true',
    headers=headers
)
bs = BeautifulSoup(response.text, 'lxml')

In [None]:
bs

In [None]:
headers = {
    'User-Agent': 'Mozilla 5.0',
    'referer': 'https://finance.daum.net/domestic/market_cap',
}
response = requests.get(
    'https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true',
    headers=headers
)
bs = json.loads(response.text)

In [None]:
print(bs.keys())

In [None]:
pd.DataFrame(bs.get('data'))

In [None]:
headers = {
    'User-Agent': 'Mozilla 5.0',
    'referer': 'https://finance.daum.net/domestic/market_cap',
}
response = requests.get(
    'https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=100&fieldName=marketCap&order=desc&market=KOSDAQ&pagination=true',
    headers=headers
)
bs = json.loads(response.text)
pd.DataFrame(bs.get('data'))

코스피 전체 데이터프레임 만들기

In [None]:
headers = {
    'User-Agent': 'Mozilla 5.0',
    'referer': 'https://finance.daum.net/domestic/market_cap',
}
response = requests.get(
    'https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true',
    headers=headers
)
bs = json.loads(response.text)

total_stock = pd.DataFrame(bs.get('data'))

In [None]:
for page in tqdm(range(2, bs.get('totalPages')+1)):
    response = requests.get(
        f'https://finance.daum.net/api/trend/market_capitalization?page={page}&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true',
        headers=headers
    )

    bs = json.loads(response.text)
    temp_stock = pd.DataFrame(bs.get('data'))

    total_stock = pd.concat([total_stock, temp_stock])

In [None]:
total_stock

## 4.4 동적크롤링

reference: https://selenium-python.readthedocs.io/index.html

### 4.4.1 설치 방법

```cmd
pip install selenium
```

Chrome Driver: https://chromedriver.chromium.org/downloads

### 4.4.2 사용법

기본적인 사용 방법은 아래와 같음
```python
from selenium import webdriver
 
driver = webdriver.Chrome(executable_path='chromedriver') # executable_path: chromedriver path
# driver = webdriver.Firefox()

driver.get(url="http://www.naver.com")

driver.close()
```

#### 4.4.2.1 Locating Elements

find_element: 조건에 해당하는 하나의 값 반환  
find_elements: 조건에 해당하는 다수의 값 반환

element를 찾는 method는 아래와 같음
- by_ID
- by_xpath
- by_link_text
- by_partial_link_text
- by_name
- by_tag_name
- by_class_name
- by_css_selector

```python
element = driver.find_element(By.XPATH, x_path)
element = driver.find_element_by_xpath(x_path)

element = driver.find_element(By.CSS_SELECTOR, css)
element = driver.find_element_by_css_selector(css)
```

해당 값을 못 찾은 경우 NoSuchElementException 발생

##### Send Keys
```python
driver.find_element_by_xpath(xpath).send_keys(id)
driver.find_element_by_xpath(xpath).send_keys(password)
driver.find_element_by_xpath(xpath).click()
```

외에도 Keys 내의 다양한 커맨드 입력 가능
```
from selenium.webdriver.common.keys import Keys
```
|Command          |Action |
|-----------------|-------|
|Keys.ENTER       |엔터    |
|Keys.RRETURN     |       |
|Keys.SPACE       |스페이스 |
|Keys.ARROW_UP    |화살표   |
|Keys.ARROW_DOWN  |       |
|Keys.ARROW_LEFT  |       |
|Keys.ARROW_RIGHT |       |
|Keys.BACK_SPACE  |지우기   |
|Keys.DELETE      |       |
|Keys.CONTROL     |Ctrl   |
|Keys.ALT         |Alt    |
|Keys.SHIFT       |Shift  |
|Keys.TAB         |Tab    |
|Keys.PAGE_UP     |Page-Up|
|Keys.PAGE_DOWN   |Page-Down|
|Keys.TAB         |Tab    |
|Keys.F1 ~ Keys.F9|F1~F9  |
|Keys.ESCAPE      |ESC    |
|Keys.HOME        |Home   |
|Keys.INSERT      |Insert |
|...              |...    |

##### Drag and Drop

```python
from selenium.webdriver import ActionChains

element = driver.find_element(By.NAME, "source")
target = driver.find_element(By.NAME, "target")

action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()
```

##### Moving between Windows

```python
previous_window = driver.window_handles[0]
new_window = driver.window_handles[1]
driver.switch_to.window(new_window)
```


##### Moving

```python
driver.forward()
driver.back()
```

#### 4.4.2.3 Waiting

Selenium은 실행 중인 driver를 이용하여 정보를 추출  
driver에 데이터 로딩이 완료되지 않을 경우 데이터 수집이 불가  
따라서 페이지 이동 등의 작업이 들어가면 다음 작업이 완료될 때까지 대기해야만 함

##### Time

가장 기본적인 방법으로 대기 시간을 time 모듈을 통해 명시

```python
import time
from selenium import webdriver


driver = webdriver.Chrome(executable_path='chromedriver')
driver.get(url="http://www.naver.com")
time.time(5)
driver.close()
```

##### Implicit Wait

위의 time에서는 2가지 문제가 존재
1. 모든 반응형 동작마다 time을 걸어 웹 로딩 대기
2. time을 5초로 설정했지만 실제 그보다 동작이 빨리 끝날 경우 불필요한 시간 대기

위의 문제를 해결하고자 implicit wait을 이용  
이는 driver의 옵션 설정으로 반응형 동작에서 최대 허용 대기 시간을 설정  
만약 허용 시간 이내에 로드가 완료될 경우 다음 작업을 바로 진행

```python
from selenium import webdriver


driver = webdriver.Chrome(executable_path='chromedriver')
driver.implicitly_wait(time_to_wait=5)
driver.get(url="http://www.naver.com")
driver.close()

```

##### Explicit Wait

implicit wait에서는 driver가 로딩을 대기하는 시간을 설정하여 5초를 설정하였어도 이전에 로드가 완료되면 다음 작업의 진행이 가능하였음  
하지만 위 경우도 문제가 있는데 5초가 지나도 내가 원하는 데이터가 로드가 안 되었을 경우 데이터를 수집할 수 없음  
따라서 특정 값이 로드될 때까지 기다렸다가 그 값이 로드되면 다음 작업을 진행할 필요성이 발생  
이 때 이용하는 게 explicit wait

```python
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(executable_path='chromedriver') 
driver.get(url="http://www.naver.com")

try:
    element = WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.CLASS_NAME , 'paging'))
    )
finally:
    driver.quit()

driver.close()

```

until: 조건이 False인 동안에 계속 실행  
not_until: 조건이 True인 동안에 계속 실행

#### 4.4.2.4 ActionChains

연속 동작을 수행하기 위함

ex) control + c
```python
ActionChains(driver).key_down(Keys.CONTROL).send_keys('c').key_up(Keys.CONTROL).perform()
```

##### Drag and Drop

```python
from selenium.webdriver import ActionChains

element = driver.find_element(By.NAME, "source")
target = driver.find_element(By.NAME, "target")

action_chains = ActionChains(driver)
action_chains.drag_and_drop(element, target).perform()
```

#### 4.4.2.5 Others

##### Options
```python
options = webdriver.ChromeOptions()
options.add_argument('window-size=1920,1080')

driver = webdriver.Chrome(executable_path, options=options)
```

##### Alert

경고창 발생 시 이에 수락, 거절 등의 행동을 취할 수 있음

```python
from selenium.webdriver.common.alert import Alert

Alert(driver).accept() # 수락
Alert(driver).dismiss() # 거절
Alert(driver).send_keys(keysToSend=key) # 특정 키를 보낼 수 있음
```

##### Scroll Down
페이지의 최하단으로 이동
```python
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
```
<br>

특정 태그가 등장할 때까지 이동
```python
from selenium.webdriver import ActionChains

some_tag = driver.find_element_by_id('gorio')
ActionChains(driver).move_to_element(some_tag).perform()
```

##### Minimize/Maximize

```python
driver.minimize_window()
driver.maximize_window()
```

##### Screen Shot
```python
driver.save_screenshot('screenshot.png')
```

In [None]:
driver = webdriver.Chrome(executable_path='./utils/chromedriver')

In [None]:
driver.get('https://finance.daum.net/domestic/market_cap')
time.sleep(2)

In [None]:
response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

In [None]:
bs.select('div.box_contents tbody')

네이버 검색

In [None]:
driver.get('https://www.naver.com')
time.sleep(1)

In [None]:
# 입력
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/div/input'
    ).send_keys('빅데이터')
)

# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/button/span[2]'
    ).click()
)

In [None]:
# 입력
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/div/input'
    ).send_keys('빅데이터')
)

# 엔터
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/div/input'
    ).send_keys(Keys.ENTER)
)


네이버 로그인

In [None]:
# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[3]/div[3]/div/div[2]/a'
    ).click()
)

# 입력
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[1]/div[1]/input'
    ).send_keys('id')
)

# 입력
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[1]/div[2]/input'
    ).send_keys('id')
)

# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[1]/div[2]/div/div[1]/form/ul/li/div/div[7]/button'
    ).click()
)

기업집단포털

In [None]:
driver.get('https://www.egroup.go.kr/egps/wi/mainPage.do')
time.sleep(3)

# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[3]/div/div[1]/div[2]/ul[2]/li[2]/a'
    ).click()
)
time.sleep(1)


# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[3]/div[3]/div/div[2]/div/ul/li[1]/a'
    ).click()
)
time.sleep(3)

response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

In [None]:
bs.select('#resultListDiv td')

Explicit Wait

In [31]:
driver = webdriver.Chrome(executable_path='./utils/chromedriver')


  driver = webdriver.Chrome(executable_path='./utils/chromedriver')


In [8]:
driver.get('https://www.egroup.go.kr/egps/wi/mainPage.do')

# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[3]/div/div[1]/div[2]/ul[2]/li[2]/a'
    ).click()
)

# 클릭
(
    driver.find_element(
        By.XPATH,
        '/html/body/div[2]/div[3]/div[3]/div/div[2]/div/ul/li[1]/a'
    ).click()
)

response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

In [9]:
bs.select('div#resultListDiv')

[<div id="resultListDiv">
 </div>]

In [12]:
driver.refresh()

try:
    (
        WebDriverWait(driver, 10)
        .until(
            EC.element_to_be_clickable((
                By.XPATH,
                '/html/body/div[2]/div[3]/div[3]/div/form/div/div[2]/div/div/div/table/tbody/tr[1]/td[3]'
            ))
        )
    )

    response = driver.page_source
    bs = BeautifulSoup(response, 'lxml')
    bs.select('div#resultListDiv')

except:
    print('Timeout')

Timeout


Window Change

In [13]:
response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

In [17]:
bs.select('div.leftWrap li span.frmSelect select')

[]

In [19]:
bs.select('div#lnb')

[<div id="lnb">
 <h2>공시서류검색</h2>
 <ul>
 <li class="on" id="dsab007_main">
 <a href="#none" onclick="menuOn(this, '/dsab007/main.do?option=corp');" title="공시통합검색">공시통합검색</a>
 </li>
 <li id="dsab001_main">
 <a href="#none" onclick="menuOn(this, '/dsab001/main.do');" title="회사별검색">회사별검색</a>
 </li>
 <li id="dsab005_main">
 <a href="#none" onclick="menuOn(this, '/dsab005/main.do');" title="펀드공시상세검색">펀드공시상세검색</a>
 </li>
 <li id="dsac003_mainY">
 <a href="#none" onclick="menuOn(this, '/dsac003/mainY.do');" title="최근정정보고서">최근정정보고서</a>
 </li>
 <li id="dsac004_main">
 <a href="#none" onclick="menuOn(this, '/dsac004/main.do');" title="최근삭제보고서">최근삭제보고서</a>
 </li>
 <li id="dsab009_main">
 <a href="#none" onclick="menuOn(this, '/dsab009/main.do');" title="고급검색">고급검색</a>
 </li>
 </ul>
 </div>]

In [32]:
driver.window_handles

['CF38E5A213DF62F6CDF72ED12B37E6F8', '284C5F3CAA180DDA6A34B2208826CAA4']

In [33]:
previous_window = driver.window_handles[0]
new_window = driver.window_handles[1]

In [34]:
driver.switch_to.window(new_window)

In [26]:
response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

bs.select('div#lnb')

[]

In [27]:
bs.select('div.leftWrap li span.frmSelect select')

[<select class="w01" id="family" onchange="changeFamily(this.value)">
 <option value="null">+본문선택+</option>
 <option selected="" title="사업보고서" value="rcpNo=20230403003420">
 													
 														2023.04.03 
 													
 													[정정]
 													
 													사업보고서
 												</option>
 <option title="사업보고서" value="rcpNo=20230323001505">
 													
 														2023.03.23 
 													
 													
 													
 													사업보고서
 												</option>
 </select>,
 <select class="w01" id="att" onchange="changeAtt(this.value)">
 <option value="null">+첨부선택+</option>
 <option value="rcpNo=20230323001505&amp;dcmNo=9099618">
 												2023.03.23 
 												
 													
 													
 												
 												감사보고서
 											</option>
 <option value="rcpNo=20230323001505&amp;dcmNo=9099623">
 												2023.03.23 
 												
 													
 													
 												
 												감사의감사보고서
 											</option>
 <option value="rcpNo=202303230

In [28]:
response = driver.page_source
bs = BeautifulSoup(response, 'lxml')

In [29]:
bs.select('body table')

[]

In [35]:
driver.close()

In [36]:
driver.switch_to.window(previous_window)

# 5.Data Collection with API

## 5.1 Youtube

site: https://console.developers.google.com/ <br>
reference: https://developers.google.com/youtube/v3/docs?hl=ko <br>

```python
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.tools import argparser

import pandas as pd


DEVELOPER_KEY='AIzaSyDStXsHSivGCjVFMQ2sGBIBLTJLpXxPki4'
YOUTUBE_API_SERVICE_NAME='youtube'
YOUTUBE_API_VERSION='v3'

youtube = build(
  YOUTUBE_API_SERVICE_NAME,
  YOUTUBE_API_VERSION,
  developerKey=DEVELOPER_KEY
  )
```

### Videos

채널 내 비디오 조회 기본 코드
```python
response = (
  youtube
  .playlistItems()
  .list(
    playlistId=*channel_id*,
    part='snippet',
    maxResults=50
    )
  .execute()
  )
```


1번의 query에 전체 데이터를 다 받을 수 없음 <br>
따라서 pageToken을 이용하여 다음 페이지의 정보를 받아야 함 <br>
```python
if 'nextPageToken' in response:
  response = (
    youtube
    .playlistItems()
    .list(
      playlistId=*channel_id*,
      pageToken=response.get('nextPageToken'),
      part='snippet',
      maxResults=50
      )
    .execute()
    )
```

### Comments
비디오 내 댓글 조회 기본 코드
```python
response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies', 
      videoId=*video_id*, 
      maxResults=100
      )
    .execute()
    )
```

1번의 query에 전체 데이터를 다 받을 수 없음 <br>
따라서 pageToken을 이용하여 다음 페이지의 정보를 받아야 함 <br>
```python
if 'nextPageToken' in response:
  response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies',
      videoId=video_id,
      pageToken=response.get('nextPageToken'),
      maxResults=100
      )
    .execute()
    )
```

In [None]:
!pip install google-api-python-client
!pip install oauth2client

In [37]:
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.tools import argparser

import pandas as pd

DEVELOPER_KEY='AIzaSyAEhyMuoggPvPE-DmSf5kXS9Fekk0pxP-0'
YOUTUBE_API_SERVICE_NAME='youtube'
YOUTUBE_API_VERSION='v3'

youtube = build(
  YOUTUBE_API_SERVICE_NAME,
  YOUTUBE_API_VERSION,
  developerKey=DEVELOPER_KEY
  )

In [181]:
response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies', 
      videoId='AFjeAXqUmFY', 
      maxResults=100
      )
    .execute()
    )

In [40]:
response.keys()

dict_keys(['kind', 'etag', 'nextPageToken', 'pageInfo', 'items'])

In [43]:
len(response.get('items'))

99

댓글 하나

In [183]:
response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies', 
      videoId='AFjeAXqUmFY', 
      maxResults=100
      )
    .execute()
    )

In [184]:
response.keys()

dict_keys(['kind', 'etag', 'nextPageToken', 'pageInfo', 'items'])

In [186]:
len(response.get('items'))

99

In [188]:
response.get('items')[0].get('snippet')

{'videoId': 'AFjeAXqUmFY',
 'topLevelComment': {'kind': 'youtube#comment',
  'etag': '4z8xj7k7n1EbFESwJQ-nFg0Hkpg',
  'id': 'UgwAOPMUpEyLdEmJXIN4AaABAg',
  'snippet': {'videoId': 'AFjeAXqUmFY',
   'textDisplay': '우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ',
   'textOriginal': '우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ',
   'authorDisplayName': '마약tv',
   'authorProfileImageUrl': 'https://yt3.ggpht.com/iCPLuS5f1DRt_z23juts7Opo55pbyeIKYkD8BUGMCY-Ala8pJk4aD9AI0LQJEzRhC0Va6Iu63A=s48-c-k-c0x00ffffff-no-rj',
   'authorChannelUrl': 'http://www.youtube.com/channel/UCNqcrmPn2QSUQyIPzqgG7ZQ',
   'authorChannelId': {'value': 'UCNqcrmPn2QSUQyIPzqgG7ZQ'},
   'canRate': True,
   'viewerRating': 'none',
   'likeCount': 0,
   'publishedAt': '2023-04-30T04:18:06Z',
   'updatedAt': '2023-04-30T04:18:06Z'}},
 'canReply': True,
 'totalReplyCount': 0,
 'isPublic': True}

In [192]:
response.get('items')[0].get('snippet').get('topLevelComment').get('snippet')

{'videoId': 'AFjeAXqUmFY',
 'textDisplay': '우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ',
 'textOriginal': '우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ',
 'authorDisplayName': '마약tv',
 'authorProfileImageUrl': 'https://yt3.ggpht.com/iCPLuS5f1DRt_z23juts7Opo55pbyeIKYkD8BUGMCY-Ala8pJk4aD9AI0LQJEzRhC0Va6Iu63A=s48-c-k-c0x00ffffff-no-rj',
 'authorChannelUrl': 'http://www.youtube.com/channel/UCNqcrmPn2QSUQyIPzqgG7ZQ',
 'authorChannelId': {'value': 'UCNqcrmPn2QSUQyIPzqgG7ZQ'},
 'canRate': True,
 'viewerRating': 'none',
 'likeCount': 0,
 'publishedAt': '2023-04-30T04:18:06Z',
 'updatedAt': '2023-04-30T04:18:06Z'}

In [195]:
def get_information_from_youtube_api(item):
    information = {
        'textOriginal': item.get('textOriginal'),
        'authorDisplayName': item.get('authorDisplayName'),
        'likeCount': item.get('likeCount'),
        'publishedAt': item.get('publishedAt'),
        'updatedAt': item.get('updatedAt')
    }

    return pd.DataFrame(information, index=[0])

In [196]:
comments = pd.concat([
    get_information_from_youtube_api(reply.get('snippet').get('topLevelComment').get('snippet')) 
    for reply 
    in response.get('items')
])

In [198]:
comments

Unnamed: 0,textOriginal,authorDisplayName,likeCount,publishedAt,updatedAt
0,우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ,마약tv,0,2023-04-30T04:18:06Z,2023-04-30T04:18:06Z
0,🐕 들아. 우회전 신호등부터만들고 잡아라,A6 J,0,2023-04-30T04:11:21Z,2023-04-30T04:11:21Z
0,세금뜯기위한 교통법규는 없애라.\n이제는 별 거지갖은 법규 만들어 국민들 주머니 털...,임형빈,0,2023-04-30T03:47:02Z,2023-04-30T03:47:02Z
0,현실성 떨어지는 법제도..\n무단횡단하는 보행자에 대하여서도 처벌할수 있도록 합시다...,쪼코우유,0,2023-04-30T03:36:50Z,2023-04-30T03:38:30Z
0,걍 우회전 시 잠시 멈춰서 사람있는지 보고 가라... 1분 일찍가려다가 사람 쳐서 ...,채원채원,0,2023-04-30T03:20:56Z,2023-04-30T03:20:56Z
...,...,...,...,...,...
0,이런일이 생길줄 몰랐냐?? 떼법만 다 들어주면 모든게 다 해결될줄알았겠지? 무식한놈...,둠가이,0,2023-04-29T22:49:16Z,2023-04-29T22:49:16Z
0,앞에차가 정지하면 그 바로 뒤에차는 자연스레 정지인데 정지선 앞에서 또 정지해야되는...,선빈,0,2023-04-29T22:48:13Z,2023-04-29T22:48:13Z
0,세금걷을려는 참신한 수작ㅋㅋ,거제도꺼니,0,2023-04-29T22:39:16Z,2023-04-29T22:39:16Z
0,견찰:잉 나도 몰랑 걍다잡으랫ㅎㅎ,NewB 22년,0,2023-04-29T22:36:35Z,2023-04-29T22:36:35Z


In [199]:
# 전체 댓글
response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies', 
      videoId='AFjeAXqUmFY',
      maxResults=100
      )
    .execute()
    )

total_comments = pd.concat([
    get_information_from_youtube_api(reply.get('snippet').get('topLevelComment').get('snippet')) 
    for reply 
    in response.get('items')
])

while 'nextPageToken' in response:
  response = (
      youtube
      .commentThreads()
      .list(
        part='snippet,replies', 
        videoId='AFjeAXqUmFY',
        pageToken=response.get('nextPageToken'),
        maxResults=100
        )
      .execute()
      )
  
  comments = pd.concat([
    get_information_from_youtube_api(reply.get('snippet').get('topLevelComment').get('snippet')) 
    for reply 
    in response.get('items')
  ])
  total_comments = pd.concat([total_comments, comments])

In [200]:
total_comments

Unnamed: 0,textOriginal,authorDisplayName,likeCount,publishedAt,updatedAt
0,우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ,마약tv,0,2023-04-30T04:18:06Z,2023-04-30T04:18:06Z
0,🐕 들아. 우회전 신호등부터만들고 잡아라,A6 J,0,2023-04-30T04:11:21Z,2023-04-30T04:11:21Z
0,세금뜯기위한 교통법규는 없애라.\n이제는 별 거지갖은 법규 만들어 국민들 주머니 털...,임형빈,0,2023-04-30T03:47:02Z,2023-04-30T03:47:02Z
0,현실성 떨어지는 법제도..\n무단횡단하는 보행자에 대하여서도 처벌할수 있도록 합시다...,쪼코우유,0,2023-04-30T03:36:50Z,2023-04-30T03:38:30Z
0,걍 우회전 시 잠시 멈춰서 사람있는지 보고 가라... 1분 일찍가려다가 사람 쳐서 ...,채원채원,0,2023-04-30T03:20:56Z,2023-04-30T03:20:56Z
...,...,...,...,...,...
0,코로나로 나랏돈 풀어서 국고에 돈이 없다자나 재수없음 걸리는거지 뭐 그냥 돈 달라고해,하이엘프퀸,1,2023-04-26T01:04:05Z,2023-04-26T01:04:05Z
0,인간 고라니도 단속해라~,까꿍,4,2023-04-26T01:03:04Z,2023-04-26T01:03:04Z
0,우회전 정지 쓰레기법,까꿍,2,2023-04-26T01:01:35Z,2023-04-26T01:01:35Z
0,딱 12시간 앵무새하다가 멈췄네 ㅋㅋ,홍상대,2,2023-04-26T00:58:13Z,2023-04-26T00:58:13Z


대댓글

In [211]:
response.get('items')[0].get('snippet').get('topLevelComment')

{'kind': 'youtube#comment',
 'etag': 'fPUWHdsDRFIoNqvcYMFRD7VaAyw',
 'id': 'UgySv7JQMyF0jSu8Msd4AaABAg',
 'snippet': {'videoId': 'AFjeAXqUmFY',
  'textDisplay': '한국 경찰이  생각이란건 하고사니????',
  'textOriginal': '한국 경찰이  생각이란건 하고사니????',
  'authorDisplayName': '진정성??  개소리입니다',
  'authorProfileImageUrl': 'https://yt3.ggpht.com/HQQ8tOJRY7eWWEp4rJiI7nxC6O8PXceROhpZyNNG1elEUc3tQHHIQNIGPlrK7Hup29WdkpsTpQ=s48-c-k-c0x00ffffff-no-rj',
  'authorChannelUrl': 'http://www.youtube.com/channel/UCxjCdpIKmLr6xczljoJr7WA',
  'authorChannelId': {'value': 'UCxjCdpIKmLr6xczljoJr7WA'},
  'canRate': True,
  'viewerRating': 'none',
  'likeCount': 0,
  'publishedAt': '2023-04-26T02:38:43Z',
  'updatedAt': '2023-04-26T02:38:43Z'}}

In [None]:
response.get('items')[4].get('replies').get('comments')[0]

{'kind': 'youtube#comment',
 'etag': 'AcY8s8XSPQntTyvfU6YNfjfZioU',
 'id': 'UgxyHxfP1l_Cys34dUZ4AaABAg.9oxPi2F9i9b9p4DnO01ntM',
 'snippet': {'videoId': 'AFjeAXqUmFY',
  'textDisplay': '우회전시 우회전하지말고<br>10분 잠들기 휴식하면 될듯',
  'textOriginal': '우회전시 우회전하지말고\n10분 잠들기 휴식하면 될듯',
  'parentId': 'UgxyHxfP1l_Cys34dUZ4AaABAg',
  'authorDisplayName': '남광희',
  'authorProfileImageUrl': 'https://yt3.ggpht.com/ytc/AGIKgqN7Kv6x7uivN5HQRqWDa-pRdypn7ZTtmSV3=s48-c-k-c0x00ffffff-no-rj',
  'authorChannelUrl': 'http://www.youtube.com/channel/UCJCw94b2mY63aJD_OBDPAiQ',
  'authorChannelId': {'value': 'UCJCw94b2mY63aJD_OBDPAiQ'},
  'canRate': True,
  'viewerRating': 'none',
  'likeCount': 1,
  'publishedAt': '2023-04-29T03:27:53Z',
  'updatedAt': '2023-04-29T03:27:53Z'}}

In [205]:
def get_information_from_youtube_api(item):
    id = item.get('id')
    item = item.get('snippet')
    
    information = {
        'textOriginal': item.get('textOriginal'),
        'authorDisplayName': item.get('authorDisplayName'),
        'id': id,
        'likeCount': item.get('likeCount'),
        'publishedAt': item.get('publishedAt'),
        'updatedAt': item.get('updatedAt')
    }

    return pd.DataFrame(information, index=[0])

In [207]:
def get_total_information_from_youtube_api_return(item):
    replies_information = pd.DataFrame()
    if 'replies' in item:
        replies = item.get('replies').get('comments')
        replies_information = pd.concat(
            [get_information_from_youtube_api(re_reply) for re_reply in replies]
        )
        
    comment_information = get_information_from_youtube_api(
        item.get('snippet').get('topLevelComment')
        )

    return pd.concat([
        comment_information,
        replies_information
    ])

In [208]:
response = (
    youtube
    .commentThreads()
    .list(
      part='snippet,replies', 
      videoId='AFjeAXqUmFY',
      maxResults=100
      )
    .execute()
    )

total_comments = pd.concat(
  [get_total_information_from_youtube_api_return(item) for item in response.get('items')]
)

while 'nextPageToken' in response:
  response = (
      youtube
      .commentThreads()
      .list(
        part='snippet,replies', 
        videoId='AFjeAXqUmFY',
        pageToken=response.get('nextPageToken'),
        maxResults=100
        )
      .execute()
      )
  
  comments = pd.concat([get_total_information_from_youtube_api_return(item) for item in response.get('items')])
  total_comments = pd.concat([total_comments, comments])

In [209]:
total_comments

Unnamed: 0,textOriginal,authorDisplayName,id,likeCount,publishedAt,updatedAt
0,우회전 신호등 만들 예산 부족이라 돈 걷으려는 빌드업이냐? ㅋㅋㅋㅋ,마약tv,UgwAOPMUpEyLdEmJXIN4AaABAg,0,2023-04-30T04:18:06Z,2023-04-30T04:18:06Z
0,🐕 들아. 우회전 신호등부터만들고 잡아라,A6 J,UgwhqVRbLfLoOBcfT8F4AaABAg,0,2023-04-30T04:11:21Z,2023-04-30T04:11:21Z
0,세금뜯기위한 교통법규는 없애라.\n이제는 별 거지갖은 법규 만들어 국민들 주머니 털...,임형빈,UgwDTQ_MoO8aRFPe9I54AaABAg,0,2023-04-30T03:47:02Z,2023-04-30T03:47:02Z
0,현실성 떨어지는 법제도..\n무단횡단하는 보행자에 대하여서도 처벌할수 있도록 합시다...,쪼코우유,UgzXydzcSgBvktnSys54AaABAg,0,2023-04-30T03:36:50Z,2023-04-30T03:38:30Z
0,걍 우회전 시 잠시 멈춰서 사람있는지 보고 가라... 1분 일찍가려다가 사람 쳐서 ...,채원채원,UgwR0HF2iJNCJ28U69p4AaABAg,0,2023-04-30T03:20:56Z,2023-04-30T03:20:56Z
...,...,...,...,...,...,...
0,코로나로 나랏돈 풀어서 국고에 돈이 없다자나 재수없음 걸리는거지 뭐 그냥 돈 달라고해,하이엘프퀸,UgzNbkdq3f2rRFmeOFN4AaABAg,1,2023-04-26T01:04:05Z,2023-04-26T01:04:05Z
0,인간 고라니도 단속해라~,까꿍,Ugyjs1Sl8PLe8udpIsp4AaABAg,4,2023-04-26T01:03:04Z,2023-04-26T01:03:04Z
0,우회전 정지 쓰레기법,까꿍,UgzvA2snaEUiPsmbKKZ4AaABAg,2,2023-04-26T01:01:35Z,2023-04-26T01:01:35Z
0,딱 12시간 앵무새하다가 멈췄네 ㅋㅋ,홍상대,UgzgEnqxRijMkfsEVfp4AaABAg,2,2023-04-26T00:58:13Z,2023-04-26T00:58:13Z


## 5.2 Dart

url에 key와 value값을 추가하여 호출

site: https://opendart.fss.or.kr/ <br>
reference: https://opendart.fss.or.kr/guide/main.do?apiGrpCd=DS001 <br>

api key = b85a5f962aa5ea060c4a8f2c248a7d981748432d

### 공시정보

```python
https://opendart.fss.or.kr/api/document.xml
```

### 기업개황

```python
https://opendart.fss.or.kr/api/company.json?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx&corp_code=00126380
```

### 공시검색

```
https://opendart.fss.or.kr/api/list.json?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx&bgn_de=20200117&end_de=20200117&corp_cls=Y&page_no=1&page_count=10
```

### 재무재표

```python
https://opendart.fss.or.kr/api/fnlttSinglAcntAll.json?crtfc_key=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx&corp_code=00126380&bsns_year=2018&reprt_code=11011&fs_div=OFS
```