## 정적 크롤링

- EUC-KR : 한글 인코딩 완성형 방식. 현대 한글에서 많이 쓰이는 문자 2,350 개에 번호를 붙임.
- CP949 : 11,720 개 한글 문자에 번호를 붙임. EUC-KR보다 나타낼 수 있는 한글의 갯수가 많아짐.
- UTF-8 : 조합형 방식. 모음과 자음 각각에 코드를 부여. 한글 뿐 아니라 다양한 언어에 적용 가능. 대부분의 웹페이지에서 사용.

HTTP 요청 방식의 종류
- GET ** : 특정 정보 조회
- POST ** : 새로운 정보 등 / 크롬에서[F12] > 상단 network 탭 / body를 통해 전송되어 URL주소를 통해 변경사항이 확인되지 않음. 개발자 도구를 열어봐야 함.
- PUT
- DELETE

HTTP 상태 코드
- 1xx(Information): 요청이 수신되어 처리중
- 2xx(Successful): 요청 정상 처리
- 3xx(Redirection): 요청을 완료하려면 추가 행동 필요
- 4xx(Client Error): 클라이언트 오류, 잘못된 문법 등으로 서버가 요청을 수행할 수 없음.
- 5xx(Server Error): 서버 오류, 서버가 정상 요청을 처리하지 못함.

HTML과 CSS
- https://www.w3schools.com/html/tryit.asp?filename=tryhtml_intro


### 금융 속보 크롤링

In [2]:
import requests as rq
from bs4 import BeautifulSoup # HTML 정보를 BeautifulSoup 객체로 만든다.

url = 'https://finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258'
data = rq.get(url)
html = BeautifulSoup(data.content, 'html.parser')
html_select = html.select('dl > dd.articleSubject > a')

html_select[0:5]

[<a href="/news/news_read.naver?article_id=0004957532&amp;office_id=008&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20231103&amp;page=1" title="11월까지 4개월 연속 하락, 77년간 없었다…랠리를 믿는 이유[오미주]">11월까지 4개월 연속 하락, 77년간 없었다…랠리를 믿는 이유[오미주]</a>,
 <a href="/news/news_read.naver?article_id=0005611899&amp;office_id=018&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20231103&amp;page=1" title="공매도 ‘6개월’ 전면금지하나…금융위 “확정 아냐”">공매도 ‘6개월’ 전면금지하나…금융위 “확정 아냐”</a>,
 <a href="/news/news_read.naver?article_id=0000768426&amp;office_id=469&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20231103&amp;page=1" title="카드론 안 내주는 카드사들... 리볼빙으로 몰리는 서민">카드론 안 내주는 카드사들... 리볼빙으로 몰리는 서민</a>,
 <a href="/news/news_read.naver?article_id=0004957528&amp;office_id=008&amp;mode=LSS2D&amp;type=0§ion_id=101§ion_id2=258§ion_id3=&amp;date=20231103&amp;page=1" title="고령군 축산물공판장 냉동창고서 '액화암모니아' 누출…인명피해 無">고령군 축산물공판장 냉동창고서 '액화암모니아' 누출…인명피해 無</a>,
 <a href="/news/news_read.naver?ar

In [3]:
html_select[0]['title']

'11월까지 4개월 연속 하락, 77년간 없었다…랠리를 믿는 이유[오미주]'

In [4]:
[i['title'] for i in html_select]

['11월까지 4개월 연속 하락, 77년간 없었다…랠리를 믿는 이유[오미주]',
 '공매도 ‘6개월’ 전면금지하나…금융위 “확정 아냐”',
 '카드론 안 내주는 카드사들... 리볼빙으로 몰리는 서민',
 "고령군 축산물공판장 냉동창고서 '액화암모니아' 누출…인명피해 無",
 "7연속 하한가 영풍제지…'천하제일 단타대회' 열렸다",
 '불거지는 황현순 키움證 대표 해임설…회사는 "정해진 바 없다"',
 '대유에이텍 몽베르CC, 동화그룹에 3000억원대 매각',
 "[속보] '사기 혐의' 전청조 구속영장 발부",
 '‘영풍제지 미수금 사태’ 휘말린 키움증권, 황현순 사장 해임 결정',
 '거래소, 쏘닉스 코스닥시장 신규 상장',
 "키움證 사장 해임키로 내부 결정한 듯…'영풍제지 미수금 사태' 책임",
 '한샘, 3분기 영업익 49억원…흑자 전환',
 '캡스톤파트너스, 공모가 상단 초과 4000원 확정… 경쟁률 952대 1']

### 테이블 크롤링 하기

In [6]:
import pandas as pd

url = 'https://en.wikipedia.org/wiki/List_of_countries_by_stock_market_capitalization'
tbl = pd.read_html(url)

tbl[0].head()

Unnamed: 0,Country,Total market cap (in mil. US$)[2],Total market cap (% of GDP)[3],Number of domestic companies listed[4],Year
0,United States,44719661,194.5,4266,2020
1,China,13214311,83.0,4154,2020
2,Japan,6718220,122.2,3754,2020
3,Hong Kong,6130420,1768.8,2353,2020
4,India,"3,612,985[5]",103.0,5270,2023


In [11]:
tbl[1].head()

Unnamed: 0,Year,World market cap (in mil. US$),World market cap (% of GDP),Number of listed companies
0,1975,1149245,27.2,14577.0
1,1980,2525736,29.6,17273.0
2,1985,4684978,47.0,20555.0
3,1990,9519107,50.8,23732.0
4,1991,11340785,56.8,24666.0


### 기업 공시 채널에서 오늘의 공시 불러오기

In [12]:
# POST 방식의 예시
# F12 > Network > 페이지에서 원하는 날짜 선택하고 조회 클릭 > 개발자 화면의 Network에 todaydiscolosure.do 항목 확인 가능
# Headers에서 Request URL과 Post method 확인가능 > Payload에서 데이터 요청하는 내용 확인. 

import requests as rq
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://kind.krx.co.kr/disclosure/todaydisclosure.do'
payload = {
    'method': 'searchTodayDisclosureSub',
    'currentPageSize': '15',
    'pageIndex': '1',
    'orderMode': '0',
    'orderStat': 'D',
    'forward': 'todaydisclosure_sub',
    'chose': 'S',
    'todayFlag': 'N',
    'selDate': '2023-01-31'
}

data = rq.post(url, data=payload)
html = BeautifulSoup(data.content, 'html.parser')
print(html)


<section class="scrarea type-00">
<table class="list type-00 mt10" summary="시간, 회사명, 공시제목, 제출인, 차트/주가">
<caption>목록</caption>
<colgroup>
<col width="9%"/>
<col width="22%"/>
<col width="*"/>
<col width="16%"/>
<col width="9%"/>
</colgroup>
<thead>
<tr class="first active" id="title-contents">
</tr>
</thead>
<tbody>
<tr class="first" id="parkman">
<td class="first txc">19:42</td>
<td><img alt="코스닥" class="vmiddle legend" src="/images/common/icn_t_ko.gif"/> <a href="#companysum" id="companysum" onclick="companysummary_open('05198'); return false;" title="중앙첨단소재"> 중앙첨단소재</a> <img alt="투자주의환기종목" class="vmiddle legend" src="/images/common/icn_t_hwan.gif"/> </td>
<td><a href="#viewer" onclick="openDisclsViewer('20230131000891','')" title="최대주주 변경을 수반하는 주식 담보제공 계약 체결">최대주주 변경을 수반하는 주식 담보제공 계약 체결</a></td>
<td>중앙첨단소재</td>
<td class="txc">
<a class="btn ico chart-00" href="#" onclick="openDisclsChart('05198');return false;" title="공시차트"><span>공시차트</span></a>
<a class="btn ico chart-01" href="#"

In [15]:
#html_unicode = html.prettify()
tbl = pd.read_html(html.prettify())

tbl[0].head() # list

  tbl = pd.read_html(html.prettify())


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,19:42,중앙첨단소재,최대주주 변경을 수반하는 주식 담보제공 계약 체결,중앙첨단소재,공시차트 주가차트
1,19:23,시스웍,횡령ㆍ배임혐의발생,시스웍,공시차트 주가차트
2,19:20,피에이치씨,횡령ㆍ배임혐의발생,피에이치씨,공시차트 주가차트
3,19:03,하나머티리얼즈,최대주주 변경을 수반하는 주식 담보제공 계약 체결,하나머티리얼즈,공시차트 주가차트
4,18:53,엔지스테크널러지,기타시장안내(감사의견 관련 형식적 상장폐지 사유해소 및 매매거래정지 지속안내),코스닥시장본부,공시차트 주가차트


## 동적 크롤링
- 웹페이지에서 클릭 등의 조작 시에 AJAX 호출이 발생하여 그 결과가 페이지의 일부분에만 반영.
- 웹브라우저가 연결된 자바스크립트 코드를 실행하여 해당 매장의 상세 정보가 동일한 페이지에 표시.
- 셀리니움을 이용하면 정적 크롤링은 물론 동적 크롤링도 가능하지만 속도가 느림.
- 따라서 정적 크롤링을 할 시에는 selenium패키지 대신 requests패키지 사용.

In [29]:
!pip install selenium
!pip install webdriver-manager




[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: C:\Users\jh102\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


Collecting webdriver-manager
  Obtaining dependency information for webdriver-manager from https://files.pythonhosted.org/packages/b1/51/b5c11cf739ac4eecde611794a0ec9df420d0239d51e73bc19eb44f02b48b/webdriver_manager-4.0.1-py2.py3-none-any.whl.metadata
  Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl.metadata (12 kB)
Collecting python-dotenv (from webdriver-manager)
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Downloading webdriver_manager-4.0.1-py2.py3-none-any.whl (27 kB)
Installing collected packages: python-dotenv, webdriver-manager
Successfully installed python-dotenv-1.0.0 webdriver-manager-4.0.1



[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: C:\Users\jh102\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [37]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup

# 크롬 버전을 탐색하여, 버전에 맞는 웹드라이버를 다운로드하여 해당 경로를 셀레니움에 전달.
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
# 위의 코드 오류시에는 아래 코드 사용.
# driver = webdriver.Chrome(ChromeDriverManager().install())
# 이제 파이썬 코드를 통해 웹페이지를 조작할 수 있음.

In [38]:
url = 'https://www.naver.com/'
driver.get(url)
driver.page_source[1:1000]

'html lang="ko" class="fzoom" data-dark="false"><head><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" content="index,nofollow"> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https:/

In [41]:
driver.find_element(By.LINK_TEXT , value = '뉴스').click() # 링크가 달려있는 text로 접근 > 뉴스라는 단어가 있는 element로 접근 > click()

In [43]:
driver.back() # 뒤로가기

In [44]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
url = 'https://www.naver.com/'
driver.get(url)
driver.page_source[1:1000]

'html lang="ko" class="fzoom" data-dark="false"><head><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" content="index,nofollow"> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https:/

In [51]:
driver.find_element(By.CLASS_NAME, value = 'search_input').send_keys('퀀트')

In [60]:
driver.find_element(By.CLASS_NAME, value = 'btn_search').send_keys(Keys.ENTER)

In [61]:
driver.find_element(By.CLASS_NAME, value = 'box_window').clear()
driver.find_element(By.CLASS_NAME, value = 'box_window').send_keys('카이스트 퀀트')
driver.find_element(By.CLASS_NAME, value = 'bt_search').click()

### XPATH : HTML이나 XML 중 특정 값의 태그나 속성을 찾기 쉽게 만든 주소
 - 개발자 도구에서 해당 부분을 찾은 다음, 마우스 우클릭 > Copy > Copy Xpath

In [62]:
driver.find_element(By.XPATH, value = '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a').click()

In [63]:
# 스크롤 아래로 내리기.
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
# driver.find_element(By.TAG_NAME, value = 'body').send_keys(Keys.PAGE_DOWN)

In [65]:
prev_height = driver.execute_script('return document.body.scrollHeight')

while True:
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
    time.sleep(2)
    
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    prev_height = curr_height

In [67]:
html = BeautifulSoup(driver.page_source, 'lxml')
txt = html.find_all(class_ = 'title_area')
txt_list = [i.get_text() for i in txt]

txt_list[0:10]

[' [카이스트]연봉 1억 퀀트가 되기 위한 카이스트 금융공학 대학원을 가려면 무엇을 준비해야할까요? ',
 ' 퀀트투자 머신러닝으로 데이터를 분석하는 퀸트 주식 투자 프로그램 ',
 ' [서평] 파이썬을 이용한 퀀트 투자 포트폴리오 만들기 / 이현열 / 제이펍 ',
 ' #퀀트 ',
 ' 카이스트 금공 대학원 문과 진학 ',
 ' 실무 경험으로 취준 다지기 ㅣ퀀트 프로젝토링 3기 수강생 ',
 ' 카이스트 경영공학부 겸직교수에 임용되었습니다 ',
 ' 인간지능 vs 인공지능 2023 (CFA 한국협회 투자포럼) ',
 ' 세계에서 가장 빠른 AI 반도체 칩 선보인 박성현 리벨리온 대표 ',
 ' 퀀트 유명간 애널 ']

In [68]:
# 크롬 웹페이지 종료.
driver.quit()

### 셀레니움 명령어 정리

#### 브라우저 관련
- webdriver.Chrome(): 브라우저 열기
- driver.close(): 현재 탭 닫기
- driver.quit(): 브라우저 닫기
- driver.back(): 뒤로 가기
- driver.forward(): 앞으로 가기

#### Element 접근
- By.ID: 태그의 ID 값으로 추출
- By.NAME: 태그의 NAME 값으로 추출
- By.XPATH: 태그의 XPATH 값으로 추출
- By.LINK_TEXT: 링크에 존재하는 텍스트로 추출
- By.TAG_NAME: 태그명으로 추출
- By.CLASS_NAME: 태그의 클래스명으로 추출
- By.CSS_SELECTOR: CSS 선택자로 추출

#### 동작
- click(): 엘레먼트를 클릭
- clear(): 텍스트 삭제
- send_keys(text): 텍스트 입력
- send_keys(Keys.CONTROL + 'v'): 컨트롤 + v 누르기

#### 자바 스크립트 코드 실행
- execute_script()
- https://selenium-python.readthedocs.io/

** 출처: 파이썬을 활용한 퀀트투자 포트폴리오 만들기 (이현열) **

### 정규 표현식 (Regex: Regular expression)

In [1]:
import re

data = '동 기업의 매출액은 전년 대비 29.2% 늘어났습니다.'
re.findall('\d+.\d+%', data)

['29.2%']

#### 메타 문자
- (Meta Characters)
- . ^ $ * + ? { } [ ] \ | ( )

#### 문자 클래스([ ])

- [] : 대괄호 안에 포함된 문자들 중 하나와 매치
- [-] : 두 문자 사이의 범위 (ex: [a-e] = [abcde], [0-5] = [012345])
- [a-z]는 알파벳 소문자, [A-Z]는 알파벳 대문자, [a-zA-Z]는 모든 알파벳, [0-9]는 모든 숫자.
- [^0-9]는 숫자를 제외한 문자만 매치, [^abc]는 a,b,c를 제외한 모든 문자와 매치.


*** 출처: HenryQuant Github ***

- | \d | 숫자와 매치, [0-9]와 동일한 표현식 |
- | \D | 숫자가 아닌 것 매치, [^0-9]와 동일한 표현식 |
- | \s | whitespace(공백) 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식 |
- | \S | whitespace 문자가 아닌 것과 매치, [^\t\n\r\f\v]와 동일한 표현식 |
- | \w | 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9]와 동일한 표현식 |
- | \W | 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식 |

#### 모든 문자(.)
- Dot(.) 메타 문자는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치.
- a.e 의 경우 a와 e사이에 어떤 문자가 들어가도 모두 매치.

#### 반복문 *, +, {}, ?
- ca*t 라는 정규식은 'ct', 'cat', 'caat' ,'caaaat' 와 모두 매치.
- 이때, * 대신 +를 사용할 경우 a가 한번 이상은 반복되어야 함. 즉 ct는 매치되지 않음.
- 메타문자 { }를 사용하면 반복 횟수를 고정. 즉 {m, n}은 반복 횟수가 m부터 n까지 고정.
- {3, }의 경우 반복 횟수가 3 이상, {, 3}의 경우 반복 횟수가 3 이하를 의미.
- 메타문자 ?는 {0, 1}과 동일. 즉 ? 앞의 문자가 있어도 되고 없어도 된다는 의미.

#### 기타 메타문자

- |: or과 동일한 의미. 즉 expr1 | expr2라는 정규식은 expr1 혹은 expr2 라는 의미.
- ^: 문자열의 맨 처음과 일치함을 의미. 즉 ^a 정규식은 a로 시작하는 단어와 매치.
- \$: ^와 반대의 의미로써, 문자열의 끝과 매치함을 의미. 즉, a$는 a로 끝나는 단어와 매치.
- \\: 메타문자의 성질을 없앰. 즉 \^이나 \$ 문자를 메타문자가 아닌 문자 그 자체로 매치하고 싶은 경우 \\^, \\$의 형태로 사용.
- (): 괄호안의 문자열을 하나로 묶어 취급.

#### 정규 표현식과 관련된 메서드
- match(): 시작부분부터 일치하는 패턴 찾기
- search(): 첫 번째 일치하는 패턴 찾기.
- findall(): 일치하는 모든 패턴을 찾기.
- finditer(): findall()과 동일하지만 그 결과로 반복 가능한 객체를 반환.

##### match()

In [2]:
import re

p = re.compile('[a-z]+')
type(p)

re.Pattern

In [3]:
m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [4]:
m.group()

'python'

In [5]:
m = p.match('Use python') #대문자, 시작부분 매치X
print(m)

None


In [6]:
m = p.match('PYTHON')
print(m)

None


In [7]:
p = re.compile('[가-힣]+')
m = p.match('파이썬')
print(m)

<re.Match object; span=(0, 3), match='파이썬'>


##### search()

In [8]:
p = re.compile('[a-z]+')
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [9]:
m = p.search('Use python')
print(m)

<re.Match object; span=(1, 3), match='se'>


##### findall()

In [10]:
p = re.compile('[a-zA-Z]+')
m = p.findall('Life is too short, You need Python.')
print(m)

['Life', 'is', 'too', 'short', 'You', 'need', 'Python']


##### finditer()

In [11]:
p = re.compile('[a-zA-Z]+')
m = p.finditer('Life is too short, You need Python.')
print(m)

<callable_iterator object at 0x00000147B65A2170>


In [12]:
for i in m:
    print(i)

<re.Match object; span=(0, 4), match='Life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>
<re.Match object; span=(19, 22), match='You'>
<re.Match object; span=(23, 27), match='need'>
<re.Match object; span=(28, 34), match='Python'>


In [17]:
num = """r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t\t\t15\r\n\t\t\t\t
\t\t\t\t23\r\n\t\t\t\t\t\t\t\t29\r\n\t\t\t\t\t\t\t\t34\r\n\t\t\t\t\t\t\t\t40\r\n\t\t\t\t\t\t\t\t44\r\n\t\t\t\t\t\t\t\r\n\t\t\t\t\t\t"""

In [19]:
import re

p = re.compile('[0-9]+')
m = p.findall(num)
print(m)

['15', '23', '29', '34', '40', '44']


In [20]:
dt = '> 오늘의 날짜는 2022.12.31 입니다.'

In [21]:
p = re.compile('[0-9]+.[0-9]+.[0-9]+')
p.findall(dt)

['2022.12.31']

In [22]:
p = re.compile('[0-9]+')
m = p.findall(dt)
print(m)

['2022', '12', '31']


In [23]:
''.join(m)

'20221231'

##### 정규표현식 테스트
- https://regexr.com
- https://regex101.com