## 수정주가 크롤링

#### 개별종목 주가 크롤링

- DB에서 티커 데이터를 불러온다.

In [5]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')   # 1
query = """
select * from kor_ticker
where 기준일 = (select max(기준일) from kor_ticker)   # 2
    and 종목구분 = '보통주'
"""
ticker_list = pd.read_sql(query, con=engine)   # 3
engine.dispose()   #  4

ticker_list.head()

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분
0,20,동화약품,KOSPI,6220.0,173734000000.0,2025-03-12,991.0,,13413.0,180.0,보통주
1,40,KR모터스,KOSPI,395.0,23752500000.0,2025-03-12,,,618.0,0.0,보통주
2,50,경방,KOSPI,6540.0,179296000000.0,2025-03-12,,,29623.0,125.0,보통주
3,70,삼양홀딩스,KOSPI,60100.0,514713000000.0,2025-03-12,22269.0,,257475.0,3500.0,보통주
4,80,하이트진로,KOSPI,19050.0,1336050000000.0,2025-03-12,512.0,1857.0,15694.0,950.0,보통주


1. create_engine() 함수를 통해 데이터베이스에 접속하기 위한 엔진을 만든다.
2. 티커 데이터를 불러오는 쿼리를 작상하며, 가장 최근 일자에 해당하는 내용을 불러오기 위해
   서브쿼리에 select max(기준일) from kor_ticer를 입력한다. 또한, 종목구분에서 보통주에 해당하는
   종목만 선택한다.
3. read_sql() 함수를 통해 해당 쿼리를 보낸 후 데이터를 받아 온다.
4. 접속을 종료한다.

In [6]:
from dateutil.relativedelta import relativedelta
import requests as rq
from io import BytesIO
from datetime import date

i = 0   # 1
ticker = ticker_list['종목코드'][i]   # 2
fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")   # 3
to = (date.today()).strftime("%Y%m%d")   # 3

url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1&startTime={fr}&endTime={to}&timeframe=day'''   # 4

data = rq.get(url).content   # 5
data_price = pd.read_csv(BytesIO(data))   # 6
 
data_price.head()

Unnamed: 0,[['날짜','시가','고가','저가','종가','거래량','외국인소진율'],Unnamed: 7
0,"[""20200316""",5870.0,6050.0,5700.0,5710.0,359328.0,5.46],
1,"[""20200317""",5250.0,5730.0,5250.0,5570.0,148121.0,5.52],
2,"[""20200318""",5630.0,5780.0,5420.0,5420.0,155883.0,5.54],
3,"[""20200319""",5630.0,6450.0,4800.0,4985.0,504037.0,5.44],
4,"[""20200320""",5010.0,5290.0,5000.0,5190.0,206771.0,5.49],


1. 먼저, i = 0을 입력한다. 향후 for문을 통해 i 값만 변경하면 모든 종목의 주가를 다운로드할 수 있다.
2. ticker_list['종목코드'][i]를 통해 원하는 종목의 티커를 선택한다.
3. 시작일(fr)과 종료일(to)에 해당하는 날짜를 만들어 준다. today() 메서드를 이용해 오늘 날짜를 불러온 후,
   시작일은 relativedelta() 클래스를 이용해 5년을 빼준다(본인이 원하는 기간만큼을 빼주면 된다).
   그 후 strftime() 메서드를 통해 'yyyymmdd' 형식을 만들어 준다. 종료일은 오늘 날짜를 그대로 사용한다.
4. 티커, 시작일, 종료일을 이용해 주가 데이터가 있는 URL을 생성한다.
5. get() 함수를 통해 페이지의 데이터를 불러온 후, content 부분을 추출한다.
6. BytesIO()를 이용해 바이너리 스트림 형태로 만든 후, read_csv() 함수를 통해 데이터를 읽어온다.

- 클렌징 작업을 해준다.

In [7]:
import re

price = data_price.iloc[:, 0:6]   # 1
price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']   # 2
price = price.dropna()   # 3
price['날짜'] = price['날짜'].str.extract('(\d+)')   # 4
price['날짜'] = pd.to_datetime(price['날짜'])   # 5
price['종목코드'] = ticker   # 6

price.head()

Unnamed: 0,날짜,시가,고가,저가,종가,거래량,종목코드
0,2020-03-16,5870.0,6050.0,5700.0,5710.0,359328.0,20
1,2020-03-17,5250.0,5730.0,5250.0,5570.0,148121.0,20
2,2020-03-18,5630.0,5780.0,5420.0,5420.0,155883.0,20
3,2020-03-19,5630.0,6450.0,4800.0,4985.0,504037.0,20
4,2020-03-20,5010.0,5290.0,5000.0,5190.0,206771.0,20


1. iloc() 인덱서를 통해 날짜와 가격(시가, 고가, 저가, 종가), 거래량에 해당하는 데이터만을 선택한다.
2. 열 이름을 변경한다.
3. dropna() 함수를 통해 NA 데이터를 삭제한다.
4. extract() 메서드 내에 정규 표현식을 이용해 날짜 열에서 숫자만을 추출한다.
5. '날짜' 열을 datetime 형태로 변경한다.
6. '종목코드' 열에 티커를 입력한다.

#### 전 종목 주가 크롤링

- SQL에 주가가 저장될 테이블(kor_price)을 만들어 준다.

```sql
    create table kor_price (
    	날짜 date,
        시가 double,
        고가 double,
        저가 double,
        종가 double,
        거래량 double,
        종목코드 varchar(6),
        primary key(날짜, 종목코드)
    );
```

- 전 종목 주가를 DB에 저장한다.

In [15]:
# 패키지 불러오기
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from datetime import date
from dateutil.relativedelta import relativedelta
import requests as rq
import time
from tqdm import tqdm
from io import BytesIO

# DB 연결   # 1
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                     passwd='1234',
                     host='127.0.0.1',
                     db='stock_db',
                     charset='utf8')
mycursor = con.cursor()

# 티커 리스트 불러오기   # 2
ticker_list = pd.read_sql("""
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주';
""", con=engine)

# DB 저장 쿼리   # 3
query = """
    insert into kor_price (날짜, 시가, 고가, 저가, 종가, 거래량, 종목코드)
    values (%s, %s, %s, %s, %s, %s, %s) as new
    on duplicate key update
    시가=new.시가, 고가=new.고가, 저가=new.저가, 종가=new.종가, 거래량=new.거래량;
"""

# 오류 발생 시 저장할 리스트 생성
error_list = []   # 4

# 전 종목 주가 다운로드 및 저장
for i in tqdm(range(0, len(ticker_list))):   # 5

    # 티커 선택
    ticker = ticker_list['종목코드'][i]

    # 시작일과 종료일
    fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")
    to = (date.today()).strftime("%Y%m%d")

    # 오류 발생 시 이를 무시하고 다음 루프를 진행
    try:
        # url 생성
        url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1&startTime={fr}&endTime={to}&timeframe=day'''

        # 데이터 다운로드
        data = rq.get(url).content
        data_price = pd.read_csv(BytesIO(data))

        # 데이터 클렌징
        price = data_price.iloc[:, 0:6]
        price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
        price = price.dropna()
        price['날짜'] = price['날짜'].str.extract('(\d+)')
        price['날짜'] = pd.to_datetime(price['날짜'])
        price['종목코드'] = ticker

        # 주가 데이터를 DB에 저장
        args = price.values.tolist()
        mycursor.executemany(query, args)
        con.commit()

    except:
        # 오류 발생 시 error_list에 티커 저장하고 넘어가기   # 6
        print(ticker)
        error_list.append(ticker)

    # 타임슬립 적용   # 7
    time.sleep(2)

# DB 연결 종료   # 8
engine.dispose()
con.close()

100%|████████████████████████████████████████████████████████████████████████████| 2491/2491 [1:58:43<00:00,  2.86s/it]


1. DB에 연결한다.
2. 기준일이 최대, 즉 최근일 기준 보통주에 해당하는 티커 리스트(ticker_list)만 불러온다.
3. DB에 저장할 쿼리(query)를 입력한다.
4. 오류 발생 시 저장할 리스트(error_list)를 만든다.
5. for문을 통해 전 종목 주가를 다운로드받으며, 진행 상황을 알기 위해 tqdm() 함수를 이용한다.
6. URL 생성, 데이터 다운로드 및 데이터 클렌징 및 DB에 저장은 위와 동일하며, try except문을 통해 오류 발생 시 티커를 출력 후 error_list에 저장한다.
7. 무한 크롤링을 방지하기 위해 한 번의 루프가 끝날 때마다 타임슬립을 적용한다.
8. 모든 작업이 끝나면 DB와의 연결을 종료한다.