## WICS 기준 섹터 정보 크롤링

지수 제공업체인 FnGuide Index에서는 GICS와 비슷한 WICS 산업분류를 발표하고 있다.  
WICS를 크롤링하여 필요한 정보를 수집한다.

In [3]:
import json
import requests as rq
import pandas as pd

url = f'''https://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt=20250314&sec_cd=G10'''   
data = rq.get(url).json()   

type(data)

dict

- JSON 데이터에 어떠한 키가 있는지 확인한다.

In [4]:
print(data.keys())

dict_keys(['info', 'list', 'sector', 'size'])


- 'info', 'list', 'sector', 'size' 중 list에는 해당 섹터의 구성종목 정보가 포함되어 있고, sector에는 각종 섹터의 코드 정보가 포함되어 있다.

In [5]:
data['list'][0]

{'IDX_CD': 'G10',
 'IDX_NM_KOR': 'WICS 에너지',
 'ALL_MKT_VAL': 30505197,
 'CMP_CD': '096770',
 'CMP_KOR': 'SK이노베이션',
 'MKT_VAL': 11164491,
 'WGT': 36.6,
 'S_WGT': 36.6,
 'CAL_WGT': 1.0,
 'SEC_CD': 'G10',
 'SEC_NM_KOR': '에너지',
 'SEQ': 1,
 'TOP60': 3,
 'APT_SHR_CNT': 84579475}

In [6]:
data['sector']

[{'SEC_CD': 'G25', 'SEC_NM_KOR': '경기관련소비재', 'SEC_RATE': 9.56, 'IDX_RATE': 0},
 {'SEC_CD': 'G35', 'SEC_NM_KOR': '건강관리', 'SEC_RATE': 11.49, 'IDX_RATE': 0},
 {'SEC_CD': 'G50', 'SEC_NM_KOR': '커뮤니케이션서비스', 'SEC_RATE': 6.28, 'IDX_RATE': 0},
 {'SEC_CD': 'G40', 'SEC_NM_KOR': '금융', 'SEC_RATE': 9.79, 'IDX_RATE': 0},
 {'SEC_CD': 'G10', 'SEC_NM_KOR': '에너지', 'SEC_RATE': 2.36, 'IDX_RATE': 100.0},
 {'SEC_CD': 'G20', 'SEC_NM_KOR': '산업재', 'SEC_RATE': 18.1, 'IDX_RATE': 0},
 {'SEC_CD': 'G55', 'SEC_NM_KOR': '유틸리티', 'SEC_RATE': 1.15, 'IDX_RATE': 0},
 {'SEC_CD': 'G30', 'SEC_NM_KOR': '필수소비재', 'SEC_RATE': 2.24, 'IDX_RATE': 0},
 {'SEC_CD': 'G15', 'SEC_NM_KOR': '소재', 'SEC_RATE': 6.25, 'IDX_RATE': 0},
 {'SEC_CD': 'G45', 'SEC_NM_KOR': 'IT', 'SEC_RATE': 32.78, 'IDX_RATE': 0}]

- list 부분의 데이터를 데이터프레임 형태로 변경한다.

In [7]:
data_pd = pd.json_normalize(data['list'])

data_pd.head()

Unnamed: 0,IDX_CD,IDX_NM_KOR,ALL_MKT_VAL,CMP_CD,CMP_KOR,MKT_VAL,WGT,S_WGT,CAL_WGT,SEC_CD,SEC_NM_KOR,SEQ,TOP60,APT_SHR_CNT
0,G10,WICS 에너지,30505197,96770,SK이노베이션,11164491,36.6,36.6,1.0,G10,에너지,1,3,84579475
1,G10,WICS 에너지,30505197,34730,SK,4572455,14.99,51.59,1.0,G10,에너지,2,3,33351243
2,G10,WICS 에너지,30505197,267250,HD현대,3304439,10.83,62.42,1.0,G10,에너지,3,3,44236128
3,G10,WICS 에너지,30505197,10950,S-Oil,2457682,8.06,70.48,1.0,G10,에너지,4,3,41655633
4,G10,WICS 에너지,30505197,9830,한화솔루션,2182090,7.15,77.63,1.0,G10,에너지,5,3,108292298


pandas 패키지의 json_normalize() 함수를 이용하면 JSON 형태의 데이터를 데이터프레임 형태로 매우 쉽게 변경할 수 있다.

- 모든 섹터의 구성종목을 얻는다.

In [8]:
import time
import json
import requests as rq
import pandas as pd
from tqdm import tqdm

sector_code = [
    'G25', 'G35', 'G50', 'G40', 'G10', 'G20', 'G55', 'G30', 'G15', 'G45'
]

data_sector = []   # 1

for i in tqdm(sector_code):   # 3
    url = f'''https://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt=20250314&sec_cd={i}''' 
    data = rq.get(url).json()
    data_pd = pd.json_normalize(data['list'])

    data_sector.append(data_pd)   # 2
    
    time.sleep(2)

kor_sector = pd.concat(data_sector, axis=0)   # 4
kor_sector = kor_sector[['IDX_CD', 'CMP_CD', 'CMP_KOR', 'SEC_NM_KOR']]   # 5
kor_sector['기준일'] = '20250314'   # 6
kor_sector['기준일'] = pd.to_datetime(kor_sector['기준일'])   # 6

100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:28<00:00,  2.81s/it]


1. 섹터 정보가 들어갈 빈 리스트(data_sector)를 만든다.
2. for문의 i에 섹터 코드를 입력하여 모든 섹터의 구성종목을 다운로드받은 후 append() 메서드를 통해 리스트에 추가한다.
3. tqdm() 함수를 통해 진행 상황을 출력한다.
4. concat() 함수를 이용해 리스트 내의 데이터프레임을 합친다.
5. 필요한 열(섹터 코드, 티커, 종목명, 섹터명)만 입력한다.
6. 데이터의 기준일에 해당하는 [기준일] 열을 추가한 후 datetime 형태로 변경한다.

- SQL에 해당 정보가 들어갈 테이블을 만들어준다.

```sql
    create table kor_sector (
	IDX_CD varchar(3),
    CMP_CD varchar(6),
    CMP_KOR varchar(20),
    SEC_NM_KOR varchar(10),
    기준일 date,
    primary key(CMP_CD, 기준일)
);
```

In [9]:
import pymysql

con = pymysql.connect(user='root',
                     passwd='1234',
                     host='127.0.0.1',
                     db='stock_db',
                     charset='utf8')

mycursor = con.cursor()
query = f"""
    insert into kor_sector (IDX_CD, CMP_CD, CMP_KOR, SEC_NM_KOR, 기준일)
    values (%s, %s, %s, %s, %s) as new
    on duplicate key update
    IDX_CD = new.IDX_CD, CMP_KOR = new.CMP_KOR, SEC_NM_KOR = new.SEC_NM_KOR
"""

args = kor_sector.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()