Pandas를 이용해 Naver금융에서 주식데이터를 가져오기.

# 한국거래소(krx)에서 종목코드 가져오기

원하는 종목의 주식데이터를 가져오기 위해 코스피(KOSPI)와 코스닥(KOSDAQ)의 종목코드가 필요하다.
- `pandas`모듈의 `pandas.read_html()`을 이용해 종목코드를 가져올 수 있다.
    - `pandas.read_html()`은 HTML에서 `<table></table>` 태그를 찾아 자동으로 `DataFrame`형식으로 만들어준다.

In [48]:
import pandas as pd

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13')
code_df

[           회사명    종목코드               업종  \
 0          DSR  155660      1차 비철금속 제조업   
 1        GS글로벌    1250        상품 종합 도매업   
 2        HSD엔진   82740    일반 목적용 기계 제조업   
 3        LG이노텍   11070         전자부품 제조업   
 4          OCI   10060      기초 화학물질 제조업   
 ...        ...     ...              ...   
 2332        툴젠  199800  자연과학 및 공학 연구개발업   
 2333        틸론  217880   소프트웨어 개발 및 공급업   
 2334     판도라티비  202960   소프트웨어 개발 및 공급업   
 2335  한국미라클피플사  331660      기타 화학제품 제조업   
 2336     한국비엔씨  226610       의료용 기기 제조업   
 
                                                    주요제품         상장일  결산월  \
 0                                                합섬섬유로프  2013-05-15  12월   
 1     수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...  1976-06-26  12월   
 2                                        대형선박용엔진,내연발전엔진  2011-01-04  12월   
 3                                           기타 전자부품 제조업  2008-07-24  12월   
 4      타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매  1985-07-09  12월   
 ...    

알아보기 어려운 데이터들로 가득하다. 
- 먼저 데이터 타입이 무엇인지, 길이가 몇인지 알아보자.

In [49]:
print('type :',type(code_df),', length :',len(code_df))

type : <class 'list'> , length : 1


그래도 적어도 데이터 자체가 리스트 안에 있다는 것을 알 수 있다.
- 데이터 타입이 리스트이므로 인덱싱이 가능하다. 첫번째(이자 물론 마지막) 요소를 인덱싱하자.
- 인덱싱에 추가로 첫 번째 열을 `header`로 설정하자. `header=0`으로 설정하면 된다.

In [50]:
code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


데이터프레임을 성공적으로 출력했으니 이제 입맛에 맞게 수정하자.

In [51]:
code_df.종목코드

0       155660
1         1250
2        82740
3        11070
4        10060
         ...  
2332    199800
2333    217880
2334    202960
2335    331660
2336    226610
Name: 종목코드, Length: 2337, dtype: int64

종목코드열을 보면 4자리부터 6자리까지 다양하다. 일괄적으로 6자리로 맞추자.
- `map()` 함수를 사용하면 일괄적인 처리가 가능하다. code_df.
- 종목코드는 Series 타입이므로 map() 함수 사용이 가능하다.

In [52]:
# {인덱스:0개수d'}'.format(숫자)
code_df.종목코드 = code_df.종목코드.map('{:06d}'.format)
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


다음은 불필요한 열을 제거하자.
- 지금 필요한 것은 회사명과 종목코드. 나머지 열들은 제외하자.

In [53]:
code_df = code_df[['회사명', '종목코드']]
code_df.head()

Unnamed: 0,회사명,종목코드
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


이제 한글로된 컬럼명을 영어로 바꿔준다.

In [55]:
code_df = code_df.rename(columns={'회사명' : 'name', '종목코드' : 'code'})
code_df.head()

Unnamed: 0,name,code
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


# Naver금융에서 종목 별 일자 데이터 가져오기

예시로 신라젠(215600)의 일자 데이터를 가져오자.

In [67]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).lstrip()
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
url = get_url(item_name, code_df)

df = pd.DataFrame()

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
    
df = df.dropna()

df.head()

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.11.29,15300.0,150.0,15250.0,15600.0,15000.0,850185.0
2,2019.11.28,15150.0,0.0,15050.0,16050.0,15000.0,4003367.0
3,2019.11.27,15150.0,1450.0,16750.0,16800.0,15100.0,7392710.0
4,2019.11.26,16600.0,800.0,17650.0,17750.0,16600.0,6179093.0
5,2019.11.25,17400.0,350.0,17350.0,18050.0,17350.0,2509961.0


In [62]:
print('a','b')
print('a'+'b')

a b
ab


In [74]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).replace(' ', '')
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
url = get_url(item_name, code_df)

df = pd.DataFrame()

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
    
df = df.dropna()

df.head()

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.11.29,14500.0,650.0,15250.0,15600.0,14400.0,3029463.0
2,2019.11.28,15150.0,0.0,15050.0,16050.0,15000.0,4003367.0
3,2019.11.27,15150.0,1450.0,16750.0,16800.0,15100.0,7392710.0
4,2019.11.26,16600.0,800.0,17650.0,17750.0,16600.0,6179093.0
5,2019.11.25,17400.0,350.0,17350.0,18050.0,17350.0,2509961.0
