Pandas를 이용해 Naver금융에서 주식데이터를 가져오기.

# 한국거래소(krx)에서 종목코드 가져오기

원하는 종목의 주식데이터를 가져오기 위해 코스피(KOSPI)와 코스닥(KOSDAQ)의 종목코드가 필요하다.
- `pandas`모듈의 `pandas.read_html()`을 이용해 종목코드를 가져올 수 있다.
    - `pandas.read_html()`은 HTML에서 `<table></table>` 태그를 찾아 자동으로 `DataFrame`형식으로 만들어준다.

In [2]:
import pandas as pd

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13')
code_df

[             회사명    종목코드              업종  \
 0            DSR  155660     1차 비철금속 제조업   
 1          GS글로벌    1250       상품 종합 도매업   
 2          HSD엔진   82740   일반 목적용 기계 제조업   
 3          LG이노텍   11070        전자부품 제조업   
 4            OCI   10060     기초 화학물질 제조업   
 ...          ...     ...             ...   
 2335  인프라웨어테크놀러지  247300  소프트웨어 개발 및 공급업   
 2336     지앤이헬스케어  299480     기타 섬유제품 제조업   
 2337          틸론  217880  소프트웨어 개발 및 공급업   
 2338       판도라티비  202960  소프트웨어 개발 및 공급업   
 2339    한국미라클피플사  331660     기타 화학제품 제조업   
 
                                                    주요제품         상장일  결산월  \
 0                                                합섬섬유로프  2013-05-15  12월   
 1     수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...  1976-06-26  12월   
 2                                        대형선박용엔진,내연발전엔진  2011-01-04  12월   
 3                                           기타 전자부품 제조업  2008-07-24  12월   
 4      타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매  1985-07-09  12월

알아보기 어려운 데이터들로 가득하다. 
- 먼저 데이터 타입이 무엇인지, 길이가 몇인지 알아보자.

In [3]:
print('type :',type(code_df),', length :',len(code_df))

type : <class 'list'> , length : 1


그래도 적어도 데이터 자체가 리스트 안에 있다는 것을 알 수 있다.
- 데이터 타입이 리스트이므로 인덱싱이 가능하다. 첫번째(이자 물론 마지막) 요소를 인덱싱하자.
- 인덱싱에 추가로 첫 번째 열을 `header`로 설정하자. `header=0`으로 설정하면 된다.

In [4]:
code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


데이터프레임을 성공적으로 출력했으니 이제 입맛에 맞게 수정하자.

In [5]:
code_df.종목코드

0       155660
1         1250
2        82740
3        11070
4        10060
         ...  
2335    247300
2336    299480
2337    217880
2338    202960
2339    331660
Name: 종목코드, Length: 2340, dtype: int64

종목코드열을 보면 4자리부터 6자리까지 다양하다. 일괄적으로 6자리로 맞추자.
- `map()` 함수를 사용하면 일괄적인 처리가 가능하다. `map()` 함수 안에 문자열 포맷팅으로 자릿수를 지정하자.
- 종목코드는 Series 타입이므로 map() 함수 사용이 가능하다.

In [6]:
# {인덱스:0개수d'}'.format(숫자)
code_df.종목코드 = code_df.종목코드.map('{:06d}'.format)
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


다음은 불필요한 열을 제거하자.
- 지금 필요한 것은 회사명과 종목코드. 나머지 열들은 제외하자.

In [7]:
code_df = code_df[['회사명', '종목코드']]
code_df.head()

Unnamed: 0,회사명,종목코드
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


이제 한글로된 컬럼명을 영어로 바꿔준다.

In [8]:
code_df = code_df.rename(columns={'회사명' : 'name', '종목코드' : 'code'})
code_df.head()

Unnamed: 0,name,code
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


# Naver금융에서 종목 별 일자 데이터 가져오기

예시로 신라젠(215600)의 일자 데이터를 가져와보자.
- 신라젠의 데이터 말고도 사용자가 원하는 임의의 데이터도 가져올 수 있도록 `get_url` 함수를 만들자.
- BeautifulSoup이나 Scrapy를 사용해 크롤링할 수도 있지만 이번엔 간단하게 20페이지만 가져온다.

url을 보면 종목코드에 따라 맨 뒤 url이 달라진다. 신라젠(215600)은 뒤에 해당 종목코드가 붙어있다.
- 데이터프레임에서 종목코드를 가져와 url 뒤에 붙여넣으면 해당 종목의 url을 불러올 수 있다.

`query()` 메소드를 사용하면 데이터프레임에 질문을 던질 수 있다. 일단 신라젠에 해당하는 행을 출력해보자.
- `format()` 을 사용하면 좀 더 정교한 문자열 대입이 가능하다.

In [17]:
code_df.query("name=='{}'".format('신라젠'))

Unnamed: 0,name,code
461,신라젠,215600


신라젠의 행을 출력했으니 신라젠의 'code'를 출력하자.

In [14]:
code = code_df.query("name=='{}'".format('신라젠'))['code']
type(code)

pandas.core.series.Series

보면 자료형이 Series로 나온다. 문자열에 대입할 수 있게 string으로 변환한다.
- Series 형은 `to_string()` 함수를 사용해 간단하게 변환할 수 있다.

In [16]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string()

'461    215600'

인덱스를 제외하기 위해 index parameter를 False 처리해준다.

In [18]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string(index=False)

' 215600'

종목코드 앞에 blank space가 존재한다. `lstrip()` 함수를 사용해 왼쪽 빈칸을 지워주자.

In [20]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string(index=False).lstrip()

'215600'

종목코드 얻는 법도 알았으니 `get_url()` 함수를 만들자.

In [25]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).lstrip()
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
get_url(item_name, code_df)

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


'http://finance.naver.com/item/sise_day.nhn?code=215600'

성공적으로 url이 출력된다. 이제 페이지 별로 데이터를 가져올 차례.
- 빈 데이터프레임을 만들고 그곳에 1페이지부터 20페이지의 데이터를 입력한다.
- for loop와 이전에 사용했던 `format()`을 사용하면 간단하게 처리 가능하다.

In [34]:
df = pd.DataFrame()

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
 
df

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2019.12.03,14100.0,300.0,14200.0,14650.0,14000.0,1155052.0
2,2019.12.02,14400.0,100.0,14500.0,14700.0,14000.0,2659568.0
3,2019.11.29,14500.0,650.0,15250.0,15600.0,14400.0,3067317.0
4,2019.11.28,15150.0,0.0,15050.0,16050.0,15000.0,4003367.0
...,...,...,...,...,...,...,...
295,2019.02.19,73500.0,800.0,75700.0,76500.0,73300.0,1735865.0
296,2019.02.18,74300.0,100.0,74900.0,76100.0,74100.0,1458663.0
297,2019.02.15,74200.0,2800.0,71600.0,76700.0,69800.0,3250755.0
298,2019.02.14,71400.0,900.0,72200.0,73000.0,70900.0,915736.0


299번째 행을 보면 NaN 값들이 있다. 제외하자.

In [37]:
df = df.dropna()
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.12.03,14100.0,300.0,14200.0,14650.0,14000.0,1155052.0
2,2019.12.02,14400.0,100.0,14500.0,14700.0,14000.0,2659568.0
3,2019.11.29,14500.0,650.0,15250.0,15600.0,14400.0,3067317.0
4,2019.11.28,15150.0,0.0,15050.0,16050.0,15000.0,4003367.0
5,2019.11.27,15150.0,1450.0,16750.0,16800.0,15100.0,7392710.0


**전체 코드**

In [38]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).lstrip()
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
url = get_url(item_name, code_df)

df = pd.DataFrame()

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
    
df = df.dropna()

df.head()

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.12.03,14100.0,300.0,14200.0,14650.0,14000.0,1157438.0
2,2019.12.02,14400.0,100.0,14500.0,14700.0,14000.0,2659568.0
3,2019.11.29,14500.0,650.0,15250.0,15600.0,14400.0,3067317.0
4,2019.11.28,15150.0,0.0,15050.0,16050.0,15000.0,4003367.0
5,2019.11.27,15150.0,1450.0,16750.0,16800.0,15100.0,7392710.0


데이터프레임을 수정해보자. 먼저 종가, 전일비, 시가, 고가, 저가, 거래량을 int로 형변환시켜준다.

In [44]:
# df[['종가', '전일비', '시가', '고가', '저가', '거래량']].astype(int)만 적으면 일회성으로 변환만 되기 때문에 저장을 해준다.
df[['종가', '전일비', '시가', '고가', '저가', '거래량']]\
    = df[['종가', '전일비', '시가', '고가', '저가', '거래량']].astype(int)
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.12.03,14100,300,14200,14650,14000,1157438
2,2019.12.02,14400,100,14500,14700,14000,2659568
3,2019.11.29,14500,650,15250,15600,14400,3067317
4,2019.11.28,15150,0,15050,16050,15000,4003367
5,2019.11.27,15150,1450,16750,16800,15100,7392710


정렬할수 있도록 날짜 열을 date로 형변환한다.

In [49]:
df['날짜'] = pd.to_datetime(df['날짜'])
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019-12-03,14100,300,14200,14650,14000,1157438
2,2019-12-02,14400,100,14500,14700,14000,2659568
3,2019-11-29,14500,650,15250,15600,14400,3067317
4,2019-11-28,15150,0,15050,16050,15000,4003367
5,2019-11-27,15150,1450,16750,16800,15100,7392710


마지막으로 날짜를 오름차순으로 정리한다.

In [50]:
df = df.sort_values(by=['날짜'], ascending=True)
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
298,2019-02-14,71400,900,72200,73000,70900,915736
297,2019-02-15,74200,2800,71600,76700,69800,3250755
296,2019-02-18,74300,100,74900,76100,74100,1458663
295,2019-02-19,73500,800,75700,76500,73300,1735865
294,2019-02-20,73500,0,73500,74400,73000,796959


# Plotly를 이용해 Time Series 그래프 그리기

먼저 필요한 모듈 import하고 시작.

In [67]:
import plotly.offline as offline
import plotly.graph_objs as go

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

fig = go.Figure(data=data)
offline.iplot(fig)

In [66]:
import plotly.offline as offline
import plotly.graph_objs as go

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

layout = dict(title='{}의 종가(close) Time Series'.format(item_name))

fig = go.Figure(data=data, layout=layout)
offline.iplot(fig)

In [70]:
import plotly.offline as offline
import plotly.graph_objs as go

offline.init_notebook_mode(connected=True)

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

layout = dict( title='{}의 종가(close) Time Series'.format(item_name), xaxis=dict( rangeselector=dict( buttons=list([ dict(count=1, label='1m', step='month', stepmode='backward'), dict(count=3, label='3m', step='month', stepmode='backward'), dict(count=6, label='6m', step='month', stepmode='backward'), dict(step='all') ]) ), rangeslider=dict(), type='date' ) )

fig = go.Figure(data=data, layout=layout)
offline.iplot(fig)