Pandas를 이용해 Naver금융에서 주식데이터를 가져오기.

# 한국거래소(krx)에서 종목코드 가져오기

원하는 종목의 주식데이터를 가져오기 위해 코스피(KOSPI)와 코스닥(KOSDAQ)의 종목코드가 필요하다.
- `pandas`모듈의 `pandas.read_html()`을 이용해 종목코드를 가져올 수 있다.
    - `pandas.read_html()`은 HTML에서 `<table></table>` 태그를 찾아 자동으로 `DataFrame`형식으로 만들어준다.

In [404]:
import pandas as pd

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13')
code_df

[           회사명    종목코드                     업종  \
 0          DSR  155660            1차 비철금속 제조업   
 1        GS글로벌    1250              상품 종합 도매업   
 2        HSD엔진   82740          일반 목적용 기계 제조업   
 3        LG이노텍   11070               전자부품 제조업   
 4          OCI   10060            기초 화학물질 제조업   
 ...        ...     ...                    ...   
 2339     원바이오젠  278380  의료용품 및 기타 의약 관련제품 제조업   
 2340   지앤이헬스케어  299480            기타 섬유제품 제조업   
 2341        틸론  217880         소프트웨어 개발 및 공급업   
 2342     판도라티비  202960         소프트웨어 개발 및 공급업   
 2343  한국미라클피플사  331660            기타 화학제품 제조업   
 
                                                    주요제품         상장일  결산월  \
 0                                                합섬섬유로프  2013-05-15  12월   
 1     수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...  1976-06-26  12월   
 2                                        대형선박용엔진,내연발전엔진  2011-01-04  12월   
 3                                           기타 전자부품 제조업  2008-07-24  12월   
 4      타르제품,

알아보기 어려운 데이터들로 가득하다. 
- 먼저 데이터 타입이 무엇인지, 길이가 몇인지 알아보자.

In [405]:
print('type :',type(code_df),', length :',len(code_df))

type : <class 'list'> , length : 1


그래도 적어도 데이터 자체가 리스트 안에 있다는 것을 알 수 있다.
- 데이터 타입이 리스트이므로 인덱싱이 가능하다. 첫번째(이자 물론 마지막) 요소를 인덱싱하자.
- 인덱싱에 추가로 첫 번째 열을 `header`로 설정하자. `header=0`으로 설정하면 된다.

In [406]:
code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


데이터프레임을 성공적으로 출력했으니 이제 입맛에 맞게 수정하자.

In [407]:
code_df.종목코드

0       155660
1         1250
2        82740
3        11070
4        10060
         ...  
2339    278380
2340    299480
2341    217880
2342    202960
2343    331660
Name: 종목코드, Length: 2344, dtype: int64

종목코드열을 보면 4자리부터 6자리까지 다양하다. 일괄적으로 6자리로 맞추자.
- `map()` 함수를 사용하면 일괄적인 처리가 가능하다. `map()` 함수 안에 문자열 포맷팅으로 자릿수를 지정하자.
- 종목코드는 Series 타입이므로 map() 함수 사용이 가능하다.

In [408]:
# {인덱스:0개수d'}'.format(숫자)
code_df.종목코드 = code_df.종목코드.map('{:06d}'.format)
code_df.head()

Unnamed: 0,회사명,종목코드,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,DSR,155660,1차 비철금속 제조업,합섬섬유로프,2013-05-15,12월,홍석빈,http://www.dsr.com,부산광역시
1,GS글로벌,1250,상품 종합 도매업,"수출입업(시멘트,철강금속,전기전자,섬유,기계화학),상품중개,광업,채석업/하수처리 서...",1976-06-26,12월,김태형,http://www.gsgcorp.com,서울특별시
2,HSD엔진,82740,일반 목적용 기계 제조업,"대형선박용엔진,내연발전엔진",2011-01-04,12월,고영열,http://www.doosanengine.com,경상남도
3,LG이노텍,11070,전자부품 제조업,기타 전자부품 제조업,2008-07-24,12월,정철동,http://www.lginnotek.co.kr,서울특별시
4,OCI,10060,기초 화학물질 제조업,"타르제품,카본블랙,무수프탈산,농약원제,석탄화학제품,정밀화학제품,플라스틱창호재 제조,판매",1985-07-09,12월,"백우석, 이우현, 김택중(3인, 각자 대표이사)",http://www.oci.co.kr,서울특별시


다음은 불필요한 열을 제거하자.
- 지금 필요한 것은 회사명과 종목코드. 나머지 열들은 제외하자.

In [409]:
code_df = code_df[['회사명', '종목코드']]
code_df.head()

Unnamed: 0,회사명,종목코드
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


이제 한글로된 컬럼명을 영어로 바꿔준다.

In [410]:
code_df = code_df.rename(columns={'회사명' : 'name', '종목코드' : 'code'})
code_df.head()

Unnamed: 0,name,code
0,DSR,155660
1,GS글로벌,1250
2,HSD엔진,82740
3,LG이노텍,11070
4,OCI,10060


# Naver금융에서 종목 별 일자 데이터 가져오기

예시로 신라젠(215600)의 일자 데이터를 가져와보자.
- 신라젠의 데이터 말고도 사용자가 원하는 임의의 데이터도 가져올 수 있도록 `get_url` 함수를 만들자.
- BeautifulSoup이나 Scrapy를 사용해 크롤링할 수도 있지만 이번엔 간단하게 20페이지만 가져온다.

url을 보면 종목코드에 따라 맨 뒤 url이 달라진다. 신라젠(215600)은 뒤에 해당 종목코드가 붙어있다.
- 데이터프레임에서 종목코드를 가져와 url 뒤에 붙여넣으면 해당 종목의 url을 불러올 수 있다.

`query()` 메소드를 사용하면 데이터프레임에 질문을 던질 수 있다. 일단 신라젠에 해당하는 행을 출력해보자.
- `format()` 을 사용하면 좀 더 정교한 문자열 대입이 가능하다.

In [411]:
code_df.query("name=='{}'".format('신라젠'))

Unnamed: 0,name,code
469,신라젠,215600


신라젠의 행을 출력했으니 신라젠의 'code'를 출력하자.

In [412]:
code = code_df.query("name=='{}'".format('신라젠'))['code']
code

469    215600
Name: code, dtype: object

보면 자료형이 Series로 나온다. 문자열에 대입할 수 있게 string으로 변환한다.
- Series 형은 `to_string()` 함수를 사용해 간단하게 변환할 수 있다.

In [413]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string()

'469    215600'

인덱스를 제외하기 위해 index parameter를 False 처리해준다.

In [414]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string(index=False)

' 215600'

종목코드 앞에 blank space가 존재한다. `lstrip()` 함수를 사용해 왼쪽 빈칸을 지워주자.

In [415]:
code_df.query("name=='{}'".format('신라젠'))['code'].to_string(index=False).lstrip()

'215600'

종목코드 얻는 법도 알았으니 `get_url()` 함수를 만들자.

In [416]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).lstrip()
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
get_url(item_name, code_df)

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


'http://finance.naver.com/item/sise_day.nhn?code=215600'

성공적으로 url이 출력된다. 이제 페이지 별로 데이터를 가져올 차례.
- 빈 데이터프레임을 만들고 그곳에 1페이지부터 20페이지의 데이터를 입력한다.
- for loop와 이전에 사용했던 `format()`을 사용하면 간단하게 처리 가능하다.

In [417]:
'''df = pd.DataFrame()

url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
''' 

"df = pd.DataFrame()\n\nurl = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)\n\nfor page in range(1, 21):\n    pg_url = '{url}&page={page}'.format(url=url, page=page)\n    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)\n"

299번째 행을 보면 NaN 값들이 있다. 제외하자.

In [418]:
'''df = df.dropna()
df.head()'''

'df = df.dropna()\ndf.head()'

**전체 코드**

In [419]:
def get_url(item_name, code_df):
    code = (code_df.query("name=='{}'".format(item_name))['code'].to_string(index=False)).lstrip()
    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code=code)
    
    print("요청 URL = {}".format(url))
    return url

item_name = '신라젠'
url = get_url(item_name, code_df)

df = pd.DataFrame()

for page in range(1, 21):
    pg_url = '{url}&page={page}'.format(url=url, page=page)
    df = df.append(pd.read_html(pg_url, header=0)[0], ignore_index=True)
    
df = df.dropna()

df.head()

요청 URL = http://finance.naver.com/item/sise_day.nhn?code=215600


Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.12.11,13850.0,500.0,14250.0,14350.0,13800.0,1062162.0
2,2019.12.10,14350.0,300.0,14300.0,14500.0,14100.0,1542255.0
3,2019.12.09,14050.0,300.0,13850.0,14200.0,13500.0,1594531.0
4,2019.12.06,13750.0,550.0,13300.0,13950.0,13300.0,1965387.0
5,2019.12.05,13200.0,550.0,13800.0,13850.0,13000.0,1864402.0


데이터프레임을 수정해보자. 먼저 종가, 전일비, 시가, 고가, 저가, 거래량을 int로 형변환시켜준다.

In [420]:
# df[['종가', '전일비', '시가', '고가', '저가', '거래량']].astype(int)만 적으면 일회성으로 변환만 되기 때문에 저장을 해준다.
df[['종가', '전일비', '시가', '고가', '저가', '거래량']]\
    = df[['종가', '전일비', '시가', '고가', '저가', '거래량']].astype(int)
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019.12.11,13850,500,14250,14350,13800,1062162
2,2019.12.10,14350,300,14300,14500,14100,1542255
3,2019.12.09,14050,300,13850,14200,13500,1594531
4,2019.12.06,13750,550,13300,13950,13300,1965387
5,2019.12.05,13200,550,13800,13850,13000,1864402


정렬할수 있도록 날짜 열을 date로 형변환한다.

In [421]:
df['날짜'] = pd.to_datetime(df['날짜'])
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2019-12-11,13850,500,14250,14350,13800,1062162
2,2019-12-10,14350,300,14300,14500,14100,1542255
3,2019-12-09,14050,300,13850,14200,13500,1594531
4,2019-12-06,13750,550,13300,13950,13300,1965387
5,2019-12-05,13200,550,13800,13850,13000,1864402


마지막으로 날짜를 오름차순으로 정리한다.

In [422]:
df = df.sort_values(by=['날짜'], ascending=True)
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
298,2019-02-22,72000,1400,72900,73500,71800,842080
297,2019-02-25,73300,1300,72100,73900,71500,799032
296,2019-02-26,72800,500,73600,74400,72800,659441
295,2019-02-27,73500,700,72700,73800,72300,555903
294,2019-02-28,74300,800,74200,76000,71300,2467512


# Plotly를 이용해 Time Series 그래프 그리기

먼저 필요한 모듈 import하고 시작.

In [423]:
import plotly.offline as offline
import plotly.graph_objs as go

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

fig = go.Figure(data=data)
offline.iplot(fig)

In [424]:
import plotly.offline as offline
import plotly.graph_objs as go

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

layout = dict(title='{}의 종가(close) Time Series'.format(item_name))

fig = go.Figure(data=data, layout=layout)
offline.iplot(fig)

In [425]:
import plotly.offline as offline
import plotly.graph_objs as go

offline.init_notebook_mode(connected=True)

trace = go.Scatter(x=df.날짜,
                   y=df.전일비,
                   name=item_name)

data=[trace]

layout = dict( title='{}의 종가(close) Time Series'.format(item_name), xaxis=dict( rangeselector=dict( buttons=list([ dict(count=1, label='1m', step='month', stepmode='backward'), dict(count=3, label='3m', step='month', stepmode='backward'), dict(count=6, label='6m', step='month', stepmode='backward'), dict(step='all') ]) ), rangeslider=dict(), type='date' ) )

fig = go.Figure(data=data, layout=layout)
offline.iplot(fig)

# 20191211 프로젝트

먼저 기존에 있던 신라젠 데이터프레임 다시 추출해보기.

In [426]:
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
298,2019-02-22,72000,1400,72900,73500,71800,842080
297,2019-02-25,73300,1300,72100,73900,71500,799032
296,2019-02-26,72800,500,73600,74400,72800,659441
295,2019-02-27,73500,700,72700,73800,72300,555903
294,2019-02-28,74300,800,74200,76000,71300,2467512


필요없는 전일비, 거래량 col은 지우기.

In [427]:
del df['전일비'], df['거래량'], df['날짜']
df.head()

Unnamed: 0,종가,시가,고가,저가
298,72000,72900,73500,71800
297,73300,72100,73900,71500
296,72800,73600,74400,72800
295,73500,72700,73800,72300
294,74300,74200,76000,71300


shift 사용해 전일 종가를 추출.

In [428]:
jongga_zonnal = df['종가'].shift(1, axis=0)
jongga_zonnal

298        NaN
297    72000.0
296    73300.0
295    72800.0
294    73500.0
        ...   
5      13750.0
4      13200.0
3      13750.0
2      14050.0
1      14350.0
Name: 종가, Length: 200, dtype: float64

In [429]:
df = pd.concat([df, jongga_zonnal], axis=1)
df.columns = ['종가', '시가', '고가', '저가', '전일종가']
df.head()

Unnamed: 0,종가,시가,고가,저가,전일종가
298,72000,72900,73500,71800,
297,73300,72100,73900,71500,72000.0
296,72800,73600,74400,72800,73300.0
295,73500,72700,73800,72300,72800.0
294,74300,74200,76000,71300,73500.0


In [430]:
df_sub = df['종가'] - df['전일종가']
df_sub

298       NaN
297    1300.0
296    -500.0
295     700.0
294     800.0
        ...  
5      -550.0
4       550.0
3       300.0
2       300.0
1      -500.0
Length: 200, dtype: float64

In [431]:
df = pd.concat([df, df_sub], axis=1)
df

Unnamed: 0,종가,시가,고가,저가,전일종가,0
298,72000,72900,73500,71800,,
297,73300,72100,73900,71500,72000.0,1300.0
296,72800,73600,74400,72800,73300.0,-500.0
295,73500,72700,73800,72300,72800.0,700.0
294,74300,74200,76000,71300,73500.0,800.0
...,...,...,...,...,...,...
5,13200,13800,13850,13000,13750.0,-550.0
4,13750,13300,13950,13300,13200.0,550.0
3,14050,13850,14200,13500,13750.0,300.0
2,14350,14300,14500,14100,14050.0,300.0


In [432]:
df.rename(columns={0:"당일-전일"}, inplace = True)
df

Unnamed: 0,종가,시가,고가,저가,전일종가,당일-전일
298,72000,72900,73500,71800,,
297,73300,72100,73900,71500,72000.0,1300.0
296,72800,73600,74400,72800,73300.0,-500.0
295,73500,72700,73800,72300,72800.0,700.0
294,74300,74200,76000,71300,73500.0,800.0
...,...,...,...,...,...,...
5,13200,13800,13850,13000,13750.0,-550.0
4,13750,13300,13950,13300,13200.0,550.0
3,14050,13850,14200,13500,13750.0,300.0
2,14350,14300,14500,14100,14050.0,300.0


In [433]:
df_result = df['당일-전일'] / df['전일종가']

In [434]:
df = pd.concat([df, df_result], axis=1)
df

Unnamed: 0,종가,시가,고가,저가,전일종가,당일-전일,0
298,72000,72900,73500,71800,,,
297,73300,72100,73900,71500,72000.0,1300.0,0.018056
296,72800,73600,74400,72800,73300.0,-500.0,-0.006821
295,73500,72700,73800,72300,72800.0,700.0,0.009615
294,74300,74200,76000,71300,73500.0,800.0,0.010884
...,...,...,...,...,...,...,...
5,13200,13800,13850,13000,13750.0,-550.0,-0.040000
4,13750,13300,13950,13300,13200.0,550.0,0.041667
3,14050,13850,14200,13500,13750.0,300.0,0.021818
2,14350,14300,14500,14100,14050.0,300.0,0.021352


In [435]:
df.rename(columns={0:"등락률"}, inplace = True)

In [436]:
df

Unnamed: 0,종가,시가,고가,저가,전일종가,당일-전일,등락률
298,72000,72900,73500,71800,,,
297,73300,72100,73900,71500,72000.0,1300.0,0.018056
296,72800,73600,74400,72800,73300.0,-500.0,-0.006821
295,73500,72700,73800,72300,72800.0,700.0,0.009615
294,74300,74200,76000,71300,73500.0,800.0,0.010884
...,...,...,...,...,...,...,...
5,13200,13800,13850,13000,13750.0,-550.0,-0.040000
4,13750,13300,13950,13300,13200.0,550.0,0.041667
3,14050,13850,14200,13500,13750.0,300.0,0.021818
2,14350,14300,14500,14100,14050.0,300.0,0.021352


In [437]:
df_new = df['등락률'] * 100
df_new

298         NaN
297    1.805556
296   -0.682128
295    0.961538
294    1.088435
         ...   
5     -4.000000
4      4.166667
3      2.181818
2      2.135231
1     -3.484321
Name: 등락률, Length: 200, dtype: float64

In [438]:
df = pd.concat([df, df_new], axis=1)
df.columns.values[7] = '싀발럼'
df

Unnamed: 0,종가,시가,고가,저가,전일종가,당일-전일,등락률,싀발럼
298,72000,72900,73500,71800,,,,
297,73300,72100,73900,71500,72000.0,1300.0,0.018056,1.805556
296,72800,73600,74400,72800,73300.0,-500.0,-0.006821,-0.682128
295,73500,72700,73800,72300,72800.0,700.0,0.009615,0.961538
294,74300,74200,76000,71300,73500.0,800.0,0.010884,1.088435
...,...,...,...,...,...,...,...,...
5,13200,13800,13850,13000,13750.0,-550.0,-0.040000,-4.000000
4,13750,13300,13950,13300,13200.0,550.0,0.041667,4.166667
3,14050,13850,14200,13500,13750.0,300.0,0.021818,2.181818
2,14350,14300,14500,14100,14050.0,300.0,0.021352,2.135231


In [439]:
def color_negative_red(val):
    color = 'red' if val < 0 else 'black'
    return 'color: %s' % color


s = df.style.applymap(color_negative_red)
s

Unnamed: 0,종가,시가,고가,저가,전일종가,당일-전일,등락률,싀발럼
298,72000,72900,73500,71800,,,,
297,73300,72100,73900,71500,72000.0,1300.0,0.0180556,1.80556
296,72800,73600,74400,72800,73300.0,-500.0,-0.00682128,-0.682128
295,73500,72700,73800,72300,72800.0,700.0,0.00961538,0.961538
294,74300,74200,76000,71300,73500.0,800.0,0.0108844,1.08844
290,78100,75900,78300,74700,74300.0,3800.0,0.051144,5.1144
289,78500,77900,80100,77400,78100.0,400.0,0.00512164,0.512164
288,76900,78800,78900,76200,78500.0,-1600.0,-0.0203822,-2.03822
287,74900,76200,77400,74400,76900.0,-2000.0,-0.0260078,-2.60078
286,74700,74400,75800,74200,74900.0,-200.0,-0.00267023,-0.267023
