In [None]:
# 한국 거래소 데이터 => 종목코드

# 네이버 금융에 특정 기업을 분석한다. 분석 대상은 신라젠이라는 기업.

# jupyter notebook은 반드시 크롬에서 실행한다.



import pandas as pd

# html에 있는 정보를 읽어온다.

# header = 0 으로 맨 윗줄의 데이터를 헤더로 사용하고 얻은 자료를 리스트 형태로 이용하기 위해 뒤에 [0] 을 붙여준다.

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]

# 타입을 확인

print(type(code_df))  # <class 'pandas.core.frame.DataFrame'>

print(code_df.head())  # 데이터를 확인

# code_df에 있는 '종목코드' 컬럼을 0을 채운 6자리 포멧으로 맞춰준다.

code_df.종목코드 = code_df.종목코드.map('{:06d}'.format)

# code_df를 회사명과 종목코드 컬럼만 뽑아낸다.

#    ***참고*** pandas에서 컬럼을 선택 할 때

#                   단일개 선택: df['컬럼명']   or   df.컬럼명

#                   여러개 선택: df[['컬럼명', ... ,'컬럼명']]

code_df = code_df[['회사명', '종목코드']]

print(code_df)  # 데이터를 확인



# 한글로된 컬럼명을 영어로 바꿔준다.

code_df = code_df.rename(columns={'회사명': 'name', '종목코드': 'code'})



# 신라젠 네이버 금융 주소.   http://finance.naver.com/item/main.nhn?code=215600

# 함수 생성 => 특정한 업체만 코드를 가져오기 위해서

def get_url(item_name, code_df):

    # 코드를 가져오기 위한 처리.

    # 먼저 .query("name=='{}'".format(item_name))['code']는 name 컬럼에 item_name과 동일한 값의 code값을 반환한다는 뜻.

    # 즉, .query("쿼리".format(쿼리에 넣을 데이터))[얻을 자료]

    # .to_string(index = False)로 위에서 얻어진 값에 index를 빼고 string타입으로 바꿔준다.

    code = code_df.query("name=='{}'".format(item_name))['code'].to_string(index = False)

    # url은 일일 종가 시가 고가 저가 거래량을 보여주는 표이다.

    url = 'http://finance.naver.com/item/sise_day.nhn?code={code}'.format(code = code)

    print("요청 URL = {}".format(url))

    return url



# 신라젠 정보 가져오기

item_name = '신라젠'

url = get_url(item_name, code_df)

df = pd.DataFrame()



# 크롤링. 페이지 20까지 크롤링을 한다.

for page in range(1, 21):

    # 위에서 얻은 url에 page를 붙여줘서 url 포멧을 만들어준다.

    pg_url = '{url}&page={page}'.format(url = url, page = page)

    # pandas의 df에 위에서 얻은 url을 넣어줘서 우리가 구하고자 하는 데이터프레임을 만든다.

    # 데이터프레임을 만들 때 리스트에 [0]을 붙여줘서 만들 수 있음을 다시 확인.

    df = df.append(pd.read_html(pg_url, header = 0)[0], ignore_index= True)



# df.dropna()를 이용해 결측값(NaN) 있는 행을 제거한다.

df = df.dropna()

# 상위 5개 데이터 확인하기

print(df.head())



# 한글로 된 컬럼명을 영어로 바꿔준다.

df = df.rename(columns= {'날짜': 'date', '종가': 'close', '전일비': 'diff',

    '시가': 'open', '고가': 'high', '저가': 'low', '거래량': 'volume'})

# 데이터의 타입을 int형으로 바꿔줌. \(역슬래쉬)는 뒤에 데이터가 이어진다는 의미이다. 한줄로 쓰면 \ 필요없음.

df[['close', 'diff', 'open', 'high', 'low', 'volume']]= df[['close', 'diff', 'open', 'high', 'low', 'volume']].astype(int)

# 컬럼명 'date'의 타입을 date로 바꿔줌

df['date'] = pd.to_datetime(df['date'])

#  일자(date)를 기준으로 오름차순 정렬

df = df.sort_values(by=['date'], ascending=True)

# 상위 5개 데이터 확인

print(df.head())

In [None]:
# 한국 거래소 데이터 => 종목코드

# 네이버 금융에 특정 기업을 분석한다. 분석 대상은 신라젠이라는 기업.

# jupyter notebook은 반드시 크롬에서 실행한다.



import pandas as pd

# html에 있는 정보를 읽어온다.

# header = 0 으로 맨 윗줄의 데이터를 헤더로 사용하고 얻은 자료를 리스트 형태로 이용하기 위해 뒤에 [0] 을 붙여준다.

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]

# 타입을 확인

print(type(code_df))  # <class 'pandas.core.frame.DataFrame'>

print(code_df.head())  # 데이터를 확인

# code_df에 있는 '종목코드' 컬럼을 0을 채운 6자리 포멧으로 맞춰준다.

code_df.종목코드 = code_df.종목코드.map('{:06d}'.format)

# code_df를 회사명과 종목코드 컬럼만 뽑아낸다.

#    ***참고*** pandas에서 컬럼을 선택 할 때

#                   단일개 선택: df['컬럼명']   or   df.컬럼명

#                   여러개 선택: df[['컬럼명', ... ,'컬럼명']]

code_df = code_df[['회사명', '종목코드']]

print(code_df)  # 데이터를 확인

In [2]:
from pykrx import stock

In [12]:
kospi = stock.get_market_ohlcv_by_date("20180810", "20181212", "005930")
kospi

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-08-10,46150,46400,44850,45400,16670643
2018-08-13,44950,45100,44650,45050,9803831
2018-08-14,44850,45400,44850,45150,6409259
2018-08-16,43800,44650,43700,44250,10088229
2018-08-17,44050,44400,44050,44100,6808747
...,...,...,...,...,...
2018-12-06,40600,41100,40450,40500,14251826
2018-12-07,40900,41400,40850,40950,11433083
2018-12-10,40450,40650,40000,40200,14892263
2018-12-11,40600,40700,40200,40250,10638766


In [18]:
kospi = stock.get_index_ticker_list("20191213", market='KOSPI')
kospi

['코스피',
 '코스피 200',
 '코스피 100',
 '코스피 50',
 '코스피 200 중소형주',
 '코스피 200 초대형제외 지수',
 '코스피 200 커뮤니케이션서비스',
 '코스피 200 건설',
 '코스피 200 중공업',
 '코스피 200 철강/소재',
 '코스피 200 에너지/화학',
 '코스피 200 정보기술',
 '코스피 200 금융',
 '코스피 200 생활소비재',
 '코스피 200 경기소비재',
 '코스피 200 산업재',
 '코스피 200 헬스케어',
 '음식료품',
 '섬유의복',
 '종이목재',
 '화학',
 '의약품',
 '비금속광물',
 '철강금속',
 '기계',
 '전기전자',
 '의료정밀',
 '운수장비',
 '유통업',
 '전기가스업',
 '건설업',
 '운수창고업',
 '통신업',
 '금융업',
 '은행',
 '증권',
 '보험',
 '서비스업',
 '제조업',
 '코스피 대형주',
 '코스피 중형주',
 '코스피 소형주']

In [20]:
kospi = stock.get_market_ticker_list("20191213")
kospi

['060310',
 '095570',
 '068400',
 '006840',
 '054620',
 '265520',
 '211270',
 '027410',
 '282330',
 '138930',
 '001460',
 '001465',
 '001040',
 '079160',
 '035760',
 '00104K',
 '000120',
 '011150',
 '011155',
 '001045',
 '097950',
 '097955',
 '051500',
 '037560',
 '058820',
 '023460',
 '065770',
 '083660',
 '000590',
 '012030',
 '306620',
 '322780',
 '016610',
 '005830',
 '000990',
 '000995',
 '139130',
 '001530',
 '068790',
 '004840',
 '241520',
 '155660',
 '069730',
 '017940',
 '245620',
 '037370',
 '079190',
 '007700',
 '130500',
 '114090',
 '078930',
 '083450',
 '006360',
 '001250',
 '007070',
 '078935',
 '028150',
 '045890',
 '078150',
 '012630',
 '039570',
 '089470',
 '294870',
 '036640',
 '082740',
 '299170',
 '335890',
 '335870',
 '264850',
 '276920',
 '003560',
 '095340',
 '099520',
 '175330',
 '950170',
 '234080',
 '067290',
 '001060',
 '001067',
 '001065',
 '096760',
 '035900',
 '024840',
 '105560',
 '024120',
 '002380',
 '021320',
 '036670',
 '009070',
 '009440',
 '112190',

In [None]:
import pandas as pd

# html에 있는 정보를 읽어온다.

# header = 0 으로 맨 윗줄의 데이터를 헤더로 사용하고 얻은 자료를 리스트 형태로 이용하기 위해 뒤에 [0] 을 붙여준다.

code_df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13', header=0)[0]

# 타입을 확인

print(type(code_df))  # <class 'pandas.core.frame.DataFrame'>

print(code_df.head())  # 데이터를 확인