# 입문자를 위한, 파이썬/R 데이터 분석  

]

## Today's mission

- selenium 패키지 활용 데이터 수집
- 실습 (1) 한국거래소 기업공시채널 상장법인 목록 읽기
- 실습 (2) 주식 종가 차트 그리기
- 실습 (3) 네이버 주식정보 가져오기

]

##### 패키지 Import 방법 참조 :
- 1) `import pkg_name` : pkg_name 이름의 패키지를 로딩합니다 (일반적 방법)
- 2) `import pkg_name.sub` : pkg_name 와 하위 패키지 sub 까지 로딩합니다 (하위 패키지까지 로딩할 경우)
- 3) `from pkg_name.sub import abc` : pkg_name와 하위 패키지 sub 에다가 abc 모듈 또는 함수까지 로딩합니다

## 실습 (1) 한국거래소 기업공시채널 상장법인 목록 읽기

#### 참고 :  https://kind.krx.co.kr/corpgeneral/corpList.do?method=loadInitPage

![KIND](data/kind.jpg)

#### 한국거래소 기업공시채널(kind.krx.co.kr) > 상장법인상세정보 > 상장법인목록 > EXCEL 다운로드

![KIND](data/kind_excel.jpg)

#### 그런데, EXCEL 파일 같지만 메모장으로 열어보면 HTML 형태 !!!

![KIND](data/kind_notepad.jpg)

#### 그러므로, 판다스 read_html()로 데이터를 읽어야함

In [None]:
#!pip install html5lib
#!pip install lxml

In [None]:
import pandas as pd
krx_list = pd.read_html("data/상장법인목록.xls")

In [None]:
krx_list[0]#.info()

In [None]:
krx_list[0].종목코드 = krx_list[0].종목코드.map('{:06d}'.format)

In [None]:
krx_list[0].info()

In [None]:
df = pd.read_html('http://kind.krx.co.kr/corpgeneral/corpList.do?method=download&searchType=13')[0]

- (중요) API 서버의 Parameter를 어떻게 찾을까?
- https://kind.krx.co.kr/corpgeneral/corpList.do?method=loadInitPage
- [Chrome]-<개발자도구 F12>-<Network>-<Excel 다운로드 클릭>-[다운로드 파일 Name/Payload 분석]
- REST API 및 GET, PUT 방식 : https://studyandwrite.tistory.com/453

In [None]:
df

In [None]:
df['종목코드'] = df['종목코드'].map('{:06d}'.format)

In [None]:
df = df.sort_values(by='종목코드')

In [None]:
df

## 실습 (2) 주식 종가 차트 그리기

- xmltodict 라이브리리

In [None]:
#!pip install mplfinance
#!pip install xmltodict

In [None]:
##importing libraries
from urllib.request import urlopen
import numpy as np
import lxml
import requests
import json
import xmltodict
import mplfinance as mpf
import pandas as pd

In [None]:
#data crawling using json
url='https://fchart.stock.naver.com/sise.nhn?symbol=005930&timeframe=day&count=200&requestType=0'
rs=requests.get(url)
dt=xmltodict.parse(rs.text)
js=json.dumps(dt)
js=json.loads(js)

In [None]:
js

In [None]:
data=pd.json_normalize(js['protocol']['chartdata']['item'])
data

In [None]:
df=data['@data'].str.split('|', expand=True)
df.columns=['Date','Open','High','Low','Close','Volume']

In [None]:
df

In [None]:
#data handling
df['Open']=pd.to_numeric(df['Open'])
df['High']=pd.to_numeric(df['High'])
df['Low']=pd.to_numeric(df['Low'])
df['Close']=pd.to_numeric(df['Close'])
df['Volume']=pd.to_numeric(df['Volume'])
df_final=df[['Open','High','Low','Close','Volume']]
df_final_time=pd.DatetimeIndex(df['Date'])
df_final.index=df_final_time

In [None]:
df_final

In [None]:
#Visualization
kwargs=dict(title="Samsung", type='candle',mav=(5,20,60), volume=True)
mc=mpf.make_marketcolors(up='red', down='blue', inherit=True)
style_final=mpf.make_mpf_style(marketcolors=mc)
mpf.plot(df_final, **kwargs, style=style_final)
#plt.show()

## 실습 (3) 네이버 주식정보 가져오기

#### 사이트 : https://finance.naver.com/sise/sise_market_sum.nhn
#### 참고 : https://cocoabba.tistory.com/20

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
url = "https://finance.naver.com/sise/sise_market_sum.nhn?page=3"
res = requests.get(url)
res.text

In [None]:
url

In [None]:
soup = BeautifulSoup(res.text, 'lxml')
print(soup)

In [None]:
stock_head = soup.find("thead").find_all("th")
stock_head

In [None]:
data_head = [head.get_text() for head in stock_head]
data_head

In [None]:
stock_list = soup.find("tbody").find_all("tr")
#stock_list
stock_list[1].get_text().split()

In [None]:
for stock in stock_list:
     if len(stock) > 1 :
          print(stock.get_text().split())