In [1]:
import pandas as pd

# DataFrame 생성

In [4]:
df1 = pd.DataFrame({'A' : [1, 2, 3], 'B' : [2, 3, 4]})

In [6]:
df2 = pd.DataFrame([[1, 2], [2, 3], [3, 4]], columns = ['A', 'B'])

In [7]:
df1

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [8]:
df2

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


# DataFrame 정보 변경

In [10]:
df1.columns = ['Apple', 'Samsung'] 

In [11]:
df1.index = ['1분기', '2분기', '3분기']

In [12]:
df1

Unnamed: 0,Apple,Samsung
1분기,1,2
2분기,2,3
3분기,3,4


In [13]:
[str(x) + '월' for x in range(1, 13)]

['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월']

In [14]:
df1.index.name = '분기별'

In [15]:
df1

Unnamed: 0_level_0,Apple,Samsung
분기별,Unnamed: 1_level_1,Unnamed: 2_level_1
1분기,1,2
2분기,2,3
3분기,3,4


In [16]:
# columns의 갯수가 안맞는 경우 Error
df1.columns = ['Apple', 'LG'] 

In [17]:
df1

Unnamed: 0_level_0,Apple,LG
분기별,Unnamed: 1_level_1,Unnamed: 2_level_1
1분기,1,2
2분기,2,3
3분기,3,4


In [27]:
# 기존에 명명된 컬럼을 재정의할 경우 값이 덮어진다(ex{'LG' : 'Samsung', 'LG': 'Kakao'}를 선언하면 결과값이 Samsung이 아닌 Kakao가 출력됨)
df1.rename(columns={'LG' : 'Samsung', 'Apple' : 'Google', 'A' : 'B'})

Unnamed: 0_level_0,Google,Samsung
분기별,Unnamed: 1_level_1,Unnamed: 2_level_1
1분기,1,2
2분기,2,3
3분기,3,4


# DataFrame 행 선택

In [28]:
kbo = pd.read_csv('./kbo.csv')

In [29]:
kbo['선수명']

0      강동연
1      강진성
2      강태경
3      구창모
4      권법수
      ... 
852    하주석
853    한승주
854    허관회
855    황영국
856     힐리
Name: 선수명, Length: 857, dtype: object

In [30]:
# 여러 columns를 호출하기 위해서 이중 리스트 선언 필요
kbo[['등번호', '선수명', '포지션']]

Unnamed: 0,등번호,선수명,포지션
0,21.0,강동연,투수(우투우타)
1,49.0,강진성,내야수(우투우타)
2,78.0,강태경,투수(우투좌타)
3,59.0,구창모,투수(좌투좌타)
4,65.0,권법수,외야수(우투우타)
...,...,...,...
852,16.0,하주석,내야수(우투좌타)
853,59.0,한승주,투수(우투우타)
854,26.0,허관회,포수(우투우타)
855,60.0,황영국,투수(좌투좌타)


In [31]:
# 이중 리스트로 호출 시, 단일 columns도 호출 가능
kbo[['생년월일']]

Unnamed: 0,생년월일
0,1992년 12월 18일
1,1993년 10월 19일
2,2001년 07월 26일
3,1997년 02월 17일
4,1997년 04월 05일
...,...
852,1994년 02월 25일
853,2001년 03월 17일
854,1999년 02월 12일
855,1995년 12월 26일


In [32]:
kbo.등번호

0      21.0
1      49.0
2      78.0
3      59.0
4      65.0
       ... 
852    16.0
853    59.0
854    26.0
855    60.0
856     NaN
Name: 등번호, Length: 857, dtype: float64

# column 위치 변경

In [33]:
kbo

Unnamed: 0,선수명,등번호,생년월일,포지션,신장/체중,경력,입단 계약금,연봉,지명순위,입단년도
0,강동연,21.0,1992년 12월 18일,투수(우투우타),195cm/94kg,진북초-덕수중-유신고-두산-상무-두산,,4400만원,11 두산 육성선수,12두산
1,강진성,49.0,1993년 10월 19일,내야수(우투우타),180cm/81kg,가동초-잠신중-경기고-NC-경찰,7000만원,12000만원,12 NC 4라운드 33순위,12NC
2,강태경,78.0,2001년 07월 26일,투수(우투좌타),188cm/95kg,양덕초-잠실중-배명고,7000만원,3000만원,20 NC 2차 5라운드 41순위,21NC
3,구창모,59.0,1997년 02월 17일,투수(좌투좌타),183cm/85kg,천안남산초-덕수중-울산공고,15000만원,25000만원,15 NC 2차 1라운드 3순위,15NC
4,권법수,65.0,1997년 04월 05일,외야수(우투우타),183cm/82kg,선학초-재능중-제물포고,5000만원,3000만원,17 NC 2차 6라운드 58순위,17NC
...,...,...,...,...,...,...,...,...,...,...
852,하주석,16.0,1994년 02월 25일,내야수(우투좌타),184cm/84kg,강남초-덕수중-신일고-한화-상무,30000만원,13500만원,12 한화 1라운드 1순위,12한화
853,한승주,59.0,2001년 03월 17일,투수(우투우타),184cm/82kg,부산수영초-대천중-부산고,11000만원,3000만원,20 한화 2차 2라운드 18순위,20한화
854,허관회,26.0,1999년 02월 12일,포수(우투우타),176cm/83kg,경동초(의정부리틀)-건대부중-경기고,3000만원,3100만원,19 한화 2차 9라운드 83순위,20한화
855,황영국,60.0,1995년 12월 26일,투수(좌투좌타),185cm/83kg,청주우암초-청주중-청주고-한화-경찰,20000만원,3300만원,14 한화 1차,14한화


In [34]:
kbo.columns

Index(['선수명', '등번호', '생년월일', '포지션', '신장/체중', '경력', '입단 계약금', '연봉', '지명순위',
       '입단년도'],
      dtype='object')

# 행 삭제

In [38]:
# inplace를 해줘야 값이 변경, commit과 유사
df1.drop(['1분기'], inplace=True)

In [39]:
df1

Unnamed: 0_level_0,Apple,LG
분기별,Unnamed: 1_level_1,Unnamed: 2_level_1
2분기,2,3
3분기,3,4


In [40]:
df1.drop('Apple', axis=1)

Unnamed: 0_level_0,LG
분기별,Unnamed: 1_level_1
2분기,3
3분기,4


In [41]:
df1 

Unnamed: 0_level_0,Apple,LG
분기별,Unnamed: 1_level_1,Unnamed: 2_level_1
2분기,2,3
3분기,3,4


In [43]:
df2

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [45]:
# Call by Reference
df3 = df2

In [47]:
df3.iloc[0, 0] = 100

In [48]:
df3

Unnamed: 0,A,B
0,100,2
1,2,3
2,3,4


In [49]:
df2

Unnamed: 0,A,B
0,100,2
1,2,3
2,3,4


In [50]:
# Call by Value
df4 = df2.copy()

In [51]:
df4.iloc[0, 0] = 1000

In [52]:
df4

Unnamed: 0,A,B
0,1000,2
1,2,3
2,3,4


In [53]:
df2

Unnamed: 0,A,B
0,100,2
1,2,3
2,3,4


In [57]:
pitcher = kbo[kbo['포지션'] == '투수(우투우타)']

In [60]:
# 원본 데이터에 변형을 가할 경우 경고문 출력
pitcher['키'] = pitcher['신장/체중'].apply(lambda x : x.split('/')[0])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pitcher['키'] = pitcher['신장/체중'].apply(lambda x : x.split('/')[0])


In [61]:
# copy를 통해 값을 저장하면 경고 회피
pitcher = kbo[kbo['포지션'] == '투수(우투우타)'].copy()

In [63]:
pitcher['키'] = pitcher['신장/체중'].apply(lambda x : x.split('/')[0])

In [64]:
pitcher

Unnamed: 0,선수명,등번호,생년월일,포지션,신장/체중,경력,입단 계약금,연봉,지명순위,입단년도,키
0,강동연,21.0,1992년 12월 18일,투수(우투우타),195cm/94kg,진북초-덕수중-유신고-두산-상무-두산,,4400만원,11 두산 육성선수,12두산,195cm
6,김건태,24.0,1991년 10월 02일,투수(우투우타),185cm/85kg,광주수창초-무등중-진흥고-넥센-상무-넥센,18000만원,8000만원,10 넥센 1라운드 2순위,10넥센,185cm
10,김시훈,106.0,1999년 02월 24일,투수(우투우타),188cm/95kg,양덕초-마산동중-마산고,20000만원,3000만원,18 NC 1차,18NC,188cm
12,김영중,,1998년 07월 02일,투수(우투우타),182cm/86kg,군산남초-군산중-군산상고,7000만원,3000만원,17 NC 2차 4라운드 38순위,,182cm
18,김진성,55.0,1985년 03월 07일,투수(우투우타),186cm/92kg,인헌초-성남중-성남서고-SK,,20000만원,04 SK 2차 6라운드 42순위,05SK,186cm
...,...,...,...,...,...,...,...,...,...,...,...
840,정인욱,97.0,1990년 12월 18일,투수(우투우타),186cm/85kg,본리초-경운중-대구고-삼성-상무-삼성,10000만원,3000만원,09 삼성 2차 3라운드 21순위,09삼성,186cm
842,조은,96.0,2001년 04월 01일,투수(우투우타),186cm/80kg,대전신흥초(대전동구리틀)-한밭중-대전고,8000만원,3000만원,21 한화 2차 3라운드 22순위,21한화,186cm
845,주현상,66.0,1992년 08월 10일,투수(우투우타),177cm/82kg,청주우암초-청주중-청주고-동아대,5000만원,3300만원,15 한화 2차 7라운드 64순위,15한화,177cm
850,킹험,20.0,1991년 11월 08일,투수(우투우타),196cm/106kg,미국 Sierra Vista(고)-SK,100000달러,250000달러,20 SK 자유선발,20SK,196cm


In [65]:
# loc는 이름 iloc는 숫자
df4.loc[3, ['A', 'B']] = [5, 6]

In [66]:
df4.loc[100, ['A', 'B']] = [5, 6]

In [67]:
df4

Unnamed: 0,A,B
0,1000.0,2.0
1,2.0,3.0
2,3.0,4.0
3,5.0,6.0
100,5.0,6.0


# 인덱스 초기화

In [71]:
df4.reset_index(drop=True, inplace=True)

In [72]:
df4

Unnamed: 0,A,B
0,1000.0,2.0
1,2.0,3.0
2,3.0,4.0
3,5.0,6.0
4,5.0,6.0


# 인덱스 설정(columns -> index)

In [74]:
# 선수명이 중복되는 경우도 출력됨
kbo.set_index('선수명', inplace=True)

In [75]:
kbo

Unnamed: 0_level_0,등번호,생년월일,포지션,신장/체중,경력,입단 계약금,연봉,지명순위,입단년도
선수명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
강동연,21.0,1992년 12월 18일,투수(우투우타),195cm/94kg,진북초-덕수중-유신고-두산-상무-두산,,4400만원,11 두산 육성선수,12두산
강진성,49.0,1993년 10월 19일,내야수(우투우타),180cm/81kg,가동초-잠신중-경기고-NC-경찰,7000만원,12000만원,12 NC 4라운드 33순위,12NC
강태경,78.0,2001년 07월 26일,투수(우투좌타),188cm/95kg,양덕초-잠실중-배명고,7000만원,3000만원,20 NC 2차 5라운드 41순위,21NC
구창모,59.0,1997년 02월 17일,투수(좌투좌타),183cm/85kg,천안남산초-덕수중-울산공고,15000만원,25000만원,15 NC 2차 1라운드 3순위,15NC
권법수,65.0,1997년 04월 05일,외야수(우투우타),183cm/82kg,선학초-재능중-제물포고,5000만원,3000만원,17 NC 2차 6라운드 58순위,17NC
...,...,...,...,...,...,...,...,...,...
하주석,16.0,1994년 02월 25일,내야수(우투좌타),184cm/84kg,강남초-덕수중-신일고-한화-상무,30000만원,13500만원,12 한화 1라운드 1순위,12한화
한승주,59.0,2001년 03월 17일,투수(우투우타),184cm/82kg,부산수영초-대천중-부산고,11000만원,3000만원,20 한화 2차 2라운드 18순위,20한화
허관회,26.0,1999년 02월 12일,포수(우투우타),176cm/83kg,경동초(의정부리틀)-건대부중-경기고,3000만원,3100만원,19 한화 2차 9라운드 83순위,20한화
황영국,60.0,1995년 12월 26일,투수(좌투좌타),185cm/83kg,청주우암초-청주중-청주고-한화-경찰,20000만원,3300만원,14 한화 1차,14한화


In [76]:
# New Data

In [77]:
import requests

In [78]:
url = 'https://finance.naver.com/item/sise_day.nhn?code=005930&page=10'

In [79]:
code_list = ['035720', '005930']

In [80]:
head = {
    'user-agent': 
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84"
}

In [81]:
r = requests.get(url, headers=head)

In [86]:
# NaN = 결측치
pd.read_html(r.text)[0].isnull().sum()

날짜     5
종가     5
전일비    5
시가     5
고가     5
저가     5
거래량    5
dtype: int64

In [89]:
# 결측치가 포함된 데이터 제거
samsung_elec = pd.read_html(r.text)[0].dropna().iloc[::-1]

In [92]:
samsung_elec.head(2)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
13,2021.04.20,83900.0,600.0,83300.0,84000.0,83100.0,15521965.0
12,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0


In [93]:
samsung_elec['전날'] = samsung_elec.종가.shift(1)

In [95]:
samsung_elec['차이'] = samsung_elec['종가'] - samsung_elec['전날']

In [96]:
samsung_elec[samsung_elec.차이 > 0]

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,전날,차이
10,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,82400.0,400.0
9,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,82800.0,700.0
1,2021.05.03,81700.0,200.0,81000.0,82400.0,81000.0,15710336.0,81500.0,200.0


In [99]:
samsung_elec['전일대비상승'] = samsung_elec.차이.apply(lambda x : True if x > 0 else False)

In [106]:
samsung_elec

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,전날,차이,등락,전일대비상승
13,2021.04.20,83900.0,600.0,83300.0,84000.0,83100.0,15521965.0,,,False,False
12,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0,83900.0,-1300.0,False,False
11,2021.04.22,82400.0,200.0,82900.0,83000.0,82400.0,13934746.0,82600.0,-200.0,False,False
10,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,82400.0,400.0,True,True
9,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,82800.0,700.0,True,True
5,2021.04.27,82900.0,600.0,83200.0,83300.0,82500.0,12941533.0,83500.0,-600.0,False,False
4,2021.04.28,82100.0,800.0,83200.0,83200.0,82100.0,15596759.0,82900.0,-800.0,False,False
3,2021.04.29,81700.0,400.0,82400.0,82500.0,81500.0,20000973.0,82100.0,-400.0,False,False
2,2021.04.30,81500.0,200.0,81900.0,82100.0,81500.0,18673197.0,81700.0,-200.0,False,False
1,2021.05.03,81700.0,200.0,81000.0,82400.0,81000.0,15710336.0,81500.0,200.0,True,True


In [101]:
samsung_elec2 = samsung_elec.copy()

In [103]:
samsung_elec2.dropna(inplace=True)

In [105]:
samsung_elec2[['종가', '전날']].apply(lambda x : True if x[0] - x[1] > 0 else False, axis=1)

12    False
11    False
10     True
9      True
5     False
4     False
3     False
2     False
1      True
dtype: bool

In [110]:
kakao = []
for x in range(1, 10):
    r = requests.get(url.format('035720', x), headers=head)
    temp = pd.read_html(r.text)[0].dropna()
    temp['code'] = '035720'
    kakao.append(temp)

In [111]:
kakao[0]

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,code
1,2021.05.03,81700.0,200.0,81000.0,82400.0,81000.0,15710336.0,35720
2,2021.04.30,81500.0,200.0,81900.0,82100.0,81500.0,18673197.0,35720
3,2021.04.29,81700.0,400.0,82400.0,82500.0,81500.0,20000973.0,35720
4,2021.04.28,82100.0,800.0,83200.0,83200.0,82100.0,15596759.0,35720
5,2021.04.27,82900.0,600.0,83200.0,83300.0,82500.0,12941533.0,35720
9,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,35720
10,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,35720
11,2021.04.22,82400.0,200.0,82900.0,83000.0,82400.0,13934746.0,35720
12,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0,35720
13,2021.04.20,83900.0,600.0,83300.0,84000.0,83100.0,15521965.0,35720


In [112]:
kakao2 = pd.concat(kakao)

In [118]:
kakao2 = kakao2.iloc[::-1].copy()

In [115]:
kakao2.reset_index(drop=True, inplace=True)

In [116]:
kakao2

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,code
0,2021.04.20,83900.0,600.0,83300.0,84000.0,83100.0,15521965.0,035720
1,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0,035720
2,2021.04.22,82400.0,200.0,82900.0,83000.0,82400.0,13934746.0,035720
3,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,035720
4,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,035720
...,...,...,...,...,...,...,...,...
85,2021.04.27,82900.0,600.0,83200.0,83300.0,82500.0,12941533.0,035720
86,2021.04.28,82100.0,800.0,83200.0,83200.0,82100.0,15596759.0,035720
87,2021.04.29,81700.0,400.0,82400.0,82500.0,81500.0,20000973.0,035720
88,2021.04.30,81500.0,200.0,81900.0,82100.0,81500.0,18673197.0,035720


In [119]:
kakao2['MA15'] = kakao2['종가'].rolling(15).mean()

In [122]:
kakao2.dropna(inplace=True)

In [123]:
kakao2

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,code,MA15
75,2021.04.27,82900.0,600.0,83200.0,83300.0,82500.0,12941533.0,035720,82333.333333
74,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,035720,82453.333333
73,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,035720,82540.000000
72,2021.04.22,82400.0,200.0,82900.0,83000.0,82400.0,13934746.0,035720,82586.666667
71,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0,035720,82620.000000
...,...,...,...,...,...,...,...,...,...
4,2021.04.26,83500.0,700.0,82900.0,83500.0,82600.0,15489938.0,035720,82453.333333
3,2021.04.23,82800.0,400.0,81900.0,82900.0,81600.0,17805080.0,035720,82540.000000
2,2021.04.22,82400.0,200.0,82900.0,83000.0,82400.0,13934746.0,035720,82586.666667
1,2021.04.21,82600.0,1300.0,83300.0,83500.0,82500.0,21636079.0,035720,82620.000000


### KOSPI 대상
### 네이버 금융 페이지 기준 20페이지
### DataFrame -> 종목명, 종목코드, MA30(moving avg)
* MA 계산 시, 날짜 정렬된 것을 확인 후 진행

### 결측치 제거
### 모든 DataFrame은 total_stock에 저장

In [124]:
import requests

In [132]:
url_krx = "http://data.krx.co.kr/comm/bldAttendant/getJsonData.cmd"

In [133]:
head = {
    'user-agent': 
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84"
}

In [134]:
payload = {
    "bld": "dbms/MDC/STAT/standard/MDCSTAT01901",
    "mktId": "ALL",
    "share": "1",
    "csvxls_isNo": "false",
}

In [135]:
r = requests.post(url_krx, data=payload, headers=head)

In [136]:
r.json().keys()

dict_keys(['OutBlock_1', 'CURRENT_DATETIME'])

In [139]:
pd_data = pd.DataFrame(r.json()['OutBlock_1'])

In [179]:
cd_list = pd_data[pd_data['MKT_TP_NM'] == 'KOSPI']['ISU_SRT_CD']

In [181]:
for x in cd_list:
    print(x)

095570
006840
282330
027410
138930
001465
001460
001045
00104K
001040
011155
011150
000590
012030
016610
005830
000995
000990
139130
001530
000215
001880
000210
37550K
375500
155660
069730
017940
365550
383220
007700
078935
006360
078930
012630
294870
003560
175330
234080
001065
001067
001060
096760
105560
009070
016385
016380
001390
033180
001940
025000
092230
000040
093050
003555
034220
003550
051905
051900
032640
011070
066575
066570
051915
051910
079550
010120
000680
006260
001120
023150
035420
181710
338100
034310
008260
004255
004250
010060
010955
010950
101060
005090
001380
001770
002360
009160
123700
025530
03473K
011790
018670
001745
001740
210980
034730
361610
096775
096770
001515
001510
28513K
285130
017670
064960
100840
003570
036530
005610
011810
077970
071970
084870
002710
024070
000500
000860
035250
011420
002100
009450
267290
012320
000050
214390
012610
009140
013580
012205
012200
002140
010130
002240
009290
017040
017900
037710
030610
339770
007690
005320
001140
002720

In [166]:
pd_data

Unnamed: 0,ISU_CD,ISU_SRT_CD,ISU_NM,ISU_ABBRV,ISU_ENG_NM,LIST_DD,MKT_TP_NM,SECUGRP_NM,SECT_TP_NM,KIND_STKCERT_TP_NM,PARVAL,LIST_SHRS
0,KR7098120009,098120,(주)마이크로컨텍솔루션,마이크로컨텍솔,"Micro Contact Solution Co.,Ltd.",2008/09/23,KOSDAQ,주권,벤처기업부,보통주,500,8312766
1,KR7131100000,131100,(주)스카이이앤엠,스카이이앤엠,"SKY E&M Co., Ltd.",2011/06/14,KOSDAQ,주권,투자주의환기종목(소속부없음),보통주,100,41281205
2,KR7009520008,009520,(주)포스코엠텍,포스코엠텍,"POSCO M-TECH CO.,LTD.",1997/11/10,KOSDAQ,주권,우량기업부,보통주,500,41642703
3,KR7095570008,095570,AJ네트웍스보통주,AJ네트웍스,"AJ Networks Co.,Ltd.",2015/08/21,KOSPI,주권,,보통주,1000,46822295
4,KR7006840003,006840,AK홀딩스보통주,AK홀딩스,"AK Holdings, Inc.",1999/08/11,KOSPI,주권,,보통주,5000,13247561
...,...,...,...,...,...,...,...,...,...,...,...,...
2574,KR7000542001,000547,흥국화재해상보험2우선주(신형),흥국화재2우B,HeungkukFire&MarineIns(2PB),1999/08/09,KOSPI,주권,,신형우선주,5000,153600
2575,KR7000540005,000540,흥국화재해상보험보통주,흥국화재,HeungkukFire&MarineInsurance,1974/12/05,KOSPI,주권,,보통주,5000,64242645
2576,KR7003280005,003280,흥아해운보통주,흥아해운,HeungaShipping,1976/06/29,KOSPI,주권,,보통주,500,239125028
2577,KR7037440005,037440,희림종합건축사사무소,희림,Heerim Architects & Planners,2000/02/03,KOSDAQ,주권,중견기업부,보통주,500,13922475


In [3]:
import requests
import pandas as pd

In [5]:
url = 'https://finance.naver.com/item/sise_day.nhn?code={}&page={}'
url_krx = "http://data.krx.co.kr/comm/bldAttendant/getJsonData.cmd"
head = {
    'user-agent': 
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84"
}
payload = {
    "bld": "dbms/MDC/STAT/standard/MDCSTAT01901",
    "mktId": "ALL",
    "share": "1",
    "csvxls_isNo": "false",
}
r = requests.post(url_krx, data=payload, headers=head)
r.json().keys()
cd_data = pd.DataFrame(r.json()['OutBlock_1'])
cd_list = cd_data[cd_data['MKT_TP_NM'] == 'KOSPI']['ISU_SRT_CD']

In [7]:
total_stock = []
for cd in cd_list:
    for page in range(1, 20):
        r = requests.get(url.format(cd, page), headers=head)
        temp = pd.read_html(r.text)[0].dropna()
        temp['code'] = cd
        total_stock.append(temp)

In [9]:
len(total_stock)

17784

In [10]:
total_stock_copy = total_stock.copy()

In [15]:
total_stock_copy

[            날짜      종가    전일비      시가      고가      저가        거래량    code
 1   2021.09.09  5900.0  110.0  5980.0  6050.0  5850.0   130145.0  095570
 2   2021.09.08  6010.0  210.0  6220.0  6230.0  5840.0  2373296.0  095570
 3   2021.09.07  6220.0  160.0  6060.0  6330.0  6060.0   376507.0  095570
 4   2021.09.06  6060.0   50.0  6020.0  6090.0  5950.0    98516.0  095570
 5   2021.09.03  6010.0   20.0  6000.0  6070.0  5930.0    62585.0  095570
 9   2021.09.02  5990.0   10.0  5980.0  6040.0  5910.0    83023.0  095570
 10  2021.09.01  5980.0   70.0  5910.0  5990.0  5840.0   107862.0  095570
 11  2021.08.31  5910.0   10.0  5930.0  5930.0  5810.0    43610.0  095570
 12  2021.08.30  5920.0  120.0  5850.0  5970.0  5770.0    68587.0  095570
 13  2021.08.27  5800.0   30.0  5730.0  5890.0  5730.0    41279.0  095570,
             날짜      종가    전일비      시가      고가      저가       거래량    code
 1   2021.08.26  5830.0  100.0  5870.0  5950.0  5710.0  114657.0  095570
 2   2021.08.25  5930.0   20.0  5950.0 

In [6]:
cd_list

3       095570
4       006840
5       282330
6       027410
7       138930
         ...  
2569    069260
2573    000545
2574    000547
2575    000540
2576    003280
Name: ISU_SRT_CD, Length: 936, dtype: object

In [34]:
with open('./주식데이터.csv', 'rb') as f:
    total = f

In [47]:
total = pd.read_csv('./주식데이터.csv', encoding='euc-kr')

In [48]:
total

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,종목코드,종목명,MA30
0,2021.01.06,4710.0,225.0,4945.0,4945.0,4700.0,660674.0,095570,AJ네트웍스,4583.500000
1,2021.01.07,4695.0,15.0,4710.0,4755.0,4615.0,202736.0,095570,AJ네트웍스,4585.000000
2,2021.01.08,4540.0,155.0,4650.0,4665.0,4520.0,390267.0,095570,AJ네트웍스,4581.666667
3,2021.01.11,4360.0,180.0,4535.0,4540.0,4270.0,441563.0,095570,AJ네트웍스,4573.666667
4,2021.01.12,4385.0,25.0,4310.0,4450.0,4270.0,183639.0,095570,AJ네트웍스,4567.666667
...,...,...,...,...,...,...,...,...,...,...
17008,2021.09.03,4285.0,15.0,4315.0,4325.0,4285.0,7473.0,001515,SK증권우,4428.833333
17009,2021.09.06,4280.0,5.0,4270.0,4280.0,4265.0,6244.0,001515,SK증권우,4417.500000
17010,2021.09.07,4280.0,0.0,4295.0,4295.0,4255.0,7732.0,001515,SK증권우,4406.333333
17011,2021.09.08,4265.0,15.0,4295.0,4295.0,4260.0,6474.0,001515,SK증권우,4394.500000


In [41]:
from datetime import date, datetime, timedelta

In [50]:
total.날짜 = pd.to_datetime(total.날짜, format='%Y-%m-%d')

In [51]:
total

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,종목코드,종목명,MA30
0,2021-01-06,4710.0,225.0,4945.0,4945.0,4700.0,660674.0,095570,AJ네트웍스,4583.500000
1,2021-01-07,4695.0,15.0,4710.0,4755.0,4615.0,202736.0,095570,AJ네트웍스,4585.000000
2,2021-01-08,4540.0,155.0,4650.0,4665.0,4520.0,390267.0,095570,AJ네트웍스,4581.666667
3,2021-01-11,4360.0,180.0,4535.0,4540.0,4270.0,441563.0,095570,AJ네트웍스,4573.666667
4,2021-01-12,4385.0,25.0,4310.0,4450.0,4270.0,183639.0,095570,AJ네트웍스,4567.666667
...,...,...,...,...,...,...,...,...,...,...
17008,2021-09-03,4285.0,15.0,4315.0,4325.0,4285.0,7473.0,001515,SK증권우,4428.833333
17009,2021-09-06,4280.0,5.0,4270.0,4280.0,4265.0,6244.0,001515,SK증권우,4417.500000
17010,2021-09-07,4280.0,0.0,4295.0,4295.0,4255.0,7732.0,001515,SK증권우,4406.333333
17011,2021-09-08,4265.0,15.0,4295.0,4295.0,4260.0,6474.0,001515,SK증권우,4394.500000


### 100일 안에 종목별 가장 금액이 높은 날짜 데이터 출력

In [52]:
total.종목명.unique()

array(['AJ네트웍스', 'AK홀딩스', 'BGF리테일', 'BGF', 'BNK금융지주', 'BYC우', 'BYC',
       'CJ우', 'CJ4우(전환)', 'CJ', 'CJ씨푸드1우', 'CJ씨푸드', 'CS홀딩스', 'DB',
       'DB금융투자', 'DB손해보험', 'DB하이텍1우', 'DB하이텍', 'DGB금융지주', 'DI동일', 'DL우',
       'DL건설', 'DL', 'DL이앤씨우', 'DL이앤씨', 'DSR', 'DSR제강', 'E1',
       'ESR켄달스퀘어리츠', 'F&F', 'F&F홀딩스', 'GS우', 'GS건설', 'GS', 'HDC',
       'HDC현대산업개발', 'IHQ', 'JB금융지주', 'JW생명과학', 'JW중외제약우', 'JW중외제약2우B',
       'JW중외제약', 'JW홀딩스', 'KB금융', 'KCTC', 'KG동부제철우', 'KG동부제철', 'KG케미칼',
       'KH 필룩스', 'KISCO홀딩스', 'KPX케미칼', 'KPX홀딩스', 'KR모터스', 'LF', 'LG우',
       'LG디스플레이', 'LG', 'LG생활건강우', 'LG생활건강', 'LG유플러스', 'LG이노텍', 'LG전자우',
       'LG전자', 'LG화학우', 'LG화학', 'LIG넥스원', 'LS ELECTRIC', 'LS네트웍스', 'LS',
       'LX인터내셔널', 'MH에탄올', 'NAVER', 'NHN', 'NH프라임리츠', 'NICE', 'NI스틸',
       'NPC우', 'NPC', 'OCI', 'S-Oil우', 'S-Oil', 'SBS미디어홀딩스', 'SGC에너지',
       'SG글로벌', 'SHD', 'SH에너지화학', 'SIMPAC', 'SJM', 'SJM홀딩스', 'SK우', 'SKC',
       'SK가스', 'SK네트웍스우', 'SK네트웍스', 'SK디앤디', 'SK', 'SK아이이테크놀로지',
       'SK이노베이션우', 'SK

In [56]:
# 종목 시가가 가장 높은 날
total[total.종목명 == 'AJ네트웍스'].sort_values(by='고가', ascending=False)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,종목코드,종목명,MA30
130,2021-07-14,6330.0,410.0,5990.0,7320.0,5900.0,3157239.0,095570,AJ네트웍스,5851.666667
133,2021-07-19,6600.0,350.0,6230.0,6990.0,6210.0,1333906.0,095570,AJ네트웍스,5929.666667
135,2021-07-21,6580.0,80.0,6570.0,6930.0,6450.0,410893.0,095570,AJ네트웍스,6006.000000
134,2021-07-20,6500.0,100.0,6600.0,6850.0,6400.0,532976.0,095570,AJ네트웍스,5963.666667
136,2021-07-22,6790.0,210.0,6580.0,6790.0,6510.0,235676.0,095570,AJ네트웍스,6054.000000
...,...,...,...,...,...,...,...,...,...,...
37,2021-03-03,3970.0,0.0,4000.0,4000.0,3935.0,14248.0,095570,AJ네트웍스,4098.000000
36,2021-03-02,3970.0,85.0,3885.0,3995.0,3885.0,48112.0,095570,AJ네트웍스,4116.000000
43,2021-03-11,3970.0,50.0,3930.0,3985.0,3905.0,31360.0,095570,AJ네트웍스,4023.166667
38,2021-03-04,3950.0,20.0,3970.0,3970.0,3870.0,43455.0,095570,AJ네트웍스,4080.166667


In [61]:
total.groupby('종목명')['전일비'].count()

종목명
AJ네트웍스        171
AK홀딩스         171
BGF           171
BGF리테일        171
BNK금융지주       171
             ... 
SK아이이테크놀로지    123
SK우           171
SK이노베이션       171
SK이노베이션우      171
SK증권우         171
Name: 전일비, Length: 100, dtype: int64

In [64]:
total100 = total[total.날짜 > datetime.now() - timedelta(days=100)].copy()

In [68]:
total_rt = total100.groupby('종목명', as_index=False)['고가'].max()

In [69]:
total_rt[total_rt.종목명 == 'AK홀딩스']

Unnamed: 0,종목명,고가
1,AK홀딩스,38050.0


In [72]:
total_rt.head(1)

Unnamed: 0,종목명,고가
0,AJ네트웍스,7320.0


In [71]:
total100.head(1)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,종목코드,종목명,MA30
100,2021-06-02,5800.0,20.0,5840.0,5840.0,5750.0,39320.0,95570,AJ네트웍스,5712.0


In [76]:
total_rt2 = pd.merge(total_rt, total100, left_on=['종목명', '고가'], right_on=['종목명', '고가'], how='left').loc[:, ['종목명', '고가', '날짜']]

In [77]:
total_rt2

Unnamed: 0,종목명,고가,날짜
0,AJ네트웍스,7320.0,2021-07-14
1,AK홀딩스,38050.0,2021-06-03
2,BGF,7230.0,2021-06-09
3,BGF리테일,193000.0,2021-06-08
4,BNK금융지주,8220.0,2021-06-04
...,...,...,...
101,SK아이이테크놀로지,249000.0,2021-07-26
102,SK우,280000.0,2021-08-23
103,SK이노베이션,302000.0,2021-06-24
104,SK이노베이션우,195500.0,2021-06-24


In [79]:
total_rt2[total_rt2.종목명.duplicated()]

Unnamed: 0,종목명,고가,날짜
6,BYC,457500.0,2021-09-07
8,BYC우,194500.0,2021-06-07
23,DL,85100.0,2021-06-03
36,GS건설,46050.0,2021-09-07
45,JW중외제약2우B,80000.0,2021-06-28
99,SK네트웍스우,127500.0,2021-06-03


In [86]:
total_rt2.query('종목명 == "DL"')

Unnamed: 0,종목명,고가,날짜
22,DL,85100.0,2021-06-02
23,DL,85100.0,2021-06-03
