# 금융데이터를 가지고 pandas 사용해보기!

- TIP! jupyter notebook 에서 pandas 의 output 을 좀 더 보기 편하게 세팅하는 옵션들

```python
from IPython.core.interactiveshell import InteractiveShell

# Jupyter Notebook 에서 출력 결과를 모두 표시(`all`)하도록 설정하여,
# 각 셀의 실행 결과를 생략하지 않고 모두 확인할 수 있다!
InteractiveShell.ast_node_interactivity = "all"

import pandas as pd

# 소수점 표시 형식 설정하는 옵션으로, 여기서는 소수점 아래 세 번째 자리까지 보이도록 설정
pd.set_option('display.float_format', lambda x: '%.3f' % x)
# 표시할 컬럼 수의 최대값을 설정하는 옵션으로, 여기서는 모든 열이 보이도록 설정
pd.set_option('max_columns', None)
```


## 금융데이터를 쉽게 가져올 수 있도록 도와주는 package
- [FinanceDataReader](https://github.com/FinanceData/FinanceDataReader)
    - 미국시장 재무제표 데이터 크롤링: https://nbviewer.jupyter.org/gist/FinanceData/35a1b0d5248bc9b09513e53be437ac42

In [1]:
import FinanceDataReader as fdr

In [2]:
# 삼성전자
df1 = fdr.DataReader("005930", "2018-01-01", "2018-10-30")
df1.head(3)

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,51380,51400,50780,51020,169485,0.001177
2018-01-03,52540,52560,51420,51620,200270,0.01176
2018-01-04,52120,52180,50640,51080,233909,-0.010461


In [3]:
# KODEX 200(ETF)
df2 = fdr.DataReader("069500", "2018-01-03", "2018-10-30")
df2.head(3)

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-03,28416,28498,28345,28423,7391348,0.004169
2018-01-04,28581,28595,28191,28202,9086819,-0.007775
2018-01-05,28268,28575,28268,28585,8279064,0.013581


## 데이터 훑어보기

### 기업 재무 지표 설명

- 기본 정보

| 지표 | 설명 |
|------|------|
| 종목명 | 주식 시장에 상장된 회사의 이름 |


- 수익성 지표

| 지표 | 설명 | 계산식 |
|------|------|--------|
| 매출액(억원) | 기업이 상품이나 서비스 판매를 통해 얻은 총 수입 | - |
| 영업이익률(%) | 기업의 핵심 사업 활동에서 발생하는 수익성을 나타내는 지표 | (영업이익 ÷ 매출액) × 100 |
| 순이익률(%) | 모든 비용과 세금을 공제한 후 기업에 남는 이익의 비율 | (당기순이익 ÷ 매출액) × 100 |
| 당기순이익(억원) | 모든 비용, 세금을 제외한 후 회사에 남는 순이익 | - |


-  수익률 지표

| 지표 | 설명 | 계산식 |
|------|------|--------|
| ROE(%) | 자기자본이익률(Return on Equity). 기업이 주주의 투자금을 얼마나 효율적으로 사용해 이익을 창출하는지 보여주는 지표 | (당기순이익 ÷ 자기자본) × 100 |
| ROA(%) | 총자산이익률(Return on Assets). 기업이 보유한 총자산을 얼마나 효율적으로 활용해 이익을 내는지 보여주는 지표 | (당기순이익 ÷ 총자산) × 100 |
| ROIC(%) | 투자자본수익률(Return on Invested Capital). 기업이 장기 투자 자본을 얼마나 효율적으로 활용하는지 측정하는 지표 | (세후영업이익 ÷ 투자자본) × 100 |


- 주식 관련 지표

| 지표 | 설명 | 계산식 |
|------|------|--------|
| EPS(원) | 주당순이익(Earnings Per Share). 한 주당 얼마의 순이익이 발생했는지 보여주는 지표 | 당기순이익 ÷ 발행주식수 |
| BPS(원) | 주당순자산가치(Book value Per Share). 회사가 청산할 경우 한 주당 받을 수 있는 이론적 금액 | 자기자본 ÷ 발행주식수 |
| SPS(원) | 주당매출액(Sales Per Share). 한 주당 얼마의 매출이 발생했는지 보여주는 지표 | 매출액 ÷ 발행주식수 |


- 가치평가 배수

| 지표 | 설명 | 계산식 |
|------|------|--------|
| PER(배) | 주가수익비율(Price to Earnings Ratio). 주가가 주당순이익의 몇 배인지 나타내는 지표 | 주가 ÷ EPS |
| PBR(배) | 주가순자산비율(Price to Book Ratio). 주가가 주당순자산가치의 몇 배인지 나타내는 지표 | 주가 ÷ BPS |
| PSR(배) | 주가매출비율(Price to Sales Ratio). 주가가 주당매출액의 몇 배인지 나타내는 지표 | 주가 ÷ SPS |


In [4]:
import numpy as np
import pandas as pd

In [5]:
df = pd.read_csv("../data/naver_finance/2015_12.csv")
df.head(2)

Unnamed: 0,ticker,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,AK홀딩스,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,BGF,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0


In [6]:
df.shape

(681, 16)

In [7]:
# data type 별 column 개수
df.dtypes.value_counts()

float64    15
object      1
Name: count, dtype: int64

In [8]:
# ticker 는 종목명을 뜻한다. 보기 쉽게 이름을 바꾸자!
df = df.rename(columns={"ticker": "종목명"})
df.head(2)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,AK홀딩스,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,BGF,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0


In [9]:
# Trnaspose (index <-> columns 뒤집기)

# 행의 수는 정해져있는데, 열의 수는 계속 늘어 날 수 있다.
# 그럼 수평으로 스크롤하는 것보다는 수직으로 스크롤해서 보는 것이
# 더 편하기 때문에 T(transpose) 를 해서 데이터를 확인한다!
df.describe().T  # count 는 NaN 은 세지 않는다, value_counts 도 마찬가지

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
매출액(억원),680.0,30112.802159,108134.169795,3.560632,1727.08855,4692.0595,15243.67325,2006535.0
영업이익률(%),680.0,3.882082,13.142744,-191.601,1.5315,4.1935,8.314,64.273
순이익률(%),680.0,7.668574,151.566538,-193.426,0.36875,3.0665,6.6115,3923.338
당기순이익(억원),680.0,1312.760882,10133.596321,-22092.438,10.859321,118.917932,504.20148,190601.4
ROE(%),665.0,4.511992,130.082995,-529.306,0.828,5.35,9.766,3122.573
ROA(%),665.0,1.83654,9.512183,-136.813,0.275,2.305,5.338,60.287
ROIC(%),611.0,-3.009479,195.155529,-4685.987,1.3574,5.2078,10.54975,271.9567
EPS(원),681.0,426.080667,34193.001661,-844700.06,22.96404,539.1086,2197.6516,93713.01
BPS(원),681.0,47451.879683,152959.284523,-230961.19,4110.5513,10988.989,39550.23,3017474.0
SPS(원),681.0,95471.752357,316794.456637,50.17738,7504.2197,22559.92,72356.336,5553036.0


In [10]:
# 기본적으로 describe 는 numeric data type 만 기술 통계 정보를 준다.
df.describe(include=[np.number]).T

# dtype 을 나타낼 때, string 으로 해도 되고,
# library 의 dtype 으로 설정해도 된다. (astype()을 쓸 때도 마찬가지!)
# (아래 4개는 다 같은 구문)
# df.describe(include=["int", "float"]).T
# df.describe(include=["int64", "float64"]).T
# df.describe(include=[np.int64, np.float64]).T
# df.describe(include=["number"]).T
# df.describe(include=[np.number]).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
매출액(억원),680.0,30112.802159,108134.169795,3.560632,1727.08855,4692.0595,15243.67325,2006535.0
영업이익률(%),680.0,3.882082,13.142744,-191.601,1.5315,4.1935,8.314,64.273
순이익률(%),680.0,7.668574,151.566538,-193.426,0.36875,3.0665,6.6115,3923.338
당기순이익(억원),680.0,1312.760882,10133.596321,-22092.438,10.859321,118.917932,504.20148,190601.4
ROE(%),665.0,4.511992,130.082995,-529.306,0.828,5.35,9.766,3122.573
ROA(%),665.0,1.83654,9.512183,-136.813,0.275,2.305,5.338,60.287
ROIC(%),611.0,-3.009479,195.155529,-4685.987,1.3574,5.2078,10.54975,271.9567
EPS(원),681.0,426.080667,34193.001661,-844700.06,22.96404,539.1086,2197.6516,93713.01
BPS(원),681.0,47451.879683,152959.284523,-230961.19,4110.5513,10988.989,39550.23,3017474.0
SPS(원),681.0,95471.752357,316794.456637,50.17738,7504.2197,22559.92,72356.336,5553036.0


In [11]:
# 숫자형이 아닌 type 에 대해서서 describe 를 볼 수 있다!
# 이때는 빈도 수를 보여준다.

# top 은 가장 많이 출현하는 단어를 의미한다.
# 하지만 여기서는 모두 unique 하기 때문에 첫번째 행이 나온 것
df.describe(include=[np.object_, pd.Categorical]).T

Unnamed: 0,count,unique,top,freq
종목명,681,681,AK홀딩스,1


In [12]:
# exclude 를 사용해서도 볼 수 있다.
df.describe(exclude=[np.number]).T

Unnamed: 0,count,unique,top,freq
종목명,681,681,AK홀딩스,1


In [13]:
# 사분위수만 보고 싶다면, quantile 사용하기
df["PER(배)"].quantile(0.2)  # 20% 위치에 있는 값

np.float64(-1.630518)

In [14]:
# 1 개면 Scalar, 여러 개면 Series
# 10%, 20%, 30% 위치에 있는 값
df["PER(배)"].quantile([0.1, 0.2, 0.3])

0.1   -10.561643
0.2    -1.630518
0.3     6.177158
Name: PER(배), dtype: float64

In [15]:
# describe() 를 사용할 때, 분위수를 지정해서 볼 수도 있다.
# 50% 은 중위값으로, 매우 중요한 지표라서 설정하지 않아도 기본으로 보여준다.
df.describe(percentiles=[0.01, 0.03, 0.99]).T

Unnamed: 0,count,mean,std,min,1%,3%,50%,99%,max
매출액(억원),680.0,30112.802159,108134.169795,3.560632,90.991446,260.98941,4692.0595,467457.6,2006535.0
영업이익률(%),680.0,3.882082,13.142744,-191.601,-24.02003,-16.14615,4.1935,28.58398,64.273
순이익률(%),680.0,7.668574,151.566538,-193.426,-60.6433,-22.17763,3.0665,33.19101,3923.338
당기순이익(억원),680.0,1312.760882,10133.596321,-22092.438,-7180.57912,-1306.169413,118.917932,26421.61,190601.4
ROE(%),665.0,4.511992,130.082995,-529.306,-172.49944,-64.13812,5.35,47.2052,3122.573
ROA(%),665.0,1.83654,9.512183,-136.813,-24.32404,-12.48312,2.305,18.6874,60.287
ROIC(%),611.0,-3.009479,195.155529,-4685.987,-87.17096,-22.64656,5.2078,84.22139,271.9567
EPS(원),681.0,426.080667,34193.001661,-844700.06,-21802.7608,-7554.76782,539.1086,30953.85,93713.01
BPS(원),681.0,47451.879683,152959.284523,-230961.19,335.80628,647.36051,10988.989,465518.5,3017474.0
SPS(원),681.0,95471.752357,316794.456637,50.17738,275.121528,868.48972,22559.92,1014441.0,5553036.0


### unique(), nunique(), value_counts()

In [16]:
# 각 열에서 unique 한 값의 갯수를 구해서 Series 로 반환하는 함수
# Series 도 nunique() 가 있으면 같은 기능을 함.
print(type(df.nunique()))
df.nunique()

<class 'pandas.core.series.Series'>


종목명          681
매출액(억원)      680
영업이익률(%)     667
순이익률(%)      672
당기순이익(억원)    680
ROE(%)       655
ROA(%)       650
ROIC(%)      610
EPS(원)       681
BPS(원)       681
SPS(원)       681
PER(배)       668
PBR(배)       680
PSR(배)       668
price        628
price2       620
dtype: int64

In [17]:
# Series 에서 unique 한 모든 값을 가져오는 함수
# DataFrame 에는 없음
df["종목명"].unique()

array(['AK홀딩스', 'BGF', 'BNK금융지주', 'BYC', 'CJ', 'CJ CGV', 'CJ대한통운',
       'CJ씨푸드', 'CJ제일제당', 'CS홀딩스', 'DB', 'DB금융투자', 'DB손해보험', 'DB하이텍',
       'DGB금융지주', 'DRB동일', 'DSR', 'DSR제강', 'E1', 'F&F', 'GKL', 'GS',
       'GS건설', 'GS글로벌', 'GS리테일', 'HDC', 'HDC현대EP', 'HSD엔진', 'JB금융지주',
       'JW중외제약', 'JW홀딩스', 'KB금융', 'KC그린홀딩스', 'KC코트렐', 'KEC', 'KG케미칼',
       'KISCO홀딩스', 'KPX케미칼', 'KPX홀딩스', 'KR모터스', 'KSS해운', 'KTB투자증권',
       'KTcs', 'KTis', 'LF', 'LG', 'LG디스플레이', 'LG상사', 'LG생활건강', 'LG유플러스',
       'LG이노텍', 'LG전자', 'LG하우시스', 'LG헬로비전', 'LG화학', 'LS', 'LS네트웍스',
       'LS산전', 'MH에탄올', 'NAVER', 'NH투자증권', 'NICE', 'NI스틸', 'OCI', 'S&TC',
       'S&T모티브', 'S&T중공업', 'S&T홀딩스', 'S-Oil', 'SBS미디어홀딩스', 'SG세계물산',
       'SG충방', 'SH에너지화학', 'SIMPAC', 'SK', 'SKC', 'SK가스', 'SK네트웍스',
       'SK디스커버리', 'SK렌터카', 'SK이노베이션', 'SK증권', 'SK텔레콤', 'SK하이닉스', 'SPC삼립',
       'STX', 'STX엔진', 'STX중공업', 'TCC스틸', 'WISCOM', 'YG PLUS', '가온전선',
       '강남제비스코', '강원랜드', '갤럭시아에스엠', '경농', '경동나비엔', '경동인베스트', '경방', '경인양행',
       '경인전자',

In [18]:
# "모든 열"에서 같은 값을 갖는 행을 세서 count 열에 그 수를 넣어줌
df.value_counts()

종목명     매출액(억원)       영업이익률(%)  순이익률(%)   당기순이익(억원)     ROE(%)   ROA(%)   ROIC(%)   EPS(원)        BPS(원)       SPS(원)        PER(배)     PBR(배)   PSR(배)   price     price2  
AK홀딩스   28071.47900    3.787    -1.334    -374.430630   -7.677   -1.421    15.1196  -3245.74120   43497.7230   211899.22000  -19.47167  1.45295  0.29825  63200.0   56000.0     1
이마트     136399.94000   3.693     3.342     4558.795400   6.545    3.219    1.6487    16311.95800  250718.0200  489312.72000   11.58659  0.75383  0.38626  189000.0  183000.0    1
이수화학    14712.29200    0.004    -3.712    -546.174560   -13.770  -5.147    0.1525   -2839.95120   20284.6290   96297.23400   -3.62682   0.50777  0.10696  10300.0   16300.0     1
이스타코    239.37807     -7.775     5.078     12.155986     2.357    1.307   -2.8943    27.34437     1308.2296    558.62110      53.39308  1.11601  2.61358  1460.0    1755.0      1
이아이디    397.87810     -11.761   -6.332    -25.192968    -7.168   -4.025   -12.0148  -38.87112     588.6380     805.

In [19]:
# 같은 값을 갖는 행을 세서 count 열에 그 수를 넣어줌!
df["종목명"].value_counts()

종목명
AK홀딩스     1
인터지스      1
이스타코      1
이아이디      1
이연제약      1
         ..
롯데정밀화학    1
롯데지주      1
롯데칠성음료    1
롯데케미칼     1
흥아해운      1
Name: count, Length: 681, dtype: int64

In [20]:
df["종목명"].value_counts(normalize=True)

종목명
AK홀딩스     0.001468
인터지스      0.001468
이스타코      0.001468
이아이디      0.001468
이연제약      0.001468
            ...   
롯데정밀화학    0.001468
롯데지주      0.001468
롯데칠성음료    0.001468
롯데케미칼     0.001468
흥아해운      0.001468
Name: proportion, Length: 681, dtype: float64

In [21]:
a = pd.DataFrame({"a": [np.nan, 1, 2]})
a

Unnamed: 0,a
0,
1,1.0
2,2.0


In [22]:
# NaN 은 세지 않는다!!
a.value_counts()

a  
1.0    1
2.0    1
Name: count, dtype: int64

In [23]:
# 다른 예제
df = pd.read_csv("../data/symbol_sector.csv", index_col=0)
df.head(2)

Unnamed: 0,Sector
AJ네트웍스,산업용 기계 및 장비 임대업
AJ렌터카,운송장비 임대업


In [24]:
df.shape

(1142, 1)

In [25]:
df["Sector"].nunique()

129

In [26]:
df["Sector"].value_counts()

Sector
기타 금융업              110
자동차 신품 부품 제조업        46
의약품 제조업              44
전자부품 제조업             38
1차 철강 제조업            38
                   ... 
악기 제조업                1
금속 주조업                1
동물성 및 식물성 유지 제조업      1
그외 기타 제품 제조업          1
기타 상품 전문 소매업          1
Name: count, Length: 129, dtype: int64

## 정렬

In [27]:
import pandas as pd


df = pd.read_csv("../data/naver_finance/2015_12.csv")
df = df.rename(columns={"ticker": "종목명"})
df.head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,AK홀딩스,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,BGF,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0
2,BNK금융지주,51740.254,13.455,10.253,5304.712,9.116,0.609,,1853.1799,21665.062,19749.037,4.54354,0.38864,0.42635,8420.0,8680.0


In [28]:
# nsmallest: 지정한 열을 기준으로 가장 작은 값을 가진 행들을 반환하는 함수
# 첫 번째 파라미터 n: 최대 n개 행까지를 반환하라는 의미
# 두 번째 파라미터 columns: 정렬 기준이 되는 열,
#                       여러 개의 열을 지정하면 순서대로 우선순위가 적용
# PER 가 가장 작은 5개 행을 가진 DataFrame
df.nsmallest(5, columns=["PER(배)", "당기순이익(억원)"])

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
587,한국콜마홀딩스,2995.671,15.055,0.348,10.436833,-0.359,0.238,2.1371,-45.26711,12915.29,18266.559,-1435.9211,5.03279,3.55842,65000.0,33700.0
370,쌍방울,1426.3743,0.725,-0.362,-5.168681,-0.408,-0.29,-4.081,-5.26554,1370.1528,1453.1035,-415.91187,1.59836,1.50712,2190.0,2040.0
652,현대엘리베이터,14486.539,10.804,-0.348,-50.36632,-0.8,-0.354,6.6304,-179.55405,26043.53,64214.344,-335.27512,2.31151,0.93749,60200.0,57400.0
576,한국수출포장공업,2306.7937,1.168,-0.104,-2.400401,-0.106,-0.081,0.226,-60.01,56474.867,57669.84,-332.44458,0.35325,0.34593,19950.0,17900.0
262,보락,310.66714,4.119,-0.555,-1.724556,-0.425,-0.341,6.6255,-2.87906,667.94507,518.64294,-271.61652,1.17075,1.50778,782.0,1156.0


In [29]:
# nsmallest 와 반대!
# 지정한 열(columns)을 기준으로 가장 큰 값을 가진 행들을 반환하는 함수
df.nlargest(5, columns=["PER(배)", "당기순이익(억원)"])

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
30,JW홀딩스,6228.2534,5.372,0.054,3.36323,0.184,0.032,5.5403,2.93205,1684.6578,10066.348,2808.2625,4.88762,0.81796,8233.0,8308.0
267,부국철강,1656.1743,1.831,0.063,1.051566,0.098,0.085,4.607,5.25783,5366.9976,8280.872,542.9995,0.53195,0.34477,2855.0,3060.0
287,삼성전기,61762.582,4.879,0.334,206.43329,0.255,0.275,2.248,144.17992,55887.07,79590.26,436.26047,1.12548,0.7903,62900.0,50800.0
29,JW중외제약,4343.524,4.956,0.452,19.61427,0.881,0.326,3.4648,95.02461,10889.249,21042.926,352.55298,3.07654,1.59204,33501.0,49313.0
639,한화에어로스페이스,26134.055,-2.279,0.239,62.44417,0.295,0.162,8.0551,107.98722,42223.996,49188.887,329.20563,0.84194,0.72272,35550.0,43450.0


In [30]:
# 최종적으로, 아래와 같이 연결해서 사용할 수 있다.
# PER이 가장작은 100개중에서, 그 중에서 당기순이익이 가장 큰 5개 종목의 데이터
df.nsmallest(100, "PER(배)").nlargest(5, "당기순이익(억원)")

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
634,한화,413762.88,1.833,0.291,1205.15,-6.696,0.09,3.7745,-3778.015,59727.324,548480.5,-10.14489,0.64171,0.06988,38327.0,35050.0
587,한국콜마홀딩스,2995.671,15.055,0.348,10.436833,-0.359,0.238,2.1371,-45.26711,12915.29,18266.559,-1435.9211,5.03279,3.55842,65000.0,33700.0
246,무림페이퍼,11567.717,6.26,0.007,0.78554,-1.179,0.004,0.3956,-106.89519,9207.081,27800.79,-28.48585,0.33072,0.10953,3045.0,2650.0
262,보락,310.66714,4.119,-0.555,-1.724556,-0.425,-0.341,6.6255,-2.87906,667.94507,518.64294,-271.61652,1.17075,1.50778,782.0,1156.0
170,대유플러스,4957.8164,0.294,-0.035,-1.72926,-8.364,-0.023,1.2264,-90.07192,1040.8801,5626.177,-13.21166,1.14326,0.21151,1190.0,945.0


In [31]:
# sort_values 를 사용해서 정렬하기
# 파라미터로 넘어온 열의 값을 오름차순으로 정렬!
df.sort_values("EPS(원)").head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
280,삼부토건,4467.5034,-16.259,-141.681,-6329.5825,-460.176,-31.622,-68.0834,-844700.06,-230961.19,608502.56,-0.04931,-0.18033,0.06845,20825.0,1058.0
162,대우조선해양,154436.11,-13.756,-14.305,-22092.438,-132.523,-12.067,-33.6038,-139077.8,43577.367,1024004.8,-0.36455,1.16345,0.04952,25350.0,22400.0
193,동부제철,23207.922,3.386,-2.071,-480.68314,-174.038,-1.53,3.3994,-110540.03,3673.2979,5553036.5,-0.56915,17.12745,0.01133,101747.0,48500.0


In [32]:
# ascending 인자를 설정함으로써 오름차순/내림차순 설정
df.sort_values("EPS(원)", ascending=False).head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
74,SK,392995.25,3.58,14.12,55492.59,70.565,10.887,5.4909,93713.01,222855.36,688906.06,2.56635,1.07918,0.3491,240500.0,229500.0
410,영풍,26153.832,-0.211,3.439,899.4012,5.127,2.282,-0.6106,69988.86,1500147.5,1419829.8,15.67392,0.73126,0.77263,1097000.0,1064000.0
537,태광산업,28043.58,5.698,3.73,1046.1422,2.988,2.716,5.3035,67395.09,3017474.0,2518733.5,16.17328,0.36123,0.43276,1090000.0,947000.0


In [33]:
# 여러 열을 기준으로 정렬할 수 있고,
# 각각의 오름차순과 내림차순을 ascending 인자로 조절 가능
df.sort_values(["순이익률(%)", "EPS(원)"], ascending=[True, False]).head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
473,제이준코스메틱,80.112564,-134.063,-193.426,-154.95834,,,,-1901.4241,1599.7552,983.02527,-3.24512,3.85706,6.2769,9255.0,15957.0
534,키위미디어그룹,56.77606,-58.565,-172.041,-97.6782,-24.583,-13.778,-18.0811,-122.80427,487.67166,71.38074,-7.30431,1.83935,12.56641,897.0,1090.0
454,인스코비,163.134,-29.122,-150.446,-245.42798,-100.358,-67.654,-16.5119,-353.21893,343.96915,245.1687,-4.45899,4.5789,6.42415,1575.0,1705.0


## filter, select_dtypes, at

In [34]:
import pandas as pd


df = pd.read_csv("../data/naver_finance/2015_12.csv")
df = df.rename(columns={"ticker": "종목명"})
df.head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,AK홀딩스,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,BGF,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0
2,BNK금융지주,51740.254,13.455,10.253,5304.712,9.116,0.609,,1853.1799,21665.062,19749.037,4.54354,0.38864,0.42635,8420.0,8680.0


In [35]:
# filter 를 사용해서 특정 열만 뽑을 수 있음.
# like 인자는 str 의 contains 와 비슷한 기능

# RO 를 포함하는 이름을 가진 열 찾기
df.filter(like="RO").head(3)

Unnamed: 0,ROE(%),ROA(%),ROIC(%)
0,-7.677,-1.421,15.1196
1,22.771,10.327,271.9567
2,9.116,0.609,


In [36]:
# % 를 포함하는 이름을 가진 열 찾기
df.filter(like="%").head(3)

Unnamed: 0,영업이익률(%),순이익률(%),ROE(%),ROA(%),ROIC(%)
0,3.787,-1.334,-7.677,-1.421,15.1196
1,4.236,3.526,22.771,10.327,271.9567
2,13.455,10.253,9.116,0.609,


In [37]:
# regex 인자는 정규식으로 열을 찾음
# P 로 시작하고 R 로 끝나는 단어가 들어있는 열들 찾기
df.filter(regex=r"P\w+R").head(3)

Unnamed: 0,PER(배),PBR(배),PSR(배)
0,-19.47167,1.45295,0.29825
1,28.77862,5.66495,1.00711
2,4.54354,0.38864,0.42635


In [38]:
# 특정 dtype 을 갖는 열들만 가져오기
df.select_dtypes(include=[np.number]).head(3)

Unnamed: 0,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0
2,51740.254,13.455,10.253,5304.712,9.116,0.609,,1853.1799,21665.062,19749.037,4.54354,0.38864,0.42635,8420.0,8680.0


In [39]:
df.select_dtypes(include=[np.object_]).head(3)

Unnamed: 0,종목명
0,AK홀딩스
1,BGF
2,BNK금융지주


In [40]:
# 특정 위치의 값을 뽑아낼 때는,
# loc 나 iloc 보다 at 또는 iat 이 성능이 더 좋음!
%timeit df.loc[100, "순이익률(%)"]
%timeit df.at[100, "순이익률(%)"]
%timeit df.iloc[100, 3]
%timeit df.iat[100, 3]

2.88 μs ± 40.9 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
1.28 μs ± 30.5 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
6.75 μs ± 83 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
5.25 μs ± 34 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


## Example

In [41]:
import pandas as pd


df = pd.read_csv("../data/symbol_sector.csv", index_col=0)
df.head(3)

Unnamed: 0,Sector
AJ네트웍스,산업용 기계 및 장비 임대업
AJ렌터카,운송장비 임대업
AK홀딩스,기타 금융업


In [42]:
df["Sector"].value_counts()

Sector
기타 금융업              110
자동차 신품 부품 제조업        46
의약품 제조업              44
전자부품 제조업             38
1차 철강 제조업            38
                   ... 
악기 제조업                1
금속 주조업                1
동물성 및 식물성 유지 제조업      1
그외 기타 제품 제조업          1
기타 상품 전문 소매업          1
Name: count, Length: 129, dtype: int64

In [43]:
# 가장 많은 회사가 포함된 sector 5 개 추출
df["Sector"].value_counts().nlargest(5)

Sector
기타 금융업           110
자동차 신품 부품 제조업     46
의약품 제조업           44
전자부품 제조업          38
1차 철강 제조업         38
Name: count, dtype: int64

In [44]:
top_5 = df["Sector"].value_counts().nlargest(5)
top_5.index

Index(['기타 금융업', '자동차 신품 부품 제조업', '의약품 제조업', '전자부품 제조업', '1차 철강 제조업'], dtype='object', name='Sector')

In [45]:
df[df["Sector"].isin(top_5.index)]

Unnamed: 0,Sector
AK홀딩스,기타 금융업
AP우주통신,전자부품 제조업
BNK금융지주,기타 금융업
CJ,기타 금융업
CS홀딩스,기타 금융업
...,...
화인자산관리,기타 금융업
환인제약,의약품 제조업
휴리프,전자부품 제조업
휴스틸,1차 철강 제조업


## 연산(Arithmetic)

### 연산 기준
- DataFrame은 기준이 columns
- Series는 기준이 index
- 따로 명시가 없다면 Series의 index가 DataFrame의 columns에 맞춰짐!

In [46]:
import FinanceDataReader as fdr


price_df = fdr.DataReader("005930", "2009-09-16", "2018-03-21")
price_df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-09-16,15400,16000,15320,15900,711387,0.03381
2009-09-17,16120,16200,15920,16200,494941,0.018868
2009-09-18,16200,16400,16080,16120,896503,-0.004938
2009-09-21,16040,16200,15880,15960,337013,-0.009926
2009-09-22,16000,16580,15959,16500,515790,0.033835


In [47]:
price_df.iloc[0]

Open       15400.00000
High       16000.00000
Low        15320.00000
Close      15900.00000
Volume    711387.00000
Change         0.03381
Name: 2009-09-16 00:00:00, dtype: float64

In [48]:
# Subtract row Series
# DataFrame의 기준인 columns와 Series의 기준인 index가 서로 일치하기 때문에,
# 의도한 대로 계산 가능
(price_df - price_df.iloc[0]).head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-09-16,0.0,0.0,0.0,0.0,0.0,0.0
2009-09-17,720.0,200.0,600.0,300.0,-216446.0,-0.014942
2009-09-18,800.0,400.0,760.0,220.0,185116.0,-0.038748
2009-09-21,640.0,200.0,560.0,60.0,-374374.0,-0.043736
2009-09-22,600.0,580.0,639.0,600.0,-195597.0,2.4e-05


In [49]:
# Subtract column Series
# [X] DataFrame의 기준인 columns와 Series의 기준인 index가 서로 불일치
# (price_df['open'] - price_df도 마찬가지로 [X] )
(price_df - price_df["Open"]).head()

Unnamed: 0_level_0,2009-09-16 00:00:00,2009-09-17 00:00:00,2009-09-18 00:00:00,2009-09-21 00:00:00,2009-09-22 00:00:00,2009-09-23 00:00:00,2009-09-24 00:00:00,2009-09-25 00:00:00,2009-09-28 00:00:00,2009-09-29 00:00:00,...,2018-03-16 00:00:00,2018-03-19 00:00:00,2018-03-20 00:00:00,2018-03-21 00:00:00,Change,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2009-09-16,,,,,,,,,,,...,,,,,,,,,,
2009-09-17,,,,,,,,,,,...,,,,,,,,,,
2009-09-18,,,,,,,,,,,...,,,,,,,,,,
2009-09-21,,,,,,,,,,,...,,,,,,,,,,
2009-09-22,,,,,,,,,,,...,,,,,,,,,,


In [50]:
# DataFrame 끼리는,
# index,column 이 일치하는 것 끼리만 element-wise 연산이 이루어지고 나머지는 nan 처리
price_df - price_df[["Open", "Low"]].iloc[:2]

Unnamed: 0_level_0,Change,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-09-16,,,,0.0,0.0,
2009-09-17,,,,0.0,0.0,
2009-09-18,,,,,,
2009-09-21,,,,,,
2009-09-22,,,,,,
...,...,...,...,...,...,...
2018-03-15,,,,,,
2018-03-16,,,,,,
2018-03-19,,,,,,
2018-03-20,,,,,,


In [51]:
df = pd.read_csv("../data/naver_finance/2015_12.csv")
df = df.rename(columns={"ticker": "종목명"})
df.head(3)

Unnamed: 0,종목명,매출액(억원),영업이익률(%),순이익률(%),당기순이익(억원),ROE(%),ROA(%),ROIC(%),EPS(원),BPS(원),SPS(원),PER(배),PBR(배),PSR(배),price,price2
0,AK홀딩스,28071.479,3.787,-1.334,-374.43063,-7.677,-1.421,15.1196,-3245.7412,43497.723,211899.22,-19.47167,1.45295,0.29825,63200.0,56000.0
1,BGF,43342.8,4.236,3.526,1528.4127,22.771,10.327,271.9567,3071.8716,15605.457,87779.875,28.77862,5.66495,1.00711,44202.0,42140.0
2,BNK금융지주,51740.254,13.455,10.253,5304.712,9.116,0.609,,1853.1799,21665.062,19749.037,4.54354,0.38864,0.42635,8420.0,8680.0


In [52]:
df[["순이익률(%)", "PER(배)"]].sum()  # default axis=0

순이익률(%)     5214.63000
PER(배)     12639.53598
dtype: float64

In [53]:
df[["순이익률(%)", "PER(배)"]].mean()  # default axis=0

순이익률(%)     7.668574
PER(배)     18.921461
dtype: float64

In [54]:
# DataFrame - Series의 형태
# df's columns: o,h,l,c
# series's index: o,h,l,c
# => mean()값을 통해 Normalizing
(price_df - price_df.mean()).head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-09-16,-11550.997624,-11214.787072,-11357.234791,-11047.404943,419489.585551,0.03309
2009-09-17,-10830.997624,-11014.787072,-10757.234791,-10747.404943,203043.585551,0.018148
2009-09-18,-10750.997624,-10814.787072,-10597.234791,-10827.404943,604605.585551,-0.005658
2009-09-21,-10910.997624,-11014.787072,-10797.234791,-10987.404943,45115.585551,-0.010645
2009-09-22,-10950.997624,-10634.787072,-10718.234791,-10447.404943,223892.585551,0.033115


In [55]:
# 아래와 같은 연산은 우리가 원하는 연산을 해주지 않음!
close_series = price_df["Close"]
price_df - close_series

Unnamed: 0_level_0,2009-09-16 00:00:00,2009-09-17 00:00:00,2009-09-18 00:00:00,2009-09-21 00:00:00,2009-09-22 00:00:00,2009-09-23 00:00:00,2009-09-24 00:00:00,2009-09-25 00:00:00,2009-09-28 00:00:00,2009-09-29 00:00:00,...,2018-03-16 00:00:00,2018-03-19 00:00:00,2018-03-20 00:00:00,2018-03-21 00:00:00,Change,Close,High,Low,Open,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2009-09-16,,,,,,,,,,,...,,,,,,,,,,
2009-09-17,,,,,,,,,,,...,,,,,,,,,,
2009-09-18,,,,,,,,,,,...,,,,,,,,,,
2009-09-21,,,,,,,,,,,...,,,,,,,,,,
2009-09-22,,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2018-03-15,,,,,,,,,,,...,,,,,,,,,,
2018-03-16,,,,,,,,,,,...,,,,,,,,,,
2018-03-19,,,,,,,,,,,...,,,,,,,,,,
2018-03-20,,,,,,,,,,,...,,,,,,,,,,


In [56]:
# 그래서 pandas 에서 제공하는 함수를 사용해서 우리가 원하는 대로 연산하기
price_df.sub(close_series, axis=0).head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2009-09-16,-500,100,-580,0,695487,-15899.96619
2009-09-17,-80,0,-280,0,478741,-16199.981132
2009-09-18,80,280,-40,0,880383,-16120.004938
2009-09-21,80,240,-80,0,321053,-15960.009926
2009-09-22,-500,80,-541,0,499290,-16499.966165


### Example

### 모멘텀(Momentum)이란?

- 모멘텀은 금융 분야에서 증권의 가격 움직임이 일정 기간 동안 같은 방향으로 지속되는 경향을 의미

1. 추세 추종 - 가격이 상승 중인 자산은 계속 상승할 가능성이 높고, 하락 중인 자산은 계속 하락할 가능성이 높다는 가정에 기반
2. 상대적 강도 - 일정 기간 동안 다른 자산보다 더 좋은 성과를 보인 자산이 가까운 미래에도 더 좋은 성과를 낼 것으로 기대
3. 시간 프레임 - 일반적으로 3개월, 6개월, 12개월 등의 기간을 측정해 모멘텀을 파악

### 수익률 계산

- 수익률 = (현재 가격 / 과거 가격) - 1

**왜 1을 뺄까?**

1. 비율을 퍼센트 변화로 변환하기 위해서
    - 단순히 나눗셈만 하면 '몇 배'가 되었는지 알 수 있지만, 실제로 우리가 알고 싶은 것은 '몇 % 증가했는지'이다.
    - 예를 들어, 주가가 100원에서 120원으로 올랐다면:
        - 120 / 100 = 1.2 (1.2배 되었다는 의미)
        - 1.2 - 1 = 0.2 (20% 증가했다는 의미)

2. 증가와 감소를 직관적으로 나타내기 위해서이다.
    - 1보다 크면 양수 수익률(증가)을 의미
    - 1보다 작으면 음수 수익률(감소)을 의미
    - 예시:
        - 20% 증가: (120/100) - 1 = 1.2 - 1 = 0.2
        - 20% 감소: (80/100) - 1 = 0.8 - 1 = -0.2

3. 사실 이것은 금융에서의 표준적인 수익률 계산 방식이다.
    - 이 방식은 금융 업계에서 주식, 펀드 등의 수익률을 계산할 때 일반적으로 사용된다.
    - 이렇게 계산된 값에 100을 곱하면 백분율(%)로 표현할 수 있다.

In [57]:
b = pd.read_csv("../data/multi_price.csv", index_col=[0])
b.head(3)

Unnamed: 0_level_0,AJ네트웍스,AJ렌터카,AK홀딩스,BGF,BNK금융지주,BYC,CJ,CJ CGV,CJ대한통운,CJ씨푸드,CJ제일제당,CJ헬로,CS홀딩스,DB,DB금융투자,DB손해보험,DB하이텍,DGB금융지주,DRB동일,DSR
date_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
2017-01-02,6500.0,8330.0,53100.0,41780.0,8670.0,398000.0,188000.0,69000.0,179500.0,3665.0,359000.0,9370.0,80500.0,743.0,3285.0,61800.0,16300.0,9650.0,11899.0,9350.0
2017-01-03,6500.0,8320.0,52100.0,42811.0,8590.0,399000.0,185500.0,68000.0,176500.0,3700.0,351500.0,9290.0,78800.0,742.0,3315.0,60900.0,17250.0,9600.0,11704.0,9200.0
2017-01-04,6500.0,8310.0,51100.0,42089.0,8670.0,396000.0,185000.0,71000.0,175500.0,3605.0,350500.0,9280.0,78700.0,790.0,3405.0,62600.0,17700.0,9760.0,12143.0,9080.0


In [58]:
# 1년 전 대비 주가 변화율(모멘텀) 계산
# 2018-08-09 주가를 2017-08-09 주가로 나누고 1을 빼서 수익률 백분율 계산
momentum_series = b.loc["2018-08-09"] / b.loc["2017-08-09"] - 1
momentum_series.head(3)

AJ네트웍스   -0.256046
AJ렌터카     0.057269
AK홀딩스     0.020464
dtype: float64

In [59]:
# 이 중 가장 모멘텀이 강한(수익률이 높은) 상위 5개 종목을 선별
momentum_series.nlargest(5)

DB        0.141678
DB금융투자    0.118421
CJ헬로      0.087822
AJ렌터카     0.057269
AK홀딩스     0.020464
dtype: float64