<a href="https://colab.research.google.com/github/kookeej/AI-study/blob/main/Library/pandas02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pandas
===
*이 내용은 [위키독스](https://wikidocs.net/)의 [금융 데이터 분석을 위한 파이썬 Pandas](https://wikidocs.net/book/3488)으로 데이터 시각화하기를 보며 직접 실습하며 필기한 내용이므로 내용이 상당 부분 겹칩니다.*

## 목차

# 1. DataFrame
```DataFrame```은 Pandas가 제공하는 2차원 데이터 자료구조다. 쉽게 말하면 표, 또는 엑셀 프로그램에서 하나의 Sheet라고 보면 된다.     

![](https://wikidocs.net/images/page/46828/01.png)    

위 그림에서 보면 '종목코드', '종목명', '현재가', '대비', '등락률'이라는 5개의 columns로 이루어져 있다. 이 2차원 데이터를 DataFrame으로 표현해보자. DataFrame을 생성하기 위해서는,
* 2차원 데이터 자체를 파이썬 리스트, 또는 딕셔너리로 표현해야 한다.
* DataFrame 클래스 생성자를 호출하여 객체를 생성한다.    

아래 표를 DataFrame으로 나타내보자.    
![](https://wikidocs.net/images/page/46828/02.png)    

DataFrame의 생성은 아래 세 가지 방법을 많이 사용한다.
* 딕셔너리로 데이터프레임 생성
* 리스트로 데이터프레임 생성
* 리스트와 딕셔너리로 데이터프레임 생성

> ### 딕셔너리로 데이터프레임 생성



In [None]:
from pandas import DataFrame

data = {
    '종목코드': ['037730', '036360', '005760'],
    '종목명': ['3R', '3SOFT', 'ACTS'],
    '현재가': [1510, 1790, 1185]
}

df = DataFrame(data)        # DataFrame 클래스의 객체 생성(생성자 호출)
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


> ### 리스트로 데이터프레임 생성

In [None]:
# 2차원 데이터의 각 행을 리스트로 표현한 후 리스트 안에 리스트를 넣어준다.
data = [
        ["037730", "3R", 1510],
        ["036360", "3SOFT", 1790],
        ["005760", "ACTS", 1185]
]

# 데이터프레임의 칼럼 인자로 칼럼 레이블을 넘겨준다.
columns = ["종목코드", "종목명", "현재가"]

# 데이터프레임 객체 생성
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


> ### 리스트와 딕셔너리로 데이터프레임 생성

In [None]:
# 리스트로 행 단위로 데이터를 표현하면서 데이터에 레이블을 붙여 각 행을 하나의 딕셔너리로 표현
data = [
        {"종목코드": "037730", "종목명": "3R", "현재가": 1510},
        {"종목코드": "036360", "종목명": "3SOFT", "현재가": 1790},
        {"종목코드": "005760", "종목명": "ACTS", "현재가": 1185}
]

df = DataFrame(data=data)
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


## 1.1. 인덱싱
인덱스 단위로 Series에 접근해서 데이터를 가져오는 일이 빈번하므로 하나의 행을 대표하는 인덱스를 지정하는 것은 매우 중요하다. 

In [None]:
data = [
        ["037730", "3R", 1510],
        ["036360", "3SOFT", 1790],
        ["005760", "ACTS", 1185]
]

# 데이터프레임의 칼럼 인자로 칼럼 레이블을 넘겨준다.
columns = ["종목코드", "종목명", "현재가"]

# 데이터프레임 객체 생성
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


데이터프레임에 자동으로 생성된 0, 1, 2라는 인덱스 대신 행을 대표하는 종목코드로 인덱스를 변경해보자. ```set_index()``` 메소드를 사용하면 원본 데이터를 변경하지 않고 새로운 인덱스가 설정된 새로운 데이터프레임을 리턴한다. 따라서 결과값을 변수에 바인딩해야 한다.

In [None]:
df = df.set_index('종목코드')
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5760,ACTS,1185


데이터프레임 객체를 생성함과 동시에 인덱스를 지정할 수도 있다. 인덱스로 사용할 값들을 별도의 리스트로 구성한다.

In [None]:
data = [
        ["037730", "3R", 1510],
        ["036360", "3SOFT", 1790],
        ["005760", "ACTS", 1185]
]

index = ["037730", "036360", "005760"]
columns = ["종목코드", "종목명", "현재가"]

# 데이터프레임 객체 생성
df = DataFrame(data=data, index=index, columns=columns)
df.index.name="종목코드"
df

Unnamed: 0_level_0,종목코드,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,37730,3R,1510
36360,36360,3SOFT,1790
5760,5760,ACTS,1185


## 1.2. Columns
데이터프레임은 columns 또는 row 단위로 인덱싱할 수 있다. 데이터프레임 객체에 []안에 칼럼 이름을 넣으면 해당 칼럼의 데이터를 모두 선택한다.


In [None]:
data = [
        ["037730", "3R", 1510, 7.36],
        ["036360", "3SOFT", 1790, 1.65],
        ["005760", "ACTS", 1185, 1.28]
]

# 데이터프레임의 칼럼 인자로 칼럼 레이블을 넘겨준다.
columns = ["종목코드", "종목명", "현재가", "등락률"]

# 데이터프레임 객체 생성
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')
df["현재가"]

종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64

종목코드를 인덱스로 하는 현재가 칼럼이 Series로 출력된다. 데이터프레임과 같은 문자열 인덱스가 시리즈의 인덱스로 사용된다.    

데이터 프레임은 시리즈와 동일하게  여러 개의 칼럼을 슬라이싱할 수 있다. 

In [None]:
L = ["현재가", "등락률"]
df[L]

Unnamed: 0_level_0,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


이렇게 불연속적인 데이터도 쉽게 슬라이싱하여 나타낼 수 있다.

## 1.3. Rows
데이터프레임에서 row 단위로 인덱싱하려면 ```loc```, ```iloc```를 사용해야 한다.
* ```loc```: 인덱스를 기준으로 row 데이터 추출
* ```iloc```: 행 번호를 기준으로 row 데이터 추출    

출력 결과를 확인해보면 인덱싱한 row는 Series다.


In [None]:
data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')

df.loc["037730"]

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

In [None]:
print(df.iloc[0])
print(df.iloc[-1])          # iloc를 사용하여 음수 인덱스까지 활용할 수 있다.

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명    ACTS
현재가    1185
등락률    1.28
Name: 005760, dtype: object


In [None]:
df.loc[["037730", "036360"]]
df.iloc[[0, 1]]

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


## 1.4. 특정 값 가져오기
데이터프레임에서 특정 하나의 값에 접근할 수 있다. 인덱스를 먼저 지정하고 해당 칼럼을 지정해서 얻을 수 있고, 또는 해당 칼럼을 먼저 지정하고 인덱스를 지정해서 얻을 수 있다.    

In [None]:
from pandas import DataFrame

data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
df = df.set_index("종목코드")

print(df.iloc[0])
print(df.loc["037730"])

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object
종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object


이제 시리즈의 문자열 인덱싱 또는 시리즈의 정수 인덱싱을 사용하면 하느이 값을 얻을 수 있을 것이다.

In [None]:
print(df.iloc[0].iloc[1])
print(df.iloc[0][1])
print(df.iloc[0].loc['현재가'])
print(df.iloc[0]['현재가'])

print(df.loc['037730'].iloc[1])
print(df.loc['037730'][1])
print(df.loc['037730'].loc['현재가'])
print(df.loc['037730']['현재가'])

1510
1510
1510
1510
1510
1510
1510
1510


loc에 rows 인덱스와 columns의 레이블을 순서대로 입력하면 특정 row/column에 있는 값에 접근할 수 있다. 또는 iloc 속성에 row의 행 번호와 column의 순서 값을 입력해도 된다.

In [None]:
print(df.loc['037730', '현재가'])
print(df.iloc[0, 1])

1510
1510


또한 데이터프레임의 column에 먼저 접근하고 row를 선택할 수도 있다.

In [None]:
print(df['현재가'].loc['037730'])
print(df['현재가']['037730'])
print(df['현재가'].iloc[0])
print(df['현재가'][0])

1510
1510
1510
1510


## 1.6. 특정 범위 가져오기
이번에는 특정 범위의 데이터에 접근한다. 

In [None]:
data = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005760", "ACTS", 1185, 1.28],
]
columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data, columns=columns)
df = df.set_index("종목코드")

print(df.loc[ ['037730', '036360'] ])
df.iloc[ [0, 1] ]

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


결과를 살펴보면 두 개의 행이 선택된 데이터프레임이 출력된다는 것을 알 수 있다.

필요한 행들이 포함된 데이터프레임에서 다시 칼럼들을 인덱싱하면 해당하는 데이터만 선택할 수 있다.

In [None]:
df = df.loc[ ['037730', '036360'] ]
df[ ['종목명', '현재가'] ]

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790


In [None]:
df.loc[['037730', '036360'], ['종목명', '현재가']]

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790


In [None]:
df.iloc[[0, 1], [0, 1]]

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790


데이터프레임에서 **불리언 인덱싱**을 사용하면 특정 조건을 만족할 때의 값들을 선택할 수 있다. row 인덱스 자리에 조건 비교를 적용한 시리즈를 입력한다.

In [None]:
cond = df['현재가'] >= 1400
df.loc[cond, '현재가']

종목코드
037730    1510
036360    1790
Name: 현재가, dtype: int64

## 1.7. Columns 추가하기
5일간의 네이버 일별 시세를 데이터프레임 객체로 표현해보자.

In [None]:
data = [
    [112000, 112500, 109500, 110500],
    [114000, 114500, 110500, 111000],
    [113000, 115000, 112000, 115000],
    [111500, 112500, 110000, 111500],
    [111000, 114000, 109500, 112000],
]

columns = ['시가', '고가', '저가', '종가']
index = ['2019-06-05', '2019-06-04', '2019-06-03', '2019-05-31', '2019-05-30']

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000


이렇게 데이터프레임을 생성했다. 거래일별로 '변동성'이라는 칼럼을 추가할 것이다. 변동성은 '고가-저가'로 정의된다.

In [None]:
df = DataFrame(data=data, index=index, columns=columns)
df['변동성'] = df['고가'] - df['저가']
df

Unnamed: 0,시가,고가,저가,종가,변동성
2019-06-05,112000,112500,109500,110500,3000
2019-06-04,114000,114500,110500,111000,4000
2019-06-03,113000,115000,112000,115000,3000
2019-05-31,111500,112500,110000,111500,2500
2019-05-30,111000,114000,109500,112000,4500


## 1.8. Rows 추가하기
이번에는 새로운 날짜의 row 데이터를 추가해보겠다. 먼저 ```loc```속성을 사용할 수 있다.    

> ## loc

In [None]:
from pandas import Series

df = DataFrame(data=data, index=index, columns=columns)
df.loc['2019-05-29'] = Series([109000, 111000, 108500, 109500], index=columns)
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500


>## append
데이터프레임의 append 메소드를 사용해서 row를 추가할 수도 있다. append 메소드를 사용하면 기존의 데이터프레임은 그대로 유지되고 row가 추가된 새로운 데이터프레임 객체가 생성된다.

In [None]:
df = DataFrame(data=data, index=index, columns=columns)
ohlc = [109000, 111000, 108500, 109500]
s = Series(data=ohlc, index=columns, name='2019-05-29')
new_df = df.append(s)
new_df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500


 또한, append 메소드는 **데이터프레임 객체**를 넘겨줄 수도 있다. 두 개의 데이터프레임을 합치는 것이다.

In [None]:
df = DataFrame(data=data, index=index, columns=columns)
ohlc = [ [109000, 111000, 108500, 109500] ]         # 2차원 리스트로 표현해야 한다.
row_df = DataFrame(data=ohlc, index=['2019-05-29'], columns=columns)
new_df = df.append(row_df)
new_df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000
2019-05-29,109000,111000,108500,109500


데이터프레임은 2차원이기 때문에 2차원 리스트로 표현하는 것이 중요하다. 그렇지 않으면 기존의 데이터프레임에 추가할 수 없다. row가 아무리 한 줄이라도 이차원 리스트로 데이터를 표현해야 한다.

## 1.9. columns/rows 삭제하기

우리는 ```drop()``` 메소드를 사용하여 특정 columns이나 rows를 삭제할 수 있다.

In [None]:
from pandas import Series, DataFrame

data = [
    [112000, 112500, 109500, 110500],
    [114000, 114500, 110500, 111000],
    [113000, 115000, 112000, 115000],
    [111500, 112500, 110000, 111500],
    [111000, 114000, 109500, 112000],
]

columns = ['시가', '고가', '저가', '종가']
index = ['2019-06-05', '2019-06-04', '2019-06-03', '2019-05-31', '2019-05-30']

df = DataFrame(data=data, index=index, columns=columns)

df2 = df.drop('시가', axis=1)
df2

Unnamed: 0,고가,저가,종가
2019-06-05,112500,109500,110500
2019-06-04,114500,110500,111000
2019-06-03,115000,112000,115000
2019-05-31,112500,110000,111500
2019-05-30,114000,109500,112000


In [None]:
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500
2019-05-30,111000,114000,109500,112000


'시가' column이 사라진 것을 확인할 수 있다. 여기서 axis=1은 칼럼의 레이블, axis=0은 인덱스를 의미한다.     

데이터프레임의 drop 메소드는 원본 데이터프레임을 변경하는 것이 아니라 특정 칼럼이나 로우가 제거된 데이터프레임을 새로 반환한다.     

데이터프레임에서 특정 row를 삭제하기 위해서는 drop 메소드에 삭제할 row의 index와 axis=0으로 넘겨주면 된다.

In [None]:
df = DataFrame(data=data, index=index, columns=columns)

df2 = df.drop('2019-05-30', axis=0)
df2

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500


원본 데이터프레임에서 로우나 칼럼을 바로 삭제하고자 한다면 inplace 항목에 True값을 넘겨주면 된다.

In [None]:
df.drop('2019-05-30', axis=0, inplace=True)
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000
2019-06-03,113000,115000,112000,115000
2019-05-31,111500,112500,110000,111500


한 번에 여러 개의 로우나 칼럼을 삭제하고자 하는 경우 리스트 형태로 인덱스나 칼럼의 레이블을 넘겨주면 된다.

In [None]:
df.drop(['2019-05-31', '2019-06-03'], axis=0, inplace=True)
df

Unnamed: 0,시가,고가,저가,종가
2019-06-05,112000,112500,109500,110500
2019-06-04,114000,114500,110500,111000


## 1.10. Columns 레이블 변경
이미 생성된 데이터프레임에 대햇 칼럼 레이블과 인덱스의 이름을 수정하는 방법이다.

In [None]:
data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005760", "ACTS", 1185],
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')

print(df.columns)
print(df.index)

Index(['종목명', '현재가'], dtype='object')
Index(['037730', '036360', '005760'], dtype='object', name='종목코드')


먼저 변경할 칼럼의 이름을 리스트로 정의하고 columns 속성에 바인딩한다. 여기서 중요한 점은 **변경하려는 칼럼 이름의 개수와 기존에 정의된 칼럼 이름의 개수가 동일해야 한다.** 

In [None]:
df.columns = ['name', 'close']
df.index.name = 'code'
df

Unnamed: 0_level_0,name,close
code,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5760,ACTS,1185


제대로 변경된 것을 확인할 수 있다. 여기서 헷갈릴 수 있는 점은 '코드명'dmf ```df.index.name = 'code'```로 따로 정의했다는 점이다.

## 1.11. 데이터 타입 변경
데이터프레임의 정의도니 데이터 타입을 변경할수 있다. 여기에는 여러가지 메소드가 사용된다.
* ```apply()```
* ```remove_comma()```
* ```replace()```
* ```astype()```    

In [None]:
from pandas import DataFrame
import numpy as np

data = [
    ["037730", "3R", '1,510'],
    ["036360", "3SOFT", '1,790'],
    ["005760", "ACTS", '1,185'],
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


여기서 '현재가'는 문자열로 정의되어 있다. 이 문자열을 정수로 바꾸려면 먼저 콤마부터 제거해야한다. 여기서 ```remove_comma()```와 ```apply()```를 사용한다. apply()는 로우 또는 칼럼에 함수를 적용시켜주는 메소드다.

In [None]:
def remove_comma(x):
    return x.replace(',', '')

df['현재가'] = df['현재가'].apply(remove_comma)
print(df.dtypes)
df

종목코드    object
종목명     object
현재가     object
dtype: object


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


데이터의 타입은 object다. 하지만 콤마가 제거된 것을 확인할 수 있다.여기서 object는 파이썬에서 문자열 타입과 같다. 즉, 종목코드, 종목명, 현재가가 모두 문자열로 되어있다는 것을 의미한다.    

이제 본격적으로 데이터타입으르 변경한다. ```astype()``` 메소드를 사용한다. 이 메소드는 변경하고자 하는 칼럼의 이름과 데이터 타입을 딕셔너리의 키와 값 형태로 표현하면 된다.

In [None]:
df = df.astype({ '현재가': np.int64 })
print(df.dtypes)
df

종목코드    object
종목명     object
현재가      int64
dtype: object


Unnamed: 0,종목코드,종목명,현재가
0,37730,3R,1510
1,36360,3SOFT,1790
2,5760,ACTS,1185


여기서 '현재가'칼럼의 데이터가 정수로 변경된 것을 확인할 수 있다.

## 1.12. 정렬 및 순위
이제 데이터프레임에 대해서 정렬 및 순위를 매겨보자. 기본적으로 Series 객체와 동일하다.    

### 1.12.1. 정렬
데이터프레임 객체는 여러 개의 칼럼으로 구성되기 때문에 ```sort_values(by='칼럼 이름')``` 형태로 메소드를 사용한다.

In [None]:
data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005760", "ACTS", 1185],
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목코드')

# 현재가를 기준으로 정렬 
df2 = df.sort_values(by='현재가')
df2

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5760,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


만약 내림차순으로 정렬하려면 아래 코드와 같이 해준다.

In [None]:
df2 = df.sort_values(by='현재가', ascending=False)
df2

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
36360,3SOFT,1790
37730,3R,1510
5760,ACTS,1185


### 1.12.2. 순위
현재가가 낮은 종목부터 순위를 매겨본다. 데이터프레임에서 칼럼을 선택한 뒤, ```rank()```를 호출하면 된다.

In [None]:
df['순위'] = df['현재가'].rank()
df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5760,ACTS,1185,1.0


이제는 순위를 기준으로 정렬해보자.

In [None]:
df.sort_values(by='순위')

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5760,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


## 1.13. 위/아래로 붙이기
두 개의 데이터프레임의 칼럼이 같을 때, 위 아래로 붙여서 새로운 데이터프레임을 생성할 수 있다. ```append()```를 사용하면 손쉽게 이어붙일 수 있다.

In [None]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

data = {
    '종가': [110000, 109000],
    '거래량': [483689, 791746]
}
index = ['2019-06-19', '2019-06-18']
df2 = DataFrame(data=data, index=index)

df = df1.append(df2)
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,483689
2019-06-18,109000,791746


```append()```는 데이터프레임의 끝에 파라미터로 전달된 데이터프레임을 추가하는 것이다. 또한 원본 데이터를 수정하는 것이 아닌 새로운 데이터프레임을 반환한다.    

판다스 모듈에는 ```concat()```메소드가 정의되어 있다. 여러 개의 데이터프레임을 리스트로 전달하면, 모든 데이터프레임을 연결해서 그 결과를 데이터프레임으로 반환한다.

In [None]:
import pandas as pd

df = pd.concat([df1, df2])
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,483689
2019-06-18,109000,791746


## 1.14. 옆으로 붙이기
데이터프레임을 좌우로 붙일 수 있다. 보통 인덱스는 동일한데 칼럼의 데이터가 분리되어 있을 경우 이를 붙여서 하나의 데이터프레임으로 만들어 사용한다.     

여기서 ```concat()```을 사용한다. 이 메소드는 보통 데이터프레임 객체를 위아래로 연결하지만, axis=1을 전달하면 좌우로 연결해준다. 이 때 데이터프레임은 같은 인덱스를 갖고 있어야한다.

In [None]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}
index = ['2019-06-21', '2019-06-20']
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000,555850,112500,115000,111500
2019-06-20,111500,282163,110000,112000,109000


하지만 칼럼의 순서가 적절치 않다. 우리는 시가, 고가, 저가, 종가, 거래량 순으로 만들고 싶다.

In [None]:
순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[순서]
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


이렇게 리스트를 이용하여 다시 df에 대입해주는 것만으로 손쉽게 칼럼의 순서를 변경할 수 있다.

## 1.15. DataFrame과 엑셀


In [None]:
# 엑셀을 데이터프레임으로 불러오기
df = pd.read_excel('data.xlsx')

# 데이터프레임을 엑셀로 저장
df = DataFrame(data=data, index=index, columns=columns)
df.to_excel("data.xlsx", sheet_name='035420')   # 시트 이름은 035420

# 인덱스를 생략한 채로 저장하려면
df.to_excel("data.xlsx", sheet_name='035420', index=False)

***

# 2. 시계열 데이터 다루기
## 2.1. Datetime


In [2]:
from pandas import DataFrame

data = [
    [9450, 9490, 9160, 9220, 145794],
    [9380, 9570, 9330, 9490, 57571],
    [9220, 9400, 9100, 9380, 131427],
    [9200, 9250, 9030, 9230, 66893],
    [9350, 9600, 9070, 9200, 138861]
]

columns = ["시가", "고가", "저가", "종가", "거래량"]
index = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-07,9450,9490,9160,9220,145794
2019-06-05,9380,9570,9330,9490,57571
2019-06-04,9220,9400,9100,9380,131427
2019-06-03,9200,9250,9030,9230,66893
2019-05-31,9350,9600,9070,9200,138861


In [3]:
df.index

Index(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03', '2019-05-31'], dtype='object')

이렇게 날짜가 문자열로 표현되어 있을 때는 두 값의 시간 차이를 계산하기 어렵다. 따라서 시간을 다루는 데이터 타입으로 변환해야한다. 그럴 때는 ```to_datetime()```메소드를 사용한다.

In [5]:
import pandas as pd

dates = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]
index = pd.to_datetime(dates)
index

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)

확인해보면 데이터 타입이 datetime64[ns]로 된 것을 확인할 수 있다.    

여기서 중요한 점은 날짜의 구분자가 '-'가 아닐 경우 제대로된 데이터로 변환되지 않는다.

In [6]:
dates = ["19/06/07", "19/06/05", "19/06/04", "19/06/03", "19/05/31"]
index = pd.to_datetime(dates)
index

DatetimeIndex(['2007-06-19', '2005-06-19', '2004-06-19', '2003-06-19',
               '2031-05-19'],
              dtype='datetime64[ns]', freq=None)

위 결과를 살펴보면 데이터 타입은 datatime64[ns]가 되었지만 데이터가 잘못된 값으로 변경된 것을 확인할 수 있다. 이 문제를 해결하려면 format인자를 사용하여 변경해주면 된다.

In [7]:
dates = ["19/06/07", "19/06/05", "19/06/04", "19/06/03", "19/05/31"]
index = pd.to_datetime(dates, format='%y/%m/%d')
index

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)

format을 사용해주면 데이터 값이 제대로 변경된 것을 확인할 수 있다.

In [8]:
data = [
    [9450, 9490, 9160, 9220, 145794],
    [9380, 9570, 9330, 9490, 57571],
    [9220, 9400, 9100, 9380, 131427],
    [9200, 9250, 9030, 9230, 66893],
    [9350, 9600, 9070, 9200, 138861]
]

columns = ["시가", "고가", "저가", "종가", "거래량"]
index = ["2019-06-07", "2019-06-05", "2019-06-04", "2019-06-03", "2019-05-31"]
df = DataFrame(data=data, index=pd.to_datetime(index), columns=columns)
print(df.index)

DatetimeIndex(['2019-06-07', '2019-06-05', '2019-06-04', '2019-06-03',
               '2019-05-31'],
              dtype='datetime64[ns]', freq=None)


위 결과를 살펴보면 인덱스가 **Datetimeindex**로 변경된 것을 확인할 수 있다. 이렇게 변경해주었을 때의 장점은, df['2019-06']으로만 입력해주면 2019년 6월 데이터만 추출해준다. 문자열일 때는 해당 인덱스가 존재하지 않기 때문에 에러를 발생시킨다. 따라서 시계열 데이터를 다룰 때는 항상 인덱스를 문자열이 아니라 DatetimeIndex로 저장해야한다!

## 2.2. pykrx 모듈
```pykrx``` 모듈을 사용하여 주식 종목에 대한 실제 일봉 데이터를 다룰 수 있다. 이 모듈은 한국 거래소에서 유가 증권 데이터를 스크래핑 후 데이터 프레임으로 값을 반환한다.     

먼저 ```pip install pykrx```를 통해 해당 모듈을 다운로드한다.

In [11]:
!pip install pykrx

Collecting pykrx
  Downloading pykrx-1.0.18-py3-none-any.whl (81 kB)
[K     |████████████████████████████████| 81 kB 5.8 MB/s 
Collecting datetime
  Downloading DateTime-4.3-py2.py3-none-any.whl (60 kB)
[K     |████████████████████████████████| 60 kB 5.5 MB/s 
Collecting deprecated
  Downloading Deprecated-1.2.12-py2.py3-none-any.whl (9.5 kB)
Collecting zope.interface
  Downloading zope.interface-5.4.0-cp37-cp37m-manylinux2010_x86_64.whl (251 kB)
[K     |████████████████████████████████| 251 kB 23.1 MB/s 
Installing collected packages: zope.interface, deprecated, datetime, pykrx
Successfully installed datetime-4.3 deprecated-1.2.12 pykrx-1.0.18 zope.interface-5.4.0


In [12]:
from pykrx import stock

df = stock.get_market_ohlcv_by_date('20190501', '20190531', '005930')

In [13]:
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-02,45500,46150,45400,45900,8625126
2019-05-03,45900,46050,45300,45300,6562916
2019-05-07,45250,45300,44400,44850,12014907
2019-05-08,44300,44850,44200,44250,10398754
2019-05-09,43900,44250,42450,42450,23029718


이렇게 처음 5개의 로우가 화면에 출력된 것을 확인할 수 있다.

In [14]:
df = stock.get_market_ohlcv_by_date('20190527', '20190531', '006800')
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-27,7460,7490,7370,7460,723476
2019-05-28,7460,7580,7400,7510,2170327
2019-05-29,7490,7510,7340,7400,1552507
2019-05-30,7420,7550,7400,7530,1331640
2019-05-31,7500,7540,7440,7460,1370651


위 결과는 미레에셋대우의 5월 27일부터 5월 31일 까지의 OHLCV이다.     
이번에는 미래에셋대우의 2019-05-31 종가 데이터를 출력해보자. 

In [17]:
df.loc['20190531']['종가']
df.iloc[4][3]
df.loc['20190531', '종가']
df.iloc[4, 3]

# 세 값 모두 같은 값이 나온다.

7460

이번에는 동일 거래일 동안 시가 대비 종가가 상승 마감한 날을 출력해본다. 불리언 값을 만들어서 사용한다.

In [18]:
cond = df['종가'] > df['시가']
df[cond]

Unnamed: 0_level_0,시가,고가,저가,종가,거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-28,7460,7580,7400,7510,2170327
2019-05-30,7420,7550,7400,7530,1331640


```get_market_ohlcv_by_date()```는 수정 종가를 반영한 가격정보를 반환한다. 만약 수정 종가를 반영하지 않은 데이터를 얻기 위해서는 ```adjusted=False```를 해준다.

In [21]:
df = stock. get_market_ohlcv_by_date("20180101", "20190531", "005930", adjusted=False)
df.head()

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,거래대금,등락률
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-01-02,2569000,2570000,2539000,2551000,169485,432677351468,0.12
2018-01-03,2627000,2628000,2571000,2581000,200270,518345810160,1.18
2018-01-04,2606000,2609000,2532000,2554000,233909,600531577700,-1.05
2018-01-05,2565000,2606000,2560000,2606000,189623,490792925116,2.04
2018-01-08,2620000,2626000,2575000,2601000,167673,435974098536,-0.19


## 2.3. 칼럼 시프트
일별 시세 데이터 중 각 거래일의 거래량이 전날 거래량보다 증가한 경우를 찾는 경우를 생각해보자. ```shift()``` 메소드를 사용하면 원하는 수만큼 시프트 시킬 수 있다.

In [26]:
from pykrx import stock

df = stock.get_market_ohlcv_by_date('20190101', '20190630', '005930')

df['전날거래량'] = df['거래량'].shift(1)
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,전날거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-02,39400,39400,38550,38750,7847664,
2019-01-03,38300,38550,37450,37600,12471493,7847664.0
2019-01-04,37450,37600,36850,37450,14108958,12471493.0
2019-01-07,38000,38900,37800,38750,12748997,14108958.0
2019-01-08,38000,39200,37950,38100,12756554,12748997.0
...,...,...,...,...,...,...
2019-06-24,45200,45800,45200,45500,6085066,9454913.0
2019-06-25,45200,45800,45200,45600,7076774,6085066.0
2019-06-26,45800,46000,45600,45700,9226097,7076774.0
2019-06-27,46000,46600,45750,46500,12603534,9226097.0


위 코드는 거래량 칼럼의 데이터를 모두 한 로우씩 밑으로 시프트 시킨 후 이를 '전날 거래량'이라는 이름으로 추가하는 코드다. 

In [27]:
cond = df['거래량'] > df['전날거래량']
df[cond]

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,전날거래량
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-01-03,38300,38550,37450,37600,12471493,7847664.0
2019-01-04,37450,37600,36850,37450,14108958,12471493.0
2019-01-08,38000,39200,37950,38100,12756554,12748997.0
2019-01-09,38650,39600,38300,39600,17452708,12756554.0
2019-01-14,40450,40700,39850,40050,11984996,11661063.0
2019-01-17,41700,42100,41450,41950,11736903,8491595.0
2019-01-21,42700,42750,41900,42750,11355701,11029256.0
2019-01-23,41350,42250,41350,42000,11071079,9964356.0
2019-01-24,43050,43100,42350,43050,14747623,11071079.0
2019-01-25,44300,44750,43750,44750,22789395,14747623.0


위 코드는 불리언 조건을 만든 후에 거래량이 전날거래량보다 증가한 거래일을 출력하는 코드다.    

그렇다면 전일 대비 거래량이 증가한 날이 며칠이나 되는지를 계산하는 방법은 무엇일까? ```len()``` 함수를 사용하면 된다.

In [28]:
print('상승일:', len(df[cond]))
print('영업일:', len(df))

상승일: 58
영업일: 121


이번에는 전일 종가대비 시초가가 상승 출발한 날을 구해보자. 종가를 shift(1)해서 비교할 수 있지만 이번에는 음수 shift를 이용해서 비교해보자. 다음날 시가가 비교하려는 종가가 같은 로우에 위치하기 때문에 쉽게 비교할 수 있다.

In [29]:
cond = df['종가'] > df['시가'].shift(-1)
print(len(df[cond]))

53


전체 영업일 중 53일이 상승출발 하였다.

## 2.4. 이동 평균
5일 주가 이동평균선은 각 거래일을 기준으로 계산한 5일 주가 이동평균을 차례로 연결하여 그래프로 표현한 것이다.    

이동 평균을 계산하기 위해서는 각 거래일의 종가를 shift한 후, row 단위로 연산을 적용하면 된다. 판다스 시리즈 객체는 이동 평균 등을 쉽게 계산하기 위한 ```rolling()``` 메소드를 제공한다.

In [30]:
df = stock.get_market_ohlcv_by_date('20180101', '20180531', '005930')
df['5일이동평균'] = df['종가'].rolling(window=5).mean()
df

Unnamed: 0_level_0,시가,고가,저가,종가,거래량,5일이동평균
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-02,51380,51400,50780,51020,169485,
2018-01-03,52540,52560,51420,51620,200270,
2018-01-04,52120,52180,50640,51080,233909,
2018-01-05,51300,52120,51200,52120,189623,
2018-01-08,52400,52520,51500,52020,167673,51572.0
...,...,...,...,...,...,...
2018-05-25,51000,52800,50800,52700,15207266,51080.0
2018-05-28,52500,53000,52000,52300,9787820,51640.0
2018-05-29,52200,52500,51300,51300,8480437,51900.0
2018-05-30,51300,51500,49100,49500,20498098,51440.0


값을 확인해보면 1월 5일가지는 데이터가 없기 때문에 5일 이동 평균값이 존재하지 않고(NaN), 그 후부터는 이동평균들이 정상적으로 출력된 것을 확인할 수 있다.    

주어진 기간동안 시가가 5일 이동평균선을 돌파한 횟수를 세어보자. 당일 종가까지 포함해서 계산한 5일 이동평균을 다음날의 시가와 비교해야 한다. 

In [32]:
cond = df['5일이동평균'].shift(1) < df['시가']
print("상승일:", len(df[cond]))
print("영업일:", len(df))

상승일: 42
영업일: 102
