# Numpy

## ndarray

In [551]:
# numpy 라이브러리 임포트
import numpy as np

In [552]:
data = [1, 2, 3, 4]
arr = np.array(data)
print("data :", data)
print("arr :", arr)
print("type(arr) :", type(arr))

data : [1, 2, 3, 4]
arr : [1 2 3 4]
type(arr) : <class 'numpy.ndarray'>


In [553]:
data1 = [1, 2, 3, 4]
arr1 = np.array(data1)
print("data1 :", data1)
print("arr1 :", arr1)
print("type(arr1) :", type(arr1))

data1 : [1, 2, 3, 4]
arr1 : [1 2 3 4]
type(arr1) : <class 'numpy.ndarray'>


* python List 보다 Numpy ndarray가 속도가 빠르다
* c로 구현된 Numpy가 더 빠르다

### 2차원 array

In [554]:
# 2차원 리스트
data2d = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]

# 2차원 리스트는 행단위 인덱싱만 가능
print(data2d[0])

[1, 2, 3]


In [555]:
arr = np.array(data2d)
print("1번째 열 :", arr[:, 0])    # [행, 열]로 열단위 인덱싱 가능

1번째 열 : [1 4 7]


### numpy 함수

#### ndim, shape, dtype

In [556]:
data2 = [
    [1, 2],
    [3, 4]
]
arr2 = np.array(data2)

print("arr2 :", arr2, sep='\n')
print("type(arr2) :", type(arr2))
print("type(arr2[0]) :", type(arr2[0]))
print("type(arr2[0, 0]) :", type(arr2[0, 0]))

arr2 :
[[1 2]
 [3 4]]
type(arr2) : <class 'numpy.ndarray'>
type(arr2[0]) : <class 'numpy.ndarray'>
type(arr2[0, 0]) : <class 'numpy.int64'>


In [557]:
print("arr2.shape :", arr2.shape)   # (행, 열)
print("arr2.ndim :", arr2.ndim)    # 차원
print(arr2.dtype)   # 원소 타입

arr2.shape : (2, 2)
arr2.ndim : 2
int64


In [558]:
print("arr1.shape :", arr1.shape)   # (4,) = (1, 4)
# 1차원 배열은 (열,) 형태로 출력됨
print("arr1.ndim :", arr1.ndim)    # 차원

arr1.shape : (4,)
arr1.ndim : 1


In [559]:
data = [
    [1],
    [2],
    [3],
    [4]
]
c = np.array(data)
print(c.shape)
print(c.ndim)

(4, 1)
2


#### ones, zeros, arange

* zeros, ones : 결측치가 있는 데이터를 불러오기 전 초기화할 떄 사용

In [560]:
print(np.zeros(3))
print(np.ones(3))

[0. 0. 0.]
[1. 1. 1.]


In [561]:
size = (3, 4)
print(np.zeros(size))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [562]:
print(np.arange(5))         # [0, 5)
print(np.arange(1, 5))      # [1, 5)
print(np.arange(1, 20, 2))  # [1, 20) d = 2

[0 1 2 3 4]
[1 2 3 4]
[ 1  3  5  7  9 11 13 15 17 19]


#### reshape

In [563]:
# 1행 6열 배열
ndarr1 = np.arange(6)           # (6,)
print(ndarr1)

# 2행 3열 배열로 변환
ndarr2 = ndarr1.reshape(2, 3)   # (2, 3)
print(ndarr2)

[0 1 2 3 4 5]
[[0 1 2]
 [3 4 5]]


* boolean = 논리형
* int = 정수형
* float = 실수형
* string = 문자형
* 메모리에서 데이터가 차지하는 사이즈를 줄이기 위해 존재 = 최적화를 위해

### 인덱싱

In [564]:
arr = np.arange(4)
print("arr :", arr)
print("arr[0] :", arr[0])

arr : [0 1 2 3]
arr[0] : 0


In [565]:
arr = np.arange(4).reshape(2, 2)
print("np.arange(4).reshape(2, 2) :\n", arr)
print(arr[0])
print(arr.reshape(-1, 2))

np.arange(4).reshape(2, 2) :
 [[0 1]
 [2 3]]
[0 1]
[[0 1]
 [2 3]]


In [566]:
print(arr[0][0])
print(arr[0, 0])

0
0


### 슬라이싱

In [567]:
arr = np.arange(4)
print("arr :", arr)
print("arr[:2] :", arr[:2])
print("arr[::] :", arr[::])
print("arr[1:3] :", arr[1:3])

arr : [0 1 2 3]
arr[:2] : [0 1]
arr[::] : [0 1 2 3]
arr[1:3] : [1 2]


In [568]:
print(arr[1:2], arr[1])
print(type(arr[1:2]), type(arr[1]))

[1] 1
<class 'numpy.ndarray'> <class 'numpy.int64'>


* 인덱싱 결과 : 원소
* 슬라이싱 결과 : ndarray

In [569]:
arr = np.arange(20).reshape(4, 5)
print(arr[:2])

[[0 1 2 3 4]
 [5 6 7 8 9]]


* 2차원 배열 인덱싱 순서: 행 접근 -> 열 접근

In [570]:
result = []
for row in arr:
    row_01 = [row[0], row[1]]
    print("row_01 :", row_01)
    result.append(row_01)
    print("result :", result)
print(result)

row_01 : [np.int64(0), np.int64(1)]
result : [[np.int64(0), np.int64(1)]]
row_01 : [np.int64(5), np.int64(6)]
result : [[np.int64(0), np.int64(1)], [np.int64(5), np.int64(6)]]
row_01 : [np.int64(10), np.int64(11)]
result : [[np.int64(0), np.int64(1)], [np.int64(5), np.int64(6)], [np.int64(10), np.int64(11)]]
row_01 : [np.int64(15), np.int64(16)]
result : [[np.int64(0), np.int64(1)], [np.int64(5), np.int64(6)], [np.int64(10), np.int64(11)], [np.int64(15), np.int64(16)]]
[[np.int64(0), np.int64(1)], [np.int64(5), np.int64(6)], [np.int64(10), np.int64(11)], [np.int64(15), np.int64(16)]]


In [571]:
display(arr)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [572]:
print(arr[:2, :2])

[[0 1]
 [5 6]]


In [573]:
print(arr[1:4, 2:5])
print(arr[1:, 2:])

[[ 7  8  9]
 [12 13 14]
 [17 18 19]]
[[ 7  8  9]
 [12 13 14]
 [17 18 19]]


### 브로드 캐스팅

In [574]:
# 뒤축의 길이가 같고, 둘 중 어느 하나의 축이 1인 경우 브로드캐스팅 가능
arr_high = np.array([92700, 92400, 92100, 94300, 92300])    # (5,)
arr_low = np.array([90000, 91100, 91700, 92100, 90900])     # (5,)
arr_diff = arr_high - arr_low
print("arr_diff :", arr_diff)

arr_diff : [2700 1300  400 2200 1400]


In [575]:
data = [
    [92700, 92400, 92100, 94300, 92300],
    [90000, 91100, 91700, 92100, 90900]
]
arr = np.array(data)
print(arr[0] * 3 + arr[1]  * 2)
weight = np.array([3, 2]).reshape(2, 1)     # 가중치 shape(2, 1)
# 둘 중 하나의 축이 1이므로 브로드캐스팅 가능
display((weight * arr))
display((weight * arr).sum(axis=0))           # axis = 0 : x축 axis = 1 : y축
display((weight * arr).sum(axis=1))           # axis = 0 : x축 axis = 1 : y축

[458100 459400 459700 467100 458700]


array([[278100, 277200, 276300, 282900, 276900],
       [180000, 182200, 183400, 184200, 181800]])

array([458100, 459400, 459700, 467100, 458700])

array([1391400,  911600])

브로드 캐스팅 조건
* 뒤축(열)의 길이가 같다
* 둘 중 어느 하나의 축이 1이다.

### 조건 슬라이싱

In [576]:
arr = np.array([10, 20, 30])
cond = arr > 10
print(arr[cond])
# [10 20 30]
# [False True True]
display(arr[[False, True, True]])
display(arr[arr > 10])

[20 30]


array([20, 30])

array([20, 30])

### 조건부 매핑

In [577]:
# 방법1
arr1 = arr.copy()
arr1[cond] = 1
arr1[~cond] = 0
print(arr1)

arr1 = arr.copy()
arr1[cond] = arr1[cond] + 10
arr1[~cond] = arr1[~cond] - 10
print(arr1)

[0 1 1]
[ 0 30 40]


In [578]:
# 방법2
arr1 = np.where(arr > 10, 1, 0)
print(arr)
print(arr1)

arr1 = np.where(arr > 10 , arr+10, arr-10)
print(arr1)
"""
    where()은 원본 데이터를 조작하지 않고 새로운 객체로 반환
"""

[10 20 30]
[0 1 1]
[ 0 30 40]


'\n    where()은 원본 데이터를 조작하지 않고 새로운 객체로 반환\n'

In [579]:
display(cond)
print(cond.all())   # 모두 True일 때 True 반환
print(cond.any())   # 한 개라도 True일 때 True 반환

array([False,  True,  True])

False
True


### 함수와 메소드

In [580]:
arr = np.arange(8).reshape(4, 2)
display(arr)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [581]:
print(arr.sum(axis=0))      # (4, 2) => 행 압축 (2,)
print(arr.sum(axis=1))      # (4, 2) => 열 압축 (4,)
print(arr.sum())

[12 16]
[ 1  5  9 13]
28


axis 방향 규칙
* 차원 표현 규칙으로 항상 첫번째는 행, 그 다음이 열
* axis = 0 : 행 방향
* axis = 1 : 열 방향

In [582]:
# 0~45 까지 숫자를 랜덤으로 선택(복원추출), (행, 열)
print(f"np.random.randint(46, size=(2, 5)) :\n{np.random.randint(46, size=(2, 5))}")

np.random.randint(46, size=(2, 5)) :
[[20 33 27 11  6]
 [ 7 13 35 35  1]]


In [583]:
# 시작, 끝값(포함), 분할개수(데이터 개수)
x = np.linspace(0, 10, 2)
print(x)

[ 0. 10.]


In [584]:
a = np.arange(4)
b = np.arange(4, 8)
print(f"np.vstack([a, b]) :\n{np.vstack([a, b])}")
print(f"np.hstack([a, b]) :\n{np.hstack([a, b])}")

np.vstack([a, b]) :
[[0 1 2 3]
 [4 5 6 7]]
np.hstack([a, b]) :
[0 1 2 3 4 5 6 7]


* vstack, hstack : 원본 데이터 수정X
* vstack : 수직방향으로 합치기
* hstack : 수평방향으로 합치기

# Pandas

## Series

In [585]:
from pandas import Series

In [586]:
data = [10, 20, 30]
s = Series(data)
display(s)

0    10
1    20
2    30
dtype: int64

In [587]:
data = np.arange(5)
s = Series(data)
display(s)

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [588]:
data = ["시가", "고가"]
s = Series(data)
display(s)

0    시가
1    고가
dtype: object

In [589]:
s = Series(['samsung', 81000])
display(s)

0    samsung
1      81000
dtype: object

* List
    * 타입 혼용가능
    * 위치 인덱스 사용 (0 부터 시작)
* array
    * 타입 통일 필요
    * 브로드 캐스팅
    * 위치 인덱스 사용 (0 부터 시작)
* Series
    * 타입 혼용가능 (내부적으로 object dtype)
    * object 타입 브로드캐스팅 불가능
    * 레이블 인덱스 사용


### 인덱스

In [590]:
data = [1000, 2000, 3000]
s = Series(data)
print(f"s.index : {s.index}")
print(f"s.index.to_list() : {s.index.to_list()}")

s.index : RangeIndex(start=0, stop=3, step=1)
s.index.to_list() : [0, 1, 2]


In [591]:
# print(s[-1])    # 오류 발생

In [592]:
# 인덱스 지정
s = Series(data)
s.index = ["메로나", "구구콘", "하겐다즈"]
print(s)

메로나     1000
구구콘     2000
하겐다즈    3000
dtype: int64


In [593]:
print(s[0]) # 정상 작동

1000


  print(s[0]) # 정상 작동


[] 인덱싱 사용시: 레이블 인덱스를 먼저 탐색 => 위치 인덱스 사용  

레이블이 문자열인 경우: 위치 인덱스(정수) 사용  
레이블이 정수인 경우: 레이블 인덱스 사용 (위치 인덱스 사용시 오류 발생)

#### 파라미터 명시적 입력 (Keyword Argument)

In [594]:
# 파라미터 명시적 입력 (keyword argument)
# 비슷한 데이터들을 입력할 때 명시적 입력이 오류 발생율을 낮춘다
data = [1000, 2000, 3000]
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(index = index, data = data)
print(s)

메로나     1000
구구콘     2000
하겐다즈    3000
dtype: int64


In [595]:
k = [1000, 2000, 3000]
v = ["메로나", "구구콘", "하겐다즈"]
s = Series(data=v, index=k)
print(s)

1000     메로나
2000     구구콘
3000    하겐다즈
dtype: object


#### 인덱스 수정  
* reindex

In [596]:
# reindex : 인덱스 변경 새로운 인덱스의 값을 NaN으로 채움
data = [1000, 2000, 3000]
index = ['메로나', '구구콘', '하겐다즈']
s = Series(data=data, index=index)
s2 = s.reindex(["메로나", "비비빅", "구구콘"])
print(f"s :\n{s}")
print(f"s2 :\n{s2}")

s :
메로나     1000
구구콘     2000
하겐다즈    3000
dtype: int64
s2 :
메로나    1000.0
비비빅       NaN
구구콘    2000.0
dtype: float64


### 시리즈 생성 방법  
1. 리스트 사용
2. 딕셔너리 사용

In [597]:
price = [42500, 42550, 41800, 42550, 42650]
date = ["2019-05-31", "2019-05-30", "2019-05-29", "2019-05-28", "2019-05-27"]
s = Series(data = price, index = date)
print(s)

2019-05-31    42500
2019-05-30    42550
2019-05-29    41800
2019-05-28    42550
2019-05-27    42650
dtype: int64


In [598]:
data = {
    "2019-05-31" : 42500,
    "2019-05-30" : 42550,
    "2019-05-29" : 41800,
    "2019-05-28" : 42550,
    "2019-05-27" : 42650
}
s = Series(data)
print(s)

2019-05-31    42500
2019-05-30    42550
2019-05-29    41800
2019-05-28    42550
2019-05-27    42650
dtype: int64


In [599]:
print(s.index)
print(s.index.dtype)
print(s.values)

Index(['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27'], dtype='object')
object
[42500 42550 41800 42550 42650]


### 명시적 인덱싱  
- iloc
    - 행 기준 (위치 인덱스)
- loc
    - 인덱스 기준 (레이블)

In [600]:
data = [1000, 2000, 3000]
s = Series(data=data)
print(f"s.iloc[0] : {s.iloc[0]}")
print(f"s.iloc[-1] : {s.iloc[-1]}")

s.iloc[0] : 1000
s.iloc[-1] : 3000


In [601]:
print(s.loc[0])
# print(s.loc[-1])   # 에러

1000


In [602]:
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data=data, index=index)
print(f"s.iloc[0] : {s.iloc[0]}")
print(f"s.loc['메로나'] : {s.loc['메로나']}")

s.iloc[0] : 1000
s.loc['메로나'] : 1000


#### 슬라이싱   
- 연속적인 슬라이싱 (:)
- 연속적이지 않은 슬라이싱 (,)

In [603]:
data = [1000, 2000, 3000]
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data=data, index=index)
print(f"s.iloc[0:2] :\n{s.iloc[0:2]}")

s.iloc[0:2] :
메로나    1000
구구콘    2000
dtype: int64


In [604]:
print(f"s.loc['메로나':'구구콘'] :\n{s.loc['메로나':'구구콘']}")

s.loc['메로나':'구구콘'] :
메로나    1000
구구콘    2000
dtype: int64


In [605]:
print("s.iloc[ [0, 2] ] : \n", s.iloc[ [0, 2] ])

s.iloc[ [0, 2] ] : 
 메로나     1000
하겐다즈    3000
dtype: int64


In [606]:
print(s.loc[ ["메로나", "하겐다즈"] ])

메로나     1000
하겐다즈    3000
dtype: int64


### 추가, 수정, 삭제
- drop
    - 삭제 메소드
    - 기존 객체는 그대로, 새로운 객체를 반환
        - inplace = True, 원본 데이터 수정가능

In [607]:
data = [1000, 2000, 3000]
index = ["메로나", "구구콘", "하겐다즈"]
s = Series(data=data, index=index)

# 수정
s.loc['메로나'] = 500          # 값 수정
s.iloc[0] = 500            # iloc 연산 사용
print(s)

메로나      500
구구콘     2000
하겐다즈    3000
dtype: int64


In [608]:
# 없는 인덱스에 값을 할당하면 추가가 된다
s.loc['비비빅'] = 500          # 값 추가 
print(s)

메로나      500
구구콘     2000
하겐다즈    3000
비비빅      500
dtype: int64


In [609]:
# 기존 객체의 내용을 수정하지 않고 새로운 객체를 생성후 리턴한다
display(s.drop('메로나'))
display(s)  # 기존 객체는 그대로

s.drop("메로나", inplace = True)    # 원본 데이터 수정
display(s)

구구콘     2000
하겐다즈    3000
비비빅      500
dtype: int64

메로나      500
구구콘     2000
하겐다즈    3000
비비빅      500
dtype: int64

구구콘     2000
하겐다즈    3000
비비빅      500
dtype: int64

### 연산
- 스칼라 연산
- 브로드캐스팅
- idxmax, idxmin
- cumprod
- unique
- value_counts

In [610]:
철수 = Series([10, 20, 30], index=['NAVER', 'SKT', 'KT'])
영희 = Series([10, 30, 20], index=['SKT', 'KT', 'NAVER'])
가족 = 철수 + 영희
display(가족)

KT       60
NAVER    30
SKT      30
dtype: int64

In [611]:
print(철수 * 10)

NAVER    100
SKT      200
KT       300
dtype: int64


In [612]:
high = Series([42800, 42700, 42050, 42950, 43000])
low = Series([42150, 42150, 41300, 42150, 42350])

In [613]:
diff = high - low
print(diff)

0    650
1    550
2    750
3    800
4    650
dtype: int64


In [614]:
print(diff.max())
print(max(diff))

800
800


In [615]:
date = ["6/1", "6/2", "6/3", "6/4", "6/5"]
high = Series([42800, 42700, 42050, 42950, 43000], index=date)
low = Series([42150, 42150, 41300, 42150, 42350] , index=date)
diff = high - low
print(diff)

6/1    650
6/2    550
6/3    750
6/4    800
6/5    650
dtype: int64


In [616]:
# for문 사용 가능
max_idx = 0
max_val = 0

for i in range(len(diff)):
    if diff.iloc[i] > max_val:
        max_val = diff.iloc[i]
        max_idx = i

print(max_idx)
print(diff.index[max_idx])

3
6/4


In [617]:
print(diff.idxmax())
print(diff.idxmin())

6/4
6/2


In [618]:
# 수익률
date = ["6/1", "6/2", "6/3", "6/4", "6/5"]
high = Series([42800, 42700, 42050, 42950, 43000], index=date)
low = Series([42150, 42150, 41300, 42150, 42350] , index=date)
profit = ((high - low) / low) * 100
print(profit)

6/1    1.542112
6/2    1.304864
6/3    1.815981
6/4    1.897983
6/5    1.534829
dtype: float64


In [619]:
# 누적 수익률
display( profit.cumprod( ) )
print( profit.cumprod( ).iloc[ -1 ] )

6/1     1.542112
6/2     2.012245
6/3     3.654198
6/4     6.935608
6/5    10.644970
dtype: float64

10.644970199149723


In [620]:
# 고유값
data = {
    "삼성전자": "전기,전자",
    "LG전자": "전기,전자",
    "현대차": "운수장비",
    "NAVER": "서비스업",
    "카카오": "서비스업"
}
s = Series(data)

print(s.unique())

['전기,전자' '운수장비' '서비스업']


In [621]:
display(s.value_counts())

전기,전자    2
서비스업     2
운수장비     1
Name: count, dtype: int64

In [622]:
print(s.value_counts().index)
print(s.value_counts().values)

Index(['전기,전자', '서비스업', '운수장비'], dtype='object')
[2 2 1]


### 문자열 숫자 변환
- map
    - 시리즈 원소 하나씩 함수 적용
    - 새로운 시리즈 객체로 반환
- replace
    - 문자열 수정 함수

In [623]:
s = Series(["1,234", "5,678", "9,876"])
# print( int(s) ) # "," 때문에 타입 에러

In [624]:
# , 제거
def remove_comma(x) :
    print(x, 'in function')
    return int(x.replace(",", ""))

s = Series(["1,234", "5,678", "9,876"])
# map : 시리즈 객체에 함수 적용
result = s.map(remove_comma)    # 함수 이름만 입력
print(result)

1,234 in function
5,678 in function
9,876 in function
0    1234
1    5678
2    9876
dtype: int64


In [625]:
def is_greater_than_5000(x):
    if x > 5000:
        return "크다"
    else:
        return "작다"

s = Series([1234, 5678, 9876])
s = s.map(is_greater_than_5000)
print(s)

0    작다
1    크다
2    크다
dtype: object


### 필터링

In [626]:
data = [42500, 42550, 41800, 42550, 42650]
index = ['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27']
s = Series(data=data, index=index)
cond = s > 42000
display(cond)
print(cond.all())
print(cond.any())

2019-05-31     True
2019-05-30     True
2019-05-29    False
2019-05-28     True
2019-05-27     True
dtype: bool

False
True


In [627]:
print(s[cond])

2019-05-31    42500
2019-05-30    42550
2019-05-28    42550
2019-05-27    42650
dtype: int64


In [628]:
close = [42500, 42550, 41800, 42550, 42650]     # 종가
open = [42600, 42200, 41850, 42550, 42500]      # 시가
index = ['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27']

open = Series(data=open, index=index)
close = Series(data=close, index=index)

In [629]:
cond = close > open
print(cond)
display(close[cond])

2019-05-31    False
2019-05-30     True
2019-05-29    False
2019-05-28    False
2019-05-27     True
dtype: bool


2019-05-30    42550
2019-05-27    42650
dtype: int64

In [630]:
close = [42500, 42550, 41800, 42550, 42650]
open = [42600, 42200, 41850, 42550, 42500]
index = ['2019-05-31', '2019-05-30', '2019-05-29', '2019-05-28', '2019-05-27']

open = Series(data=open, index=index)
close = Series(data=close, index=index)
diff = close - open
print(diff[close > open])

2019-05-30    350
2019-05-27    150
dtype: int64


### 정렬
- sort_values
    - 오름차순 정렬
    - ascending = False: 내림차순 정렬
- rank
    - 오름차순 순위 매기기
    - ascending = False: 내림차순 순위 매기기

In [631]:
data = [3.1, 2.0, 10.1, 5.1]
index = ['000010', '000020', '000030', '000040']
s = Series(data=data, index=index)

In [632]:
# 정렬 (오름차순)
s1 = s.sort_values()
print("오름차순:\n", s1)

오름차순:
 000020     2.0
000010     3.1
000040     5.1
000030    10.1
dtype: float64


In [633]:
# 정렬 (내림차순)
s2 = s.sort_values(ascending=False)
print("내림차순:\n", s2)

내림차순:
 000030    10.1
000040     5.1
000010     3.1
000020     2.0
dtype: float64


In [634]:
# 순위 매기기
data = [3.1, 2.0, 10.1, 3.1]
index = ['000010', '000020', '000030', '000040']
s = Series(data=data, index=index)
print(s.rank())

000010    2.5
000020    1.0
000030    4.0
000040    2.5
dtype: float64


In [635]:
print(s.rank(ascending=False))

000010    2.5
000020    4.0
000030    1.0
000040    2.5
dtype: float64


## DataFrame
- Series: 1차원
- DataFrame: 2차원

### 데이터프레임 생성 방법
- 리스트로 생성
- 딕셔너리로 생성
- 딕셔너리 + 리스트로 생성

In [636]:
from pandas import DataFrame

In [637]:
# 리스트로 데이터 프레임 생성
data_1 = [
    ["037730", "3R", 1510, 7.36],
    ["036360", "3SOFT", 1790, 1.65],
    ["005670", "ACTS", 1185, 1.28]
]

columns = ["종목코드", "종목명", "현재가", "등락률"]
df = DataFrame(data=data_1, columns=columns)
print(df)

     종목코드    종목명   현재가   등락률
0  037730     3R  1510  7.36
1  036360  3SOFT  1790  1.65
2  005670   ACTS  1185  1.28


### 인덱스 지정
- DataFrame(data=data, index=index, columns=columns)
- set_index()
    - 새로운 객체로 반환
    - inplace = True: 원본 데이터 수정

In [638]:
df1 = df.set_index("종목코드")   # 새로운 데이터 프레임 반환
print(df1)

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005670   ACTS  1185  1.28


In [639]:
df.set_index("종목코드", inplace=True)  # 원본 데이터프레임 반환
print(df)

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005670   ACTS  1185  1.28


In [640]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.index.name = "종목코드"
print(df)

          종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


### 인덱싱
- 컬럼(열) 인덱싱
    - 대괄호 인덱싱
    - .라벨 인덱싱
- 로우(행) 인덱싱
    - iloc: 위치 인덱스로 인덱싱
    - loc: 라벨 인덱스로 인덱싱

#### 열 인덱싱

In [641]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.index.name = "종목코드"
print(df['현재가'])

종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64


In [642]:
display(df.현재가)  # 시리즈 반환

# 여러 컬럼 인덱싱, 데이터프레임 반환
display(df[['현재가', "등락률"]])
display(df[["현재가"]])

종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64

Unnamed: 0_level_0,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,1510,7.36
36360,1790,1.65
5760,1185,1.28


Unnamed: 0_level_0,현재가
종목코드,Unnamed: 1_level_1
37730,1510
36360,1790
5760,1185


#### 행 인덱싱

In [643]:
# 시리즈 반환
display(df.loc["037730"]) # 인덱스로 인덱싱
display(df.iloc[0])       # 위치 인덱스로 인덱싱

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

In [644]:
# 불연속적인 인덱싱, 데이터프레임 반환
display(df.loc[ ["037730", "036360"] ])
display(df.iloc[[0, 1]])

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


#### 특정값 가져오기

In [645]:
# 행번호로 행 선택 후 시리즈를 인덱싱 
display(df.iloc[0])
print(df.iloc[0].iloc[1])            # 시리즈 행번호
print(df.iloc[0].loc["현재가"])        # 시리즈 인덱스 
print(df.iloc[0]["현재가"])            # 시리즈 인덱스

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

1510
1510
1510


In [646]:
# 인덱스로 행 선택 후 시리즈를 인덱싱
display(df.loc["037730"])
print(df.loc["037730"].iloc[1])      # 시리즈 행번호
print(df.loc["037730"].loc["현재가"])  # 시리즈 인덱스 
print(df.loc["037730"]["현재가"])      # 시리즈 인덱스

종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

1510
1510
1510


In [647]:
# 행, 열 동시에 인덱싱
print(df.loc["037730", "현재가"])
print(df.iloc[0, 1])

1510
1510


#### 특정 범위 가져오기

In [648]:
display(df.loc[["037730", "036360"]])

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


In [649]:
display(df.iloc[[0, 1]])

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65


In [650]:
display(df.loc[["037730", "036360"], ["종목명", "현재가"]])

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790


In [651]:
display(df.iloc[ [0, 1], [0, 1] ])

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790


### 필터링

In [652]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
print(df)

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


In [653]:
cond = df['현재가'] >= 1400
print("cond :\n", cond)

cond :
 037730     True
036360     True
005760    False
Name: 현재가, dtype: bool


In [654]:
print(df.loc[cond])

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65


In [655]:
# print(df.loc[cond]["현재가"])     # 시간복잡도 측면에서 비효율적 (두 번 슬라이싱 수행)
print(df.loc[cond, "현재가"])       # 시간복잡도 측면에서 더 효율적

037730    1510
036360    1790
Name: 현재가, dtype: int64


In [656]:
cond = (df['현재가'] >= 1400) & (df['현재가'] < 1700)
print(df.loc[cond])

       종목명   현재가   등락률
037730  3R  1510  7.36


### 열 추가하기

In [657]:
s = Series(data=[1600, 1600, 1600], index=df.index) # 같은 인덱스를 가진 시리즈 생성
df['목표가'] = s
print(s)
display(df)

037730    1600
036360    1600
005760    1600
dtype: int64


Unnamed: 0,종목명,현재가,등락률,목표가
37730,3R,1510,7.36,1600
36360,3SOFT,1790,1.65,1600
5760,ACTS,1185,1.28,1600


In [658]:
df["괴리율"] = (df["목표가"] - df["현재가"]) / df['현재가'] # 브로드 캐스팅
display(df)

Unnamed: 0,종목명,현재가,등락률,목표가,괴리율
37730,3R,1510,7.36,1600,0.059603
36360,3SOFT,1790,1.65,1600,-0.106145
5760,ACTS,1185,1.28,1600,0.350211


### 행 추가하기

In [659]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

s = Series(data=["LG전자", 60000, 3.84], index=df.columns)
df.loc["066570"] = s    # 행은 loc, iloc으로 접근
display(df)

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28
66570,LG전자,60000,3.84


### 행, 열 삭제하기
- .drop

In [660]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

new_df = df.drop("현재가", axis=1)  # 열 삭제
display(df)
display(new_df)
new_df = df.drop("037730", axis=0)  # 헹 삭제
display(new_df)

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


Unnamed: 0,종목명,등락률
37730,3R,7.36
36360,3SOFT,1.65
5760,ACTS,1.28


Unnamed: 0,종목명,현재가,등락률
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


### 열 레이블 변경
- .columns
- .index
- .index.name
- .rename(columns = {}, inplace = False)

In [661]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

print(df.columns)
print(df.index)

Index(['종목명', '현재가', '등락률'], dtype='object')
Index(['037730', '036360', '005760'], dtype='object')


In [662]:
df.columns = ['name', 'close', 'fluctuation']
df.index.name = 'code'
display(df)

Unnamed: 0_level_0,name,close,fluctuation
code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [663]:
df = DataFrame(data=data, index=index, columns=columns)
df.rename(columns={'종목명': 'code'}, inplace=True)
print(df)

         code   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


### 문자열로 저장된 데이터 타입 변경
- map
- applymap
- astype(int)

In [664]:
data = [
    ["1,000", "1,100", '1,510'],
    ["1,410", "1,420", '1,790'],
    ["850", "900", '1,185'],
]
columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns)
display(df)

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [665]:
def remove_comma(x):
    return int(x.replace(",", ""))

df['03/02'] = df['03/02'].map(remove_comma)
display(df)

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [666]:
df['03/03'] = df['03/03'].map(remove_comma)
display(df)

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [667]:
df = DataFrame(data=data, columns=columns)
df = df.map(remove_comma)
display(df)

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [668]:
# applymap 함수 이용
df = DataFrame(data=data, columns=columns)
df = df.applymap(remove_comma)
display(df)

  df = df.applymap(remove_comma)


Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [669]:
print(df.dtypes)

03/02    int64
03/03    int64
03/04    int64
dtype: object


### 문자열 다루기
- Series.str
    - 시리즈 객체에 있는 원소들에 접근

In [670]:
data = [
    {"cd":"A060310", "nm":"3S", "close":"2,920"},
    {"cd":"A095570", "nm":"AJ네트웍스", "close":"6,250"},
    {"cd":"A006840", "nm":"AK홀딩스", "close":"29,700"},
    {"cd":"A054620", "nm":"APS홀딩스", "close":"19,400"}
]
df = DataFrame(data=data)
display(df)

Unnamed: 0,cd,nm,close
0,A060310,3S,2920
1,A095570,AJ네트웍스,6250
2,A006840,AK홀딩스,29700
3,A054620,APS홀딩스,19400


In [671]:
df['cd'] = df['cd'].str[1:]
display(df)

Unnamed: 0,cd,nm,close
0,60310,3S,2920
1,95570,AJ네트웍스,6250
2,6840,AK홀딩스,29700
3,54620,APS홀딩스,19400


In [672]:
df['close'] = df['close'].str.replace(',', '')
display(df)

Unnamed: 0,cd,nm,close
0,60310,3S,2920
1,95570,AJ네트웍스,6250
2,6840,AK홀딩스,29700
3,54620,APS홀딩스,19400


### query 함수

In [673]:
data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = DataFrame(data=data)
df = df.set_index('cd')

cond = df['open'] >= 2000   # 불리언 인덱싱
display(df[cond])

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [674]:
print(df.query("open >= 2000")) # 컬럼명은 따옴표 없이 작성

             nm  open  close
cd                          
A060310      3S  2920   2800
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200


In [675]:
print(df.query("nm == '3S'"))

         nm  open  close
cd                      
A060310  3S  2920   2800


In [676]:
print(df.query("open < close"))

             nm  open  close
cd                          
A054620  APS홀딩스  3120   3200


In [677]:
print(df.query("nm in ['3S', 'AK홀딩스']")) # in 연산자

            nm  open  close
cd                         
A060310     3S  2920   2800
A006840  AK홀딩스  2020   2010


In [678]:
# 인덱스 기준으로
print(df.query("cd == 'A060310'"))

         nm  open  close
cd                      
A060310  3S  2920   2800


In [679]:
# 변수 이용 (변수 앞에 @ 기호)
name = "AJ네트웍스"
print(df.query('nm == @name'))

             nm  open  close
cd                          
A095570  AJ네트웍스  1920   1900


### filter 함수

In [680]:
data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = DataFrame(data=data, index=index, columns=columns)
display(df)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [681]:
print(df.filter(items=["2018/12"]))

     2018/12
DPS  1416.00
PER     6.42
PBR     1.10


In [682]:
print(df.filter(items=["PER"], axis=0))     # 행 기준으로 필터링

     2018/12  2019/12  2020/12  2021/12(E)
PER     6.42    17.63    21.09       13.93


In [683]:
print(df.filter(regex="2020"))

     2020/12
DPS  2994.00
PER    21.09
PBR     2.06


In [684]:
print(df.filter(regex="^2020", axis=1))  # 2020으로 시작하는 열

     2020/12
DPS  2994.00
PER    21.09
PBR     2.06


In [685]:
print(df.filter(regex="R$", axis=0))   # R로 끝나는 행

     2018/12  2019/12  2020/12  2021/12(E)
PER     6.42    17.63    21.09       13.93
PBR     1.10     1.49     2.06        1.88


In [686]:
print(df.filter(regex="\d{4}"))   # 4자리 숫자

     2018/12  2019/12  2020/12  2021/12(E)
DPS  1416.00  1416.00  2994.00     1755.00
PER     6.42    17.63    21.09       13.93
PBR     1.10     1.49     2.06        1.88


In [687]:
print(df.filter(regex="\d{4}/\d{2}$"))  # 4자리 숫자/2자리 숫자로 끝나는 열

     2018/12  2019/12  2020/12
DPS  1416.00  1416.00  2994.00
PER     6.42    17.63    21.09
PBR     1.10     1.49     2.06


### 정렬 및 순위
- sort_values
- rank
    - Series 객체로 반환

In [688]:
data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185]
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df.set_index("종목코드", inplace=True)
display(df)

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [689]:
display(df.sort_values("현재가")) # 오름차순 정렬

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5670,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


In [690]:
print(df.sort_values(by="현재가", ascending=False)) # 내림차순 정렬

          종목명   현재가
종목코드               
036360  3SOFT  1790
037730     3R  1510
005670   ACTS  1185


In [691]:
print(df['현재가'].rank())  # 오름차순 순위

종목코드
037730    2.0
036360    3.0
005670    1.0
Name: 현재가, dtype: float64


In [692]:
df['순위'] = df['현재가'].rank()
display(df)

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5670,ACTS,1185,1.0


In [693]:
display(df.sort_values(by="순위"))

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5670,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


### 인덱스 연산
- pd.Index
- idx.union
- idx.intersection
- idx.difference

In [694]:
import pandas as pd

In [695]:
idx1 = pd.Index([1, 2, 3])
idx2 = pd.Index([2, 3, 4])
print(type(idx1))

<class 'pandas.core.indexes.base.Index'>


In [696]:
# 합집합
print(idx1.union(idx2))

Index([1, 2, 3, 4], dtype='int64')


In [697]:
# 교집합
print(idx1.intersection(idx2))

Index([2, 3], dtype='int64')


In [698]:
# 차집합
print(idx1.difference(idx2))

Index([1], dtype='int64')


### GroupBy
- groupby()
- .agg

In [699]:
data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = DataFrame(data=data, columns=columns)
display(df)

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [700]:
# 필터링을 이용한 그룹화
df1 = df[df["테마"] == "2차전지(생산)"]
df2 = df[df["테마"] == "해운"]
df3 = df[df["테마"] == "시스템반도체"]
display(df1)

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [701]:
# 각 그룹별 PER 평균
mean1 = df1["PER"].mean()
mean2 = df2["PER"].mean()
mean3 = df3["PER"].mean()
print(mean1)

46.625


In [702]:
data = [mean1, mean2, mean3]
index = ["2차전지(생산)", "해운", "시스템반도체"]
s = pd.Series(data=data, index=index)
print(s)

2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64


In [703]:
# GroupBy 메서드 이용 (컬럼 레이블 기준으로 그룹화)
# get_group(그룹명) : 특정 그룹만 선택
print(df.groupby("테마").get_group("2차전지(생산)"))

         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75


In [704]:
temp = df[["테마", "PER", "PBR"]].groupby("테마").get_group("2차전지(생산)")
print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


In [705]:
temp = df.groupby("테마")[ ["PER", "PBR"] ].get_group("2차전지(생산)")
print(temp)

     PER   PBR
0  10.19  1.29
5  83.06  3.75


In [706]:
print(df.groupby("테마")["PER"].mean())

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64


In [707]:
print(df.groupby("테마")[["PER", "PBR"]].mean())

             PER    PBR
테마                     
2차전지(생산)  46.625  2.520
시스템반도체    36.645  2.335
해운        21.375  2.075


In [708]:
# 그룹별 연산 지정
print(df.groupby("테마").agg({"PER": "max", "PBR": "min"}))

            PER   PBR
테마                   
2차전지(생산)  83.06  1.29
시스템반도체    37.32  1.12
해운        21.52  0.95


In [709]:
# 여러 연산 지정
display(df.groupby("테마").agg({"PER": ["min", "max"], "PBR": ["std", "var"]}))

Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


### 데이터 프레임 병합

#### concat

In [710]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)
print(df1)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163


In [711]:
data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}
df2 = DataFrame(data=data, index=index)
print(df2)

                시가      고가      저가
2019-06-21  112500  115000  111500
2019-06-20  110000  112000  109000


In [712]:
df = pd.concat([df1, df2], axis=1)  # 컬럼 기준 병합
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000


##### 열 순서 수정

In [713]:
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서]
print(df)

                시가      고가      저가      종가     거래량
2019-06-21  112500  115000  111500  113000  555850
2019-06-20  110000  112000  109000  111500  282163


##### 인덱스가 다른 데이터프레임 병합

In [714]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}

index = ["2019-06-20", "2019-06-19"]
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)   # 결측치 발생

                  종가       거래량        시가        고가        저가
2019-06-21  113000.0  555850.0       NaN       NaN       NaN
2019-06-20  111500.0  282163.0  112500.0  115000.0  111500.0
2019-06-19       NaN       NaN  110000.0  112000.0  109000.0


In [715]:
# join 메서드 이용 (중요)
# inner : 교집합, outer : 합집합(기본값)
df = pd.concat([df1, df2], axis=1, join='inner')
print(df)
display(pd.concat([df1, df2], axis=1, join='outer'))

                종가     거래량      시가      고가      저가
2019-06-20  111500  282163  112500  115000  111500


Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000.0,555850.0,,,
2019-06-20,111500.0,282163.0,112500.0,115000.0,111500.0
2019-06-19,,,110000.0,112000.0,109000.0


##### 행 기준 병합

In [716]:
# append 메서드 이용 (행 기준 병합) 함수가 삭제됨 concat 사용 권장
# 첫번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data, index=index)

# 두번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946]
}
index = ["2019-06-19", "2019-06-18"]
df2 = DataFrame(data, index=index)

# df = df1.append(df2)
# print(df)

In [717]:
df = pd.concat([df1, df2], axis=0)  # 행 기준 병합 axis=0 (기본값)
print(df)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946


#### merge

In [718]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
display(df1)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)
display(df2)

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,전기전자,660,SK하이닉스,101500


Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [719]:
display(pd.merge(left=df1, right=df2, on='업종'))

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,전기전자,660,SK하이닉스,101500,-2.43


In [720]:
display(pd.merge(left=df1, right=df2, how='inner', on='업종')) # 교집합

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,전기전자,660,SK하이닉스,101500,-2.43


In [721]:
display(pd.merge(left=df1, right=df2, how='outer', on='업종')) # 합집합

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,보험,,,,0.37
1,은행,,,,2.92
2,전기전자,5930.0,삼성전자,74400.0,-2.43
3,전기전자,660.0,SK하이닉스,101500.0,-2.43
4,화학,51910.0,LG화학,896000.0,0.06


##### 컬럼명이 다를 경우

In [722]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [723]:
# left_on, right_on 옵션 이용 각 컬럼명 지정
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목')
print(df)

     업종    종목코드   종목명     현재가    항목   등락률
0  전기전자  005930  삼성전자   74400  전기전자 -2.43
1    화학  051910  LG화학  896000    화학  0.06


#### join (인덱스기준 병합)

In [724]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")
display(df1)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")
display(df2)

Unnamed: 0_level_0,종목코드,종목명,현재가
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,5930,삼성전자,74400
화학,51910,LG화학,896000
서비스업,35720,카카오,121500


Unnamed: 0_level_0,등락률
항목,Unnamed: 1_level_1
은행,2.92
보험,0.37
화학,0.06
전기전자,-2.43


In [725]:
display(df1.join(other=df2))

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [726]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],    
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],    
]

columns = ["연도", "회사", "시가총액"]
df = DataFrame(data=data, columns=columns)
display(df)

Unnamed: 0,연도,회사,시가총액
0,2017,삼성,500
1,2017,LG,300
2,2017,SK하이닉스,200
3,2018,삼성,600
4,2018,LG,400
5,2018,SK하이닉스,300


In [727]:
df_mean = df.groupby("연도")["시가총액"].mean().to_frame()
df_mean.columns = ['시가총액평균']
display(df_mean)

Unnamed: 0_level_0,시가총액평균
연도,Unnamed: 1_level_1
2017,333.333333
2018,433.333333


In [728]:
df = df.join(df_mean, on='연도')
display(df)

Unnamed: 0,연도,회사,시가총액,시가총액평균
0,2017,삼성,500,333.333333
1,2017,LG,300,333.333333
2,2017,SK하이닉스,200,333.333333
3,2018,삼성,600,433.333333
4,2018,LG,400,433.333333
5,2018,SK하이닉스,300,433.333333


In [729]:
# 시가총액이 시가총액평균 이상이면 '대형주', 미만이면 '중/소형주'로 분류
df['규모'] = np.where(df['시가총액'] >= df['시가총액평균'], "대형주", "중/소형주")
display(df)

Unnamed: 0,연도,회사,시가총액,시가총액평균,규모
0,2017,삼성,500,333.333333,대형주
1,2017,LG,300,333.333333,중/소형주
2,2017,SK하이닉스,200,333.333333,중/소형주
3,2018,삼성,600,433.333333,대형주
4,2018,LG,400,433.333333,중/소형주
5,2018,SK하이닉스,300,433.333333,중/소형주


### 멀티인덱스
- set_index([idx1, idx2], inplace = False)
    - 순서대로 상위 레벨, 하위 레벨
    - .loc[하위레벨] 에러발생, .loc[상위레벨]로 접근가능
    - 모든 레벨의 인덱스를 사용할 경우 튜플로 인덱스 접근 .loc[(상위, 하위)]
    - 슬라이싱 가능 .loc[(상위, 하위) : (상위, 하위)]
- slice(start, stop, step)
    - slice(None) = : (전체)
- idx = pd.IndexSlice
    - idx[:, "하위레벨"]

In [730]:
data = [
    ["영업이익", "컨센서스", 1000, 1200],
    ["영업이익", "잠정치", 900, 1400],
    ["당기순이익", "컨센서스", 800, 900],
    ["당기순이익", "잠정치", 700, 800]
]

df = DataFrame(data=data)
df = df.set_index([0, 1])
display(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [731]:
df.index.names = ["재무연월", ""]
df.columns = ["2020/06", "2020/09"]
display(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [732]:
display(df.loc["영업이익"])

display(df.loc[ ("영업이익", "컨센서스") ])

display(df.iloc[0])

print(df.iloc[0, 0])

print(df.loc[("영업이익", "컨센서스"), "2020/06"])

Unnamed: 0,2020/06,2020/09
,,
컨센서스,1000.0,1200.0
잠정치,900.0,1400.0


2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

1000
1000


#### slice, IndexSlice

In [733]:
a = [1, 2, 3, 4, 5]

print(a[0:5:2])
print(a[slice(0, 5, 2)])

[1, 3, 5]
[1, 3, 5]


In [734]:
a = [1, 2, 3, 4, 5]
b = [3, 4, 5, 6, 7]

s = slice(0, 5, 2)
print(a[ s ])
print(b[ s ])

[1, 3, 5]
[3, 5, 7]


In [735]:
a = [1, 2, 3, 4, 5]

display(a[:])
display(a[slice(None)])
display(a[ : : ])
display(a[slice(None, None)])

[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

[1, 2, 3, 4, 5]

In [736]:
# display(df.loc[ ( :, '컨센서스'), : ])    # error
display(df.loc[ (slice(None), '컨센서스'), :])

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


In [737]:
idx = pd.IndexSlice
display(df.loc[idx[:, "컨센서스"], :])

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


### 멀티 컬럼

In [738]:
data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
display(df)

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [739]:
level_0 = ["영업이익", "당기순이익"]
level_1 = ["컨센서스", "잠정치"]

idx = pd.MultiIndex.from_product([level_0, level_1])
display(idx)

display(idx.get_level_values(0))

display(idx.get_level_values(1))

display(df["영업이익"])

MultiIndex([( '영업이익', '컨센서스'),
            ( '영업이익',  '잠정치'),
            ('당기순이익', '컨센서스'),
            ('당기순이익',  '잠정치')],
           )

Index(['영업이익', '영업이익', '당기순이익', '당기순이익'], dtype='object')

Index(['컨센서스', '잠정치', '컨센서스', '잠정치'], dtype='object')

Unnamed: 0,컨센서스,잠정치
2020/06,100,900
2020/09,1200,1400


#### 멀티 컬럼 재구조화

In [740]:
# stack, unstack
data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
display(df)

display(df.stack())

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


  display(df.stack())


Unnamed: 0,Unnamed: 1,영업이익,당기순이익
2020/06,잠정치,900,700
2020/06,컨센서스,100,800
2020/09,잠정치,1400,800
2020/09,컨센서스,1200,900


In [741]:
display(df.stack(level=0))

display(df.stack().stack())

display(df.stack().unstack())

  display(df.stack(level=0))


Unnamed: 0,Unnamed: 1,컨센서스,잠정치
2020/06,당기순이익,800,700
2020/06,영업이익,100,900
2020/09,당기순이익,900,800
2020/09,영업이익,1200,1400


  display(df.stack().stack())


2020/06  잠정치   영업이익      900
               당기순이익     700
         컨센서스  영업이익      100
               당기순이익     800
2020/09  잠정치   영업이익     1400
               당기순이익     800
         컨센서스  영업이익     1200
               당기순이익     900
dtype: int64

  display(df.stack().unstack())


Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,잠정치,컨센서스,잠정치,컨센서스
2020/06,900,100,700,800
2020/09,1400,1200,800,900


In [742]:
data = [
    [1000, 1100, 900, 1200, 1300],
    [800, 2000, 1700, 1500, 1800]
]
index = ['자본금', '부채']
columns = ["2020/03", "2020/06", "2020/09", "2021/03", "2021/06"]
df = DataFrame(data, index, columns)
display(df)

Unnamed: 0,2020/03,2020/06,2020/09,2021/03,2021/06
자본금,1000,1100,900,1200,1300
부채,800,2000,1700,1500,1800


In [743]:
df_stacked = df.stack().reset_index()
display(df_stacked)

Unnamed: 0,level_0,level_1,0
0,자본금,2020/03,1000
1,자본금,2020/06,1100
2,자본금,2020/09,900
3,자본금,2021/03,1200
4,자본금,2021/06,1300
5,부채,2020/03,800
6,부채,2020/06,2000
7,부채,2020/09,1700
8,부채,2021/03,1500
9,부채,2021/06,1800


In [744]:
display(df_stacked['level_1'].str.split('/'))

0    [2020, 03]
1    [2020, 06]
2    [2020, 09]
3    [2021, 03]
4    [2021, 06]
5    [2020, 03]
6    [2020, 06]
7    [2020, 09]
8    [2021, 03]
9    [2021, 06]
Name: level_1, dtype: object

In [745]:
df_split = DataFrame( list(df_stacked['level_1'].str.split('/')) )
display(df_split)

Unnamed: 0,0,1
0,2020,3
1,2020,6
2,2020,9
3,2021,3
4,2021,6
5,2020,3
6,2020,6
7,2020,9
8,2021,3
9,2021,6


In [746]:
df_merged = pd.concat( [df_stacked, df_split], axis=1 )
df_merged.columns = ['계정', "년월", "금액", "연도", "월"]
display(df_merged)

df_group = df_merged.groupby(["계정", "연도"]).sum()
display(df_group)

Unnamed: 0,계정,년월,금액,연도,월
0,자본금,2020/03,1000,2020,3
1,자본금,2020/06,1100,2020,6
2,자본금,2020/09,900,2020,9
3,자본금,2021/03,1200,2021,3
4,자본금,2021/06,1300,2021,6
5,부채,2020/03,800,2020,3
6,부채,2020/06,2000,2020,6
7,부채,2020/09,1700,2020,9
8,부채,2021/03,1500,2021,3
9,부채,2021/06,1800,2021,6


Unnamed: 0_level_0,Unnamed: 1_level_0,년월,금액,월
계정,연도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부채,2020,2020/032020/062020/09,4500,30609
부채,2021,2021/032021/06,3300,306
자본금,2020,2020/032020/062020/09,3000,30609
자본금,2021,2021/032021/06,2500,306


In [747]:
df_unstack = df_group.unstack()
df_unstack

Unnamed: 0_level_0,년월,년월,금액,금액,월,월
연도,2020,2021,2020,2021,2020,2021
계정,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
부채,2020/032020/062020/09,2021/032021/06,4500,3300,30609,306
자본금,2020/032020/062020/09,2021/032021/06,3000,2500,30609,306


In [748]:
result = df_unstack['금액']
result.columns.name = ''
result.index.name = ''
result

Unnamed: 0,2020,2021
,,
부채,4500.0,3300.0
자본금,3000.0,2500.0


In [749]:
data = [
    ["2021-08-12", "삼성전자", 77000],
    ["2021-08-13", "삼성전자", 74400],
    ["2021-08-12", "LG전자", 153000],
    ["2021-08-13", "LG전자", 150500],
    ["2021-08-12", "SK하이닉스", 100500],
    ["2021-08-13", "SK하이닉스", 101500]
]
columns = ["날짜", "종목명", "종가"]
df = DataFrame(data=data, columns=columns)
display(df)

display(pd.pivot(data=df, index="날짜", columns="종목명", values="종가"))

Unnamed: 0,날짜,종목명,종가
0,2021-08-12,삼성전자,77000
1,2021-08-13,삼성전자,74400
2,2021-08-12,LG전자,153000
3,2021-08-13,LG전자,150500
4,2021-08-12,SK하이닉스,100500
5,2021-08-13,SK하이닉스,101500


종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


In [750]:
display(df.groupby(["날짜", "종목명"]).mean().unstack())

Unnamed: 0_level_0,종가,종가,종가
종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2021-08-12,153000.0,100500.0,77000.0
2021-08-13,150500.0,101500.0,74400.0


### melt

In [751]:
data = [
    ["005930", "삼성전자", 75800, 76000, 74100, 74400],
    ["035720", "카카오", 147500, 147500, 144500, 146000],
    ["000660", "SK하이닉스", 99600, 101500, 98900, 101500]
]

columns = ["종목코드", "종목명", "시가", "고가", "저가", "종가"]
df = DataFrame(data=data, columns=columns)
display(df)

Unnamed: 0,종목코드,종목명,시가,고가,저가,종가
0,5930,삼성전자,75800,76000,74100,74400
1,35720,카카오,147500,147500,144500,146000
2,660,SK하이닉스,99600,101500,98900,101500


In [752]:
display(df.melt())

Unnamed: 0,variable,value
0,종목코드,005930
1,종목코드,035720
2,종목코드,000660
3,종목명,삼성전자
4,종목명,카카오
5,종목명,SK하이닉스
6,시가,75800
7,시가,147500
8,시가,99600
9,고가,76000


In [753]:
display(df.melt(id_vars=['종목코드', '종목명']))

Unnamed: 0,종목코드,종목명,variable,value
0,5930,삼성전자,시가,75800
1,35720,카카오,시가,147500
2,660,SK하이닉스,시가,99600
3,5930,삼성전자,고가,76000
4,35720,카카오,고가,147500
5,660,SK하이닉스,고가,101500
6,5930,삼성전자,저가,74100
7,35720,카카오,저가,144500
8,660,SK하이닉스,저가,98900
9,5930,삼성전자,종가,74400


In [754]:
display(df.melt(value_vars=['시가', '종가']))

Unnamed: 0,variable,value
0,시가,75800
1,시가,147500
2,시가,99600
3,종가,74400
4,종가,146000
5,종가,101500
