<a href="https://colab.research.google.com/github/KSeungBin/python/blob/master/DataFrame3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 디렉토리 안에 들어있는 폴더 or 파일 목록 읽는 방법
import os
base = "/content/test"  # base = "/content"

for path in os.listdir(base):
  print(path)

# Advanced Indexing

## 멀티 인덱스 (multi-index) 
인덱스가 여러 개인 `DataFrame`
- 기존 데이터프레임은 index column으로 index가 1차원으로 존재했음

In [2]:
from pandas import DataFrame

# 가능하면 인덱스는 중복되지 않는 것이 좋다(loc, iloc 등 인덱스로 특정 위치에 접근하기 때문)
data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]
columns =['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300,5
1,2019,B,200,4
2,2019,C,100,8
3,2020,A,400,8
4,2020,B,230,3


In [2]:
print(df['item'].unique())
df['item'].nunique()

['A' 'B' 'C']


3

### 멀티 인덱스 생성

이차원 인덱스를 사용할 수 있다면 응용해서 다차원으로 확장 적용할 수 있습니다.  
`date`와 `item`을 이차원 인덱스로 지정해 봅시다.

In [3]:
# 2차원 인덱스(list로 어떤 column을 인덱스로 지정할지 넣어주기)
# date = level0 index   /    item = level1 index
t = df.set_index(['date', 'item'])
t

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


index의 `get_level_values( 숫자 )`로 값을 확인할 수 있음

<img src="https://i.ibb.co/VJmLnKT/pandas-2-0.png" width="230" style="float:left" />

왼쪽위에 표시되는 이름은 `index` 객체의 `names` 속성에 저장된 값

In [None]:
df.index.names

FrozenList(['date', 'item'])

### 칼럼 인덱싱과 슬라이싱

칼럼을 인덱싱하면 기존 데이타프레임과 동일한 인덱스와 값이 출력됩니다. 이 때 출력되는 결과는 멀티 인덱스를 같는 `Series` 객체입니다. 

In [4]:
t['price']  # 시리즈이므로 1차원 시리즈 + 인덱스가 함께 출력됨

date  item
2019  A       300
      B       200
      C       100
2020  A       400
      B       230
Name: price, dtype: int64

<img src="https://i.ibb.co/6m3kNJL/pandas-2-1.png" width="200" style="float:left" />

In [5]:
t['volume']

date  item
2019  A       5
      B       4
      C       8
2020  A       8
      B       3
Name: volume, dtype: int64

In [6]:
# 내부적으로는 date column에 하나의 데이터마다 하나의 인덱스가 모두 저장되어 있지만, pandas가 출력할 때에는 셀병합된 상태로 보여줌
t.index

MultiIndex([('2019', 'A'),
            ('2019', 'B'),
            ('2019', 'C'),
            ('2020', 'A'),
            ('2020', 'B')],
           names=['date', 'item'])

<img src="https://i.ibb.co/KWtmGXy/pandas-2-2.png" width="200" style="float:left" />

In [8]:
# 만약 df의 date가 정렬되어 있지 않다면 셀병합된 상태로 나올까?  NO!
b = df.iloc[[0,4,2,3,1]].set_index(['date', 'item'])  # BUT, 멀티인덱스 사용할 때는 인덱스 기준으로 정렬해야 함
# 인덱싱할 때 데이터를 검색하는데 시간이 오래걸리므로 정렬을 해야 성능이 개선됨
b

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2020,B,230,3
2019,C,100,8
2020,A,400,8
2019,B,200,4


In [10]:
# 정렬하기  
b.sort_index(ascending=False) # 내림차순 정렬
df = b.sort_index()           # 오름차순 정렬이 default

In [11]:
# 값을 기준으로 정렬하는 방법
b.sort_values('price', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,A,400,8
2019,A,300,5
2020,B,230,3
2019,B,200,4
2019,C,100,8


In [12]:
# ASCII CODE(8bit이므로 256개의 문자만 구별할 수 있다)  -> 확장한 것이 UNICODE
print(ord("a"))  # 문자도 내부적으로는 숫자 -> 문자가 가지고 있는 숫자를 기준으로 정렬된다
print(ord("A"))

97
65


칼럼의 슬라이싱은 출력되는 결과가 멀티 인덱스를 갖는 것이외에 싱글 인덱스의 칼럼 슬라이싱과 다르지 않습니다.  


### 로우 인덱싱과 슬라이싱

`loc`를 사용해서 하나의 인덱스로 인덱싱할 수 있습니다.  
인덱스는 level 0부터 사용합니다. 

In [13]:
# 행을 선택
df.loc["2019"]  # 2019년에 있는 데이터프레임(price, volumn)을 가져옴 -> 데이터프레임에 해당하는 인덱스(item)도 가져옴

Unnamed: 0_level_0,price,volume
item,Unnamed: 1_level_1,Unnamed: 2_level_1
A,300,5
B,200,4
C,100,8


In [17]:
df.loc["2019"].loc["A"]

price     300
volume      5
Name: A, dtype: int64

In [24]:
df.loc[ ('2019','A'), 'volume']  # multi index는 리스트 또는 튜플로

5

In [None]:
df.loc['2019'].loc['A'].iloc[0]  # 비추 : 실행속도 매우 느림
df.iloc[0,0]  # 추천 : 0행 0열 
df.loc[('2019','A'), 'price']  # 추천

<img src="https://i.ibb.co/V3F1swK/pandas-2-3.png" width="200" style="float:left" />

`loc`로 인덱싱을 한 뒤에 반환되는 결과는 1차원 인덱스를 갖는 데이터프레임 입니다.  
재차 인덱싱을 적용해서 원하는 결과를 가져올 수 있습니다. 

<img src="https://i.ibb.co/DMqtBnw/pandas-2-4.png" width="200" style="float:left" />

한 번에 이차원 인덱스의 인덱싱은 튜플로 이차원 인덱스를 지정합니다.

###### 연속적인 행 선택하기  
`loc`의 슬라이싱은 지정해준 인덱스의 시작과 끝을 포함한 사이에 있는 모든 데이터를 가져옵니다. 
이차원 인덱스 이므로 튜플로 인덱스를 지정합니다. 

In [14]:
df.loc[:, :]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2019,B,200,4
2019,C,100,8
2020,A,400,8
2020,B,230,3


###### 불연속적인 행을 가져오기  
`df.loc[ [] , []]`

가져오려는 데이터의 인덱스를 튜플 (혹은 리스트) 로 지정합니다. 

In [25]:
df.loc[   [("2019", "A"), ('2020','A')],    :]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,A,300,5
2020,A,400,8


###### 특정 레벨의 모든 데이터 선택하기
`slice(None)`을 사용한 모든 `B`를 선택

In [27]:
# df.loc["B"] # error 이유? level0는 무엇인지, level1은 무엇인지 python interpreter에게 정확히 알려줘야 한다
df.loc[   (slice(None), "B") , : ]   # [행,열] : level0는 don't care, level1이 B이기만 하면 모든 columns의 데이터를 다 출력해줘 

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,B,200,4
2020,B,230,3


In [29]:
df.loc['2019', slice(None), :]  # 2, 3 : comma로 구분하면 python은 기본적으로 튜플로 인식   -> but, ()로 묶어주는 습관 들이기
2,3    

(2, 3)

### 로우 데이터 추가
이차원 인덱스의 위치 정보를 차례로 지정해야 합니다.  
칼럼 정보(`:`)까지 입력하는것에 주의해야 합니다. 

<img src="https://i.ibb.co/1nBH2Pd/pandas-2-6.png" width="200" style="float:left" />

### 데이터 정렬
멀티 인덱스에서 데이터가 정렬돼 있어야 효과적입니다. 

In [None]:
import numpy as np

data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]


np.random.shuffle(data)

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df = df.set_index(['date', 'item'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,price,volume
date,item,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,A,400,8
2019,C,100,8
2020,B,230,3
2019,B,200,4
2019,A,300,5


In [None]:
df_sorted = df.sort_index()

In [None]:
%timeit df.loc['2019']

216 µs ± 3.69 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
%timeit df_sorted.loc['2019']

113 µs ± 1.16 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


## Multi Columns

인덱스와 유사하게 2 level로 구성된 멀티 칼럼을 실습해 봅시다.

In [30]:
data = [
    ["삼성전자", 300, 2000, 700, 300, 400],
    ["Naver", 200, 4000, 500, 300, 200],
    ["LG전자", 100, 1200, 300, 200, 100],        
]

columns = ['종목', '종가', '거래량', '자산', '자본', '부채']
df = DataFrame(data=data, columns=columns)
df = df.set_index('종목')
df

Unnamed: 0_level_0,종가,거래량,자산,자본,부채
종목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
삼성전자,300,2000,700,300,400
Naver,200,4000,500,300,200
LG전자,100,1200,300,200,100


In [35]:
# multi columns
df.columns = [ ['시장정보', '시장정보', '재무상태', '재무상태', '재무상태'], 
               ['종가', '거래량', '자산', '자본', '부채'] ]
df

Unnamed: 0_level_0,시장정보,시장정보,재무상태,재무상태,재무상태
Unnamed: 0_level_1,종가,거래량,자산,자본,부채
종목,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
삼성전자,300,2000,700,300,400
Naver,200,4000,500,300,200
LG전자,100,1200,300,200,100


In [33]:
# 행과 열을 바꾸면 멀티 인덱스가 됨. 
df.T

Unnamed: 0,종목,삼성전자,Naver,LG전자
시장정보,종가,300,200,100
시장정보,거래량,2000,4000,1200
재무상태,자산,700,500,300
재무상태,자본,300,300,200
재무상태,부채,400,200,100


In [34]:
df.iloc[0,1]

2000

In [36]:
df.loc["삼성전자", ('시장정보', '거래량') ]   # [행, 열] -> 열은 (level0, level1) 정보를 담고 있음

2000

In [37]:
# 비효율적인 코드 : df['시장정보']는 데이터프레임 -> loc method로 df의 행으로 원하는 데이터에 접근
df['시장정보'].loc['삼성전자', '거래량']     # df.시장정보.loc['삼성전자', '거래량'] 

2000

### 인덱싱과 슬라이싱

멀티 인덱스와 유사합니다. 사용해 봅시다. 

###### 연속적인 칼럼 슬라이싱

###### 불연속적인 칼럼 슬라이싱

###### 특정 레벨의 모든 칼럼 슬라이싱

## Transpose