# Pandas 한 번에 제대로 배우기 - feat. 이수안컴퓨터연구소

## Pandas 객체

In [2]:
import numpy as np
import pandas as pd

pd.__version__

'1.2.4'

### Series 객체

In [3]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
s

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [5]:
s.values # Series형태에서도 value값만 따로 추출 가능

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [6]:
s.index # Series형태에서도 index값만 따로 추출 가능

RangeIndex(start=0, stop=5, step=1)

In [8]:
s[1] # Slicing 가능

0.25

In [9]:
s[1:4]

1    0.25
2    0.50
3    0.75
dtype: float64

In [12]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a', 'b', 'c', 'd', 'e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [14]:
s['c']

0.5

In [15]:
s[['c', 'd','e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [16]:
'b' in s

True

In [17]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = [2, 4, 6, 8, 10])
s

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64

In [18]:
s[4]

0.25

In [19]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [20]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [21]:
s.value_counts()

0.00    1
1.00    1
0.50    1
0.75    1
0.25    1
dtype: int64

In [23]:
s.isin([0.25, 0.75]) # 0.25, 0.75가 어디에 존재하는지 boolean으로 출력

2     False
4      True
6     False
8     False
10    False
dtype: bool

In [24]:
pop_tuple = {'서울특별시': 9720846, 
             '부산광역시': 3404423,
             '인천광역시': 2947217,
             '대구광역시': 2427954,
             '대전광역시': 1471040,
             '광주광역시': 1455048}
population = pd.Series(pop_tuple)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [25]:
population['서울특별시']

9720846

In [26]:
population['서울특별시':'인천광역시'] # 한글 슬라이싱도 가능

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame 객체

In [28]:
pd.DataFrame([{'A':2, 'B':4, 'D':3},{'A':4, 'B':5, 'C':7}]) # 여러 columns을 가진 2차원 특성을 가짐

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [29]:
pd.DataFrame(np.random.rand(5, 5),
             columns = ['A', 'B', 'C', 'D', 'E'], 
             index = [1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.419755,0.773519,0.790035,0.943862,0.979458
2,0.705809,0.117716,0.598748,0.650384,0.295195
3,0.301521,0.260058,0.869267,0.806322,0.214987
4,0.353334,0.854468,0.91539,0.961958,0.75965
5,0.125953,0.298143,0.284991,0.753008,0.905162


In [31]:
male_tuple = {'서울특별시': 4732275, 
              '부산광역시': 1668618,
              '인천광역시': 1476813,
              '대구광역시': 1198815,
              '대전광역시': 734441,
              '광주광역시': 720060}
male = pd.Series(male_tuple)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
dtype: int64

In [32]:
female_tuple = {'서울특별시': 4988571, 
                '부산광역시': 1735805,
                '인천광역시': 1470404,
                '대구광역시': 1229139,
                '대전광역시': 736599,
                '광주광역시': 734988}
female = pd.Series(female_tuple)
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
dtype: int64

In [33]:
korea_df = pd.DataFrame({'인구수':population, 
                         '남자인구수':male,
                         '여자인구수':female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [34]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [35]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [36]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [37]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


### Index 객체
 
  

|클래스|설명|
|:--|:--|
|Index|일반적은 Index 객체이며, Numpy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|MultiIndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index객체(튜플의 배열과 유사)|
|DatetimeIndex|Numpy의 datatime64 타입으로 타임스탬프 저장|
|PeriodIndex|기간 데이터를 위한 Index|

In [38]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [39]:
idx[1]

4

In [42]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [43]:
idx[-1:]

Int64Index([10], dtype='int64')

In [44]:
idx[::-2]

Int64Index([10, 6, 2], dtype='int64')

In [45]:
print(idx)
print(idx.size)   # 5개의 값이 들어가 있다.
print(idx.shape)  # 1차원 shape
print(idx.ndim)   # 차원 수
print(idx.dtype)  # 데이터 타입

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### index 연산
|연산자|메소드|설명|
|:-|:-|:-|
||```append```|색인 객체를 추가한 새로운 색인 반환|
||```difference```|색인의 차집합 반환|
|```&```|```intersection```|색인의 교집합 반환|
|```\|```|```union```|색인의 합집합 반환|
||```isin```|색인이 존재하는지 여부를 불리언 배열로 반환|
||```delete```|색인이 삭제된 새로운 색인 반환
||```drop```|값이 삭제된 새로운 색인 반환|
||```insert```|색인이 추가된 새로운 색인 반환|
||```is_monotonic```|색인이 단조성을 가지면 True|
||```is_unique```|중복되는 색인이 없다면 True|
||```unique```|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|

In [64]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))
print(idx1.difference(idx2))
print(idx1 - idx2)
print(idx1.intersection(idx2))
print(idx1 & idx2 )
print(idx1.union(idx2)) # 중복을 제외함
print(idx1|idx2)
print(idx1.delete(0))   # 인덱스 번호를 지정하여 그 해당하는 번호의 값을 제거
print(idx1.drop(1))     # idx1에 있는 값을 지정하여 그 값을 제거
print(idx1^idx2)        # 공통된 것을 뺀 나머지 (차집합)

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


  print(idx1 & idx2 )
  print(idx1|idx2)
  print(idx1^idx2)       # 공통된 것을 뺀 나머지 (차집합)


## 인덱싱 ( Indexing )

In [65]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [66]:
s['b']

0.25

In [67]:
'b' in s

True

In [68]:
s.keys() # 해당하는 인덱스값들을 반환

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [71]:
list(s.items()) # 시리즈의 값들이 tuple 값으로 묶여서 나온다.

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [72]:
s['f'] = 1.25
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [73]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [74]:
s[0:3]

a    0.00
b    0.25
c    0.50
dtype: float64

In [75]:
s[ (s > 0.4) & (s < 0.8) ] # filtering을 조건으로 주어 인덱싱을 반환이 가능함

c    0.50
d    0.75
dtype: float64

In [76]:
s[['a','c','e']]

a    0.0
c    0.5
e    1.0
dtype: float64

### Series 인덱싱

In [77]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'],
              index=[1, 3, 5, 7, 9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [78]:
s[1]

'a'

In [79]:
s[2:4]

5    c
7    d
dtype: object

In [80]:
s.iloc[1]

'b'

In [81]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [82]:
s.reindex(range(10))

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [83]:
s.reindex(range(10), method='bfill') # '그 전값으로 NaN 값을 채워줘'라는 메소드

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

### DataFrame 인덱싱

|사용방법|설명|
|:-|:-|
|```df[val]```|하나의 컬럼 또는 여러 컬럼을 선택|
|```df.loc[val]```|레이블 값으로 로우의 부분집합 선택|
|```df.loc[:,val]```|레이블 값으로 컬럼의 부분집합 선택|
|```df.loc[val1, val2]```|레이블 값으로 로우와 컬럼의 부분집합 선택|
|```df.iloc[where]```|정수 색인으로 로우의 부분집합 선택|
|```df.iloc[:,where]```|정수 색인으로 컬럼의 부분집합 선택|
|```df.iloc[where_i,where_j]```|정수 색인으로 로우와 컬럼의 부분집합 선택|
|```df.at[label_i,label_j]```|로우와 컬럼의 라벨로 단일 값 선택|
|```df.iat[i, j]```|로우와 컬럼의 정수 색인으로 단일 값 선택|
|```reindex```|하나 이상의 축을 새로운 색인으로 재색인|
|```get_value, set_value```|로우와 컬럼의 이름으로 값 선택|

In [84]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [85]:
korea_df['남자인구수']

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [86]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [None]:
korea_df.여자인구수

In [87]:
korea_df['남여비율'] = (korea_df.남자인구수 * 100 / korea_df.여자인구수 ) 
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [88]:
korea_df.values # korea_df의 모든 값들을 반환함

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [90]:
korea_df.values[0]  # values의 첫번째 값 (서울특별시)만 가져옴

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [89]:
korea_df.T  # 기존의 행과 열의 순서를 바꿈

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,734988.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,97.96895


In [92]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [95]:
korea_df.loc[ (korea_df.여자인구수 > 1000000) ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [97]:
korea_df.loc[ (korea_df.인구수 < 2000000) ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [99]:
korea_df.loc[ (korea_df.인구수 > 2500000) ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867


In [100]:
korea_df.loc[ korea_df.남여비율 > 100 ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [111]:
korea_df.loc[ ( korea_df.인구수 > 2500000 ) & ( korea_df.남여비율 > 100 )]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [105]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


### 다중 인덱스( Multi Indexing )
- 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
- 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

In [112]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [113]:
idx_tuples = [('서울특별시', 2010), ('서울특별시',2020),
              ('부산광역시', 2010), ('부산광역시',2020),
              ('인천광역시', 2010), ('인천광역시',2020),
              ('대구광역시', 2010), ('대구광역시',2020),
              ('대전광역시', 2010), ('대전광역시',2020),
              ('광주광역시', 2010), ('광주광역시',2020),
             ]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [114]:
pop_tuples = [10312545, 9720846,
              2567910, 3404423,
              2758296, 2847217,
              2511676, 2427954,
              1503664, 1471040,
              1454636, 1455048]
population = pd.Series(pop_tuples, index = idx_tuples)
population

(서울특별시, 2010)    10312545
(서울특별시, 2020)     9720846
(부산광역시, 2010)     2567910
(부산광역시, 2020)     3404423
(인천광역시, 2010)     2758296
(인천광역시, 2020)     2847217
(대구광역시, 2010)     2511676
(대구광역시, 2020)     2427954
(대전광역시, 2010)     1503664
(대전광역시, 2020)     1471040
(광주광역시, 2010)     1454636
(광주광역시, 2020)     1455048
dtype: int64

In [115]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [117]:
population = population.reindex(midx)
population

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2847217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [118]:
population[:, 2010]

서울특별시    10312545
부산광역시     2567910
인천광역시     2758296
대구광역시     2511676
대전광역시     1503664
광주광역시     1454636
dtype: int64

In [120]:
population['대전광역시',:]

2010    1503664
2020    1471040
dtype: int64

In [121]:
korea_mdf = population.unstack  # MutiIndex를 DataFrame 형태로 변환함
korea_mdf

Unnamed: 0,2010,2020
광주광역시,1454636,1455048
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,2567910,3404423
서울특별시,10312545,9720846
인천광역시,2758296,2847217


In [122]:
korea_mdf.stack()

광주광역시  2010     1454636
       2020     1455048
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
부산광역시  2010     2567910
       2020     3404423
서울특별시  2010    10312545
       2020     9720846
인천광역시  2010     2758296
       2020     2847217
dtype: int64

In [123]:
male_tuple = [5111259, 4732275,
              1773170, 1668618, 
              1390356, 1476813, 
              1255245, 1198815, 
              753648, 734441, 
              721780, 720060]
male_tuple

[5111259,
 4732275,
 1773170,
 1668618,
 1390356,
 1476813,
 1255245,
 1198815,
 753648,
 734441,
 721780,
 720060]

In [124]:
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수
서울특별시,2010,10312545,5111259
서울특별시,2020,9720846,4732275
부산광역시,2010,2567910,1773170
부산광역시,2020,3404423,1668618
인천광역시,2010,2758296,1390356
인천광역시,2020,2847217,1476813
대구광역시,2010,2511676,1255245
대구광역시,2020,2427954,1198815
대전광역시,2010,1503664,753648
대전광역시,2020,1471040,734441


In [125]:
female_tuples = [5201286, 4988571,
                1794740, 1735805,
                1367940, 1470404,
                1256431, 1229139,
                750016, 736599,
                732956, 734988]

In [127]:
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple,
                          '여자인구수':female_tuples})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2847217,1476813,1470404
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599


In [128]:
ratio = korea_mdf['남자인구수'] * 100 / korea_mdf['여자인구수']
ratio

서울특별시  2010     98.269140
       2020     94.862336
부산광역시  2010     98.798155
       2020     96.129346
인천광역시  2010    101.638668
       2020    100.435867
대구광역시  2010     99.905606
       2020     97.532907
대전광역시  2010    100.484256
       2020     99.707032
광주광역시  2010     98.475215
       2020     97.968946
dtype: float64

In [129]:
ratio.unstack()

Unnamed: 0,2010,2020
광주광역시,98.475215,97.968946
대구광역시,99.905606,97.532907
대전광역시,100.484256,99.707032
부산광역시,98.798155,96.129346
서울특별시,98.26914,94.862336
인천광역시,101.638668,100.435867


In [130]:
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple,
                          '여자인구수':female_tuples,
                          '남녀비율':ratio})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수,남녀비율
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2847217,1476813,1470404,100.435867
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032


#### 다중 인덱스 생성

In [132]:
df = pd.DataFrame(np.random.rand(6, 3),
                  index=[['a','a','b','b','c','c'], [1, 2, 1, 2, 1, 2]],
                  columns = ['c1', 'c2','c3'])
df

Unnamed: 0,Unnamed: 1,c1,c2,c3
a,1,0.590229,0.164562,0.232594
a,2,0.736991,0.343838,0.371035
b,1,0.464022,0.39096,0.818845
b,2,0.121947,0.505825,0.473939
c,1,0.67818,0.981155,0.907383
c,2,0.027026,0.594936,0.542989


In [133]:
pd.MultiIndex.from_arrays([['a','a','b','b','c','c'], [1, 2, 1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [135]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2),('c',1),('c',2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [137]:
pd.MultiIndex.from_product([['a','b','c'], [1, 2]])  # 처음 []값과 다음 []값을 곱해라
                                                     # ex) ['a'] [1] , ['a'] [2] / ['b'] [1], ['b'] [2] / ...

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [139]:
pd.MultiIndex(levels=[['a','b','c'],[1,2]],                  
              codes=[[0, 0, 1, 1, 2, 2],[0, 1, 0, 1, 0, 1]]) # 인덱스의 번호를 나열하여 멀티인덱스를 생성

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [141]:
population.index.names = ['행정구역','년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2847217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [144]:
idx = pd.MultiIndex.from_product([['a', 'b','c'],[1,2]],
                                 names = ['name1','name2'])
cols = pd.MultiIndex.from_product([['c1','c2','c3'], [1, 2]],
                                  names = ['col_name1','col_name2'])
data = np.round(np.random.randn(6, 6),2)
mdf = pd.DataFrame(data, index=idx, columns=cols)
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,-0.84,0.13,-1.35,-0.72,-0.1,-0.02
a,2,0.11,0.61,-0.18,-1.66,-0.3,1.08
b,1,0.89,-0.31,-1.35,0.03,0.78,0.27
b,2,0.66,0.94,-0.86,-0.68,0.01,1.35
c,1,-1.59,0.63,-0.37,0.11,-1.0,-1.06
c,2,0.64,-1.07,-0.13,-1.1,-1.35,-0.09


In [146]:
mdf['c2']

Unnamed: 0_level_0,col_name2,1,2
name1,name2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,-1.35,-0.72
a,2,-0.18,-1.66
b,1,-1.35,0.03
b,2,-0.86,-0.68
c,1,-0.37,0.11
c,2,-0.13,-1.1


#### 인덱싱 및 슬라이싱