In [2]:
import numpy as np
import pandas as pd
pd.__version__

'1.5.2'

# Series

In [3]:
a = pd.Series([1,2,3,4,5])
a

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [5]:
a.values, a.index

(array([1, 2, 3, 4, 5], dtype=int64), RangeIndex(start=0, stop=5, step=1))

In [6]:
b = pd.Series([1,2,3,4,5], index=["a","b","c","d","e"])
b

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [7]:
b.unique(), b.value_counts()

(array([1, 2, 3, 4, 5], dtype=int64),
 1    1
 2    1
 3    1
 4    1
 5    1
 dtype: int64)

In [8]:
b.isin([3,5])

a    False
b    False
c     True
d    False
e     True
dtype: bool

# DataFrame

In [12]:
pop_tuple = {'서울 특별시': 9708460,
            '인천 광역시' : 3404424,
            '부산 광역시' : 2947217,
            '대구 광역시' : 2427954,
            '대전 광역시' : 1471040,
            '광주 광역시' : 1455048}

In [13]:
population = pd.Series(pop_tuple)
population

서울 특별시    9708460
인천 광역시    3404424
부산 광역시    2947217
대구 광역시    2427954
대전 광역시    1471040
광주 광역시    1455048
dtype: int64

In [14]:
pd.DataFrame(np.random.rand(5,5),
            index = [1,2,3,4,5],
            columns=["a","b","c","d","e"])

Unnamed: 0,a,b,c,d,e
1,0.543957,0.881881,0.724633,0.162198,0.801944
2,0.509862,0.014799,0.833257,0.097189,0.731968
3,0.483029,0.044825,0.281936,0.831184,0.727593
4,0.076813,0.837387,0.896001,0.281954,0.374519
5,0.0326,0.187077,0.856868,0.685612,0.975498


In [15]:
male_tuple = {'서울 특별시': 4758460,
            '인천 광역시' : 1668424,
            '부산 광역시' : 1437217,
            '대구 광역시' : 1199854,
            '대전 광역시' : 713040,
            '광주 광역시' : 755048}

female_tuple = {'서울 특별시': 4908460,
            '인천 광역시' : 1784424,
            '부산 광역시' : 1337217,
            '대구 광역시' : 1259854,
            '대전 광역시' : 735740,
            '광주 광역시' : 713638}

In [16]:
korea_df = pd.DataFrame({"인구수" : pop_tuple,
              "남자 인구수" : male_tuple,
             "여자 인구수" : female_tuple})

In [17]:
print(korea_df.index)
print("\n", korea_df.columns)

Index(['서울 특별시', '인천 광역시', '부산 광역시', '대구 광역시', '대전 광역시', '광주 광역시'], dtype='object')

 Index(['인구수', '남자 인구수', '여자 인구수'], dtype='object')


In [19]:
korea_df["서울 특별시":"대전 광역시"]

Unnamed: 0,인구수,남자 인구수,여자 인구수
서울 특별시,9708460,4758460,4908460
인천 광역시,3404424,1668424,1784424
부산 광역시,2947217,1437217,1337217
대구 광역시,2427954,1199854,1259854
대전 광역시,1471040,713040,735740


# Index 객체

| 클래스 | 설명 |
|------|------|
|`index`|일반적인 Index 객체이며, Numpy 배열 형식으로 축의 이름 표현|
|`int64Index`|정수 값을 위한 Index|
|`MultiIndex`| 단일 축에 여러 단계 색인을 표현하는 계층적 Index객체(튜플의 배열과 유사)|
|`PeriodIndex`|기간 데이터를 위한 Index|
|`DatetimeIndex`|Numpy의 datetime64 타입으로 타임스탬프 저장|


In [20]:
idx = pd.Index([2,3,4,5])
idx

Int64Index([2, 3, 4, 5], dtype='int64')

In [25]:
print("idx :", idx)
print("idx size :",idx.size)
print("idx shape :",idx.shape)
print("idx ndim :",idx.ndim)
print("idx dtype :",idx.dtype)

idx : Int64Index([2, 3, 4, 5], dtype='int64')
idx size : 4
idx shape : (4,)
idx ndim : 1
idx dtype : int64


In [39]:
idx1 = pd.Index([1,2,4,6,8])
idx2 = pd.Index([2,4,5,6,7])

print("append 연산 :",  idx1.append(idx2))
print("difference 연산 :",  idx1.difference(idx2))
print("intersection 연산 : ", idx1.intersection(idx2))
print("union 연산 : ", idx1.union(idx2))
print("drop 연산 : ", idx1.drop(4))
print("isin 연산 : ", idx1.isin(idx2))

append 연산 : Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
difference 연산 : Int64Index([1, 8], dtype='int64')
intersection 연산 :  Int64Index([2, 4, 6], dtype='int64')
union 연산 :  Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
drop 연산 :  Int64Index([1, 2, 6, 8], dtype='int64')
isin 연산 :  [False  True  True  True False]


# Indexing

## Series Indexing 

In [40]:
a = pd.Series([0,0.25,0.5,0.75,1],
             index = ['a','b','c','d','e'])
a

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [41]:
a.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [44]:
list(a.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [46]:
a['f'] = 1.25
a

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [51]:
a[(a>0.4) & (a< 0.6)]

c    0.5
dtype: float64

## DataFrame Indexing 

In [65]:
korea_df

Unnamed: 0,인구수,남자 인구수,여자 인구수
서울 특별시,9708460,4758460,4908460
인천 광역시,3404424,1668424,1784424
부산 광역시,2947217,1437217,1337217
대구 광역시,2427954,1199854,1259854
대전 광역시,1471040,713040,735740
광주 광역시,1455048,755048,713638


In [83]:
korea_df["남자 인구수"]  # 컬럼은 이렇게 호출 가능

서울 특별시    4758460
인천 광역시    1668424
부산 광역시    1437217
대구 광역시    1199854
대전 광역시     713040
광주 광역시     755048
Name: 남자 인구수, dtype: int64

In [71]:
korea_df["남여비율"] = (korea_df["남자 인구수"]* 100 / korea_df["여자 인구수"])
korea_df

Unnamed: 0,인구수,남자 인구수,여자 인구수,남여비율
서울 특별시,9708460,4758460,4908460,96.944052
인천 광역시,3404424,1668424,1784424,93.499303
부산 광역시,2947217,1437217,1337217,107.478218
대구 광역시,2427954,1199854,1259854,95.237543
대전 광역시,1471040,713040,735740,96.914671
광주 광역시,1455048,755048,713638,105.802662


In [75]:
korea_df.values

array([[9.70846000e+06, 4.75846000e+06, 4.90846000e+06, 9.69440517e+01],
       [3.40442400e+06, 1.66842400e+06, 1.78442400e+06, 9.34993029e+01],
       [2.94721700e+06, 1.43721700e+06, 1.33721700e+06, 1.07478218e+02],
       [2.42795400e+06, 1.19985400e+06, 1.25985400e+06, 9.52375434e+01],
       [1.47104000e+06, 7.13040000e+05, 7.35740000e+05, 9.69146709e+01],
       [1.45504800e+06, 7.55048000e+05, 7.13638000e+05, 1.05802662e+02]])

In [76]:
korea_df.T

Unnamed: 0,서울 특별시,인천 광역시,부산 광역시,대구 광역시,대전 광역시,광주 광역시
인구수,9708460.0,3404424.0,2947217.0,2427954.0,1471040.0,1455048.0
남자 인구수,4758460.0,1668424.0,1437217.0,1199854.0,713040.0,755048.0
여자 인구수,4908460.0,1784424.0,1337217.0,1259854.0,735740.0,713638.0
남여비율,96.94405,93.4993,107.4782,95.23754,96.91467,105.8027


In [85]:
korea_df.loc["서울 특별시":"대전 광역시"]

Unnamed: 0,인구수,남자 인구수,여자 인구수,남여비율
서울 특별시,9708460,4758460,4908460,96.944052
인천 광역시,3404424,1668424,1784424,93.499303
부산 광역시,2947217,1437217,1337217,107.478218
대구 광역시,2427954,1199854,1259854,95.237543
대전 광역시,1471040,713040,735740,96.914671


In [94]:
korea_df[korea_df["인구수"] > 2427954]

Unnamed: 0,인구수,남자 인구수,여자 인구수,남여비율
서울 특별시,9708460,4758460,4908460,96.944052
인천 광역시,3404424,1668424,1784424,93.499303
부산 광역시,2947217,1437217,1337217,107.478218


In [99]:
korea_df.iloc[:,2:3]

Unnamed: 0,여자 인구수
서울 특별시,4908460
인천 광역시,1784424
부산 광역시,1337217
대구 광역시,1259854
대전 광역시,735740
광주 광역시,713638


## Multi Indexing 

In [122]:
idx_tuples = [("서울 특별시", 2010), ("서울 특별시", 2020),
             ("인천 광역시", 2010), ("인천 광역시", 2020),
             ("부산 광역시", 2010), ("부산 광역시", 2020),
             ("대구 광역시", 2010), ("대구 광역시", 2020),
             ("대전 광역시", 2010), ("대전 광역시", 2020),
             ("광주 광역시", 2010), ("광주 광역시", 2020)]
idx_tuples

[('서울 특별시', 2010),
 ('서울 특별시', 2020),
 ('인천 광역시', 2010),
 ('인천 광역시', 2020),
 ('부산 광역시', 2010),
 ('부산 광역시', 2020),
 ('대구 광역시', 2010),
 ('대구 광역시', 2020),
 ('대전 광역시', 2010),
 ('대전 광역시', 2020),
 ('광주 광역시', 2010),
 ('광주 광역시', 2020)]

In [123]:
pop_tuples = [10312434, 9720846,
             3568940 , 4539334,
             2758296, 2947217,
             2511676, 2427954,
             1503664, 1471040,
             1454636, 1455048]

population = pd.Series(pop_tuples, index=idx_tuples)
population

(서울 특별시, 2010)    10312434
(서울 특별시, 2020)     9720846
(인천 광역시, 2010)     3568940
(인천 광역시, 2020)     4539334
(부산 광역시, 2010)     2758296
(부산 광역시, 2020)     2947217
(대구 광역시, 2010)     2511676
(대구 광역시, 2020)     2427954
(대전 광역시, 2010)     1503664
(대전 광역시, 2020)     1471040
(광주 광역시, 2010)     1454636
(광주 광역시, 2020)     1455048
dtype: int64

In [124]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울 특별시', 2010),
            ('서울 특별시', 2020),
            ('인천 광역시', 2010),
            ('인천 광역시', 2020),
            ('부산 광역시', 2010),
            ('부산 광역시', 2020),
            ('대구 광역시', 2010),
            ('대구 광역시', 2020),
            ('대전 광역시', 2010),
            ('대전 광역시', 2020),
            ('광주 광역시', 2010),
            ('광주 광역시', 2020)],
           )

In [125]:
population.index = midx
population

서울 특별시  2010    10312434
        2020     9720846
인천 광역시  2010     3568940
        2020     4539334
부산 광역시  2010     2758296
        2020     2947217
대구 광역시  2010     2511676
        2020     2427954
대전 광역시  2010     1503664
        2020     1471040
광주 광역시  2010     1454636
        2020     1455048
dtype: int64

In [126]:
population[:,2020]

서울 특별시    9720846
인천 광역시    4539334
부산 광역시    2947217
대구 광역시    2427954
대전 광역시    1471040
광주 광역시    1455048
dtype: int64

In [131]:
korea_mdf = population.unstack()
korea_mdf

Unnamed: 0,2010,2020
광주 광역시,1454636,1455048
대구 광역시,2511676,2427954
대전 광역시,1503664,1471040
부산 광역시,2758296,2947217
서울 특별시,10312434,9720846
인천 광역시,3568940,4539334


In [132]:
korea_mdf = korea_mdf.stack()
korea_mdf

광주 광역시  2010     1454636
        2020     1455048
대구 광역시  2010     2511676
        2020     2427954
대전 광역시  2010     1503664
        2020     1471040
부산 광역시  2010     2758296
        2020     2947217
서울 특별시  2010    10312434
        2020     9720846
인천 광역시  2010     3568940
        2020     4539334
dtype: int64

In [137]:
male_tuples = [5111259,4732275,
             1773170,1668618,
             1390356, 1476813,
             1255245, 1198815,
             753648, 734441,
             721780, 720060]

In [138]:
korea_mdf = pd.DataFrame({"총인구수":population, "남자인구수":male_tuples })
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수
서울 특별시,2010,10312434,5111259
서울 특별시,2020,9720846,4732275
인천 광역시,2010,3568940,1773170
인천 광역시,2020,4539334,1668618
부산 광역시,2010,2758296,1390356
부산 광역시,2020,2947217,1476813
대구 광역시,2010,2511676,1255245
대구 광역시,2020,2427954,1198815
대전 광역시,2010,1503664,753648
대전 광역시,2020,1471040,734441


In [139]:
female_tuples = [5201286,4988571,
                1794740, 1735805,
                1367950,1470404,
                1256431,1229139,
                750016,736599,
                732856,734988]

In [141]:
korea_mdf["여자인구수"] = female_tuples
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수
서울 특별시,2010,10312434,5111259,5201286
서울 특별시,2020,9720846,4732275,4988571
인천 광역시,2010,3568940,1773170,1794740
인천 광역시,2020,4539334,1668618,1735805
부산 광역시,2010,2758296,1390356,1367950
부산 광역시,2020,2947217,1476813,1470404
대구 광역시,2010,2511676,1255245,1256431
대구 광역시,2020,2427954,1198815,1229139
대전 광역시,2010,1503664,753648,750016
대전 광역시,2020,1471040,734441,736599


In [144]:
ratio = korea_mdf["남자인구수"]*100/korea_mdf["여자인구수"]
ratio.unstack()

Unnamed: 0,2010,2020
광주 광역시,98.488653,97.968946
대구 광역시,99.905606,97.532907
대전 광역시,100.484256,99.707032
부산 광역시,101.637925,100.435867
서울 특별시,98.26914,94.862336
인천 광역시,98.798155,96.129346


In [146]:
korea_mdf["남여 비율"] = ratio
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수,남여 비율
서울 특별시,2010,10312434,5111259,5201286,98.26914
서울 특별시,2020,9720846,4732275,4988571,94.862336
인천 광역시,2010,3568940,1773170,1794740,98.798155
인천 광역시,2020,4539334,1668618,1735805,96.129346
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032


### 다중 인덱스 생성

In [162]:
pd.DataFrame(np.random.rand(18).reshape(6,3), 
             index= [["a","a","b","b","c","c"],[1,2,1,2,1,2]],
            columns = ["c1","c2","c3"])

Unnamed: 0,Unnamed: 1,c1,c2,c3
a,1,0.778913,0.334385,0.045514
a,2,0.700204,0.073069,0.563314
b,1,0.464048,0.69416,0.778195
b,2,0.404714,0.526721,0.627975
c,1,0.479278,0.622238,0.44418
c,2,0.671667,0.914155,0.269253


In [163]:
pd.MultiIndex.from_arrays([['a','a','b','b','c','c'],[1,2,1,2,1,2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [165]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2),('c',1),('c',2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [168]:
pd.MultiIndex.from_product([['a','b','c'],[1,2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [169]:
pd.MultiIndex(levels=[['a','b','c'],[1,2]],
                     codes = [[0,0,1,1,2,2],[0,1,0,1,0,1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [174]:
population.index.names = ["행정구역", "년도"]
population

행정구역    년도  
서울 특별시  2010    10312434
        2020     9720846
인천 광역시  2010     3568940
        2020     4539334
부산 광역시  2010     2758296
        2020     2947217
대구 광역시  2010     2511676
        2020     2427954
대전 광역시  2010     1503664
        2020     1471040
광주 광역시  2010     1454636
        2020     1455048
dtype: int64

In [186]:
# MultiIndex.from_product/array/tuples 같은 함수로 공통 인덱스를 묶어준다.
# 굳이 MultiIndex 안하고 노가다로 해도 됨
col = pd.MultiIndex.from_product([["c1","c2","c3"],[1,2]], names = ["col_name1", "col_name2"])
idx = pd.MultiIndex.from_product([['a','b','c'],[1,2]], names = ["names1", "names2"])
data = np.round(np.random.rand(6,6),2)

mdf = pd.DataFrame(data, columns=col, index=idx)
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
names1,names2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,0.54,0.92,0.27,0.5,0.25,0.04
a,2,0.53,0.39,0.31,0.46,0.46,0.38
b,1,0.56,0.65,0.57,0.78,0.33,0.66
b,2,0.47,0.21,0.44,0.25,0.5,0.06
c,1,0.79,0.1,0.62,0.75,0.01,0.29
c,2,0.53,0.59,0.0,0.26,0.38,0.62


In [189]:
mdf["c1"][1]

names1  names2
a       1         0.54
        2         0.53
b       1         0.56
        2         0.47
c       1         0.79
        2         0.53
Name: 1, dtype: float64

In [190]:
mdf.iloc[:3,:4]

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2
Unnamed: 0_level_1,col_name2,1,2,1,2
names1,names2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0.54,0.92,0.27,0.5
a,2,0.53,0.39,0.31,0.46
b,1,0.56,0.65,0.57,0.78


In [199]:
idx_slice = pd.IndexSlice
mdf.loc[idx_slice[:,1],idx_slice[:,2]]

Unnamed: 0_level_0,col_name1,c1,c2,c3
Unnamed: 0_level_1,col_name2,2,2,2
names1,names2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0.92,0.5,0.04
b,1,0.65,0.78,0.66
c,1,0.1,0.75,0.29


In [217]:
# pd.IndexSlice 대신 이렇게 해도 된다.
mdf.loc[(["a","b","c"],[1,1,1]),(["c1","c2","c3"],[2,2,2])]

Unnamed: 0_level_0,col_name1,c1,c2,c3
Unnamed: 0_level_1,col_name2,2,2,2
names1,names2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0.92,0.5,0.04
b,1,0.65,0.78,0.66
c,1,0.1,0.75,0.29


### 다중 인덱스 재정렬

In [241]:
korea_mdf = korea_mdf.sort_index()
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여 비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주 광역시,2010,1454636,721780,732856,98.488653
광주 광역시,2020,1455048,720060,734988,97.968946
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867
서울 특별시,2010,10312434,5111259,5201286,98.26914
서울 특별시,2020,9720846,4732275,4988571,94.862336


In [244]:
# MultiIndex 같은 경우 슬라이싱을 정렬 이후에 이렇게 가능하다.
# 이렇게 하지 않으면 pd.IndexSlice 같은 방식으로 해야하는데 이건 복잡하다.
korea_mdf["대구 광역시" : "부산 광역시"]  

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여 비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867


In [247]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여 비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주 광역시,2010,1454636,721780,732856,98.488653
광주 광역시,2020,1455048,720060,734988,97.968946
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867
서울 특별시,2010,10312434,5111259,5201286,98.26914
서울 특별시,2020,9720846,4732275,4988571,94.862336


In [249]:
korea_mdf.unstack(level=0)

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수,총인구수,남자인구수,남자인구수,남자인구수,남자인구수,...,여자인구수,여자인구수,여자인구수,여자인구수,남여 비율,남여 비율,남여 비율,남여 비율,남여 비율,남여 비율
행정구역,광주 광역시,대구 광역시,대전 광역시,부산 광역시,서울 특별시,인천 광역시,광주 광역시,대구 광역시,대전 광역시,부산 광역시,...,대전 광역시,부산 광역시,서울 특별시,인천 광역시,광주 광역시,대구 광역시,대전 광역시,부산 광역시,서울 특별시,인천 광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2010,1454636,2511676,1503664,2758296,10312434,3568940,721780,1255245,753648,1390356,...,750016,1367950,5201286,1794740,98.488653,99.905606,100.484256,101.637925,98.26914,98.798155
2020,1455048,2427954,1471040,2947217,9720846,4539334,720060,1198815,734441,1476813,...,736599,1470404,4988571,1735805,97.968946,97.532907,99.707032,100.435867,94.862336,96.129346


In [250]:
korea_mdf.unstack(level=1)

Unnamed: 0_level_0,총인구수,총인구수,남자인구수,남자인구수,여자인구수,여자인구수,남여 비율,남여 비율
년도,2010,2020,2010,2020,2010,2020,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
광주 광역시,1454636,1455048,721780,720060,732856,734988,98.488653,97.968946
대구 광역시,2511676,2427954,1255245,1198815,1256431,1229139,99.905606,97.532907
대전 광역시,1503664,1471040,753648,734441,750016,736599,100.484256,99.707032
부산 광역시,2758296,2947217,1390356,1476813,1367950,1470404,101.637925,100.435867
서울 특별시,10312434,9720846,5111259,4732275,5201286,4988571,98.26914,94.862336
인천 광역시,3568940,4539334,1773170,1668618,1794740,1735805,98.798155,96.129346


In [252]:
korea_mdf.stack()

행정구역    년도         
광주 광역시  2010  총인구수     1.454636e+06
              남자인구수    7.217800e+05
              여자인구수    7.328560e+05
              남여 비율    9.848865e+01
        2020  총인구수     1.455048e+06
              남자인구수    7.200600e+05
              여자인구수    7.349880e+05
              남여 비율    9.796895e+01
대구 광역시  2010  총인구수     2.511676e+06
              남자인구수    1.255245e+06
              여자인구수    1.256431e+06
              남여 비율    9.990561e+01
        2020  총인구수     2.427954e+06
              남자인구수    1.198815e+06
              여자인구수    1.229139e+06
              남여 비율    9.753291e+01
대전 광역시  2010  총인구수     1.503664e+06
              남자인구수    7.536480e+05
              여자인구수    7.500160e+05
              남여 비율    1.004843e+02
        2020  총인구수     1.471040e+06
              남자인구수    7.344410e+05
              여자인구수    7.365990e+05
              남여 비율    9.970703e+01
부산 광역시  2010  총인구수     2.758296e+06
              남자인구수    1.390356e+06
              여자인구수    1.367950e+06
        

In [255]:
korea_mdf.reset_index()

Unnamed: 0,행정구역,년도,총인구수,남자인구수,여자인구수,남여 비율
0,광주 광역시,2010,1454636,721780,732856,98.488653
1,광주 광역시,2020,1455048,720060,734988,97.968946
2,대구 광역시,2010,2511676,1255245,1256431,99.905606
3,대구 광역시,2020,2427954,1198815,1229139,97.532907
4,대전 광역시,2010,1503664,753648,750016,100.484256
5,대전 광역시,2020,1471040,734441,736599,99.707032
6,부산 광역시,2010,2758296,1390356,1367950,101.637925
7,부산 광역시,2020,2947217,1476813,1470404,100.435867
8,서울 특별시,2010,10312434,5111259,5201286,98.26914
9,서울 특별시,2020,9720846,4732275,4988571,94.862336


In [254]:
korea_mdf.reset_index(level=1)

Unnamed: 0_level_0,년도,총인구수,남자인구수,여자인구수,남여 비율
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주 광역시,2010,1454636,721780,732856,98.488653
광주 광역시,2020,1455048,720060,734988,97.968946
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867
서울 특별시,2010,10312434,5111259,5201286,98.26914
서울 특별시,2020,9720846,4732275,4988571,94.862336


In [256]:
korea_mdf.reset_index(level=0)

Unnamed: 0_level_0,행정구역,총인구수,남자인구수,여자인구수,남여 비율
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010,광주 광역시,1454636,721780,732856,98.488653
2020,광주 광역시,1455048,720060,734988,97.968946
2010,대구 광역시,2511676,1255245,1256431,99.905606
2020,대구 광역시,2427954,1198815,1229139,97.532907
2010,대전 광역시,1503664,753648,750016,100.484256
2020,대전 광역시,1471040,734441,736599,99.707032
2010,부산 광역시,2758296,1390356,1367950,101.637925
2020,부산 광역시,2947217,1476813,1470404,100.435867
2010,서울 특별시,10312434,5111259,5201286,98.26914
2020,서울 특별시,9720846,4732275,4988571,94.862336


In [265]:
idx_flat = korea_mdf.reset_index()
idx_flat.set_index(["행정구역", "년도"])  # 데이터안에 것도 빼서 인덱스화 가능

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여 비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주 광역시,2010,1454636,721780,732856,98.488653
광주 광역시,2020,1455048,720060,734988,97.968946
대구 광역시,2010,2511676,1255245,1256431,99.905606
대구 광역시,2020,2427954,1198815,1229139,97.532907
대전 광역시,2010,1503664,753648,750016,100.484256
대전 광역시,2020,1471040,734441,736599,99.707032
부산 광역시,2010,2758296,1390356,1367950,101.637925
부산 광역시,2020,2947217,1476813,1470404,100.435867
서울 특별시,2010,10312434,5111259,5201286,98.26914
서울 특별시,2020,9720846,4732275,4988571,94.862336
