# Pandas 객체

## Series 객체

In [1]:
import pandas as pd
import numpy as np

series = pd.Series([1, 2, 3, 4, 5])
# Series를 만들때 리스트로만 묶고서 객체화했을 땐, 정수형 인덱스가 자동으로 생성됌
series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [2]:
T_series = pd.Series([1, 2, 3, 4, 5],
                    index=['a','b','c','d','e'])
# Series를 만들 때 index를 줘서 사용자 지정 인덱스를 만들수 있다.
T_series

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [3]:
T_series.values # values 메소드를 사용하면 해당 Series의 값들이 np.array형태로 반환됌

array([1, 2, 3, 4, 5], dtype=int64)

In [4]:
T_series.values[3] # values 메소드는 slicing이 가능한 객체

4

In [5]:
for i in range(0, 5, 2):
    # Slicing이 가능하기 때문에 for 문의 iteration을 적용하여 홀수값으로만 반환이 가능
    print(T_series.values[i])

1
3
5


In [6]:
T_series.index # index 메소드를 사용하면 해당 Series의 index 값들을 np.array형태로 반환됌

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [7]:
series.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
T_series[2:4] # Series 객체 또한 Slicing이 가능함

c    3
d    4
dtype: int64

In [9]:
T_series[::2] # Slicing이 가능하기 때문에 step을 주어 홀수값들만 반환

a    1
c    3
e    5
dtype: int64

In [10]:
T_series['f'] = 14 # Series는 dictionary의 원소를 방식으로 원소 추가가 가능함
T_series['ff'] = 4
T_series['g'] = np.nan # np.nan 값을 이용하여 결측치를 추가하는 방법이 있음
T_series

a      1.0
b      2.0
c      3.0
d      4.0
e      5.0
f     14.0
ff     4.0
g      NaN
dtype: float64

In [11]:
T_series.value_counts() # value_counts()를 이용하면 Series의 관측값의 빈도수를 파악할 수 있다.

4.0     2
3.0     1
2.0     1
14.0    1
5.0     1
1.0     1
dtype: int64

In [12]:
T_series.value_counts(sort = False)

3.0     1
2.0     1
14.0    1
5.0     1
4.0     2
1.0     1
dtype: int64

In [13]:
# value_counts(normalize = True)를 이용하면 빈도수가 비율형태로 나오게 된다.
# value_counts와 index, value를 이용하여 백분위로 values로 갖는 새로운 Series 생성하는 예
idx = T_series.value_counts().index
val = T_series.value_counts(normalize = True).values *100
hundred = dict()

for i, j in zip(idx, val):
    t = round(j, 1)
    hundred[i] = str(t) + ' %'

hundred = pd.Series(hundred)
hundred

4.0     28.6 %
3.0     14.3 %
2.0     14.3 %
14.0    14.3 %
5.0     14.3 %
1.0     14.3 %
dtype: object

In [14]:
# 딕셔너리 형태를 이용하여 새로운 Series를 생성할 수 있다.
book = pd.Series({'English':'English Grammer in use',
                  '태블로':'태블로 굿모닝 굿애프터눈',
                  '판다스':'파이썬 머신러닝 판다스 데이터 분석',
                  'ML':'파이썬 머신러닝 완벽가이드'})
book

English    English Grammer in use
태블로                 태블로 굿모닝 굿애프터눈
판다스           파이썬 머신러닝 판다스 데이터 분석
ML                 파이썬 머신러닝 완벽가이드
dtype: object

In [15]:
book['English']

'English Grammer in use'

In [16]:
book['English':'판다스']

English    English Grammer in use
태블로                 태블로 굿모닝 굿애프터눈
판다스           파이썬 머신러닝 판다스 데이터 분석
dtype: object

## DataFrame 객체

In [17]:
pd.DataFrame({'a':[1,3,4],
              'b':[1,2,4]})
# pd.DataFrame을 Dictionary형태로 만들때 'a'의 컬럼에 [1, 3, 4] 값이 있다는 형태로 만든다.

Unnamed: 0,a,b
0,1,1
1,3,2
2,4,4


In [18]:
pd.DataFrame([{'a':1, 'b':2, 'c':4}, {'a':2, 'b':3, 'd':5}])
# DataFrame의 data값에 list안에서 dictionary형태로 입력하면 row형태로 값을 입력할 수 있다.

Unnamed: 0,a,b,c,d
0,1,2,4.0,
1,2,3,,5.0


In [19]:
pd.DataFrame(
             [{'이*혁':3, '권*원':5, '송*미':2, '김*순':4},
              {'이*혁':1, '권*원':2, '송*미':4, '김*순':3},
              {'이*혁':2, '권*원':3, '송*미':1, '김*순':3}],
             index=['소주', '맥주', '와인'])
# DataFrame에 index 옵션을 입력하면 index를 원하는 값으로 지정할 수 있다.

Unnamed: 0,이*혁,권*원,송*미,김*순
소주,3,5,2,4
맥주,1,2,4,3
와인,2,3,1,3


In [20]:
pd.DataFrame({'이*혁':[3, 1, 2], '권*원':[5, 2, 3], '송*미':[2, 4, 1], '김*순':[4, 3, 3]}, 
             index = ['소주', '맥주','와인'])

Unnamed: 0,이*혁,권*원,송*미,김*순
소주,3,5,2,4
맥주,1,2,4,3
와인,2,3,1,3


In [21]:
Kim_dict = {'소주':13,
            '맥주':10,
            '와인':5,
            '위스키':2}
kim=pd.Series(Kim_dict)
kim

소주     13
맥주     10
와인      5
위스키     2
dtype: int64

In [22]:
lee_dict = {'소주':10,
            '맥주':3,
            '와인':4,
            '럼':2}
lee = pd.Series(lee_dict)
lee

소주    10
맥주     3
와인     4
럼      2
dtype: int64

In [23]:
drinks = pd.DataFrame({'김*순':kim,
                       '이*혁':lee})
# column명을 지정한 후 value값에 Series를 지정하여 DataFrame을 만들수 있다.
drinks

Unnamed: 0,김*순,이*혁
럼,,2.0
맥주,10.0,3.0
소주,13.0,10.0
와인,5.0,4.0
위스키,2.0,


In [24]:
drinks.index

Index(['럼', '맥주', '소주', '와인', '위스키'], dtype='object')

In [25]:
drinks.columns

Index(['김*순', '이*혁'], dtype='object')

In [26]:
drinks['맥주':'와인']

Unnamed: 0,김*순,이*혁
맥주,10.0,3.0
소주,13.0,10.0
와인,5.0,4.0


In [27]:
drinks['김*순']

럼       NaN
맥주     10.0
소주     13.0
와인      5.0
위스키     2.0
Name: 김*순, dtype: float64

## Index 객체

In [28]:
idx = pd.Index([0,1, 2, 3, 4, 5,6])
idx

Int64Index([0, 1, 2, 3, 4, 5, 6], dtype='int64')

In [29]:
idx[1]

1

In [30]:
idx[0:5:2]

Int64Index([0, 2, 4], dtype='int64')

In [31]:
didx = pd.DatetimeIndex(['2021-12-12', '2021-12-13'])
didx

DatetimeIndex(['2021-12-12', '2021-12-13'], dtype='datetime64[ns]', freq=None)

In [32]:
pdidx = pd.PeriodIndex(['2021-12', '2022-01'], freq='M')
pdidx

PeriodIndex(['2021-12', '2022-01'], dtype='period[M]', freq='M')

In [33]:
print(idx)
print(pdidx.size)

Int64Index([0, 1, 2, 3, 4, 5, 6], dtype='int64')
2


In [34]:
pdidx_y = pd.PeriodIndex(['2021', '2022', '1999', '1954', '1441'], freq='Y')
pdidx_y

PeriodIndex(['2021', '2022', '1999', '1954', '1441'], dtype='period[A-DEC]', freq='A-DEC')

In [35]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
pd.DataFrame(data=range(5), index=pdidx_y)

Unnamed: 0,0
2021,0
2022,1
1999,2
1954,3
1441,4


### index 연산

In [36]:
import warnings
warnings.filterwarnings(action='ignore')
# warnings.filterwarnings(action='default')

idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])

print(idx1.append(idx2))
print(idx1.difference(idx2)) # difference는 두 index의 차집합을 반환한다.
print(idx1^idx2)  # ^ 연산자는 두 index의 차집합을 반환하지만 추후 삭제 예정( difference 사용 추천 )
print(idx1 - idx2)  # 두 DataFrame의 값들의 차를 반환한다.
print(idx1.intersection(idx2)) # intersection은 두 index의 교집합을 반환한다.
print(idx1 & idx2) # & 연산자도 intersection를 사용하지만 추후에 삭제 예정( intersection을 사용 추천 )
print(idx1.union(idx2)) # union 함수는 두 index의 합집합을 반환 (중복을 제거함)
print(idx1|idx2) # | 연산자도 두 index의 합집합을 반환하지만 추후에 삭제 예정 ( union 사용 추천 )
print(idx1.delete(0)) # 인덱스 번호를 지정하여 그 해당하는 번호의 값을 제거
print(idx1.drop(1))   # 해당하는 값을 지정하여 그 값을 제거

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')


#### difference( )

In [37]:
a_index = pd.Index(range(1, 7))
a = pd.DataFrame(data = [1, 2, 3, 4, 5, 6], index = a_index)

b_index = pd.Index(range(1, 7, 2))
b = pd.DataFrame(data = [1, 3, 5], index = b_index)

c = pd.DataFrame(data = range(0, 6, 2), index = a_index.difference(b_index))
c

Unnamed: 0,0
2,0
4,2
6,4


In [38]:
a = pd.Index([1, 2, 3, 4, 5, 6, 7, 8, 9])
b = pd.Index(range(1, 9, 2))
c = pd.Index(a.difference(b))
c

Int64Index([2, 4, 6, 8, 9], dtype='int64')

#### intersection( )

In [39]:
a_index = pd.Index(range(1, 7))
a = pd.DataFrame(data=[1, 2, 3, 4, 5, 6], index=a_index)

b_index = pd.Index(range(1, 7, 2))
b = pd.DataFrame(data=[1, 3, 5], index=b_index)

c = pd.DataFrame(data=[2, 4, 6], index=a_index.intersection(b_index))
c

Unnamed: 0,0
1,2
3,4
5,6


In [40]:
a = pd.Index(range(1, 7))
b = pd.Index(range(1, 7, 2))
c = a.intersection(b)
list(c)

[1, 3, 5]

#### delete( )

In [41]:
a = pd.Index(range(1,7))
print(list(a))
a = a.delete(3)
print(list(a))  # a의 Index 번호 3번을 제외함

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 5, 6]


In [42]:
b = pd.Index(range(1, 11))
b = b.delete([1, 3, 5, 7, 9])
list(b)

[1, 3, 5, 7, 9]

#### drop( )

In [43]:
a = pd.Index(range(1,7))
print(list(a))
a = a.drop([1, 3, 5])
list(a)

[1, 2, 3, 4, 5, 6]


[2, 4, 6]

In [44]:
b = pd.Index(range(1, 11))
print(list(b))
b = b.drop([1, 5, 10])
list(b)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


[2, 3, 4, 6, 7, 8, 9]

## 인덱싱( Indexing )

In [45]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0], 
             index = ['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [46]:
s[1] # index 번호로도 slicing이 가능

0.25

In [47]:
s['b'] # index의 이름으로도 slicing이 가능

0.25

In [48]:
s.keys() # keys를 쓰면 Series의 index 값을 반환한다.

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [49]:
a = pd.Series(index=[1, 2, 3, 4, 5])
for i, j in enumerate(s.keys()):
    a[i] = j
a

1      b
2      c
3      d
4      e
5    NaN
0      a
dtype: object

In [50]:
list(s.items()) # items( )메세드는 Series의 index값과 value들을 튜플로 반환한다.

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [51]:
s['f']= 1.25  # dictionary형태로 Series에 새로운 index와 value를 입력하면 새로운 셀을 추가할 수 있다.
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [52]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [53]:
s[ (s > 0.4) & (s < 0.8) ]

c    0.50
d    0.75
dtype: float64

In [54]:
d = pd.Series(data=range(1, 11), index=['a','b','c','d','e','f','g','h','i','j'])
print(d, end='\n')
d [ (d > 2) & (d < 7) ]

a     1
b     2
c     3
d     4
e     5
f     6
g     7
h     8
i     9
j    10
dtype: int64


c    3
d    4
e    5
f    6
dtype: int64

In [55]:
d[ (d < 4 ) | (d > 9) ]

a     1
b     2
c     3
j    10
dtype: int64

### Series 인덱싱

In [56]:
s = pd.Series(['a','b','c','d','e'],
              index=[1, 3, 5, 7, 9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [57]:
s[1]

'a'

In [58]:
s[2:4]

5    c
7    d
dtype: object

In [59]:
s.iloc[1]

'b'

In [60]:
s.loc[1]

'a'

In [61]:
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [62]:
s.reindex(range(10))  # reindex는 index를 새로 생성하는데 기존에 있는 index와 value 모두가 추가하여 생성한다.

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [63]:
s.reindex(range(10), method='bfill')

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

In [64]:
s.reindex(range(10), method='ffill') # reindex를 하는데 앞의 값을 참조하여 해당 결측치를 채운다.
# 하지만 index[0]은 앞의 값이 존재하지 않기에 NaN값으로 나오게 된다.

0    NaN
1      a
2      a
3      b
4      b
5      c
6      c
7      d
8      d
9      e
dtype: object

### DataFrame 인덱싱

In [65]:
male_tuple = {'서울특별시': 4732275, 
              '부산광역시': 1668618,
              '인천광역시': 1476813,
              '대구광역시': 1198815,
              '대전광역시': 734441,
              '광주광역시': 720060}
male = pd.Series(male_tuple)

female_tuple = {'서울특별시': 4988571, 
                '부산광역시': 1735805,
                '인천광역시': 1470404,
                '대구광역시': 1229139,
                '대전광역시': 736599,
                '광주광역시': 734988}
female = pd.Series(female_tuple)

pop_tuple = {'서울특별시': 9720846, 
             '부산광역시': 3404423,
             '인천광역시': 2947217,
             '대구광역시': 2427954,
             '대전광역시': 1471040,
             '광주광역시': 1455048}
population = pd.Series(pop_tuple)

korea_df = pd.DataFrame({'인구수':population, 
                         '남자인구수':male,
                         '여자인구수':female})
# 컬럼명과 시리즈를 딕셔너리 형태로 묶어서 데이터 프레임을 만들수 있다.
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [66]:
korea_df.at['대전광역시','남자인구수']

734441

In [67]:
korea_df.at['서울특별시','인구수']

9720846

In [68]:
korea_df.at['부산광역시','남자인구수']

1668618

In [69]:
korea_df.at['인천광역시','여자인구수']
# korea_df.at['인천광역시':'대전광역시','남자인구수']
# 와 같이 at메소드에선 복수 index를 쓸수없다.

1470404

In [70]:
korea_df['남여비율'] = (korea_df.남자인구수 * 100 / korea_df.여자인구수)
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


#### values

In [71]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [72]:
df_index = pd.Index(['1번', '2번','3번'])
df = pd.DataFrame({'이름':['서준','인아', '인준'],
                   '수학':[90, 70, 80],
                   '영어':[98, 95, 80],
                   '음악':[85, 100, 80],
                   '체육':[100, 90, 80]}, 
                 index = df_index)
df

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100
2번,인아,70,95,100,90
3번,인준,80,80,80,80


In [73]:
df.values

array([['서준', 90, 98, 85, 100],
       ['인아', 70, 95, 100, 90],
       ['인준', 80, 80, 80, 80]], dtype=object)

In [74]:
korea_df.values[0] # korea_df의 서울특별시의 value를 반환한다.

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [75]:
df.values[0] # df의 1번 value를 반환한다.

array(['서준', 90, 98, 85, 100], dtype=object)

#### loc/ iloc
DataFrame 객체.loc[행 인덱스, 열 이름]  
DataFrame 객체.iloc[행 번호, 열 번호]

df.iloc[:]의 형태는 행번호에 범위를 지정하여  
그 범위에 해당하는 모든 열을 가져오는 결과값을 반환한다.

In [76]:
df.loc['1번':'2번']

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100
2번,인아,70,95,100,90


In [77]:
df.iloc[0:2]

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100
2번,인아,70,95,100,90


In [78]:
df.loc['1번', '영어']

98

In [79]:
df.iloc[0,2]

98

df.iloc[:,:]의 형태는 행 번호에 범위를 지정하고  
열 번호에도 해당 범위를 지정하여  
그 지정된 범위안의 원소를 반환한다.

In [80]:
df.loc['1번':'2번','수학':'음악']

Unnamed: 0,수학,영어,음악
1번,90,98,85
2번,70,95,100


In [81]:
df.iloc[0:2,1:4]

Unnamed: 0,수학,영어,음악
1번,90,98,85
2번,70,95,100


In [82]:
df.iloc[1:3,2:]

Unnamed: 0,영어,음악,체육
2번,95,100,90
3번,80,80,80


In [83]:
df.loc['2번':'3번','영어':]

Unnamed: 0,영어,음악,체육
2번,95,100,90
3번,80,80,80


In [84]:
korea_df.loc[ (korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [85]:
df.loc[(df.수학 > 70)]

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100
3번,인준,80,80,80,80


In [86]:
df[df.수학 > 70]

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100
3번,인준,80,80,80,80


In [87]:
df.loc[(df.수학 != 80) & (df.영어 != 95)]

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100


In [88]:
df[ (df.수학 != 80) & (df.영어 != 95) ]

Unnamed: 0,이름,수학,영어,음악,체육
1번,서준,90,98,85,100


### 다중 인덱스 (Multi Index)
- 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
- 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱승

#### 다중 인덱스 Series

In [89]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [90]:
idx_tuples = [('서울특별시',2010), ('서울특별시',2020),
              ('부산광역시',2010), ('부산광역시',2020),
              ('인천광역시',2010), ('인천광역시',2020),
              ('대구광역시', 2010), ('대구광역시',2020),
              ('대전광역시', 2010), ('대전광역시',2020),
              ('광주광역시', 2010), ('광주광역시',2020)
             ]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [91]:
pop_tuples = [10312545, 9720846,
              2567910, 3404423,
              2758296, 2847217,
              2511676, 2427954,
              1503664, 1471040,
              1454636, 1455048]
population = pd.Series(pop_tuples, index = idx_tuples)
population

(서울특별시, 2010)    10312545
(서울특별시, 2020)     9720846
(부산광역시, 2010)     2567910
(부산광역시, 2020)     3404423
(인천광역시, 2010)     2758296
(인천광역시, 2020)     2847217
(대구광역시, 2010)     2511676
(대구광역시, 2020)     2427954
(대전광역시, 2010)     1503664
(대전광역시, 2020)     1471040
(광주광역시, 2010)     1454636
(광주광역시, 2020)     1455048
dtype: int64

In [92]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [93]:
population = population.reindex(midx)
population.index.names = ['행정구역','년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2847217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [94]:
df_tuples = [('1번','수학'), ('1번','영어'), ('1번','음악'),('1번','체육'),
             ('2번','수학'), ('2번','영어'), ('2번','음악'),('2번','체육'),
             ('3번','수학'), ('3번','영어'), ('3번','음악'),('3번','체육')]
mdf = pd.MultiIndex.from_tuples(df_tuples)
mdf 

MultiIndex([('1번', '수학'),
            ('1번', '영어'),
            ('1번', '음악'),
            ('1번', '체육'),
            ('2번', '수학'),
            ('2번', '영어'),
            ('2번', '음악'),
            ('2번', '체육'),
            ('3번', '수학'),
            ('3번', '영어'),
            ('3번', '음악'),
            ('3번', '체육')],
           )

In [95]:
numbers = ['1번', '2번', '3번', '4번']
subjects = ['수학', '영어', '음악', '체육']
total = []

for i in numbers:
    for z in subjects:
        total.append((i, z))

total

[('1번', '수학'),
 ('1번', '영어'),
 ('1번', '음악'),
 ('1번', '체육'),
 ('2번', '수학'),
 ('2번', '영어'),
 ('2번', '음악'),
 ('2번', '체육'),
 ('3번', '수학'),
 ('3번', '영어'),
 ('3번', '음악'),
 ('3번', '체육'),
 ('4번', '수학'),
 ('4번', '영어'),
 ('4번', '음악'),
 ('4번', '체육')]

In [96]:
mdf = pd.MultiIndex.from_tuples(total)
mdf

MultiIndex([('1번', '수학'),
            ('1번', '영어'),
            ('1번', '음악'),
            ('1번', '체육'),
            ('2번', '수학'),
            ('2번', '영어'),
            ('2번', '음악'),
            ('2번', '체육'),
            ('3번', '수학'),
            ('3번', '영어'),
            ('3번', '음악'),
            ('3번', '체육'),
            ('4번', '수학'),
            ('4번', '영어'),
            ('4번', '음악'),
            ('4번', '체육')],
           )

In [97]:
score = [100, 90, 80, 70,
         92, 82, 72, 62,
         70, 80, 100, 90, 
         75, 70, 65, 70]
class_score = pd.Series(data=score, index=mdf)
class_score.index.names=['번호', '과목']
class_score

번호  과목
1번  수학    100
    영어     90
    음악     80
    체육     70
2번  수학     92
    영어     82
    음악     72
    체육     62
3번  수학     70
    영어     80
    음악    100
    체육     90
4번  수학     75
    영어     70
    음악     65
    체육     70
dtype: int64

In [98]:
class_score.unstack()

과목,수학,영어,음악,체육
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1번,100,90,80,70
2번,92,82,72,62
3번,70,80,100,90
4번,75,70,65,70


In [99]:
middle_term = [90, 80, 70, 60,
               87, 77, 67, 57,
               80, 90 , 90, 90,
               75, 70, 65, 70]
class_score_df = pd.DataFrame({'중간고사': middle_term, '기말고사': class_score})
class_score_df

Unnamed: 0_level_0,Unnamed: 1_level_0,중간고사,기말고사
번호,과목,Unnamed: 2_level_1,Unnamed: 3_level_1
1번,수학,90,100
1번,영어,80,90
1번,음악,70,80
1번,체육,60,70
2번,수학,87,92
2번,영어,77,82
2번,음악,67,72
2번,체육,57,62
3번,수학,80,70
3번,영어,90,80


In [100]:
aver = (class_score_df['중간고사'].values + class_score_df['기말고사'].values) / 2

class_score_df = pd.DataFrame({'중간고사':middle_term,'기말고사':class_score,'평균':aver})
class_score_df

Unnamed: 0_level_0,Unnamed: 1_level_0,중간고사,기말고사,평균
번호,과목,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1번,수학,90,100,95.0
1번,영어,80,90,85.0
1번,음악,70,80,75.0
1번,체육,60,70,65.0
2번,수학,87,92,89.5
2번,영어,77,82,79.5
2번,음악,67,72,69.5
2번,체육,57,62,59.5
3번,수학,80,70,75.0
3번,영어,90,80,85.0


In [101]:
mdf1 = pd.MultiIndex.from_product([['1번', '2번','3번'],['수학','영어','음악','체육']])
mdf1

MultiIndex([('1번', '수학'),
            ('1번', '영어'),
            ('1번', '음악'),
            ('1번', '체육'),
            ('2번', '수학'),
            ('2번', '영어'),
            ('2번', '음악'),
            ('2번', '체육'),
            ('3번', '수학'),
            ('3번', '영어'),
            ('3번', '음악'),
            ('3번', '체육')],
           )