# Pandas 한 번에 제대로 배우기 - feat. 이수안컴퓨터연구소

## Pandas 객체

In [1]:
import numpy as np
import pandas as pd

pd.__version__

'1.2.4'

### Series 객체

In [2]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
# 인덱스를 따로 지정하지 않을 경우 자동으로 정수형 인덱스가 지정된다.
s

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [3]:
s.values # Series형태에서도 value값만 따로 추출 가능

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
list(s.values)  # list 형태로도 추출이 가능

[0.0, 0.25, 0.5, 0.75, 1.0]

In [5]:
s.index # Series형태에서도 index값만 따로 추출 가능

RangeIndex(start=0, stop=5, step=1)

In [6]:
s[1] # Slicing 가능

0.25

In [7]:
s[1:4]

1    0.25
2    0.50
3    0.75
dtype: float64

In [8]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a', 'b', 'c', 'd', 'e'])
# pd.Serires함수에서 index를 지정하면 정수형 index가 아닌 사용자 지정 인덱스 생성이 가능하다.
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [9]:
s['c']

0.5

In [10]:
s[['c', 'd','e']]

c    0.50
d    0.75
e    1.00
dtype: float64

In [11]:
'b' in s

True

In [12]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = [2, 4, 6, 8, 10])
s

2     0.00
4     0.25
6     0.50
8     0.75
10    1.00
dtype: float64

In [13]:
s[4]

0.25

In [14]:
s[2:]

6     0.50
8     0.75
10    1.00
dtype: float64

In [15]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [16]:
s.value_counts()

0.00    1
1.00    1
0.50    1
0.75    1
0.25    1
dtype: int64

In [17]:
s.isin([0.25, 0.75]) # 0.25, 0.75가 어디에 존재하는지 boolean으로 출력

2     False
4      True
6     False
8      True
10    False
dtype: bool

In [18]:
s[s.isin([0.25, 0.75])]

4    0.25
8    0.75
dtype: float64

In [19]:
pop_tuple = {'서울특별시': 9720846, 
             '부산광역시': 3404423,
             '인천광역시': 2947217,
             '대구광역시': 2427954,
             '대전광역시': 1471040,
             '광주광역시': 1455048}
population = pd.Series(pop_tuple)
population

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
dtype: int64

In [20]:
population['서울특별시']

9720846

In [21]:
population['서울특별시':'인천광역시'] # 한글 슬라이싱도 가능

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
dtype: int64

### DataFrame 객체

In [22]:
pd.DataFrame([{'A':2, 'B':4, 'D':3},{'A':4, 'B':5, 'C':7}]) # 여러 columns을 가진 2차원 특성을 가짐

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [23]:
pd.DataFrame(np.random.rand(5, 5),
             columns = ['A', 'B', 'C', 'D', 'E'], 
             index = [1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.888206,0.239591,0.787153,0.560442,0.242778
2,0.924752,0.147235,0.428426,0.871727,0.242758
3,0.13323,0.880968,0.656988,0.343679,0.379325
4,0.41585,0.96576,0.471264,0.171483,0.108523
5,0.734531,0.257402,0.658866,0.838421,0.828797


In [24]:
male_tuple = {'서울특별시': 4732275, 
              '부산광역시': 1668618,
              '인천광역시': 1476813,
              '대구광역시': 1198815,
              '대전광역시': 734441,
              '광주광역시': 720060}
male = pd.Series(male_tuple)
male

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
dtype: int64

In [25]:
female_tuple = {'서울특별시': 4988571, 
                '부산광역시': 1735805,
                '인천광역시': 1470404,
                '대구광역시': 1229139,
                '대전광역시': 736599,
                '광주광역시': 734988}
female = pd.Series(female_tuple)
# 딕셔너리 형태로도 시리즈를 생성가능
female

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
dtype: int64

In [26]:
korea_df = pd.DataFrame({'인구수':population, 
                         '남자인구수':male,
                         '여자인구수':female})
# 컬럼명과 시리즈를 딕셔너리 형태로 묶어서 데이터 프레임을 만들수 있다.
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [27]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [28]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [29]:
korea_df['여자인구수']

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [30]:
korea_df['서울특별시':'인천광역시']
# 인덱스명으로도 슬라이싱이 가능

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


In [31]:
korea_df['인구수']

서울특별시    9720846
부산광역시    3404423
인천광역시    2947217
대구광역시    2427954
대전광역시    1471040
광주광역시    1455048
Name: 인구수, dtype: int64

### Index 객체
 
  

|클래스|설명|
|:--|:--|
|Index|일반적은 Index 객체이며, Numpy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|MultiIndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index객체(튜플의 배열과 유사)|
|DatetimeIndex|Numpy의 datatime64 타입으로 타임스탬프 저장|
|PeriodIndex|기간 데이터를 위한 Index|

In [32]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [33]:
idx[1]

4

In [34]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [35]:
idx[-1:]

Int64Index([10], dtype='int64')

In [36]:
idx[::-2]

Int64Index([10, 6, 2], dtype='int64')

In [37]:
print(idx)
print(idx.size)   # 5개의 값이 들어가 있다.
print(idx.shape)  # 1차원 shape
print(idx.ndim)   # 차원 수
print(idx.dtype)  # 데이터 타입

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### index 연산
|연산자|메소드|설명|
|:-|:-|:-|
||```append```|색인 객체를 추가한 새로운 색인 반환|
||```difference```|색인의 차집합 반환|
|```&```|```intersection```|색인의 교집합 반환|
|```\|```|```union```|색인의 합집합 반환|
||```isin```|색인이 존재하는지 여부를 불리언 배열로 반환|
||```delete```|색인이 삭제된 새로운 색인 반환
||```drop```|값이 삭제된 새로운 색인 반환|
||```insert```|색인이 추가된 새로운 색인 반환|
||```is_monotonic```|색인이 단조성을 가지면 True|
||```is_unique```|중복되는 색인이 없다면 True|
||```unique```|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|

In [38]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))
print(idx1.difference(idx2))
print(idx1 - idx2)
print(idx1.intersection(idx2))
print(idx1 & idx2 )
print(idx1.union(idx2)) # 중복을 제외함
print(idx1|idx2)
print(idx1.delete(0))   # 인덱스 번호를 지정하여 그 해당하는 번호의 값을 제거
print(idx1.drop(1))     # idx1에 있는 값을 지정하여 그 값을 제거
print(idx1^idx2)        # 공통된 것을 뺀 나머지 (차집합)

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 8], dtype='int64')
Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


  print(idx1 & idx2 )
  print(idx1|idx2)
  print(idx1^idx2)        # 공통된 것을 뺀 나머지 (차집합)


## 인덱싱 ( Indexing )

In [39]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index = ['a','b','c','d','e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [40]:
s['b']

0.25

In [41]:
'b' in s

True

In [42]:
s.keys() # 해당하는 인덱스값들을 반환

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [43]:
list(s.items()) # 시리즈의 값들이 tuple 값으로 묶여서 나온다.

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [44]:
s['f'] = 1.25
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
f    1.25
dtype: float64

In [45]:
s['a':'d']

a    0.00
b    0.25
c    0.50
d    0.75
dtype: float64

In [46]:
s[0:3]

a    0.00
b    0.25
c    0.50
dtype: float64

In [47]:
s[ (s > 0.4) & (s < 0.8) ] # filtering을 조건으로 주어 인덱싱을 반환이 가능함

c    0.50
d    0.75
dtype: float64

In [48]:
s[['a','c','e']]

a    0.0
c    0.5
e    1.0
dtype: float64

### Series 인덱싱

In [49]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'],
              index=[1, 3, 5, 7, 9])
s

1    a
3    b
5    c
7    d
9    e
dtype: object

In [50]:
s[1]

'a'

In [51]:
s[2:4]

5    c
7    d
dtype: object

In [52]:
s.iloc[1]

'b'

In [53]:
s.iloc[2:4]

5    c
7    d
dtype: object

In [54]:
s.reindex(range(10))
# reindex를 하면 index를 생성시키며 없는 값은 NaN값으로 반환함

0    NaN
1      a
2    NaN
3      b
4    NaN
5      c
6    NaN
7      d
8    NaN
9      e
dtype: object

In [55]:
s.reindex(range(10), method='bfill') # '그 전값으로 NaN 값을 채워줘'라는 메소드

0    a
1    a
2    b
3    b
4    c
5    c
6    d
7    d
8    e
9    e
dtype: object

### DataFrame 인덱싱

|사용방법|설명|
|:-|:-|
|```df[val]```|하나의 컬럼 또는 여러 컬럼을 선택|
|```df.loc[val]```|레이블 값으로 로우의 부분집합 선택|
|```df.loc[:,val]```|레이블 값으로 컬럼의 부분집합 선택|
|```df.loc[val1, val2]```|레이블 값으로 로우와 컬럼의 부분집합 선택|
|```df.iloc[where]```|정수 색인으로 로우의 부분집합 선택|
|```df.iloc[:,where]```|정수 색인으로 컬럼의 부분집합 선택|
|```df.iloc[where_i,where_j]```|정수 색인으로 로우와 컬럼의 부분집합 선택|
|```df.at[label_i,label_j]```|로우와 컬럼의 라벨로 단일 값 선택|
|```df.iat[i, j]```|로우와 컬럼의 정수 색인으로 단일 값 선택|
|```reindex```|하나 이상의 축을 새로운 색인으로 재색인|
|```get_value, set_value```|로우와 컬럼의 이름으로 값 선택|

In [56]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [57]:
korea_df.at['부산광역시','인구수']
# at은 어떠한 특정한 조건에 맞는 단일 값을 가져오는데 사용함
# 첫번째 인자값으로 index를, 두번째 인자값으로 column을 가져온다.

3404423

In [58]:
korea_df['남자인구수']

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [59]:
korea_df.남자인구수

서울특별시    4732275
부산광역시    1668618
인천광역시    1476813
대구광역시    1198815
대전광역시     734441
광주광역시     720060
Name: 남자인구수, dtype: int64

In [60]:
korea_df.여자인구수

서울특별시    4988571
부산광역시    1735805
인천광역시    1470404
대구광역시    1229139
대전광역시     736599
광주광역시     734988
Name: 여자인구수, dtype: int64

In [61]:
korea_df['남여비율'] = (korea_df.남자인구수 * 100 / korea_df.여자인구수 ) 
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [62]:
korea_df.values # korea_df의 모든 값들을 반환함

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [63]:
korea_df.values[0]  # values의 첫번째 값 (서울특별시)만 가져옴

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [64]:
korea_df.T  # 기존의 행과 열의 순서를 바꿈

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,734988.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,97.96895


In [65]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [66]:
korea_df.loc[ (korea_df.여자인구수 > 1000000) ]
# loc안에 조건으로 filter를 넣으면 그에 맞는 row값으로 반환이 됌

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [67]:
korea_df.loc[ (korea_df.인구수 < 2000000) ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [68]:
korea_df.loc[ (korea_df.인구수 > 2500000) ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867


In [69]:
korea_df.loc[ korea_df.남여비율 > 100 ]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [70]:
korea_df.loc[ ( korea_df.인구수 > 2500000 ) & ( korea_df.남여비율 > 100 )]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [71]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


### 다중 인덱스( Multi Indexing )
- 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
- 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

In [72]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [73]:
idx_tuples = [('서울특별시', 2010), ('서울특별시',2020),
              ('부산광역시', 2010), ('부산광역시',2020),
              ('인천광역시', 2010), ('인천광역시',2020),
              ('대구광역시', 2010), ('대구광역시',2020),
              ('대전광역시', 2010), ('대전광역시',2020),
              ('광주광역시', 2010), ('광주광역시',2020),
             ]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [74]:
pop_tuples = [10312545, 9720846,
              2567910, 3404423,
              2758296, 2847217,
              2511676, 2427954,
              1503664, 1471040,
              1454636, 1455048]
population = pd.Series(pop_tuples, index = idx_tuples)
population

(서울특별시, 2010)    10312545
(서울특별시, 2020)     9720846
(부산광역시, 2010)     2567910
(부산광역시, 2020)     3404423
(인천광역시, 2010)     2758296
(인천광역시, 2020)     2847217
(대구광역시, 2010)     2511676
(대구광역시, 2020)     2427954
(대전광역시, 2010)     1503664
(대전광역시, 2020)     1471040
(광주광역시, 2010)     1454636
(광주광역시, 2020)     1455048
dtype: int64

In [75]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [76]:
population = population.reindex(midx)
population

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2847217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [77]:
population[:, 2010]

서울특별시    10312545
부산광역시     2567910
인천광역시     2758296
대구광역시     2511676
대전광역시     1503664
광주광역시     1454636
dtype: int64

In [78]:
population['대전광역시',:]

2010    1503664
2020    1471040
dtype: int64

In [79]:
korea_mdf = population.unstack()  # MutiIndex를 DataFrame 형태로 변환함
korea_mdf

Unnamed: 0,2010,2020
광주광역시,1454636,1455048
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,2567910,3404423
서울특별시,10312545,9720846
인천광역시,2758296,2847217


In [80]:
korea_mdf.stack()

광주광역시  2010     1454636
       2020     1455048
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
부산광역시  2010     2567910
       2020     3404423
서울특별시  2010    10312545
       2020     9720846
인천광역시  2010     2758296
       2020     2847217
dtype: int64

In [81]:
male_tuple = [5111259, 4732275,
              1773170, 1668618, 
              1390356, 1476813, 
              1255245, 1198815, 
              753648, 734441, 
              721780, 720060]

male_tuple

[5111259,
 4732275,
 1773170,
 1668618,
 1390356,
 1476813,
 1255245,
 1198815,
 753648,
 734441,
 721780,
 720060]

In [82]:
population.index.names = ['행정구역','년도']
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple})

korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1
서울특별시,2010,10312545,5111259
서울특별시,2020,9720846,4732275
부산광역시,2010,2567910,1773170
부산광역시,2020,3404423,1668618
인천광역시,2010,2758296,1390356
인천광역시,2020,2847217,1476813
대구광역시,2010,2511676,1255245
대구광역시,2020,2427954,1198815
대전광역시,2010,1503664,753648
대전광역시,2020,1471040,734441


In [83]:
female_tuples = [5201286, 4988571,
                1794740, 1735805,
                1367940, 1470404,
                1256431, 1229139,
                750016, 736599,
                732956, 734988]

In [84]:
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple,
                          '여자인구수':female_tuples})
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
부산광역시,2010,2567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2847217,1476813,1470404
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599


In [85]:
ratio = korea_mdf['남자인구수'] * 100 / korea_mdf['여자인구수']
ratio

행정구역   년도  
서울특별시  2010     98.269140
       2020     94.862336
부산광역시  2010     98.798155
       2020     96.129346
인천광역시  2010    101.638668
       2020    100.435867
대구광역시  2010     99.905606
       2020     97.532907
대전광역시  2010    100.484256
       2020     99.707032
광주광역시  2010     98.475215
       2020     97.968946
dtype: float64

In [86]:
ratio.unstack()

년도,2010,2020
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1
광주광역시,98.475215,97.968946
대구광역시,99.905606,97.532907
대전광역시,100.484256,99.707032
부산광역시,98.798155,96.129346
서울특별시,98.26914,94.862336
인천광역시,101.638668,100.435867


In [87]:
korea_mdf = pd.DataFrame({'총인구수':population,
                          '남자인구수':male_tuple,
                          '여자인구수':female_tuples,
                          '남녀비율':ratio})
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2847217,1476813,1470404,100.435867
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032


#### 다중 인덱스 생성

In [88]:
df = pd.DataFrame(np.random.rand(6, 3),
                  index=[['a','a','b','b','c','c'], [1, 2, 1, 2, 1, 2]],
                  columns = ['c1', 'c2','c3'])
df

Unnamed: 0,Unnamed: 1,c1,c2,c3
a,1,0.93794,0.009331,0.847368
a,2,0.701394,0.489752,0.934303
b,1,0.00782,0.359596,0.027317
b,2,0.256881,0.748929,0.251
c,1,0.817263,0.691887,0.310754
c,2,0.259906,0.744821,0.339703


In [89]:
pd.MultiIndex.from_arrays([['a','a','b','b','c','c'], [1, 2, 1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [90]:
pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2),('c',1),('c',2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [91]:
pd.MultiIndex.from_product([['a','b','c'], [1, 2]])  # 처음 []값과 다음 []값을 곱해라
                                                     # ex) ['a'] [1] , ['a'] [2] / ['b'] [1], ['b'] [2] / ...

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [92]:
pd.MultiIndex(levels=[['a','b','c'],[1,2]],                  
              codes=[[0, 0, 1, 1, 2, 2],[0, 1, 0, 1, 0, 1]]) # 인덱스의 번호를 나열하여 멀티인덱스를 생성

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [93]:
population.index.names = ['행정구역','년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     2567910
       2020     3404423
인천광역시  2010     2758296
       2020     2847217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
광주광역시  2010     1454636
       2020     1455048
dtype: int64

In [94]:
idx = pd.MultiIndex.from_product([['a', 'b','c'],[1,2]],
                                 names = ['name1','name2'])
cols = pd.MultiIndex.from_product([['c1','c2','c3'], [1, 2]],
                                  names = ['col_name1','col_name2'])
data = np.round(np.random.randn(6, 6),2)
mdf = pd.DataFrame(data, index=idx, columns=cols)
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,0.78,1.07,0.48,0.31,0.23,-0.63
a,2,-0.3,0.37,0.12,1.52,2.27,1.12
b,1,0.77,0.02,0.03,-0.39,-0.94,0.37
b,2,0.48,-0.09,0.88,-2.42,-1.31,-0.62
c,1,-2.39,0.66,0.76,0.89,0.33,-1.36
c,2,0.8,-0.2,2.64,0.99,0.09,-0.12


In [95]:
mdf['c2']

Unnamed: 0_level_0,col_name2,1,2
name1,name2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0.48,0.31
a,2,0.12,1.52
b,1,0.03,-0.39
b,2,0.88,-2.42
c,1,0.76,0.89
c,2,2.64,0.99


#### 인덱싱 및 슬라이싱

In [96]:
population['인천광역시', 2010]

2758296

In [97]:
population[:,2010]

행정구역
서울특별시    10312545
부산광역시     2567910
인천광역시     2758296
대구광역시     2511676
대전광역시     1503664
광주광역시     1454636
dtype: int64

In [98]:
population[ population > 3000000 ]

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2020     3404423
dtype: int64

In [99]:
population[['대구광역시','대전광역시']]

행정구역   년도  
대구광역시  2010    2511676
       2020    2427954
대전광역시  2010    1503664
       2020    1471040
dtype: int64

In [100]:
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,0.78,1.07,0.48,0.31,0.23,-0.63
a,2,-0.3,0.37,0.12,1.52,2.27,1.12
b,1,0.77,0.02,0.03,-0.39,-0.94,0.37
b,2,0.48,-0.09,0.88,-2.42,-1.31,-0.62
c,1,-2.39,0.66,0.76,0.89,0.33,-1.36
c,2,0.8,-0.2,2.64,0.99,0.09,-0.12


In [101]:
mdf['c2',1]

name1  name2
a      1        0.48
       2        0.12
b      1        0.03
       2        0.88
c      1        0.76
       2        2.64
Name: (c2, 1), dtype: float64

In [102]:
mdf.iloc[:3, :4]

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2
Unnamed: 0_level_1,col_name2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0.78,1.07,0.48,0.31
a,2,-0.3,0.37,0.12,1.52
b,1,0.77,0.02,0.03,-0.39


In [103]:
mdf.loc[:,('c2',1)]

name1  name2
a      1        0.48
       2        0.12
b      1        0.03
       2        0.88
c      1        0.76
       2        2.64
Name: (c2, 1), dtype: float64

In [104]:
idx_slice = pd.IndexSlice
mdf.loc[idx_slice[:,2], idx_slice[:,2]]

Unnamed: 0_level_0,col_name1,c1,c2,c3
Unnamed: 0_level_1,col_name2,2,2,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,2,0.37,1.52,1.12
b,2,-0.09,-2.42,-0.62
c,2,-0.2,0.99,-0.12


#### 다중 인덱스 재정렬

In [105]:
idx

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           names=['name1', 'name2'])

In [106]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2847217,1476813,1470404,100.435867
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032


In [107]:
# korea_mdf['서울특별시':'인천광역시'] 멀티인덱스는 초기 인덱스가 정렬이 되어 있지 않기 때문에 단순히 슬라이싱을 하면 에러가 나타난다

korea_mdf = korea_mdf.sort_index()
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732956,98.475215
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


In [108]:
korea_mdf['서울특별시':'인천광역시']

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2847217,1476813,1470404,100.435867


In [109]:
korea_mdf.unstack(level=0)
# level 조정을 통해 연도와 시군구를 switch할 수 있다.

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수,총인구수,남자인구수,남자인구수,남자인구수,남자인구수,...,여자인구수,여자인구수,여자인구수,여자인구수,남녀비율,남녀비율,남녀비율,남녀비율,남녀비율,남녀비율
행정구역,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,...,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2010,1454636,2511676,1503664,2567910,10312545,2758296,721780,1255245,753648,1773170,...,750016,1794740,5201286,1367940,98.475215,99.905606,100.484256,98.798155,98.26914,101.638668
2020,1455048,2427954,1471040,3404423,9720846,2847217,720060,1198815,734441,1668618,...,736599,1735805,4988571,1470404,97.968946,97.532907,99.707032,96.129346,94.862336,100.435867


In [110]:
korea_mdf.unstack(level=1)

Unnamed: 0_level_0,총인구수,총인구수,남자인구수,남자인구수,여자인구수,여자인구수,남녀비율,남녀비율
년도,2010,2020,2010,2020,2010,2020,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
광주광역시,1454636,1455048,721780,720060,732956,734988,98.475215,97.968946
대구광역시,2511676,2427954,1255245,1198815,1256431,1229139,99.905606,97.532907
대전광역시,1503664,1471040,753648,734441,750016,736599,100.484256,99.707032
부산광역시,2567910,3404423,1773170,1668618,1794740,1735805,98.798155,96.129346
서울특별시,10312545,9720846,5111259,4732275,5201286,4988571,98.26914,94.862336
인천광역시,2758296,2847217,1390356,1476813,1367940,1470404,101.638668,100.435867


In [111]:
korea_mdf.stack()

행정구역   년도         
광주광역시  2010  총인구수     1.454636e+06
             남자인구수    7.217800e+05
             여자인구수    7.329560e+05
             남녀비율     9.847522e+01
       2020  총인구수     1.455048e+06
             남자인구수    7.200600e+05
             여자인구수    7.349880e+05
             남녀비율     9.796895e+01
대구광역시  2010  총인구수     2.511676e+06
             남자인구수    1.255245e+06
             여자인구수    1.256431e+06
             남녀비율     9.990561e+01
       2020  총인구수     2.427954e+06
             남자인구수    1.198815e+06
             여자인구수    1.229139e+06
             남녀비율     9.753291e+01
대전광역시  2010  총인구수     1.503664e+06
             남자인구수    7.536480e+05
             여자인구수    7.500160e+05
             남녀비율     1.004843e+02
       2020  총인구수     1.471040e+06
             남자인구수    7.344410e+05
             여자인구수    7.365990e+05
             남녀비율     9.970703e+01
부산광역시  2010  총인구수     2.567910e+06
             남자인구수    1.773170e+06
             여자인구수    1.794740e+06
             남녀비율     9.879815e+01
 

In [112]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732956,98.475215
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


In [113]:
idx_flat = korea_mdf.reset_index(level=0)
idx_flat

Unnamed: 0_level_0,행정구역,총인구수,남자인구수,여자인구수,남녀비율
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010,광주광역시,1454636,721780,732956,98.475215
2020,광주광역시,1455048,720060,734988,97.968946
2010,대구광역시,2511676,1255245,1256431,99.905606
2020,대구광역시,2427954,1198815,1229139,97.532907
2010,대전광역시,1503664,753648,750016,100.484256
2020,대전광역시,1471040,734441,736599,99.707032
2010,부산광역시,2567910,1773170,1794740,98.798155
2020,부산광역시,3404423,1668618,1735805,96.129346
2010,서울특별시,10312545,5111259,5201286,98.26914
2020,서울특별시,9720846,4732275,4988571,94.862336


In [114]:
idx_flat = korea_mdf.reset_index(level=(0,1))
idx_flat

Unnamed: 0,행정구역,년도,총인구수,남자인구수,여자인구수,남녀비율
0,광주광역시,2010,1454636,721780,732956,98.475215
1,광주광역시,2020,1455048,720060,734988,97.968946
2,대구광역시,2010,2511676,1255245,1256431,99.905606
3,대구광역시,2020,2427954,1198815,1229139,97.532907
4,대전광역시,2010,1503664,753648,750016,100.484256
5,대전광역시,2020,1471040,734441,736599,99.707032
6,부산광역시,2010,2567910,1773170,1794740,98.798155
7,부산광역시,2020,3404423,1668618,1735805,96.129346
8,서울특별시,2010,10312545,5111259,5201286,98.26914
9,서울특별시,2020,9720846,4732275,4988571,94.862336


In [115]:
idx_flat.set_index(['행정구역', '년도'])

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남녀비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732956,98.475215
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,2567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


## 데이터 연산

In [116]:
s = pd.Series(np.random.randint(0, 10, 5))
s

0    3
1    0
2    8
3    2
4    4
dtype: int32

In [117]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                  columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,9,5,7
1,7,6,7
2,5,6,4


In [118]:
np.exp(s)

0      20.085537
1       1.000000
2    2980.957987
3       7.389056
4      54.598150
dtype: float64

In [119]:
np.cos(df * np.pi / 4)

Unnamed: 0,A,B,C
0,0.707107,-0.7071068,0.707107
1,0.707107,-1.83697e-16,0.707107
2,-0.707107,-1.83697e-16,-1.0


In [120]:
s1 = pd.Series([1, 3, 5, 7, 9], index = [0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index = [1, 2, 3, 4, 5])
# 데이터 연산을 할때 기준은 index순이기 때문에 index가 일치하지 않는 부분은 NaN으로 나옴
s1+s2

0     NaN
1     5.0
2     9.0
3    13.0
4    17.0
5     NaN
dtype: float64

In [121]:
s1.add(s2, fill_value=0)
# fill_value로 NaN값을 채울 수 있다
# index 0번이 1인 이유는 s1.index(0)의 값이 1이고 s2.index(0)값이 NaN이여서 0으로 채워졌기 때문에
# 그 둘을 합했을 때 1이기 떄문이다.

0     1.0
1     5.0
2     9.0
3    13.0
4    17.0
5    10.0
dtype: float64

In [122]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                  columns=list('ACD'))
df1

Unnamed: 0,A,C,D
0,10,12,10
1,13,10,12
2,15,5,2


In [123]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5,5)),
                  columns=list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,15,0,12,18,6
1,1,9,13,14,6
2,14,5,3,6,14
3,6,17,0,12,18
4,3,15,10,14,19


In [124]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,10.0,,30.0,16.0,
1,22.0,,24.0,18.0,
2,20.0,,11.0,16.0,
3,,,,,
4,,,,,


In [125]:
fvalue = df1.stack().mean()
# DataFrame을 stack을 하면 Series형태로 변환이 된다.
df1.add(df2, fill_value=fvalue)

Unnamed: 0,A,B,C,D,E
0,10.0,24.888889,30.0,16.0,21.888889
1,22.0,10.888889,24.0,18.0,22.888889
2,20.0,23.888889,11.0,16.0,12.888889
3,26.888889,15.888889,21.888889,27.888889,9.888889
4,24.888889,12.888889,23.888889,28.888889,19.888889


### 연산자 범용 함수
|Python 연산자|Pandas 메소드|
|:--|:--|
|```+```|```add```, ```radd```|
|```-```|```sub```,  ```rsub```, ```subtract```|
|```*```|```mul```, ```rmul```, ```multiply```|
|```/```|```truediv```,  ```div```, ```rdiv```, ```divide```|
|```//```|```floordiv```, ```rfloordiv```|
|```%```|```mod```|
|```**```|```pow```, ```rpow```|

#### add( )

In [126]:
a = np.random.randint(1, 10, size=(3, 3))
a

array([[6, 9, 5],
       [3, 2, 5],
       [1, 5, 5]])

In [127]:
a + a[0]

array([[12, 18, 10],
       [ 9, 11, 10],
       [ 7, 14, 10]])

In [128]:
df = pd.DataFrame(a, columns = list('ABC'))
df

Unnamed: 0,A,B,C
0,6,9,5
1,3,2,5
2,1,5,5


In [129]:
df + df.iloc[0]
# pandas 또한 numpy와 같이 크기가 다른 형태의 DataFrame을 더했을때
# 자동적으로 Broadcast되어 계산이 된다.

Unnamed: 0,A,B,C
0,12,18,10
1,9,11,10
2,7,14,10


In [130]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,12,18,10
1,9,11,10
2,7,14,10


#### sub( ) / subtract( )

In [131]:
a

array([[6, 9, 5],
       [3, 2, 5],
       [1, 5, 5]])

In [132]:
a - a[0]

array([[ 0,  0,  0],
       [-3, -7,  0],
       [-5, -4,  0]])

In [133]:
df

Unnamed: 0,A,B,C
0,6,9,5
1,3,2,5
2,1,5,5


In [134]:
df - df.iloc[0]

Unnamed: 0,A,B,C
0,0,0,0
1,-3,-7,0
2,-5,-4,0


In [135]:
df.sub(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,-3,-7,0
2,-5,-4,0


In [136]:
df.subtract(df['B'], axis=0)

Unnamed: 0,A,B,C
0,-3,0,-4
1,1,0,3
2,-4,0,0


#### mul( ) / multply( )

In [137]:
a

array([[6, 9, 5],
       [3, 2, 5],
       [1, 5, 5]])

In [138]:
a * a[1]

array([[18, 18, 25],
       [ 9,  4, 25],
       [ 3, 10, 25]])

In [139]:
df

Unnamed: 0,A,B,C
0,6,9,5
1,3,2,5
2,1,5,5


In [140]:
df * df.iloc[1]

Unnamed: 0,A,B,C
0,18,18,25
1,9,4,25
2,3,10,25


In [141]:
df.mul(df.iloc[1])

Unnamed: 0,A,B,C
0,18,18,25
1,9,4,25
2,3,10,25


In [142]:
df.multiply(df.iloc[2])

Unnamed: 0,A,B,C
0,6,45,25
1,3,10,25
2,1,25,25


#### truediv( ) / div( ) / divide( ) / floordiv( )

In [143]:
a 

array([[6, 9, 5],
       [3, 2, 5],
       [1, 5, 5]])

In [144]:
a / a[0]

array([[1.        , 1.        , 1.        ],
       [0.5       , 0.22222222, 1.        ],
       [0.16666667, 0.55555556, 1.        ]])

In [145]:
df / df.iloc[0]

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.5,0.222222,1.0
2,0.166667,0.555556,1.0


In [146]:
df.truediv(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.5,0.222222,1.0
2,0.166667,0.555556,1.0


In [147]:
df.div(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.5,0.222222,1.0
2,0.166667,0.555556,1.0


In [148]:
df.divide(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,0.5,0.222222,1.0
2,0.166667,0.555556,1.0


In [149]:
a // a[0]

array([[1, 1, 1],
       [0, 0, 1],
       [0, 0, 1]], dtype=int32)

In [150]:
df.floordiv(df.iloc[0])

Unnamed: 0,A,B,C
0,1,1,1
1,0,0,1
2,0,0,1


#### mod( )

In [151]:
a

array([[6, 9, 5],
       [3, 2, 5],
       [1, 5, 5]])

In [152]:
a % a[0]

array([[0, 0, 0],
       [3, 2, 0],
       [1, 5, 0]], dtype=int32)

In [153]:
df

Unnamed: 0,A,B,C
0,6,9,5
1,3,2,5
2,1,5,5


In [154]:
df.mod(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,3,2,0
2,1,5,0


#### pow( )

In [155]:
a ** a[0]

array([[    46656, 387420489,      3125],
       [      729,       512,      3125],
       [        1,   1953125,      3125]], dtype=int32)

In [158]:
df.pow(df.iloc[0])

Unnamed: 0,A,B,C
0,46656,387420489,3125
1,729,512,3125
2,1,1953125,3125


In [159]:
row = df.iloc[0, ::2]
row

A    6
C    5
Name: 0, dtype: int32

In [161]:
df - row

Unnamed: 0,A,B,C
0,0.0,,0.0
1,-3.0,,0.0
2,-5.0,,0.0


### 정렬(Sort)

In [162]:
s = pd.Series(range(5), index=['A','D','B','C','E'])
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [163]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [164]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [166]:
df = pd.DataFrame(np.random.randint(0, 10, (4, 4)), 
                  index = [2, 4, 1, 3], 
                  columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,6,3,2,8
4,6,4,9,5
1,0,6,9,9
3,6,5,2,5


In [167]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,0,6,9,9
2,6,3,2,8
3,6,5,2,5
4,6,4,9,5


In [171]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2,2,6,8,3
4,9,6,5,4
1,9,0,9,6
3,2,6,5,5


In [168]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
2,6,3,2,8
3,6,5,2,5
4,6,4,9,5
1,0,6,9,9


In [169]:
df.sort_values(by=['A','C'])

Unnamed: 0,B,D,A,C
3,6,5,2,5
2,6,3,2,8
4,6,4,9,5
1,0,6,9,9


### 순위(Ranking)
|메소드|설명|
|:--|:--|
|```average```|기본값. 순위에 같은 값을 가지는 항목들의 평균값을 사용|
|```min```|같은 값을 가지는 그룹을 낮은 순위로 지정|
|```max```|같은 값을 가지는 그룹을 높은 순위로 지정|
|```first```|데이터 내의 위치에 따라 순위 지정|
|```dense```|같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가|

In [172]:
s = pd.Series([-2, 4, 7, 3, 0, 7, 5, -4, 2, 6])
s

0   -2
1    4
2    7
3    3
4    0
5    7
6    5
7   -4
8    2
9    6
dtype: int64

In [173]:
s.rank()
# 동일 값인 7이 9.5등으로 동일하게 나와있음

0    2.0
1    6.0
2    9.5
3    5.0
4    3.0
5    9.5
6    7.0
7    1.0
8    4.0
9    8.0
dtype: float64

In [174]:
s.rank(method='first')
# first는 데이터 내의 위치에 따라 순위가 지정되기 때문에 더 빨리 나온 2번 index에 있는 7이 9등이 된다.

0     2.0
1     6.0
2     9.0
3     5.0
4     3.0
5    10.0
6     7.0
7     1.0
8     4.0
9     8.0
dtype: float64

In [175]:
s.rank(method='max')

0     2.0
1     6.0
2    10.0
3     5.0
4     3.0
5    10.0
6     7.0
7     1.0
8     4.0
9     8.0
dtype: float64

In [184]:
s.sort_values(inplace=True)
print(s)
s.rank()

7   -4
0   -2
4    0
8    2
3    3
1    4
6    5
9    6
2    7
5    7
dtype: int64


7    1.0
0    2.0
4    3.0
8    4.0
3    5.0
1    6.0
6    7.0
9    8.0
2    9.5
5    9.5
dtype: float64

### 고성능 연산

In [186]:
nrows, ncols = 100000, 100

df1, df2, df3, df4 = (pd.DataFrame(np.random.rand(nrows, ncols)) for i in range(4))

In [187]:
%timeit df1 + df2 + df3 + df4

127 ms ± 3.08 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [188]:
%timeit pd.eval('df1 + df2 + df3 + df4')

58.1 ms ± 3.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [194]:
%timeit df1 * -df2 / (-df3 * df4)

172 ms ± 767 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [195]:
%timeit pd.eval('df1 * -df2 / (-df3 * df4)')

45.6 ms ± 611 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [196]:
%timeit (df1 < df2) & (df2 <= df3 ) & (df3 != df4)

75.7 ms ± 2.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [198]:
%timeit pd.eval('(df1 < df2) & (df2 <= df3 ) & (df3 != df4)')

30.9 ms ± 593 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [200]:
df = pd.DataFrame(np.random.rand(1000000, 5), columns=['A','B','C','D','E'])
df.head()

Unnamed: 0,A,B,C,D,E
0,0.781278,0.973528,0.193582,0.063428,0.082824
1,0.258465,0.654206,0.278463,0.784763,0.514739
2,0.398177,0.166627,0.872684,0.108876,0.290272
3,0.546126,0.389456,0.385744,0.31354,0.670539
4,0.665297,0.066015,0.369569,0.802647,0.493238


In [201]:
%timeit df['A'] + df['B'] / df['C']  - df['D'] * df['E']

24.2 ms ± 559 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [205]:
%timeit pd.eval("df.A + df.B / df.C  - df.D * df.E")

6.59 ms ± 108 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [207]:
%timeit df.eval('A + B / C - D * E')

14.3 ms ± 250 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [208]:
df.eval('R = A + B / C - D * E', inplace=True)
df.head()

Unnamed: 0,A,B,C,D,E,R
0,0.781278,0.973528,0.193582,0.063428,0.082824,5.805054
1,0.258465,0.654206,0.278463,0.784763,0.514739,2.203865
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.557509
3,0.546126,0.389456,0.385744,0.31354,0.670539,1.34551
4,0.665297,0.066015,0.369569,0.802647,0.493238,0.448029


In [209]:
df.eval('R = A - B / C + D * E', inplace=True)
df.head()

Unnamed: 0,A,B,C,D,E,R
0,0.781278,0.973528,0.193582,0.063428,0.082824,-4.242497
1,0.258465,0.654206,0.278463,0.784763,0.514739,-1.686936
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
3,0.546126,0.389456,0.385744,0.31354,0.670539,-0.253258
4,0.665297,0.066015,0.369569,0.802647,0.493238,0.882566


In [210]:
col_mean = df.mean(1)
df['A'] + col_mean

0         0.423302
1         0.392414
2         0.744090
3         0.888151
4         1.211853
            ...   
999995    1.223347
999996    0.373965
999997    1.607178
999998    1.371442
999999    0.349209
Length: 1000000, dtype: float64

In [211]:
df.eval('A + @col_mean') # 외부에 있는 변수도 '@'을 사용하여 불러올 수 있다.

0         0.423302
1         0.392414
2         0.744090
3         0.888151
4         1.211853
            ...   
999995    1.223347
999996    0.373965
999997    1.607178
999998    1.371442
999999    0.349209
Length: 1000000, dtype: float64

In [215]:
df[(df.A < 0.5) & (df.B < 0.5) & (df.C > 0.5)]
# 여러 조건을 포함하는 계산식 경우에도

Unnamed: 0,A,B,C,D,E,R
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
19,0.193395,0.088509,0.832081,0.943183,0.471197,0.531450
48,0.426565,0.038340,0.536007,0.754230,0.743076,0.915486
53,0.493141,0.016433,0.549259,0.287433,0.413863,0.582179
56,0.345881,0.451806,0.526912,0.598349,0.293047,-0.336235
...,...,...,...,...,...,...
999951,0.016504,0.429651,0.551314,0.452333,0.442475,-0.562672
999954,0.073390,0.405669,0.508582,0.387873,0.066400,-0.698503
999983,0.250878,0.272252,0.751059,0.703780,0.782322,0.438971
999990,0.163466,0.183814,0.984818,0.022301,0.935621,-0.002317


In [216]:
pd.eval('df[(df.A < 0.5) & (df.B < 0.5) & (df.C > 0.5)]')
# eval로 가능하다.

Unnamed: 0,A,B,C,D,E,R
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
19,0.193395,0.088509,0.832081,0.943183,0.471197,0.531450
48,0.426565,0.038340,0.536007,0.754230,0.743076,0.915486
53,0.493141,0.016433,0.549259,0.287433,0.413863,0.582179
56,0.345881,0.451806,0.526912,0.598349,0.293047,-0.336235
...,...,...,...,...,...,...
999951,0.016504,0.429651,0.551314,0.452333,0.442475,-0.562672
999954,0.073390,0.405669,0.508582,0.387873,0.066400,-0.698503
999983,0.250878,0.272252,0.751059,0.703780,0.782322,0.438971
999990,0.163466,0.183814,0.984818,0.022301,0.935621,-0.002317


In [219]:
df.query('(A < 0.5) and (B < 0.5) and (C > 0.5)')
# 조건을 가진 질의문인 경우에도 query를 쓰고 질의문을 쓰면 더 빠른 연산이 가능

Unnamed: 0,A,B,C,D,E,R
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
19,0.193395,0.088509,0.832081,0.943183,0.471197,0.531450
48,0.426565,0.038340,0.536007,0.754230,0.743076,0.915486
53,0.493141,0.016433,0.549259,0.287433,0.413863,0.582179
56,0.345881,0.451806,0.526912,0.598349,0.293047,-0.336235
...,...,...,...,...,...,...
999951,0.016504,0.429651,0.551314,0.452333,0.442475,-0.562672
999954,0.073390,0.405669,0.508582,0.387873,0.066400,-0.698503
999983,0.250878,0.272252,0.751059,0.703780,0.782322,0.438971
999990,0.163466,0.183814,0.984818,0.022301,0.935621,-0.002317


In [220]:
col_mean = df['D'].mean()
df[(df.A < col_mean) & (df.B < col_mean)]

Unnamed: 0,A,B,C,D,E,R
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
6,0.395922,0.425444,0.109125,0.950652,0.888009,-2.658590
8,0.036071,0.002373,0.199302,0.673528,0.817442,0.574736
11,0.290550,0.370350,0.432931,0.467552,0.348524,-0.401946
12,0.445093,0.470211,0.305312,0.634474,0.182490,-0.979219
...,...,...,...,...,...,...
999982,0.093455,0.464156,0.331368,0.676744,0.198460,-1.172968
999983,0.250878,0.272252,0.751059,0.703780,0.782322,0.438971
999988,0.036925,0.257363,0.497375,0.957278,0.457538,-0.042528
999990,0.163466,0.183814,0.984818,0.022301,0.935621,-0.002317


In [221]:
df.query('A < @col_mean and B < @col_mean')

Unnamed: 0,A,B,C,D,E,R
2,0.398177,0.166627,0.872684,0.108876,0.290272,0.238845
6,0.395922,0.425444,0.109125,0.950652,0.888009,-2.658590
8,0.036071,0.002373,0.199302,0.673528,0.817442,0.574736
11,0.290550,0.370350,0.432931,0.467552,0.348524,-0.401946
12,0.445093,0.470211,0.305312,0.634474,0.182490,-0.979219
...,...,...,...,...,...,...
999982,0.093455,0.464156,0.331368,0.676744,0.198460,-1.172968
999983,0.250878,0.272252,0.751059,0.703780,0.782322,0.438971
999988,0.036925,0.257363,0.497375,0.957278,0.457538,-0.042528
999990,0.163466,0.183814,0.984818,0.022301,0.935621,-0.002317


## 데이터 결합

### Concat( ) / Append( )

In [223]:
s1 = pd.Series(['a','b'], index = [1, 2])
s2 = pd.Series(['c','d'], index = [3, 4])
pd.concat([s1, s2])

1    a
2    b
3    c
4    d
dtype: object

In [226]:
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols}
    return pd.DataFrame(data, idx)

In [227]:
df1 = create_df('AB', [1, 2])
df1

Unnamed: 0,A,B
1,a1,b1
2,a2,b2


In [228]:
df2 = create_df('AB',[3, 4])
df2

Unnamed: 0,A,B
3,a3,b3
4,a4,b4


In [230]:
pd.concat([df1, df2]) # Index의 기준에 따라 아래로 데이터 테이블이 붙음

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [231]:
df3 = create_df('AB', [0,1])
df3

Unnamed: 0,A,B
0,a0,b0
1,a1,b1


In [232]:
df4 = create_df('CD', [0,1])
df4

Unnamed: 0,C,D
0,c0,d0
1,c1,d1


In [233]:
pd.concat([df3, df4])
# column명을 기준으로 두 DataFrame이 붙지만 
# df3와 df4의 Column명이 다르기 때문에 다른 Column에 대한 value는 NaN으로 처리된다.

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [243]:
pd.concat([df3, df4], axis=1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [244]:
pd.concat([df1, df3])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
0,a0,b0
1,a1,b1


In [238]:
# pd.concat([df1, df3], verify_integrity=True)
# verify_integrity는 결합하는 두 DataFrame의 index에 동일한 값이 있으면 
# 오류를 생성하게 하여 생성을 방지함

In [236]:
pd.concat([df1, df3], ignore_index=True)

Unnamed: 0,A,B
0,a1,b1
1,a2,b2
2,a0,b0
3,a1,b1


In [239]:
pd.concat([df1, df3], keys=['x','y'])
# MultiIndex의 형태로 만들어줌

Unnamed: 0,Unnamed: 1,A,B
x,1,a1,b1
x,2,a2,b2
y,0,a0,b0
y,1,a1,b1


In [240]:
df5 = create_df('ABC',[1, 2])
df6 = create_df('BCD',[3,4])
pd.concat([df5, df6])

Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


In [241]:
pd.concat([df5, df6], join='inner')
# columns 중에 공통된 column만이 결합되어 합쳐짐

Unnamed: 0,B,C
1,b1,c1
2,b2,c2
3,b3,c3
4,b4,c4


In [242]:
df5.append(df6)
# concat과 같은 용도

Unnamed: 0,A,B,C,D
1,a1,b1,c1,
2,a2,b2,c2,
3,,b3,c3,d3
4,,b4,c4,d4


### 병합과 조인

In [245]:
df1 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                    '학과':['경영학과','교육학과','컴퓨터학과','통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [246]:
df2 = pd.DataFrame({'학생':['홍길동','이순신','임꺽정','김유신'],
                    '입학년도':[2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [247]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [248]:
df4 = pd.DataFrame({'학과':['경영학과','교육학과','컴퓨터학과','통계학과'],
                    '학과장':['황희','장영실','안창호','정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [251]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [252]:
df5 = pd.DataFrame({'학과':['경영학과','교육학과','교육학과','컴퓨터학과','컴퓨터학과','통계학과'],
                    '과목':['경영개론','기초수학','물리학','프로그래밍','운영체제','확률론']})
df5

Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [253]:
pd.merge(df1, df5)
# merge하는 기준은 공통된 학과
# df1은 학생/학과라는 컬럼이 있고
# df5는 학과/과목이 존재한다.
# merge를 할 경우 공통된 컬럼인 학과를 기준으로 병합되기 때문에
# df1의 학생의 컬럼이 늘어난다.

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


In [260]:
pd.merge(df1, df2, on='학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [261]:
df6 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                    '성적':['A','A+','B','A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [262]:
pd.merge(df1, df6, left_on='학생', right_on='이름')

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [263]:
pd.merge(df1, df6, left_on='학생',right_on='이름').drop('이름',axis=1)

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터학과,B
3,김유신,통계학과,A+


In [265]:
mdf1 = df1.set_index('학생')
mdf2 = df2.set_index('학생')

In [266]:
mdf1

Unnamed: 0_level_0,학과
학생,Unnamed: 1_level_1
홍길동,경영학과
이순신,교육학과
임꺽정,컴퓨터학과
김유신,통계학과


In [267]:
mdf2

Unnamed: 0_level_0,입학년도
학생,Unnamed: 1_level_1
홍길동,2012
이순신,2016
임꺽정,2019
김유신,2020


In [268]:
pd.merge(mdf1, mdf2, left_index=True, right_index=True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [270]:
mdf1.join(mdf2)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [271]:
pd.merge(mdf1, df6, left_index=True, right_on='이름')

Unnamed: 0,학과,이름,성적
0,경영학과,홍길동,A
1,교육학과,이순신,A+
2,컴퓨터학과,임꺽정,B
3,통계학과,김유신,A+


In [272]:
df7 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정'],
                    '주문음식':['햄버거','피자','짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [274]:
df8 = pd.DataFrame({'이름':['홍길동','이순신','김유신'],
                     '주문음료':['콜라','사이다','커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,콜라
1,이순신,사이다
2,김유신,커피


In [275]:
pd.merge(df7, df8)

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [277]:
pd.merge(df7, df8, how='inner')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [278]:
pd.merge(df7, df8, how='outer')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,
3,김유신,,커피


In [279]:
pd.merge(df7, df8, how='left')
# df7에 있는 것만 기준으로 병합
# df8에는 없는 것들은 NaN을 반환

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,


In [280]:
pd.merge(df7, df8, how='right')
# df8을 기준으로
# df8에 김유신이 있지만 김유신의 주문음식은 존재하지 않는다.
# df7에는 임꺽정이 있지만 df8을 기준으로 하기 때문에 나타나지 않는다.

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,김유신,,커피


In [282]:
df9 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                    '순위':[3, 2, 4, 1]})
df9

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,2
2,임꺽정,4
3,김유신,1


In [283]:
df10 = pd.DataFrame({'이름':['홍길동','이순신','임꺽정','김유신'],
                    '순위':[4, 1, 3, 2]})
df10

Unnamed: 0,이름,순위
0,홍길동,4
1,이순신,1
2,임꺽정,3
3,김유신,2


In [284]:
pd.merge(df9, df10, on='이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [285]:
pd.merge(df9, df10, on='이름', suffixes=["_인기","_성적"])

Unnamed: 0,이름,순위_인기,순위_성적
0,홍길동,3,4
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [None]:
#2:12:18