<a href="https://colab.research.google.com/github/omj3424/python_suanLab/blob/main/_Pandas_%ED%95%9C%EB%B2%88%EC%97%90_%EC%A0%9C%EB%8C%80%EB%A1%9C_%EB%B0%B0%EC%9A%B0%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas 한번에 제대로 배우기


---

강의 링크: https://youtu.be/lG8pEwvYwCw?si=V_CiAQBiom6dn0fL



---



## Pandas 란?

* 관계 또는 레이블링 데이터를 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고 유연하며 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지

## Pandas 특징

* 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측 데이터(NaN으로 표시됨)를 쉽게 처리
* 크기 변이성(Size mutability): DataFrame 및 고차원 객체에서 열을 삽입 및 삭제 가능
* 자동 및 명시적(explicit) 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, DataFrame 등의 계산에서 자동으로 데이터 조정 가능
* 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
* 누락된 데이터 또는 다른 Python 및 NumPy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 쉽게 변환
* 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
* 직관적인 데이터 세트 병합 및 결합
* 데이터 세트의 유연한 재구성 및 피벗
* 축의 계층적 라벨링(눈금당 여러 개의 라벨을 가질 수 있음)
* 플랫 파일(CSV 및 구분), Excel 파일, 데이터베이스 로딩 및 초고속 HDF5 형식의 데이터 저장/로드에 사용되는 강력한 IO 도구
* 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우(moving window) 통계, 날짜 이동 및 지연

In [1]:
import numpy as np
import pandas as pd
pd.__version__

'2.1.4'

## Pandas 객체


### Series 객체

In [2]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0])
s

Unnamed: 0,0
0,0.0
1,0.25
2,0.5
3,0.75
4,1.0


In [3]:
s.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
s[1]

0.25

In [6]:
s[1:4]

Unnamed: 0,0
1,0.25
2,0.5
3,0.75


In [7]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index=['a', 'b', 'c', 'd', 'e'])
s

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75
e,1.0


In [8]:
s['c']

0.5

In [9]:
s[['c', 'd', 'e']]

Unnamed: 0,0
c,0.5
d,0.75
e,1.0


In [10]:
'b' in s

True

In [11]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index=[2, 4, 6, 8, 10])
s

Unnamed: 0,0
2,0.0
4,0.25
6,0.5
8,0.75
10,1.0


In [12]:
s[4]

0.25

In [13]:
s[2:]

Unnamed: 0,0
6,0.5
8,0.75
10,1.0


In [14]:
s.unique()

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [15]:
s.value_counts()

Unnamed: 0,count
0.0,1
0.25,1
0.5,1
0.75,1
1.0,1


In [16]:
s.isin([0.25, 0.75])

Unnamed: 0,0
2,False
4,True
6,False
8,True
10,False


In [17]:
pop_tuple = {'서울특별시': 9720846,
             '부산광역시': 3404423,
             '인천광역시': 2947217,
             '대구광역시': 2427954,
             '대전광역시': 1471040,
             '광주광역시': 1455048}
population = pd.Series(pop_tuple)
population

Unnamed: 0,0
서울특별시,9720846
부산광역시,3404423
인천광역시,2947217
대구광역시,2427954
대전광역시,1471040
광주광역시,1455048


In [18]:
population['서울특별시']

9720846

In [19]:
population['서울특별시':'인천광역시']

Unnamed: 0,0
서울특별시,9720846
부산광역시,3404423
인천광역시,2947217


### DataFrame 객체

In [20]:
pd.DataFrame([{'A':2, 'B':4, 'D':3}, {'A':4, 'B':5, 'C':7}])

Unnamed: 0,A,B,D,C
0,2,4,3.0,
1,4,5,,7.0


In [21]:
pd.DataFrame(np.random.rand(5, 5),
             columns=['A', 'B', 'C', 'D', 'E'],
             index=[1, 2, 3, 4, 5])

Unnamed: 0,A,B,C,D,E
1,0.938321,0.586249,0.019545,0.552771,0.699036
2,0.698161,0.07282,0.784336,0.236763,0.340728
3,0.786624,0.629472,0.491277,0.933174,0.805683
4,0.725665,0.770752,0.414387,0.855555,0.06123
5,0.050961,0.893332,0.204584,0.745087,0.030464


In [22]:
male_tuple = {'서울특별시': 4732275,
              '부산광역시': 1668618,
              '인천광역시': 1476813,
              '대구광역시': 1198815,
              '대전광역시': 734441,
              '광주광역시': 720060}
male = pd.Series(male_tuple)
male

Unnamed: 0,0
서울특별시,4732275
부산광역시,1668618
인천광역시,1476813
대구광역시,1198815
대전광역시,734441
광주광역시,720060


In [23]:
female_tuple = {'서울특별시': 4988571,
              '부산광역시': 1735805,
              '인천광역시': 1470404,
              '대구광역시': 1229139,
              '대전광역시': 736599,
              '광주광역시': 734988}
female = pd.Series(female_tuple)
female

Unnamed: 0,0
서울특별시,4988571
부산광역시,1735805
인천광역시,1470404
대구광역시,1229139
대전광역시,736599
광주광역시,734988


In [24]:
korea_df = pd.DataFrame({'인구수': population,
                         '남자인구수': male,
                         '여자인구수': female})
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [25]:
korea_df.index

Index(['서울특별시', '부산광역시', '인천광역시', '대구광역시', '대전광역시', '광주광역시'], dtype='object')

In [26]:
korea_df.columns

Index(['인구수', '남자인구수', '여자인구수'], dtype='object')

In [27]:
korea_df['여자인구수']

Unnamed: 0,여자인구수
서울특별시,4988571
부산광역시,1735805
인천광역시,1470404
대구광역시,1229139
대전광역시,736599
광주광역시,734988


In [28]:
korea_df['서울특별시':'인천광역시']

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404


### Index 객체

* Index: 일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현
* Int64Index: 정수 값을 위한 Index
* MultiIndex: 단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체(튜플의 배열과 유사)
* DatetimeIndex: NumPy의 datetime64 타입으로 타임스탬프 저장
* PeriodIndex: 기간 데이터를 위한 Index

In [29]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Index([2, 4, 6, 8, 10], dtype='int64')

In [30]:
idx[1]

4

In [31]:
idx[1:2:2]

Index([4], dtype='int64')

In [32]:
idx[-1::]

Index([10], dtype='int64')

In [33]:
idx[::2]

Index([2, 6, 10], dtype='int64')

In [34]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


#### Index 연산

 * `append`: 색인 객체를 추가한 새로운 색인 반환
 * `difference`: 색인의 차집합 반환
 * `&` `intersection`: 색인의 교집합 반환
 * `|` `union`: 색인의 합집합 반환
 * `isin`: 색인이 존재하는지 여부를 불리언 배열로 반환
 * `delete`: 색인이 삭제된 새로운 색인 반환
 * `drop`: 값이 삭제된 새로운 색인 반환
 * `insert`: 색인이 추가된 새로운 색인 반환
 * `is_monotonic`: 색인이 단조성을 가지면 True
 * `is_unique`: 중복되는 색인이 없다면 True
 * `unique`: 색인에서 중복되는 요소를 제거하고 유일한 값만 반환

In [45]:
idx1 = pd.Index([1, 2, 4, 6, 8])
idx2 = pd.Index([2, 4, 5, 6, 7])
print(idx1.append(idx2))
print(idx1.difference(idx2))
print(idx1 - idx2)
print(idx1.intersection(idx2))
print(idx1 & idx2)
print(idx1.union(idx2))
print(idx1 | idx2)
print(idx1.delete(0))
print(idx1.drop(1))
print(idx1 ^ idx2)

Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')
Index([1, 8], dtype='int64')
Index([-1, -2, -1, 0, 1], dtype='int64')
Index([2, 4, 6], dtype='int64')
Index([0, 0, 4, 6, 0], dtype='int64')
Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Index([3, 6, 5, 6, 15], dtype='int64')
Index([2, 4, 6, 8], dtype='int64')
Index([2, 4, 6, 8], dtype='int64')
Index([3, 6, 1, 0, 15], dtype='int64')




---



## 인덱싱(Indexing)

In [46]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
              index=['a', 'b', 'c', 'd', 'e'])
s

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75
e,1.0


In [47]:
s['b']

0.25

In [48]:
'b' in s

True

In [49]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [51]:
list(s.items())

[('a', 0.0), ('b', 0.25), ('c', 0.5), ('d', 0.75), ('e', 1.0)]

In [52]:
s['f'] = 1.25
s

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75
e,1.0
f,1.25


In [53]:
s['a':'d']

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75


In [54]:
s[0:4]

Unnamed: 0,0
a,0.0
b,0.25
c,0.5
d,0.75


In [55]:
s[(s > 0.4) & (s <0.8)]

Unnamed: 0,0
c,0.5
d,0.75


In [56]:
s[['a', 'c', 'e']]

Unnamed: 0,0
a,0.0
c,0.5
e,1.0


### Series 인덱싱

In [57]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'],
              index=[1, 3, 5, 7, 9])
s

Unnamed: 0,0
1,a
3,b
5,c
7,d
9,e


In [58]:
s[1]

'a'

In [59]:
s[2:4]

Unnamed: 0,0
5,c
7,d


In [60]:
s.iloc[1]

'b'

In [61]:
s.iloc[2:4]

Unnamed: 0,0
5,c
7,d


In [63]:
s.reindex(range(10))

Unnamed: 0,0
0,
1,a
2,
3,b
4,
5,c
6,
7,d
8,
9,e


In [64]:
s.reindex(range(10), method='bfill')

Unnamed: 0,0
0,a
1,a
2,b
3,b
4,c
5,c
6,d
7,d
8,e
9,e


### DataFrame 인덱싱

* `df[val]`: 하나의 컬럼 또는 여러 컬럼을 선택
* `df.loc[val]`: 라벨값으로 로우의 부분집합 선택
* `df.loc[:, val]`: 라벨값으로 컬럼의 부분집합 선택
* `df.loc[val1, val2]`: 라벨값으로 로우와 컬럼의 부분집합 선택
* `df.iloc[where]`: 정수 색인으로 로우의 부분집합 선택
* `df.iloc[:, where]`: 정수 색인으로 컬럼의 부분집합 선택
* `df.iloc[where_i, where_j]`: 정수 색인으로 로우와 컬럼의 부분집합 선택
* `df.at[label_i, label_j]`: 로우와 컬럼의 라벨로 단일 값 선택
* `df.iat[i, j]`: 로우와 컬럼의 정수 색인으로 단일 값 선택
* `reindex`: 하나 이상의 축을 새로운 색인으로 재색인
* `get_value, set_value`: 로우와 컬럼의 이름으로 값 선택

In [65]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수
서울특별시,9720846,4732275,4988571
부산광역시,3404423,1668618,1735805
인천광역시,2947217,1476813,1470404
대구광역시,2427954,1198815,1229139
대전광역시,1471040,734441,736599
광주광역시,1455048,720060,734988


In [66]:
korea_df['남자인구수']

Unnamed: 0,남자인구수
서울특별시,4732275
부산광역시,1668618
인천광역시,1476813
대구광역시,1198815
대전광역시,734441
광주광역시,720060


In [67]:
korea_df.남자인구수

Unnamed: 0,남자인구수
서울특별시,4732275
부산광역시,1668618
인천광역시,1476813
대구광역시,1198815
대전광역시,734441
광주광역시,720060


In [68]:
korea_df.여자인구수

Unnamed: 0,여자인구수
서울특별시,4988571
부산광역시,1735805
인천광역시,1470404
대구광역시,1229139
대전광역시,736599
광주광역시,734988


In [69]:
korea_df['남여비율'] = (korea_df['남자인구수'] * 100 / korea_df['여자인구수'])

In [70]:
korea_df.남여비율

Unnamed: 0,남여비율
서울특별시,94.862336
부산광역시,96.129346
인천광역시,100.435867
대구광역시,97.532907
대전광역시,99.707032
광주광역시,97.968946


In [71]:
korea_df.values

array([[9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01],
       [3.40442300e+06, 1.66861800e+06, 1.73580500e+06, 9.61293463e+01],
       [2.94721700e+06, 1.47681300e+06, 1.47040400e+06, 1.00435867e+02],
       [2.42795400e+06, 1.19881500e+06, 1.22913900e+06, 9.75329072e+01],
       [1.47104000e+06, 7.34441000e+05, 7.36599000e+05, 9.97070319e+01],
       [1.45504800e+06, 7.20060000e+05, 7.34988000e+05, 9.79689464e+01]])

In [72]:
korea_df.T

Unnamed: 0,서울특별시,부산광역시,인천광역시,대구광역시,대전광역시,광주광역시
인구수,9720846.0,3404423.0,2947217.0,2427954.0,1471040.0,1455048.0
남자인구수,4732275.0,1668618.0,1476813.0,1198815.0,734441.0,720060.0
여자인구수,4988571.0,1735805.0,1470404.0,1229139.0,736599.0,734988.0
남여비율,94.86234,96.12935,100.4359,97.53291,99.70703,97.96895


In [73]:
korea_df.values[0]

array([9.72084600e+06, 4.73227500e+06, 4.98857100e+06, 9.48623363e+01])

In [74]:
korea_df['인구수']

Unnamed: 0,인구수
서울특별시,9720846
부산광역시,3404423
인천광역시,2947217
대구광역시,2427954
대전광역시,1471040
광주광역시,1455048


In [75]:
korea_df.loc[:'인천광역시', :'남자인구수']

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


In [76]:
korea_df.loc[(korea_df.여자인구수 > 1000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907


In [77]:
korea_df.loc[(korea_df.인구수 < 2000000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [78]:
korea_df.loc[(korea_df.인구수 > 2500000)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867


In [79]:
korea_df.loc[korea_df.남여비율 > 100]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [80]:
korea_df.loc[(korea_df.인구수 > 2500000) & (korea_df.남여비율 > 100)]

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
인천광역시,2947217,1476813,1470404,100.435867


In [81]:
korea_df.iloc[:3, :2]

Unnamed: 0,인구수,남자인구수
서울특별시,9720846,4732275
부산광역시,3404423,1668618
인천광역시,2947217,1476813


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

#### 다중 인덱스 Series

In [82]:
korea_df

Unnamed: 0,인구수,남자인구수,여자인구수,남여비율
서울특별시,9720846,4732275,4988571,94.862336
부산광역시,3404423,1668618,1735805,96.129346
인천광역시,2947217,1476813,1470404,100.435867
대구광역시,2427954,1198815,1229139,97.532907
대전광역시,1471040,734441,736599,99.707032
광주광역시,1455048,720060,734988,97.968946


In [84]:
idx_tuples = [('서울특별시', 2010), ('서울특별시', 2020),
              ('부산광역시', 2010), ('부산광역시', 2020),
              ('인천광역시', 2010), ('인천광역시', 2020),
              ('대구광역시', 2010), ('대구광역시', 2020),
              ('대전광역시', 2010), ('대전광역시', 2020),
              ('광주광역시', 2010), ('광주광역시', 2020)]
idx_tuples

[('서울특별시', 2010),
 ('서울특별시', 2020),
 ('부산광역시', 2010),
 ('부산광역시', 2020),
 ('인천광역시', 2010),
 ('인천광역시', 2020),
 ('대구광역시', 2010),
 ('대구광역시', 2020),
 ('대전광역시', 2010),
 ('대전광역시', 2020),
 ('광주광역시', 2010),
 ('광주광역시', 2020)]

In [86]:
pop_tuples = [10312545, 9720846,
              3567910, 3404423,
              2758296, 2947217,
              2511676, 2427954,
              1503664, 1471040,
              1454636, 1455048]
population = pd.Series(pop_tuples, index=idx_tuples)
population

Unnamed: 0,0
"(서울특별시, 2010)",10312545
"(서울특별시, 2020)",9720846
"(부산광역시, 2010)",3567910
"(부산광역시, 2020)",3404423
"(인천광역시, 2010)",2758296
"(인천광역시, 2020)",2947217
"(대구광역시, 2010)",2511676
"(대구광역시, 2020)",2427954
"(대전광역시, 2010)",1503664
"(대전광역시, 2020)",1471040


In [87]:
midx = pd.MultiIndex.from_tuples(idx_tuples)
midx

MultiIndex([('서울특별시', 2010),
            ('서울특별시', 2020),
            ('부산광역시', 2010),
            ('부산광역시', 2020),
            ('인천광역시', 2010),
            ('인천광역시', 2020),
            ('대구광역시', 2010),
            ('대구광역시', 2020),
            ('대전광역시', 2010),
            ('대전광역시', 2020),
            ('광주광역시', 2010),
            ('광주광역시', 2020)],
           )

In [89]:
population = population.reindex(midx)
population

Unnamed: 0,Unnamed: 1,0
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758296
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [90]:
population[:, 2010]

Unnamed: 0,0
서울특별시,10312545
부산광역시,3567910
인천광역시,2758296
대구광역시,2511676
대전광역시,1503664
광주광역시,1454636


In [91]:
population['대전광역시', :]

Unnamed: 0,0
2010,1503664
2020,1471040


In [92]:
korea_mdf = population.unstack()
korea_mdf

Unnamed: 0,2010,2020
광주광역시,1454636,1455048
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,3567910,3404423
서울특별시,10312545,9720846
인천광역시,2758296,2947217


In [93]:
korea_mdf.stack()

Unnamed: 0,Unnamed: 1,0
광주광역시,2010,1454636
광주광역시,2020,1455048
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040
부산광역시,2010,3567910
부산광역시,2020,3404423
서울특별시,2010,10312545
서울특별시,2020,9720846


In [96]:
male_tuples = [5111259, 4732275,
              1773170, 1668618,
              1390356, 1476813,
              1255245, 1198815,
              753648, 734441,
              721780, 720060]
male_tuples

[5111259,
 4732275,
 1773170,
 1668618,
 1390356,
 1476813,
 1255245,
 1198815,
 753648,
 734441,
 721780,
 720060]

In [97]:
korea_mdf = pd.DataFrame({'총인구수': population,
                          '남자인구수': male_tuples})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수
서울특별시,2010,10312545,5111259
서울특별시,2020,9720846,4732275
부산광역시,2010,3567910,1773170
부산광역시,2020,3404423,1668618
인천광역시,2010,2758296,1390356
인천광역시,2020,2947217,1476813
대구광역시,2010,2511676,1255245
대구광역시,2020,2427954,1198815
대전광역시,2010,1503664,753648
대전광역시,2020,1471040,734441


In [98]:
female_tuples = [5201286, 4988571,
                 1794740, 1735805,
                 1367940, 1470404,
                 1256431, 1229139,
                 750016, 736599,
                 732856, 734988]
female_tuples

[5201286,
 4988571,
 1794740,
 1735805,
 1367940,
 1470404,
 1256431,
 1229139,
 750016,
 736599,
 732856,
 734988]

In [99]:
korea_mdf = pd.DataFrame({'총인구수': population,
                          '남자인구수': male_tuples,
                          '여자인구수': female_tuples})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수
서울특별시,2010,10312545,5111259,5201286
서울특별시,2020,9720846,4732275,4988571
부산광역시,2010,3567910,1773170,1794740
부산광역시,2020,3404423,1668618,1735805
인천광역시,2010,2758296,1390356,1367940
인천광역시,2020,2947217,1476813,1470404
대구광역시,2010,2511676,1255245,1256431
대구광역시,2020,2427954,1198815,1229139
대전광역시,2010,1503664,753648,750016
대전광역시,2020,1471040,734441,736599


In [100]:
ratio = korea_mdf['남자인구수'] * 100 / korea_mdf['여자인구수']
ratio

Unnamed: 0,Unnamed: 1,0
서울특별시,2010,98.26914
서울특별시,2020,94.862336
부산광역시,2010,98.798155
부산광역시,2020,96.129346
인천광역시,2010,101.638668
인천광역시,2020,100.435867
대구광역시,2010,99.905606
대구광역시,2020,97.532907
대전광역시,2010,100.484256
대전광역시,2020,99.707032


In [101]:
ratio.unstack()

Unnamed: 0,2010,2020
광주광역시,98.488653,97.968946
대구광역시,99.905606,97.532907
대전광역시,100.484256,99.707032
부산광역시,98.798155,96.129346
서울특별시,98.26914,94.862336
인천광역시,101.638668,100.435867


In [102]:
korea_mdf = pd.DataFrame({'총인구수': population,
                          '남자인구수': male_tuples,
                          '여자인구수': female_tuples,
                          '남여비율': ratio})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수,남자인구수,여자인구수,남여비율
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
부산광역시,2010,3567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2947217,1476813,1470404,100.435867
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032


#### 다중 인덱스 생성

In [103]:
df = pd.DataFrame(np.random.rand(6, 3),
                  index=[['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2]],
                  columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,Unnamed: 1,c1,c2,c3
a,1,0.622899,0.751332,0.691711
a,2,0.234333,0.384072,0.89388
b,1,0.241678,0.629621,0.925252
b,2,0.660158,0.91069,0.455119
c,1,0.924346,0.31614,0.3127
c,2,0.989291,0.640389,0.492868


In [104]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [106]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('c', 1), ('c', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [107]:
pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [108]:
pd.MultiIndex(levels=[['a', 'b', 'c'], [1, 2]],
              codes=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [109]:
population

Unnamed: 0,Unnamed: 1,0
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758296
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [111]:
population.index.names = ['행정구역', '년도']
population

Unnamed: 0_level_0,Unnamed: 1_level_0,0
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758296
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [115]:
idx = pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]],
                                 names=['name1', 'name2'])
cols = pd.MultiIndex.from_product([['c1', 'c2', 'c3'], [1, 2]],
                                  names=['col_name1', 'col_name2'])
data = np.round(np.random.randn(6, 6), 2)
mdf = pd.DataFrame(data, index=idx, columns=cols)
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,-1.22,-0.16,0.4,-1.94,-0.44,-1.08
a,2,-0.44,-0.73,0.74,0.27,-0.05,-0.72
b,1,-2.85,-1.48,-1.87,-1.29,0.77,0.88
b,2,-0.71,0.75,0.66,-0.21,1.21,0.09
c,1,0.85,-1.35,-0.18,0.61,1.1,0.65
c,2,-0.64,-0.35,0.08,0.83,-0.08,1.05


In [116]:
mdf['c2']

Unnamed: 0_level_0,col_name2,1,2
name1,name2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0.4,-1.94
a,2,0.74,0.27
b,1,-1.87,-1.29
b,2,0.66,-0.21
c,1,-0.18,0.61
c,2,0.08,0.83


#### 인덱싱 및 슬라이싱

In [117]:
population

Unnamed: 0_level_0,Unnamed: 1_level_0,0
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758296
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [118]:
population['인천광역시', 2010]

2758296

In [119]:
population[:, 2010]

Unnamed: 0_level_0,0
행정구역,Unnamed: 1_level_1
서울특별시,10312545
부산광역시,3567910
인천광역시,2758296
대구광역시,2511676
대전광역시,1503664
광주광역시,1454636


In [121]:
population[population > 3000000]

Unnamed: 0_level_0,Unnamed: 1_level_0,0
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423


In [122]:
population[['대구광역시', '대전광역시']]

Unnamed: 0_level_0,Unnamed: 1_level_0,0
행정구역,년도,Unnamed: 2_level_1
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [123]:
mdf

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2,c3,c3
Unnamed: 0_level_1,col_name2,1,2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
a,1,-1.22,-0.16,0.4,-1.94,-0.44,-1.08
a,2,-0.44,-0.73,0.74,0.27,-0.05,-0.72
b,1,-2.85,-1.48,-1.87,-1.29,0.77,0.88
b,2,-0.71,0.75,0.66,-0.21,1.21,0.09
c,1,0.85,-1.35,-0.18,0.61,1.1,0.65
c,2,-0.64,-0.35,0.08,0.83,-0.08,1.05


In [124]:
mdf['c2', 1]

Unnamed: 0_level_0,Unnamed: 1_level_0,c2
Unnamed: 0_level_1,Unnamed: 1_level_1,1
name1,name2,Unnamed: 2_level_2
a,1,0.4
a,2,0.74
b,1,-1.87
b,2,0.66
c,1,-0.18
c,2,0.08


In [125]:
mdf.iloc[:3, :4]

Unnamed: 0_level_0,col_name1,c1,c1,c2,c2
Unnamed: 0_level_1,col_name2,1,2,1,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,-1.22,-0.16,0.4,-1.94
a,2,-0.44,-0.73,0.74,0.27
b,1,-2.85,-1.48,-1.87,-1.29


In [126]:
mdf.loc[:, ('c2', 1)]

Unnamed: 0_level_0,Unnamed: 1_level_0,c2
Unnamed: 0_level_1,Unnamed: 1_level_1,1
name1,name2,Unnamed: 2_level_2
a,1,0.4
a,2,0.74
b,1,-1.87
b,2,0.66
c,1,-0.18
c,2,0.08


In [127]:
idx_slice = pd.IndexSlice
mdf.loc[idx_slice[:, 2], idx_slice[:, 2]]

Unnamed: 0_level_0,col_name1,c1,c2,c3
Unnamed: 0_level_1,col_name2,2,2,2
name1,name2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,2,-0.73,0.27,-0.72
b,2,0.75,-0.21,0.09
c,2,-0.35,0.83,1.05


#### 다중 인덱스 재정렬

In [128]:
idx

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           names=['name1', 'name2'])

In [129]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
부산광역시,2010,3567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2947217,1476813,1470404,100.435867
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032


In [133]:
korea_mdf = korea_mdf.sort_index()
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732856,98.488653
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,3567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


In [134]:
korea_mdf['서울특별시':'인천광역시']

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336
인천광역시,2010,2758296,1390356,1367940,101.638668
인천광역시,2020,2947217,1476813,1470404,100.435867


In [135]:
korea_mdf.unstack(level=0)

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수,총인구수,남자인구수,남자인구수,남자인구수,남자인구수,...,여자인구수,여자인구수,여자인구수,여자인구수,남여비율,남여비율,남여비율,남여비율,남여비율,남여비율
행정구역,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,...,대전광역시,부산광역시,서울특별시,인천광역시,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2010,1454636,2511676,1503664,3567910,10312545,2758296,721780,1255245,753648,1773170,...,750016,1794740,5201286,1367940,98.488653,99.905606,100.484256,98.798155,98.26914,101.638668
2020,1455048,2427954,1471040,3404423,9720846,2947217,720060,1198815,734441,1668618,...,736599,1735805,4988571,1470404,97.968946,97.532907,99.707032,96.129346,94.862336,100.435867


In [136]:
korea_mdf.unstack(level=1)

Unnamed: 0_level_0,총인구수,총인구수,남자인구수,남자인구수,여자인구수,여자인구수,남여비율,남여비율
년도,2010,2020,2010,2020,2010,2020,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
광주광역시,1454636,1455048,721780,720060,732856,734988,98.488653,97.968946
대구광역시,2511676,2427954,1255245,1198815,1256431,1229139,99.905606,97.532907
대전광역시,1503664,1471040,753648,734441,750016,736599,100.484256,99.707032
부산광역시,3567910,3404423,1773170,1668618,1794740,1735805,98.798155,96.129346
서울특별시,10312545,9720846,5111259,4732275,5201286,4988571,98.26914,94.862336
인천광역시,2758296,2947217,1390356,1476813,1367940,1470404,101.638668,100.435867


In [137]:
korea_mdf.stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1
광주광역시,2010,총인구수,1454636.0
광주광역시,2010,남자인구수,721780.0
광주광역시,2010,여자인구수,732856.0
광주광역시,2010,남여비율,98.48865
광주광역시,2020,총인구수,1455048.0
광주광역시,2020,남자인구수,720060.0
광주광역시,2020,여자인구수,734988.0
광주광역시,2020,남여비율,97.96895
대구광역시,2010,총인구수,2511676.0
대구광역시,2010,남자인구수,1255245.0


In [138]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732856,98.488653
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,3567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


In [139]:
idx_flat = korea_mdf.reset_index(level=0)
idx_flat

Unnamed: 0_level_0,행정구역,총인구수,남자인구수,여자인구수,남여비율
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010,광주광역시,1454636,721780,732856,98.488653
2020,광주광역시,1455048,720060,734988,97.968946
2010,대구광역시,2511676,1255245,1256431,99.905606
2020,대구광역시,2427954,1198815,1229139,97.532907
2010,대전광역시,1503664,753648,750016,100.484256
2020,대전광역시,1471040,734441,736599,99.707032
2010,부산광역시,3567910,1773170,1794740,98.798155
2020,부산광역시,3404423,1668618,1735805,96.129346
2010,서울특별시,10312545,5111259,5201286,98.26914
2020,서울특별시,9720846,4732275,4988571,94.862336


In [140]:
idx_flat = korea_mdf.reset_index(level=(0, 1))
idx_flat

Unnamed: 0,행정구역,년도,총인구수,남자인구수,여자인구수,남여비율
0,광주광역시,2010,1454636,721780,732856,98.488653
1,광주광역시,2020,1455048,720060,734988,97.968946
2,대구광역시,2010,2511676,1255245,1256431,99.905606
3,대구광역시,2020,2427954,1198815,1229139,97.532907
4,대전광역시,2010,1503664,753648,750016,100.484256
5,대전광역시,2020,1471040,734441,736599,99.707032
6,부산광역시,2010,3567910,1773170,1794740,98.798155
7,부산광역시,2020,3404423,1668618,1735805,96.129346
8,서울특별시,2010,10312545,5111259,5201286,98.26914
9,서울특별시,2020,9720846,4732275,4988571,94.862336


In [141]:
idx_flat.set_index(['행정구역', '년도'])

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수,남자인구수,여자인구수,남여비율
행정구역,년도,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
광주광역시,2010,1454636,721780,732856,98.488653
광주광역시,2020,1455048,720060,734988,97.968946
대구광역시,2010,2511676,1255245,1256431,99.905606
대구광역시,2020,2427954,1198815,1229139,97.532907
대전광역시,2010,1503664,753648,750016,100.484256
대전광역시,2020,1471040,734441,736599,99.707032
부산광역시,2010,3567910,1773170,1794740,98.798155
부산광역시,2020,3404423,1668618,1735805,96.129346
서울특별시,2010,10312545,5111259,5201286,98.26914
서울특별시,2020,9720846,4732275,4988571,94.862336


## 데이터 연산

In [142]:
s = pd.Series(np.random.randint(0, 10, 5))
s

Unnamed: 0,0
0,8
1,0
2,6
3,2
4,1


In [143]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,3,0,6
1,6,0,2
2,0,4,2


In [144]:
np.exp(s)

Unnamed: 0,0
0,2980.957987
1,1.0
2,403.428793
3,7.389056
4,2.718282


In [145]:
np.cos(df * np.pi / 4)

Unnamed: 0,A,B,C
0,-0.7071068,1.0,-1.83697e-16
1,-1.83697e-16,1.0,6.123234000000001e-17
2,1.0,-1.0,6.123234000000001e-17


In [146]:
s1 = pd.Series([1, 3, 5, 7, 9], index=[0, 1, 2, 3, 4])
s2 = pd.Series([2, 4, 6, 8, 10], index=[1, 2, 3, 4, 5])
s1 + s2

Unnamed: 0,0
0,
1,5.0
2,9.0
3,13.0
4,17.0
5,


In [147]:
s1.add(s2, fill_value=0)

Unnamed: 0,0
0,1.0
1,5.0
2,9.0
3,13.0
4,17.0
5,10.0


In [148]:
df1 = pd.DataFrame(np.random.randint(0, 20, (3, 3)),
                   columns=list('ACD'))
df1

Unnamed: 0,A,C,D
0,6,4,5
1,3,1,15
2,5,1,11


In [149]:
df2 = pd.DataFrame(np.random.randint(0, 20, (5, 5)),
                   columns=list('BAECD'))
df2

Unnamed: 0,B,A,E,C,D
0,7,19,13,19,1
1,10,18,19,10,15
2,10,1,9,2,3
3,6,13,9,11,16
4,6,18,5,15,3


In [150]:
df1 + df2

Unnamed: 0,A,B,C,D,E
0,25.0,,23.0,6.0,
1,21.0,,11.0,30.0,
2,6.0,,3.0,14.0,
3,,,,,
4,,,,,


In [151]:
fvalue = df1.stack().mean()
df1.add(df2, fill_value=fvalue)

Unnamed: 0,A,B,C,D,E
0,25.0,12.666667,23.0,6.0,18.666667
1,21.0,15.666667,11.0,30.0,24.666667
2,6.0,15.666667,3.0,14.0,14.666667
3,18.666667,11.666667,16.666667,21.666667,14.666667
4,23.666667,11.666667,20.666667,8.666667,10.666667


### 연산자 범용 함수

| Python 연산자 | Pandas 메소드 |
|-------------|-------------|
|`+`|`add`, `radd`|
|`-`|`sub`, `rsub`, `subtract`|
|`*`|`mul`, `rmul`, `multiply`|
|`/`|`truediv`, `div`, `rdiv`, `divide`|
|`//`|`floordiv`, `rfloordiv`|
|`%`|`mod`|
|`**`|`pow`, `rpow`|

#### add()

In [152]:
a = np.random.randint(1, 10, size=(3, 3))
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [153]:
a + a[0]

array([[16,  4, 18],
       [16, 11, 15],
       [13,  6, 10]])

In [154]:
df = pd.DataFrame(a, columns=list('ABC'))
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [155]:
df + df.iloc[0]

Unnamed: 0,A,B,C
0,16,4,18
1,16,11,15
2,13,6,10


In [156]:
df.add(df.iloc[0])

Unnamed: 0,A,B,C
0,16,4,18
1,16,11,15
2,13,6,10


#### sub() / subtract()

In [157]:
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [158]:
a - a[0]

array([[ 0,  0,  0],
       [ 0,  7, -3],
       [-3,  2, -8]])

In [159]:
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [160]:
df - df.iloc[0]

Unnamed: 0,A,B,C
0,0,0,0
1,0,7,-3
2,-3,2,-8


In [161]:
df.sub(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,0,7,-3
2,-3,2,-8


In [162]:
df.subtract(df['B'], axis=0)

Unnamed: 0,A,B,C
0,6,0,7
1,-1,0,-3
2,1,0,-3


#### mul() / multply()




In [163]:
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [167]:
a * a[1]

array([[64, 18, 54],
       [64, 81, 36],
       [40, 36,  6]])

In [165]:
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [166]:
df * df.iloc[1]

Unnamed: 0,A,B,C
0,64,18,54
1,64,81,36
2,40,36,6


In [168]:
df.mul(df.iloc[1])

Unnamed: 0,A,B,C
0,64,18,54
1,64,81,36
2,40,36,6


In [170]:
df.multiply(df.iloc[2])

Unnamed: 0,A,B,C
0,40,8,9
1,40,36,6
2,25,16,1


#### truediv() /  div() / divide() / floordiv()

In [171]:
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [172]:
a / a[0]

array([[1.        , 1.        , 1.        ],
       [1.        , 4.5       , 0.66666667],
       [0.625     , 2.        , 0.11111111]])

In [173]:
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [174]:
df /df.iloc[0]

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,1.0,4.5,0.666667
2,0.625,2.0,0.111111


In [175]:
df.truediv(df.iloc[0])

Unnamed: 0,A,B,C
0,1.0,1.0,1.0
1,1.0,4.5,0.666667
2,0.625,2.0,0.111111


In [176]:
df.div(df.iloc[1])

Unnamed: 0,A,B,C
0,1.0,0.222222,1.5
1,1.0,1.0,1.0
2,0.625,0.444444,0.166667


In [177]:
df.divide(df.iloc[2])

Unnamed: 0,A,B,C
0,1.6,0.5,9.0
1,1.6,2.25,6.0
2,1.0,1.0,1.0


In [178]:
a // a[0]

array([[1, 1, 1],
       [1, 4, 0],
       [0, 2, 0]])

In [179]:
df.floordiv(df.iloc[0])

Unnamed: 0,A,B,C
0,1,1,1
1,1,4,0
2,0,2,0


#### mod()

In [180]:
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [181]:
a % a[0]

array([[0, 0, 0],
       [0, 1, 6],
       [5, 0, 1]])

In [182]:
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [183]:
df.mod(df.iloc[0])

Unnamed: 0,A,B,C
0,0,0,0
1,0,1,6
2,5,0,1


#### pow()

In [184]:
a

array([[8, 2, 9],
       [8, 9, 6],
       [5, 4, 1]])

In [185]:
a ** a[0]

array([[ 16777216,         4, 387420489],
       [ 16777216,        81,  10077696],
       [   390625,        16,         1]])

In [186]:
df

Unnamed: 0,A,B,C
0,8,2,9
1,8,9,6
2,5,4,1


In [187]:
df.pow(df.iloc[0])

Unnamed: 0,A,B,C
0,16777216,4,387420489
1,16777216,81,10077696
2,390625,16,1


In [188]:
row = df.iloc[0, ::2]
row

Unnamed: 0,0
A,8
C,9


In [189]:
df - row

Unnamed: 0,A,B,C
0,0.0,,0.0
1,0.0,,-3.0
2,-3.0,,-8.0


### 정렬(Sort)

In [191]:
s = pd.Series(range(5), index=['A', 'D', 'B', 'C', 'E'])
s

Unnamed: 0,0
A,0
D,1
B,2
C,3
E,4


In [192]:
s.sort_index()

Unnamed: 0,0
A,0
B,2
C,3
D,1
E,4


In [193]:
s.sort_values()

Unnamed: 0,0
A,0
D,1
B,2
C,3
E,4


In [195]:
df = pd.DataFrame(np.random.randint(0, 10, (4, 4)),
                  index=[2, 4, 1, 3],
                  columns=list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,8,7,8,1
4,5,4,7,2
1,3,1,3,8
3,2,0,3,1


In [196]:
df.sort_index()

Unnamed: 0,B,D,A,C
1,3,1,3,8
2,8,7,8,1
3,2,0,3,1
4,5,4,7,2


In [199]:
df.sort_index(axis=1)

Unnamed: 0,A,B,C,D
2,8,8,1,7
4,7,5,2,4
1,3,3,8,1
3,3,2,1,0


In [197]:
df.sort_values(by='A')

Unnamed: 0,B,D,A,C
1,3,1,3,8
3,2,0,3,1
4,5,4,7,2
2,8,7,8,1


In [198]:
df.sort_values(by = ['A', 'C'])

Unnamed: 0,B,D,A,C
3,2,0,3,1
1,3,1,3,8
4,5,4,7,2
2,8,7,8,1


### 순위(Ranking)


In [None]:
1:33:09~부터

### 고성능 연산

## 데이터 결합

### Concat() / Append()

### 병합과 조인

## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)


### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


## 문자열 연산

#### 문자열 연산자

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly