# Pandas 요약 및 코드 정리




---



## Pandas 특징
- 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측 데이터(NaN)를 쉽게 처리
- 크기 변이성: 데이터프레임 및 고차원 객체에서 열을 삽입 및 삭제 가능
- 자동 및 명시적 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, Dataframe 등의 계산에서 자동으로 데이터 조정 가능
- 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
- 누락된 데이터 또는 다른 Python 및 NumPy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 귑게 변환
- 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
- 직관적인 데이터 세트 병합 및 결합
- 데이터 세트의 유연한 재구성 및 피벗
- 축의 계층적 라벨링(눈금 당 여러 개의 라벨을 가질 수 있음)
- 플랫 파일(csv 및 구분), Excel 파일, 데이터베이스 로딩 및 초고속 HDF5 형식의 데이터 저장/로드에 사용되는 강력한 IO도구
- 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우 통계, 날짜 이동 및 지연

In [3]:
## 라이브러리 
import pandas as pd
import numpy as np

## Pandas 객체


### Series 객체
pd.Series(data, index)  
pd.Series(딕셔너리) # key: index, value: data

In [7]:
# Series 생성
s = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8 ,9, 9])
s

0     0
1     1
2     2
3     3
4     4
5     5
6     6
7     7
8     8
9     9
10    9
dtype: int64

In [122]:
# 데이터 확인
print(s.values)
print(s.index)
print(s.unique())
print(s.isin([2, 3]))
print(s[0])
print(s.size)
print(s.shape)
print(s.ndim)
print(s.dtype)
print(s.nunique())

[0.   0.25 0.5  0.75 1.  ]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[0.   0.25 0.5  0.75 1.  ]
a    False
b    False
c    False
d    False
e    False
dtype: bool
0.0
5
(5,)
1
float64
5


### DataFrame 객체
pd.DataFrame(data, index, columns, dtype, copy)

In [24]:
# DataFrame 생성 1
df = pd.DataFrame(np.random.randint(0, 100, size = (3, 4)), 
                 index = np.arange(1, 4),
                 columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
1,30,96,87,6
2,80,93,54,88
3,63,89,65,70


In [29]:
# DataFrame 생성 2(리스트)(행)
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns = ['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [142]:
# DataFrame 생성 3(딕셔너리)(열)
df = pd.DataFrame({'a': [1, 4], 
                  'b':[2, 5], 'c':[3, 6]}, index = [0, 1])
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [126]:
print(df.index) # index 객체
print(df.columns) # index 객체
print(df.values) # ndarray 객체

Int64Index([0, 1], dtype='int64')
Index(['a', 'b', 'c'], dtype='object')
[[1 2 3]
 [4 5 6]]


In [127]:
df['a'].isin([1, 2])

0     True
1    False
Name: a, dtype: bool

In [132]:
# 데이터 확인
print(df.values)
print(df.index)
print(df['a'].unique())
print(df['a'].isin([1, 2]))
print(s[0])
print(s.size)
print(s.shape)
print(s.ndim)
print(s.dtype)
print(df.info())
print(df.describe())
print()
print(df.loc[:,'a'].is_unique)
print(df.nunique())

[[1 2 3]
 [4 5 6]]
Int64Index([0, 1], dtype='int64')
[1 4]
0     True
1    False
Name: a, dtype: bool
0.0
5
(5,)
1
float64
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       2 non-null      int64
 1   b       2 non-null      int64
 2   c       2 non-null      int64
dtypes: int64(3)
memory usage: 172.0 bytes
None
             a        b        c
count  2.00000  2.00000  2.00000
mean   2.50000  3.50000  4.50000
std    2.12132  2.12132  2.12132
min    1.00000  2.00000  3.00000
25%    1.75000  2.75000  3.75000
50%    2.50000  3.50000  4.50000
75%    3.25000  4.25000  5.25000
max    4.00000  5.00000  6.00000

True
a    2
b    2
c    2
dtype: int64


In [84]:
df.T # Transpose

Unnamed: 0,0,1,2
a,23,49,66
b,85,60,34
c,83,23,49


In [85]:
df.values[1]

array([49, 60, 23])

In [137]:
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [143]:
df.rename(columns = {'a':'A', 'b':'B', 'c':'C'}, index = {0:1, 1:2})

Unnamed: 0,A,B,C
1,1,2,3
2,4,5,6


### Index 객체


|클래스|설명|
|--|--|
|Index|일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|MultiIndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체(튜플의 배열과 유사)|
|DatetimeIndex|NumPy의 datetime64 타입으로 타임스탬프 저장|
|PeriodIndex|기간 데이터를 위한 Index|

In [49]:
# index 객체 생성
idx = pd.Index([1, 3, 5, 7, 9])
idx

Int64Index([1, 3, 5, 7, 9], dtype='int64')

#### Index 연산

|연산자|메소드|설명|
|--|--|--|
|.|`append`|색인 객체를 추가한 새로운 색인 변환|
| `-`|`difference`|색인의 차집합 반환|
| `&`|`intersection`|색인의 교집합 반환|
| `\|`|`union`|색인의 합집합 반환|
|.|`isin`| 색인이 존재하는지 여부를 불리언 배열로 변환|
|.|`delete`|해당 index가 삭제된 새로운 색인 반환|
|.|`drop`|값이 삭제된 새로운 색인 반환|
|.|`insert`|색인이 추가된 새로운 색인 반환|
|.|`is_monotonic`|색인이 단조성을 가지면 True|
|.|`is_unique`|중복되는 색인이 없다면 True|
|.|`unique`|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|
  



---



## 인덱싱(Indexing)

In [68]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [69]:
s['b']

0.25

In [70]:
'b' in s

True

In [71]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [74]:
s.reindex(['a', 'a1', 'b', 'b1', 'c', 'c1', 'd', 'd1', 'e', 'e1'])

a     0.00
a1     NaN
b     0.25
b1     NaN
c     0.50
c1     NaN
d     0.75
d1     NaN
e     1.00
e1     NaN
dtype: float64

In [75]:
s.reindex(['a', 'a1', 'b', 'b1', 'c', 'c1', 'd', 'd1', 'e', 'e1'], method = 'ffill')

a     0.00
a1    0.00
b     0.25
b1    0.25
c     0.50
c1    0.50
d     0.75
d1    0.75
e     1.00
e1    1.00
dtype: float64

### DataFrame 인덱싱


In [80]:
df = pd.DataFrame(np.random.randint(0, 100, size = (3, 3)),
                 columns = ['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,23,85,83
1,49,60,23
2,66,34,49


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

In [120]:
pop_tuples = [10312545, 9720846, 3567910, 3404423, 2758297, 2947217, 
             2511676, 2427954, 1503664, 1471040]
midx = [['서울특별시','서울특별시','부산광역시','부산광역시','인천광역시',
        '인천광역시','대구광역시','대구광역시','대전광역시','대전광역시'],
       [2010, 2020, 2010, 2020, 2010, 2020, 2010, 2020, 2010, 2020]]
population = pd.Series(pop_tuples, index = midx)
population

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     3567910
       2020     3404423
인천광역시  2010     2758297
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
dtype: int64

In [92]:
df = population.unstack() # index를 unstack
df

Unnamed: 0,2010,2020
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,3567910,3404423
서울특별시,10312545,9720846
인천광역시,2758297,2947217


In [93]:
df.stack()

대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
부산광역시  2010     3567910
       2020     3404423
서울특별시  2010    10312545
       2020     9720846
인천광역시  2010     2758297
       2020     2947217
dtype: int64

In [94]:
korea_mdf = pd.DataFrame({'총인구수':population})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [95]:
population.index.names = ['행정구역', '년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     3567910
       2020     3404423
인천광역시  2010     2758297
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
dtype: int64

In [96]:
korea_mdf = pd.DataFrame({'총인구수':population})
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


#### 다중 인덱스 생성

In [98]:
# 멀티 인덱스 생성 방법 1
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [99]:
# 멀티 인덱스 생성 방법 2
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('c', 1), ('c', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [104]:
# 멀티 인덱스 생성 방법 3 (곱 형태)
pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]]) # 곱 형태

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

#### 다중 인덱스 재정렬

In [105]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [106]:
korea_mdf['서울특별시':'인천광역시'] # --> raise UnsortedIndexError

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [107]:
korea_mdf = korea_mdf.sort_index()
korea_mdf['서울특별시':'인천광역시']

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


In [114]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040
부산광역시,2010,3567910
부산광역시,2020,3404423
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


In [112]:
korea_mdf.unstack(level = 1) # 1번쨰 index가 unstack 됨

Unnamed: 0_level_0,총인구수,총인구수
년도,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,3567910,3404423
서울특별시,10312545,9720846
인천광역시,2758297,2947217


In [113]:
korea_mdf.unstack(level = 0) # 0번째 index가 unstack 됨

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수
행정구역,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2010,2511676,1503664,3567910,10312545,2758297
2020,2427954,1471040,3404423,9720846,2947217


In [135]:
idx_flat = korea_mdf.reset_index(level = (0, 1)) # index 없애기
idx_flat

Unnamed: 0,행정구역,년도,총인구수
0,대구광역시,2010,2511676
1,대구광역시,2020,2427954
2,대전광역시,2010,1503664
3,대전광역시,2020,1471040
4,부산광역시,2010,3567910
5,부산광역시,2020,3404423
6,서울특별시,2010,10312545
7,서울특별시,2020,9720846
8,인천광역시,2010,2758297
9,인천광역시,2020,2947217


In [136]:
idx_flat.set_index(['행정구역', '년도']) # index 다시 설정

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040
부산광역시,2010,3567910
부산광역시,2020,3404423
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


## 데이터 연산
- 데이터끼리 연산은 같은 인덱스 이름끼리 연산됨
- Numpy 기반(브로드캐스팅 등)

### 연산자 범용 함수


|Python 연산자|Pandas 메소드|
|:--|:--|
|`+`|`add`, `radd`|
|`-`|`sub`, `rsub`, `subtract`|
|`*`|`mul`, `rmul`, `multiply`|
|`/`|`truediv`, `div`, `rdiv`, `divide`|
|`//`|`floordiv`, `rfloordiv`|
|`%`|`mod`|
|`**`|`pow`, `rpow`|

### 정렬(Sort)

In [144]:
s = pd.Series(range(5), index = ['A', 'D', 'B', 'C', 'E'])
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [145]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [146]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [148]:
df = pd.DataFrame(np.random.randint(0, 10, (4, 4)), 
                 index = [2, 4, 1, 3], 
                 columns = list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,7,1,1,9
4,3,9,4,6
1,3,9,9,3
3,6,2,6,0


In [149]:
df.sort_index() # default: ascending = True

Unnamed: 0,B,D,A,C
1,3,9,9,3
2,7,1,1,9
3,6,2,6,0
4,3,9,4,6


In [153]:
df.sort_values(by = 'A', ascending = False) # 기준 열(by = )

Unnamed: 0,B,D,A,C
1,3,9,9,3
3,6,2,6,0
4,3,9,4,6
2,7,1,1,9


In [151]:
df.sort_values(by = ['A', 'C']) # A 이후 C 순으로 정렬

Unnamed: 0,B,D,A,C
2,7,1,1,9
4,3,9,4,6
3,6,2,6,0
1,3,9,9,3


### 순위(Ranking)
|메소드|설명|
|:--|:--|
|`average`|기본값. 순위에 같은 값을 가지는 항목들의 평균 값을 사용|
|`min`|같은 값을 가지는 그룹을 낮은 순위로 지정|
|`max`|같은 값을 가지는 그룹을 높은 순위로 지정|
|`first`|데이터 내의 위치에 따라 순위 지정|
|`dense`|같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가|

In [154]:
s = pd.Series([-2, 4, 7, -4, 1, 5, 2, 5])
s

0   -2
1    4
2    7
3   -4
4    1
5    5
6    2
7    5
dtype: int64

In [155]:
s.rank() # value의 각 index별 랭크 (동일값은 .5) / 높을수록 value가 높음

0    2.0
1    5.0
2    8.0
3    1.0
4    3.0
5    6.5
6    4.0
7    6.5
dtype: float64

In [156]:
s.rank(method = 'first') # 동일 값이라도 먼저 온 값에 순위를 더 높여줌

0    2.0
1    5.0
2    8.0
3    1.0
4    3.0
5    6.0
6    4.0
7    7.0
dtype: float64

### 고성능 연산 
- 계산: pd.eval
- 조건: pd.query

In [158]:
nrows, ncols = 10000, 100
df1, df2, df3, df4 = (pd.DataFrame(np.random.rand(nrows, ncols)) for i in range(4))

In [159]:
%timeit df1 + df2 + df3 + df4

9.4 ms ± 320 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [160]:
%timeit pd.eval('df1 + df2 + df3 + df4')

6.47 ms ± 184 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [163]:
df = pd.DataFrame(np.random.rand(1000000, 5), columns = list('ABCDE'))

df.query('(A < 0.5) and (B < 0.5) and (C > 0.5)')

Unnamed: 0,A,B,C,D,E
0,0.104057,0.089605,0.735919,0.278079,0.670884
15,0.329548,0.137926,0.905441,0.006427,0.671520
21,0.389727,0.367476,0.729458,0.120394,0.514615
29,0.061644,0.097410,0.539054,0.386682,0.218486
30,0.446834,0.136170,0.745805,0.354265,0.980350
...,...,...,...,...,...
999952,0.170447,0.331979,0.625193,0.321053,0.732970
999962,0.318706,0.043452,0.674985,0.004546,0.518283
999971,0.433089,0.055643,0.856427,0.560894,0.551102
999978,0.244394,0.390424,0.639527,0.710906,0.036711


## 데이터 결합

### Concat() / Append()

In [165]:
s1 = pd.Series([0, 1])
s2 = pd.Series([2, 3])
pd.concat([s1, s2])

0    0
1    1
0    2
1    3
dtype: int64

In [166]:
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols} 
    return pd.DataFrame(data, idx)

In [168]:
df1 = create_df('AB', [1, 2])
df2 = create_df('AB', [3, 4])
df1, df2

(    A   B
 1  a1  b1
 2  a2  b2,
     A   B
 3  a3  b3
 4  a4  b4)

In [169]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [178]:
df3 = create_df('AB', [0, 1])
df4 = create_df('CD', [0, 1])
df3, df4

(    A   B
 0  a0  b0
 1  a1  b1,
     C   D
 0  c0  d0
 1  c1  d1)

In [179]:
pd.concat([df3, df4]) # default: axis = 0  /  default: join = 'outer'  

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [180]:
pd.concat([df3, df4], axis = 1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [181]:
pd.concat([df3, df4], join = 'inner')

0
1
0
1


In [182]:
pd.concat([df3, df4], axis = 1, join = 'inner') # 행은 겹치므로 inner 먹힘

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [183]:
df3.append(df4)

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


### 병합과 조인
- pd.merge(df_left, df_right, how = 'inner', on = None, left_on = None, right_on = None, left_index = False, right_index = False)
- how = 'inner', 'outer', 'left', 'right'
- 서로 다른 컬럼 이름을 가지고 있는 경우 left_on , right_on

In [185]:
df1 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [184]:
df2 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '입학년도': [2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [186]:
pd.merge(df1, df2)

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [187]:
df6 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '성적': ['A', 'A+', 'B', 'A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [188]:
pd.merge(df1, df6, left_on = '학생', right_on = '이름')

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [189]:
pd.merge(df1, df6, left_on = '학생', right_on = '이름').drop('이름', axis = 1)

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터학과,B
3,김유신,통계학과,A+


In [193]:
mdf1 = df1.set_index('학생')
mdf2 = df2.set_index('학생')
mdf1, mdf2

(        학과
 학생        
 홍길동   경영학과
 이순신   교육학과
 임꺽정  컴퓨터학과
 김유신   통계학과,
      입학년도
 학생       
 홍길동  2012
 이순신  2016
 임꺽정  2019
 김유신  2020)

In [191]:
pd.merge(mdf1, mdf2, left_index = True, right_index = True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)


### GroupBy 연산

### 피벗 테이블(Pivot Table)


### 범주형(Categorical) 데이터


## 문자열 연산

#### 문자열 연산자

#### 기타 연산자


#### 정규표현식


## 시계열 처리

#### 시계열 데이터 구조


### 시계열 기본

### 주기와 오프셋


### 시프트(Shift)

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

### 기간과 기간 연산

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

### 무빙 윈도우(Moving Window)

## 데이터 읽기 및 저장


### 텍스트 파일 읽기/쓰기

### 이진 데이터 파일 읽기/쓰기

## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

#### NaN: 누락된 수치 데이터

#### Null 값 처리


### 중복 제거

### 값 치환

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly