# Pandas 요약 및 코드 정리




---



## Pandas 특징
- 부동 소수점이 아닌 데이터 뿐만 아니라 부동 소수점 데이터에서도 결측 데이터(NaN)를 쉽게 처리
- 크기 변이성: 데이터프레임 및 고차원 객체에서 열을 삽입 및 삭제 가능
- 자동 및 명시적 데이터 정렬: 객체를 라벨 집합에 명시적으로 정렬하거나, 사용자가 라벨을 무시하고 Series, Dataframe 등의 계산에서 자동으로 데이터 조정 가능
- 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 수행할 수 있는 강력하고 유연한 group-by 함수 제공
- 누락된 데이터 또는 다른 Python 및 NumPy 데이터 구조에서 서로 다른 인덱싱 데이터를 DataFrame 개체로 귑게 변환
- 대용량 데이터 세트의 지능형 라벨 기반 슬라이싱, 고급 인덱싱 및 부분 집합 구하기 가능
- 직관적인 데이터 세트 병합 및 결합
- 데이터 세트의 유연한 재구성 및 피벗
- 축의 계층적 라벨링(눈금 당 여러 개의 라벨을 가질 수 있음)
- 플랫 파일(csv 및 구분), Excel 파일, 데이터베이스 로딩 및 초고속 HDF5 형식의 데이터 저장/로드에 사용되는 강력한 IO도구
- 시계열 특정 기능: 날짜 범위 생성 및 주파수 변환, 무빙 윈도우 통계, 날짜 이동 및 지연

In [1]:
## 라이브러리 
import pandas as pd
import numpy as np

## Pandas 객체


### Series 객체
pd.Series(data, index)  
pd.Series(딕셔너리) # key: index, value: data

In [7]:
# Series 생성
s = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8 ,9, 9])
s

0     0
1     1
2     2
3     3
4     4
5     5
6     6
7     7
8     8
9     9
10    9
dtype: int64

In [122]:
# 데이터 확인
print(s.values)
print(s.index)
print(s.unique())
print(s.isin([2, 3]))
print(s[0])
print(s.size)
print(s.shape)
print(s.ndim)
print(s.dtype)
print(s.nunique())

[0.   0.25 0.5  0.75 1.  ]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[0.   0.25 0.5  0.75 1.  ]
a    False
b    False
c    False
d    False
e    False
dtype: bool
0.0
5
(5,)
1
float64
5


### DataFrame 객체
pd.DataFrame(data, index, columns, dtype, copy)

In [24]:
# DataFrame 생성 1
df = pd.DataFrame(np.random.randint(0, 100, size = (3, 4)), 
                 index = np.arange(1, 4),
                 columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
1,30,96,87,6
2,80,93,54,88
3,63,89,65,70


In [29]:
# DataFrame 생성 2(리스트)(행)
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns = ['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [27]:
# DataFrame 생성 3(딕셔너리)(열)
df = pd.DataFrame({'a': [1, 4], 
                  'b':[2, 5], 'c':[3, 6]}, index = [0, 1])
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [126]:
print(df.index) # index 객체
print(df.columns) # index 객체
print(df.values) # ndarray 객체

Int64Index([0, 1], dtype='int64')
Index(['a', 'b', 'c'], dtype='object')
[[1 2 3]
 [4 5 6]]


In [127]:
df['a'].isin([1, 2])

0     True
1    False
Name: a, dtype: bool

In [30]:
# 데이터 확인
print(df.values)
print(df.index)
print(df['a'].unique())
print(df['a'].isin([1, 2]))
print(df.iloc[0,])
print(df.size)
print(df.shape)
print(df.ndim)
print(df.dtypes)
print(df.info())
print(df.describe())
print()
print(df.loc[:,'a'].is_unique)
print(df.nunique())

[[1 2 3]
 [4 5 6]]
Int64Index([0, 1], dtype='int64')
[1 4]
0     True
1    False
Name: a, dtype: bool
a    1
b    2
c    3
Name: 0, dtype: int64
6
(2, 3)
2
a    int64
b    int64
c    int64
dtype: object
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       2 non-null      int64
 1   b       2 non-null      int64
 2   c       2 non-null      int64
dtypes: int64(3)
memory usage: 64.0 bytes
None
             a        b        c
count  2.00000  2.00000  2.00000
mean   2.50000  3.50000  4.50000
std    2.12132  2.12132  2.12132
min    1.00000  2.00000  3.00000
25%    1.75000  2.75000  3.75000
50%    2.50000  3.50000  4.50000
75%    3.25000  4.25000  5.25000
max    4.00000  5.00000  6.00000

True
a    2
b    2
c    2
dtype: int64


In [84]:
df.T # Transpose

Unnamed: 0,0,1,2
a,23,49,66
b,85,60,34
c,83,23,49


In [85]:
df.values[1]

array([49, 60, 23])

In [137]:
df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [143]:
df.rename(columns = {'a':'A', 'b':'B', 'c':'C'}, index = {0:1, 1:2})

Unnamed: 0,A,B,C
1,1,2,3
2,4,5,6


### Index 객체


|클래스|설명|
|--|--|
|Index|일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|MultiIndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체(튜플의 배열과 유사)|
|DatetimeIndex|NumPy의 datetime64 타입으로 타임스탬프 저장|
|PeriodIndex|기간 데이터를 위한 Index|

In [49]:
# index 객체 생성
idx = pd.Index([1, 3, 5, 7, 9])
idx

Int64Index([1, 3, 5, 7, 9], dtype='int64')

#### Index 연산

|연산자|메소드|설명|
|--|--|--|
|.|`append`|색인 객체를 추가한 새로운 색인 변환|
| `-`|`difference`|색인의 차집합 반환|
| `&`|`intersection`|색인의 교집합 반환|
| `\|`|`union`|색인의 합집합 반환|
|.|`isin`| 색인이 존재하는지 여부를 불리언 배열로 변환|
|.|`delete`|해당 index가 삭제된 새로운 색인 반환|
|.|`drop`|값이 삭제된 새로운 색인 반환|
|.|`insert`|색인이 추가된 새로운 색인 반환|
|.|`is_monotonic`|색인이 단조성을 가지면 True|
|.|`is_unique`|중복되는 색인이 없다면 True|
|.|`unique`|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|
  



---



## 인덱싱(Indexing)

In [68]:
s = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
             index = ['a', 'b', 'c', 'd', 'e'])
s

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [69]:
s['b']

0.25

In [70]:
'b' in s

True

In [71]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [74]:
s.reindex(['a', 'a1', 'b', 'b1', 'c', 'c1', 'd', 'd1', 'e', 'e1'])

a     0.00
a1     NaN
b     0.25
b1     NaN
c     0.50
c1     NaN
d     0.75
d1     NaN
e     1.00
e1     NaN
dtype: float64

In [75]:
s.reindex(['a', 'a1', 'b', 'b1', 'c', 'c1', 'd', 'd1', 'e', 'e1'], method = 'ffill')

a     0.00
a1    0.00
b     0.25
b1    0.25
c     0.50
c1    0.50
d     0.75
d1    0.75
e     1.00
e1    1.00
dtype: float64

### DataFrame 인덱싱


In [80]:
df = pd.DataFrame(np.random.randint(0, 100, size = (3, 3)),
                 columns = ['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,23,85,83
1,49,60,23
2,66,34,49


### 다중 인덱싱(Multi Indexing)

* 1차원의 Series와 2차원의 DataFrame 객체를 넘어 3차원, 4차원 이상의 고차원 데이터 처리
* 단일 인덱스 내에 여러 인덱스를 포함하는 다중 인덱싱

In [120]:
pop_tuples = [10312545, 9720846, 3567910, 3404423, 2758297, 2947217, 
             2511676, 2427954, 1503664, 1471040]
midx = [['서울특별시','서울특별시','부산광역시','부산광역시','인천광역시',
        '인천광역시','대구광역시','대구광역시','대전광역시','대전광역시'],
       [2010, 2020, 2010, 2020, 2010, 2020, 2010, 2020, 2010, 2020]]
population = pd.Series(pop_tuples, index = midx)
population

서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     3567910
       2020     3404423
인천광역시  2010     2758297
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
dtype: int64

In [92]:
df = population.unstack() # index를 unstack
df

Unnamed: 0,2010,2020
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,3567910,3404423
서울특별시,10312545,9720846
인천광역시,2758297,2947217


In [93]:
df.stack()

대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
부산광역시  2010     3567910
       2020     3404423
서울특별시  2010    10312545
       2020     9720846
인천광역시  2010     2758297
       2020     2947217
dtype: int64

In [94]:
korea_mdf = pd.DataFrame({'총인구수':population})
korea_mdf

Unnamed: 0,Unnamed: 1,총인구수
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [95]:
population.index.names = ['행정구역', '년도']
population

행정구역   년도  
서울특별시  2010    10312545
       2020     9720846
부산광역시  2010     3567910
       2020     3404423
인천광역시  2010     2758297
       2020     2947217
대구광역시  2010     2511676
       2020     2427954
대전광역시  2010     1503664
       2020     1471040
dtype: int64

In [96]:
korea_mdf = pd.DataFrame({'총인구수':population})
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


#### 다중 인덱스 생성

In [98]:
# 멀티 인덱스 생성 방법 1
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [99]:
# 멀티 인덱스 생성 방법 2
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2), ('c', 1), ('c', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

In [104]:
# 멀티 인덱스 생성 방법 3 (곱 형태)
pd.MultiIndex.from_product([['a', 'b', 'c'], [1, 2]]) # 곱 형태

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 2)],
           )

#### 다중 인덱스 재정렬

In [105]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
부산광역시,2010,3567910
부산광역시,2020,3404423
인천광역시,2010,2758297
인천광역시,2020,2947217
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040


In [106]:
korea_mdf['서울특별시':'인천광역시'] # --> raise UnsortedIndexError

UnsortedIndexError: 'Key length (1) was greater than MultiIndex lexsort depth (0)'

In [107]:
korea_mdf = korea_mdf.sort_index()
korea_mdf['서울특별시':'인천광역시']

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


In [114]:
korea_mdf

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040
부산광역시,2010,3567910
부산광역시,2020,3404423
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


In [112]:
korea_mdf.unstack(level = 1) # 1번쨰 index가 unstack 됨

Unnamed: 0_level_0,총인구수,총인구수
년도,2010,2020
행정구역,Unnamed: 1_level_2,Unnamed: 2_level_2
대구광역시,2511676,2427954
대전광역시,1503664,1471040
부산광역시,3567910,3404423
서울특별시,10312545,9720846
인천광역시,2758297,2947217


In [113]:
korea_mdf.unstack(level = 0) # 0번째 index가 unstack 됨

Unnamed: 0_level_0,총인구수,총인구수,총인구수,총인구수,총인구수
행정구역,대구광역시,대전광역시,부산광역시,서울특별시,인천광역시
년도,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2010,2511676,1503664,3567910,10312545,2758297
2020,2427954,1471040,3404423,9720846,2947217


In [135]:
idx_flat = korea_mdf.reset_index(level = (0, 1)) # index 없애기
idx_flat

Unnamed: 0,행정구역,년도,총인구수
0,대구광역시,2010,2511676
1,대구광역시,2020,2427954
2,대전광역시,2010,1503664
3,대전광역시,2020,1471040
4,부산광역시,2010,3567910
5,부산광역시,2020,3404423
6,서울특별시,2010,10312545
7,서울특별시,2020,9720846
8,인천광역시,2010,2758297
9,인천광역시,2020,2947217


In [136]:
idx_flat.set_index(['행정구역', '년도']) # index 다시 설정

Unnamed: 0_level_0,Unnamed: 1_level_0,총인구수
행정구역,년도,Unnamed: 2_level_1
대구광역시,2010,2511676
대구광역시,2020,2427954
대전광역시,2010,1503664
대전광역시,2020,1471040
부산광역시,2010,3567910
부산광역시,2020,3404423
서울특별시,2010,10312545
서울특별시,2020,9720846
인천광역시,2010,2758297
인천광역시,2020,2947217


## 데이터 연산
- 데이터끼리 연산은 같은 인덱스 이름끼리 연산됨
- Numpy 기반(브로드캐스팅 등)

### 연산자 범용 함수


|Python 연산자|Pandas 메소드|
|:--|:--|
|`+`|`add`, `radd`|
|`-`|`sub`, `rsub`, `subtract`|
|`*`|`mul`, `rmul`, `multiply`|
|`/`|`truediv`, `div`, `rdiv`, `divide`|
|`//`|`floordiv`, `rfloordiv`|
|`%`|`mod`|
|`**`|`pow`, `rpow`|

### 정렬(Sort)

In [144]:
s = pd.Series(range(5), index = ['A', 'D', 'B', 'C', 'E'])
s

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [145]:
s.sort_index()

A    0
B    2
C    3
D    1
E    4
dtype: int64

In [146]:
s.sort_values()

A    0
D    1
B    2
C    3
E    4
dtype: int64

In [148]:
df = pd.DataFrame(np.random.randint(0, 10, (4, 4)), 
                 index = [2, 4, 1, 3], 
                 columns = list('BDAC'))
df

Unnamed: 0,B,D,A,C
2,7,1,1,9
4,3,9,4,6
1,3,9,9,3
3,6,2,6,0


In [149]:
df.sort_index() # default: ascending = True

Unnamed: 0,B,D,A,C
1,3,9,9,3
2,7,1,1,9
3,6,2,6,0
4,3,9,4,6


In [153]:
df.sort_values(by = 'A', ascending = False) # 기준 열(by = )

Unnamed: 0,B,D,A,C
1,3,9,9,3
3,6,2,6,0
4,3,9,4,6
2,7,1,1,9


In [151]:
df.sort_values(by = ['A', 'C']) # A 이후 C 순으로 정렬

Unnamed: 0,B,D,A,C
2,7,1,1,9
4,3,9,4,6
3,6,2,6,0
1,3,9,9,3


### 순위(Ranking)
|메소드|설명|
|:--|:--|
|`average`|기본값. 순위에 같은 값을 가지는 항목들의 평균 값을 사용|
|`min`|같은 값을 가지는 그룹을 낮은 순위로 지정|
|`max`|같은 값을 가지는 그룹을 높은 순위로 지정|
|`first`|데이터 내의 위치에 따라 순위 지정|
|`dense`|같은 그룹 내에서 모두 같은 순위를 적용하지 않고 1씩 증가|

In [154]:
s = pd.Series([-2, 4, 7, -4, 1, 5, 2, 5])
s

0   -2
1    4
2    7
3   -4
4    1
5    5
6    2
7    5
dtype: int64

In [155]:
s.rank() # value의 각 index별 랭크 (동일값은 .5) / 높을수록 value가 높음

0    2.0
1    5.0
2    8.0
3    1.0
4    3.0
5    6.5
6    4.0
7    6.5
dtype: float64

In [156]:
s.rank(method = 'first') # 동일 값이라도 먼저 온 값에 순위를 더 높여줌

0    2.0
1    5.0
2    8.0
3    1.0
4    3.0
5    6.0
6    4.0
7    7.0
dtype: float64

### 고성능 연산 
- 계산: pd.eval
- 조건: pd.query

In [158]:
nrows, ncols = 10000, 100
df1, df2, df3, df4 = (pd.DataFrame(np.random.rand(nrows, ncols)) for i in range(4))

In [159]:
%timeit df1 + df2 + df3 + df4

9.4 ms ± 320 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [160]:
%timeit pd.eval('df1 + df2 + df3 + df4')

6.47 ms ± 184 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [163]:
df = pd.DataFrame(np.random.rand(1000000, 5), columns = list('ABCDE'))

df.query('(A < 0.5) and (B < 0.5) and (C > 0.5)')

Unnamed: 0,A,B,C,D,E
0,0.104057,0.089605,0.735919,0.278079,0.670884
15,0.329548,0.137926,0.905441,0.006427,0.671520
21,0.389727,0.367476,0.729458,0.120394,0.514615
29,0.061644,0.097410,0.539054,0.386682,0.218486
30,0.446834,0.136170,0.745805,0.354265,0.980350
...,...,...,...,...,...
999952,0.170447,0.331979,0.625193,0.321053,0.732970
999962,0.318706,0.043452,0.674985,0.004546,0.518283
999971,0.433089,0.055643,0.856427,0.560894,0.551102
999978,0.244394,0.390424,0.639527,0.710906,0.036711


## 데이터 결합

### Concat() / Append()

In [165]:
s1 = pd.Series([0, 1])
s2 = pd.Series([2, 3])
pd.concat([s1, s2])

0    0
1    1
0    2
1    3
dtype: int64

In [166]:
def create_df(cols, idx):
    data = {c: [str(c.lower()) + str(i) for i in idx] for c in cols} 
    return pd.DataFrame(data, idx)

In [168]:
df1 = create_df('AB', [1, 2])
df2 = create_df('AB', [3, 4])
df1, df2

(    A   B
 1  a1  b1
 2  a2  b2,
     A   B
 3  a3  b3
 4  a4  b4)

In [169]:
pd.concat([df1, df2])

Unnamed: 0,A,B
1,a1,b1
2,a2,b2
3,a3,b3
4,a4,b4


In [178]:
df3 = create_df('AB', [0, 1])
df4 = create_df('CD', [0, 1])
df3, df4

(    A   B
 0  a0  b0
 1  a1  b1,
     C   D
 0  c0  d0
 1  c1  d1)

In [179]:
pd.concat([df3, df4]) # default: axis = 0  /  default: join = 'outer'  

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


In [180]:
pd.concat([df3, df4], axis = 1)

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [181]:
pd.concat([df3, df4], join = 'inner')

0
1
0
1


In [182]:
pd.concat([df3, df4], axis = 1, join = 'inner') # 행은 겹치므로 inner 먹힘

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1


In [183]:
df3.append(df4)

Unnamed: 0,A,B,C,D
0,a0,b0,,
1,a1,b1,,
0,,,c0,d0
1,,,c1,d1


### 병합과 조인
- pd.merge(df_left, df_right, how = 'inner', on = None, left_on = None, right_on = None, left_index = False, right_index = False)
- how = 'inner', 'outer', 'left', 'right'
- 서로 다른 컬럼 이름을 가지고 있는 경우 left_on , right_on

In [127]:
df1 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과']})
df1

Unnamed: 0,학생,학과
0,홍길동,경영학과
1,이순신,교육학과
2,임꺽정,컴퓨터학과
3,김유신,통계학과


In [128]:
df2 = pd.DataFrame({'학생': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '입학년도': [2012, 2016, 2019, 2020]})
df2

Unnamed: 0,학생,입학년도
0,홍길동,2012
1,이순신,2016
2,임꺽정,2019
3,김유신,2020


In [129]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [130]:
df4 = pd.DataFrame({'학과': ['경영학과', '교육학과', '컴퓨터학과', '통계학과'],
                   '학과장': ['황희', '장영실', '안창호', '정약용']})
df4

Unnamed: 0,학과,학과장
0,경영학과,황희
1,교육학과,장영실
2,컴퓨터학과,안창호
3,통계학과,정약용


In [131]:
pd.merge(df3, df4)

Unnamed: 0,학생,학과,입학년도,학과장
0,홍길동,경영학과,2012,황희
1,이순신,교육학과,2016,장영실
2,임꺽정,컴퓨터학과,2019,안창호
3,김유신,통계학과,2020,정약용


In [132]:
df5 = pd.DataFrame({'학과': ['경영학과', '교육학과', '교육학과', '컴퓨터학과', '컴퓨터학과', '통계학과']
                   , '과목': ['경영개론', '기초수학', '물리학', '프로그래밍', '운영체제', '확률론']})
df5


Unnamed: 0,학과,과목
0,경영학과,경영개론
1,교육학과,기초수학
2,교육학과,물리학
3,컴퓨터학과,프로그래밍
4,컴퓨터학과,운영체제
5,통계학과,확률론


In [134]:
pd.merge(df1, df5)

Unnamed: 0,학생,학과,과목
0,홍길동,경영학과,경영개론
1,이순신,교육학과,기초수학
2,이순신,교육학과,물리학
3,임꺽정,컴퓨터학과,프로그래밍
4,임꺽정,컴퓨터학과,운영체제
5,김유신,통계학과,확률론


In [137]:
pd.merge(df1, df2, on = '학생')

Unnamed: 0,학생,학과,입학년도
0,홍길동,경영학과,2012
1,이순신,교육학과,2016
2,임꺽정,컴퓨터학과,2019
3,김유신,통계학과,2020


In [141]:
df6 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'],
                   '성적': ['A', 'A+', 'B', 'A+']})
df6

Unnamed: 0,이름,성적
0,홍길동,A
1,이순신,A+
2,임꺽정,B
3,김유신,A+


In [162]:
pd.merge(df1, df6, left_on = '학생', right_on = '이름')

Unnamed: 0,학생,학과,이름,성적
0,홍길동,경영학과,홍길동,A
1,이순신,교육학과,이순신,A+
2,임꺽정,컴퓨터학과,임꺽정,B
3,김유신,통계학과,김유신,A+


In [145]:
pd.merge(df1, df6, left_on = '학생', right_on = '이름').drop('이름', axis = 1)

Unnamed: 0,학생,학과,성적
0,홍길동,경영학과,A
1,이순신,교육학과,A+
2,임꺽정,컴퓨터학과,B
3,김유신,통계학과,A+


In [146]:
mdf1 = df1.set_index('학생')
mdf2 = df2.set_index('학생')

In [147]:
mdf1

Unnamed: 0_level_0,학과
학생,Unnamed: 1_level_1
홍길동,경영학과
이순신,교육학과
임꺽정,컴퓨터학과
김유신,통계학과


In [148]:
mdf2

Unnamed: 0_level_0,입학년도
학생,Unnamed: 1_level_1
홍길동,2012
이순신,2016
임꺽정,2019
김유신,2020


In [149]:
pd.merge(mdf1, mdf2, left_index = True, right_index = True)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [150]:
mdf1.join(mdf2)

Unnamed: 0_level_0,학과,입학년도
학생,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,경영학과,2012
이순신,교육학과,2016
임꺽정,컴퓨터학과,2019
김유신,통계학과,2020


In [154]:
pd.merge(mdf1, df6, left_index = True, right_on = '이름')

Unnamed: 0,학과,이름,성적
0,경영학과,홍길동,A
1,교육학과,이순신,A+
2,컴퓨터학과,임꺽정,B
3,통계학과,김유신,A+


In [152]:
df7 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정'], 
                   '주문음식': ['햄버거', '피자', '짜장면']})
df7

Unnamed: 0,이름,주문음식
0,홍길동,햄버거
1,이순신,피자
2,임꺽정,짜장면


In [168]:
df8 = pd.DataFrame({'이름': ['홍길동', '이순신', '김유신'], 
                   '주문음료': ['콜라', '사이다', '커피']})
df8

Unnamed: 0,이름,주문음료
0,홍길동,콜라
1,이순신,사이다
2,김유신,커피


In [169]:
pd.merge(df7, df8)  # inner

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다


In [171]:
pd.merge(df7, df8, how = 'outer' )

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,
3,김유신,,커피


In [173]:
pd.merge(df7, df8, how = 'left')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,임꺽정,짜장면,


In [172]:
pd.merge(df7, df8, how = 'right')

Unnamed: 0,이름,주문음식,주문음료
0,홍길동,햄버거,콜라
1,이순신,피자,사이다
2,김유신,,커피


In [178]:
df9 = pd.DataFrame({'이름' : ['홍길동', '이순신', '임꺽정', '김유신'], 
                   '순위' : [3, 2, 4, 1]})
df9

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,2
2,임꺽정,4
3,김유신,1


In [180]:
df10 = pd.DataFrame({'이름': ['홍길동', '이순신', '임꺽정', '김유신'], 
                   '순위' : [3, 1, 3, 2]})
df10

Unnamed: 0,이름,순위
0,홍길동,3
1,이순신,1
2,임꺽정,3
3,김유신,2


In [181]:
pd.merge(df9, df10, on = '이름')

Unnamed: 0,이름,순위_x,순위_y
0,홍길동,3,3
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


In [183]:
pd.merge(df9, df10, on = '이름', suffixes = ["_인기", "_성적"])

Unnamed: 0,이름,순위_인기,순위_성적
0,홍길동,3,3
1,이순신,2,1
2,임꺽정,4,3
3,김유신,1,2


## 데이터 집계와 그룹 연산

#### 집계 연산(Aggregation)
|집계|설명|
|:--|:--|
|`count`|전체 개수|
|`head`, `tail`|앞의 항목 일부 반환, 뒤의 항목 일부 반환|
|`describe`|Series, DataFrame의 각 컬럼에 대한 요약 통계|
|`min`, `max`|최소값, 최대값|
|`cummin`, `cummax`|누적 최소값, 누적 최대값|
|`argmin`, `argmax`|최소값과 최대값의 색인 위치|
|`idxmin`, `idxmax`|최소값과 최대값의 색인 값|
|`mean`, `median`|평균값, 중앙값|
|`std`, `var`|표준편차, 분산|
|`skew`|왜도(skewness) 값 계산|
|`kurt`|첨도(kurtosis) 값 계산|
|`mad`|절대 평균 편차|
|`sum`, `cumsum`|전체 항목 합, 누적 합|
|`prod`, `cumprod`|전체 항목 곱, 누적 곱|
|`quantile`|0부터 1까지의 분위수 계산|
|`diff`|1차 산술차 계산|
|`pct_change`|퍼센트 변화율 계산|
|`corr`, `cov`|상관관계, 공분산 계산|


In [3]:
df = pd.DataFrame([[1, 1.2, np.nan],
                 [2.4, 5.5, 4.2], 
                 [np.nan, np.nan, np.nan], 
                 [0.44, -3.1, -4.1]], 
                 index = [1, 2, 3, 4], 
                 columns = ['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1,1.0,1.2,
2,2.4,5.5,4.2
3,,,
4,0.44,-3.1,-4.1


In [5]:
df.count()

A    3
B    3
C    2
dtype: int64

In [8]:
df.cummin(axis = 1)

Unnamed: 0,A,B,C
1,1.0,1.0,
2,2.4,2.4,2.4
3,,,
4,0.44,-3.1,-4.1


In [12]:
np.argmin(df), np.argmax(df)

(2, 2)

In [13]:
df.idxmin()

A    4
B    4
C    4
dtype: int64

In [15]:
df.idxmax(axis = 1) 

1      B
2      B
3    NaN
4      A
dtype: object

In [16]:
df.sum()

A    3.84
B    3.60
C    0.10
dtype: float64

In [18]:
df.cumsum()

Unnamed: 0,A,B,C
1,1.0,1.2,
2,3.4,6.7,4.2
3,,,
4,3.84,3.6,0.1


In [21]:
df.prod(axis = 0)

A     1.056
B   -20.460
C   -17.220
dtype: float64

In [22]:
df.pct_change() # 수익률

Unnamed: 0,A,B,C
1,,,
2,1.4,3.583333,
3,0.0,0.0,0.0
4,-0.816667,-1.563636,-1.97619


### GroupBy 연산
- .aggregate() : 행 별로 각각 계산을 하고 싶을 때 사용   
`.agg(['sum', 'min'])`
- .apply() : 데이터프레임에 열별 혹은 행별 함수 적용  
`df.apply(함수명, axis = 0)` # axis = 0 -> 열

In [31]:
df = pd.DataFrame({'c1':['a', 'a', 'b', 'b', 'c', 'd', 'e'], 
                  'c2': ['A', 'A', 'B', 'B', 'C', 'D', 'E'], 
                  'c3': np.random.randint(7), 
                  'c4': np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,5,0.422168
1,a,A,5,0.949383
2,b,B,5,0.513851
3,b,B,5,0.791371
4,c,C,5,0.747139
5,d,D,5,0.457081
6,e,E,5,0.259364


In [34]:
df.dtypes

c1     object
c2     object
c3      int64
c4    float64
dtype: object

In [38]:
df.groupby('c1').sum()

Unnamed: 0_level_0,c3,c4
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,10,1.371551
b,10,1.305222
c,5,0.747139
d,5,0.457081
e,5,0.259364


In [46]:
df.groupby(['c1', 'c2']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,c3,c4
c1,c2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,A,10,1.371551
b,B,10,1.305222
c,C,5,0.747139
d,D,5,0.457081
e,E,5,0.259364


In [40]:
df['c3'].groupby(df['c1']).sum()

c1
a    10
b    10
c     5
d     5
e     5
Name: c3, dtype: int64

In [42]:
df['c3'].groupby([df['c1'], df['c2']]).sum()

c1  c2
a   A     10
b   B     10
c   C      5
d   D      5
e   E      5
Name: c3, dtype: int64

In [43]:
df['c3'].groupby([df['c1'], df['c2']]).sum().unstack()

c2,A,B,C,D,E
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,10.0,,,,
b,,10.0,,,
c,,,5.0,,
d,,,,5.0,
e,,,,,5.0


In [48]:
df['c4'].groupby([df['c1'], df['c2']]).sum()

c1  c2
a   A     1.371551
b   B     1.305222
c   C     0.747139
d   D     0.457081
e   E     0.259364
Name: c4, dtype: float64

In [49]:
df.groupby(['c1', 'c2'])['c4'].sum() # 위와 동일

c1  c2
a   A     1.371551
b   B     1.305222
c   C     0.747139
d   D     0.457081
e   E     0.259364
Name: c4, dtype: float64

#### .agg()

In [51]:
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,5,0.422168
1,a,A,5,0.949383
2,b,B,5,0.513851
3,b,B,5,0.791371
4,c,C,5,0.747139
5,d,D,5,0.457081
6,e,E,5,0.259364


In [52]:
df.groupby('c1')['c4'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.371551,0.685776
b,1.305222,0.652611
c,0.747139,0.747139
d,0.457081,0.457081
e,0.259364,0.259364


#### .apply()

In [58]:
df = pd.DataFrame({
    '영어': [60, 70],
    '수학': [100, 50]
}, index = ['Dave', 'David'])
df

Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [59]:
def func(df_data):
    print (type(df_data))    
    print (df_data.index)
    print (df_data.values)    
    return df_data

In [60]:
df.apply(func, axis = 0)

<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[60 70]
<class 'pandas.core.series.Series'>
Index(['Dave', 'David'], dtype='object')
[100  50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [61]:
df.apply(func, axis = 1)

<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[ 60 100]
<class 'pandas.core.series.Series'>
Index(['영어', '수학'], dtype='object')
[70 50]


Unnamed: 0,영어,수학
Dave,60,100
David,70,50


In [64]:
def plus_one(df_data):
    df_data+=1
    return df_data
df.apply(plus_one, axis = 0)

Unnamed: 0,영어,수학
Dave,62,102
David,72,52


In [73]:
df['영어'].apply(plus_one)

Dave     63
David    73
Name: 영어, dtype: int64

In [69]:
df['영어'].apply(lambda df_data: df_data+1)

Dave     63
David    73
Name: 영어, dtype: int64

#### grouped

In [2]:
df = pd.DataFrame({'c1':['a', 'a', 'b', 'b', 'c', 'd', 'e'], 
                  'c2': ['A', 'A', 'B', 'B', 'C', 'D', 'E'], 
                  'c3': np.random.randint(7), 
                  'c4': np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,1,0.010699
1,a,A,1,0.3881
2,b,B,1,0.339561
3,b,B,1,0.945059
4,c,C,1,0.245934
5,d,D,1,0.274206
6,e,E,1,0.058649


In [10]:
# groupby에 의해 split된 상태를 추출 가능함
grouped = df.groupby('c1')

for i, j in grouped:
    print(i)
    print(j)

a
  c1 c2  c3        c4
0  a  A   1  0.010699
1  a  A   1  0.388100
b
  c1 c2  c3        c4
2  b  B   1  0.339561
3  b  B   1  0.945059
c
  c1 c2  c3        c4
4  c  C   1  0.245934
d
  c1 c2  c3        c4
5  d  D   1  0.274206
e
  c1 c2  c3        c4
6  e  E   1  0.058649


In [12]:
# 개별 값 추출
grouped.get_group('b')

Unnamed: 0,c1,c2,c3,c4
2,b,B,1,0.339561
3,b,B,1,0.945059


### 피벗 테이블(Pivot Table)
- pivot_table(데이터프레임, values=None, index=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')
  - values: 분석할 열 이름 리스트
  - index: 인덱스로 들어갈 키 열
  - aggfunc: 계산 방법, 간단히 {분석할열이름:계산방법} 으로 사전 형식으로 작성
    - 주요 계산 방법: sum(합), mean(평균), median(중앙값), std(표준편차)
  - fill_value: 결측치 대체 값
  - margins: 모든 데이터의 총 분석 결과를 추가함 (예, 총 합)
  - margins_name: 모든 데이터의 총 분석 결과의 이름

- 타이타닉 데이터셋 예제  
https://yganalyst.github.io/data_handling/Pd_14/

|함수|설명|
|:--|:--|
|`values`|집계하려는 칼럼 이름 혹은 이름의 리스트, 기본적으로 모든 숫자 컬럼 집계|
|`index`|피벗테이블의 로우를 그룹으로 묶을 컬럼 이름이나 그룹 키|
|`columns`|피벗테이블의 컬럼을 그룹으로 묶을 컬럼 이름이나 그룹 키|
|`aggfunc`|집계 함수나 함수 리스트, 기본값으로 `mean`이 사용|
|`fill_value`|결과 테이블에서 누락된 값 대체를 위한 값|
|`dropna`|True인 경우 모든 항목이 NA인 칼럼은 포함하지 않음|
|`margins`|부분합이나 총계를 담기 위한 로우/칼럼 추가 여부, 기본값은 False|

In [76]:
df = pd.DataFrame({'c1':['a', 'a', 'b', 'b', 'c', 'd', 'e'], 
                  'c2': ['A', 'A', 'B', 'B', 'C', 'D', 'E'], 
                  'c3': np.random.randint(7), 
                  'c4': np.random.random(7)})
df

Unnamed: 0,c1,c2,c3,c4
0,a,A,5,0.575263
1,a,A,5,0.925482
2,b,B,5,0.24062
3,b,B,5,0.623567
4,c,C,5,0.050285
5,d,D,5,0.356527
6,e,E,5,0.470143


In [77]:
df.pivot_table(['c3', 'c4'],
              index = 'c1',
              columns = 'c2')

Unnamed: 0_level_0,c3,c3,c3,c3,c3,c4,c4,c4,c4,c4
c2,A,B,C,D,E,A,B,C,D,E
c1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
a,5.0,,,,,0.750372,,,,
b,,5.0,,,,,0.432093,,,
c,,,5.0,,,,,0.050285,,
d,,,,5.0,,,,,0.356527,
e,,,,,5.0,,,,,0.470143


In [79]:
df.pivot_table(df,
              index = 'c1',
              columns = 'c2')

Unnamed: 0_level_0,c3,c3,c3,c3,c3,c4,c4,c4,c4,c4
c2,A,B,C,D,E,A,B,C,D,E
c1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
a,5.0,,,,,0.750372,,,,
b,,5.0,,,,,0.432093,,,
c,,,5.0,,,,,0.050285,,
d,,,,5.0,,,,,0.356527,
e,,,,,5.0,,,,,0.470143


In [80]:
df.pivot_table('c3',
              index = 'c1',
              columns = 'c2')

c2,A,B,C,D,E
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
a,5.0,,,,
b,,5.0,,,
c,,,5.0,,
d,,,,5.0,
e,,,,,5.0


In [87]:
df.pivot_table('c3',
              index = 'c1',
              columns = 'c2',
              margins = True,
              margins_name = 'Total')

c2,A,B,C,D,E,Total
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,5.0,,,,,5
b,,5.0,,,,5
c,,,5.0,,,5
d,,,,5.0,,5
e,,,,,5.0,5
Total,5.0,5.0,5.0,5.0,5.0,5


In [89]:
df.pivot_table('c3',
              index = 'c1',
              columns = 'c2',
              margins = True,
              margins_name = 'Total',
              aggfunc = sum)

c2,A,B,C,D,E,Total
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,10.0,,,,,10
b,,10.0,,,,10
c,,,5.0,,,5
d,,,,5.0,,5
e,,,,,5.0,5
Total,10.0,10.0,5.0,5.0,5.0,35


In [90]:
df.pivot_table('c3',
              index = 'c1',
              columns = 'c2',
              margins = True,
              margins_name = 'Total',
              aggfunc = sum,
              fill_value = 0)

c2,A,B,C,D,E,Total
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,10,0,0,0,0,10
b,0,10,0,0,0,10
c,0,0,5,0,0,5
d,0,0,0,5,0,5
e,0,0,0,0,5,5
Total,10,10,5,5,5,35


In [94]:
pd.pivot_table(df,
              index = 'c1',
              columns = 'c2',
              values = ['c3'],
              margins = True,
              margins_name = 'Total',
              aggfunc = {'c3' : 'mean'},
              fill_value = 0)

Unnamed: 0_level_0,c3,c3,c3,c3,c3,c3
c2,A,B,C,D,E,Total
c1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a,5,0,0,0,0,5
b,0,5,0,0,0,5
c,0,0,5,0,0,5
d,0,0,0,5,0,5
e,0,0,0,0,5,5
Total,5,5,5,5,5,5


### 범주형(Categorical) 데이터


- `c = df['c'].astype('category')`
- `d.take(code)`
|메소드|설명|
|:--|:--|
|`add_categories`|기존 카테고리에 새로운 카테고리 추가|
|`as_ordered`|카테고리에 순서 지정|
|`as_unordered`|카테고리에 순서 미지정|
|`remove_categories`|카테고리 제거|
|`remove_unused_categories`|사용 안 하는 카테고리 제거|
|`rename_categories`|카테고리 이름 변경|
|`reorder_categories`|새로운 카테고리에 순서 지정|
|`set_categories`|새로운 카테고리로 변경|

In [96]:
s = pd.Series(['c1', 'c2', 'c1', 'c2','c1'] * 2)
s

0    c1
1    c2
2    c1
3    c2
4    c1
5    c1
6    c2
7    c1
8    c2
9    c1
dtype: object

In [100]:
s.unique()

array(['c1', 'c2'], dtype=object)

In [101]:
code = pd.Series([0, 1, 0, 1, 0] *2)
code

0    0
1    1
2    0
3    1
4    0
5    0
6    1
7    0
8    1
9    0
dtype: int64

In [102]:
d = pd.Series(['c1', 'c2'])
d

0    c1
1    c2
dtype: object

In [103]:
d.take(code) # == s

0    c1
1    c2
0    c1
1    c2
0    c1
0    c1
1    c2
0    c1
1    c2
0    c1
dtype: object

In [104]:
df = pd.DataFrame({'id' : np.arange(len(s)), 
                  'c' : s,
                  'v' : np.random.randint(1000, 5000, size = len(s))})
df

Unnamed: 0,id,c,v
0,0,c1,3547
1,1,c2,4220
2,2,c1,3485
3,3,c2,4144
4,4,c1,4185
5,5,c1,3589
6,6,c2,4908
7,7,c1,1381
8,8,c2,2380
9,9,c1,3825


In [105]:
c = df['c'].astype('category')
c

0    c1
1    c2
2    c1
3    c2
4    c1
5    c1
6    c2
7    c1
8    c2
9    c1
Name: c, dtype: category
Categories (2, object): ['c1', 'c2']

In [106]:
c.values

['c1', 'c2', 'c1', 'c2', 'c1', 'c1', 'c2', 'c1', 'c2', 'c1']
Categories (2, object): ['c1', 'c2']

In [107]:
c.values.categories

Index(['c1', 'c2'], dtype='object')

In [108]:
c.values.codes

array([0, 1, 0, 1, 0, 0, 1, 0, 1, 0], dtype=int8)

In [109]:
df['c'] = c
df.c

0    c1
1    c2
2    c1
3    c2
4    c1
5    c1
6    c2
7    c1
8    c2
9    c1
Name: c, dtype: category
Categories (2, object): ['c1', 'c2']

In [110]:
df

Unnamed: 0,id,c,v
0,0,c1,3547
1,1,c2,4220
2,2,c1,3485
3,3,c2,4144
4,4,c1,4185
5,5,c1,3589
6,6,c2,4908
7,7,c1,1381
8,8,c2,2380
9,9,c1,3825


In [111]:
#2
c = pd.Categorical(['c1', 'c2', 'c3', 'c1', 'c2'])
c

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (3, object): ['c1', 'c2', 'c3']

In [112]:
#3
categories = ['c1', 'c2', 'c3']
codes = [0, 1, 2, 0, 1]
c = pd.Categorical.from_codes(codes, categories)
c

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (3, object): ['c1', 'c2', 'c3']

In [114]:
# 카테고리가 순서를 가짐
pd.Categorical.from_codes(codes, categories, ordered = True)

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (3, object): ['c1' < 'c2' < 'c3']

In [115]:
c.as_ordered()

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (3, object): ['c1' < 'c2' < 'c3']

In [118]:
# 새로운 카테고리로 변경
c = c.set_categories(['c1', 'c2', 'c3', 'c4', 'c5'])
c

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (5, object): ['c1', 'c2', 'c3', 'c4', 'c5']

In [117]:
c.value_counts() # 안 쓰는 카테고리 발생

c1    2
c2    2
c3    1
c4    0
c5    0
dtype: int64

In [122]:
c = c.remove_unused_categories()

In [124]:
c

['c1', 'c2', 'c3', 'c1', 'c2']
Categories (3, object): ['c1', 'c2', 'c3']

## 문자열 연산

#### 문자열 연산자

In [125]:
name_tuple = ['Wonsup Kim', 'Steven Jobs', 'Larry Page', 'Elon Must', None, 'Bill Gates', 'Mark Zuckerberg']
names = pd.Series(name_tuple)
names

0         Wonsup Kim
1        Steven Jobs
2         Larry Page
3          Elon Must
4               None
5         Bill Gates
6    Mark Zuckerberg
dtype: object

In [126]:
names.str.lower()

0         wonsup kim
1        steven jobs
2         larry page
3          elon must
4               None
5         bill gates
6    mark zuckerberg
dtype: object

In [127]:
names.str.split()

0         [Wonsup, Kim]
1        [Steven, Jobs]
2         [Larry, Page]
3          [Elon, Must]
4                  None
5         [Bill, Gates]
6    [Mark, Zuckerberg]
dtype: object

In [128]:
names.str.find('a')

0   -1.0
1   -1.0
2    1.0
3   -1.0
4    NaN
5    6.0
6    1.0
dtype: float64

#### 기타 연산자


|메소드|설명|
|:--|:--|
|`get()`|각 요소에 인덱스 지정|
|`slice()`|각 요소에 슬라이스 적용|
|`slice_replace()`|각 요소의 슬라이스를 특정 값으로 대체|
|`cat()`|문자열 연결|
|`repeat()`|값 반복|
|`normalize()`|문자열의 유니코드 형태로 반환|
|`pad()`|문자열 왼쪽, 오른쪽, 또는 양쪽 공백 추가|
|`wrap()`|긴 문자열을 주어진 너비보다 짧은 길이의 여러 줄로 나눔|
|`join()`|Series의 각 요소에 있는 문자열을 전달된 구분자와 결합|
|`get_dummies`|DataFrame으로 가변수(dummy variable) 추출|

In [130]:
names

0         Wonsup Kim
1        Steven Jobs
2         Larry Page
3          Elon Must
4               None
5         Bill Gates
6    Mark Zuckerberg
dtype: object

In [131]:
names.str[0:4]

0    Wons
1    Stev
2    Larr
3    Elon
4    None
5    Bill
6    Mark
dtype: object

In [132]:
names.str.cat()

'Wonsup KimSteven JobsLarry PageElon MustBill GatesMark Zuckerberg'

In [133]:
names.str.repeat(2)

0              Wonsup KimWonsup Kim
1            Steven JobsSteven Jobs
2              Larry PageLarry Page
3                Elon MustElon Must
4                              None
5              Bill GatesBill Gates
6    Mark ZuckerbergMark Zuckerberg
dtype: object

#### 정규표현식


|메소드|설명|
|:--|:--|
|`match()`|각 요소에 `re.match()`호출. 불리언 값 반환|
|`extract()`|각 요소에 `re.match()`호출. 문자열로 매칭된 그룹 반환|
|`findall()`|각 요소에 `re.findall()` 호출|
|`replace()`|패턴이 발생한 곳을 다른 문자열로 대체|
|`contains()`|각 요소에 `re.search()`호출. 불리언 값 반환|
|`count()`|패턴 발생 건수 집계|


In [134]:
names.str.match('([A-Za-z]+)')

0    True
1    True
2    True
3    True
4    None
5    True
6    True
dtype: object

In [135]:
names.str.findall('([A-Za-z]+)')

0         [Wonsup, Kim]
1        [Steven, Jobs]
2         [Larry, Page]
3          [Elon, Must]
4                  None
5         [Bill, Gates]
6    [Mark, Zuckerberg]
dtype: object

## 시계열 처리
- `pd.to_datetime(['12-12-2019', datetime(2020, 1, 1), '2nd of Feb, 2020', '2020-Mar-4', '20200701'])`
- `dates.to_period('D')`
- `pd.date_range(start = '2020-01-01', end = '2020-07-01', periods = 7, freq = 'M')`
- `pd.timedelta_range(0, periods = 12, freq = 'H')`

In [136]:
idx = pd.DatetimeIndex(['2019-09-01', '2020-01-01', '2020-02-01', '2020-02-02', '2020-03-03'])
s = pd.Series([0, 1, 2, 3, 4], index = idx)
s

2019-09-01    0
2020-01-01    1
2020-02-01    2
2020-02-02    3
2020-03-03    4
dtype: int64

In [137]:
s['2020-02-01':]

2020-02-01    2
2020-02-02    3
2020-03-03    4
dtype: int64

In [138]:
s['2020']

2020-01-01    1
2020-02-01    2
2020-02-02    3
2020-03-03    4
dtype: int64

#### 시계열 데이터 구조


|타임스탬프(timestamp)|기간(time period)|시간 델타 또는 지속 기간|
|:--|:--|:--|
|Pandas`Timestamp`타입 제공|Pandas`Period`타입 제공|Pandas`Timedelta`타입 제공|
|파이썬`datetime`대체 타입|.|파이썬`datetime.timedelta`대체 타입|
|`numpy.datetime64`타입 기반|`numpy.datetime64`타입 기반|`numpy.timedelta64`타입 기반|
|`DatetimeIndex`인덱스 구조|`PeriodIndex`인덱스 구조|`TimedeltaIndex`인덱스 구조|

In [139]:
from datetime import datetime

In [140]:
dates = pd.to_datetime(['12-12-2019', datetime(2020, 1, 1), '2nd of Feb, 2020', '2020-Mar-4', '20200701'])
dates

DatetimeIndex(['2019-12-12', '2020-01-01', '2020-02-02', '2020-03-04',
               '2020-07-01'],
              dtype='datetime64[ns]', freq=None)

In [141]:
dates - dates[0] # TimedeltaIndex로 바뀜

TimedeltaIndex(['0 days', '20 days', '52 days', '83 days', '202 days'], dtype='timedelta64[ns]', freq=None)

In [142]:
pd.date_range('2020-01-01', '2020-07-01')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10',
               ...
               '2020-06-22', '2020-06-23', '2020-06-24', '2020-06-25',
               '2020-06-26', '2020-06-27', '2020-06-28', '2020-06-29',
               '2020-06-30', '2020-07-01'],
              dtype='datetime64[ns]', length=183, freq='D')

In [143]:
pd.date_range('2020-01-01', periods = 7)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07'],
              dtype='datetime64[ns]', freq='D')

In [145]:
pd.date_range('2020-01-01', periods = 7, freq = 'M')

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31', '2020-04-30',
               '2020-05-31', '2020-06-30', '2020-07-31'],
              dtype='datetime64[ns]', freq='M')

In [146]:
pd.date_range('2020-01-01', periods = 7, freq = 'H')

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 01:00:00',
               '2020-01-01 02:00:00', '2020-01-01 03:00:00',
               '2020-01-01 04:00:00', '2020-01-01 05:00:00',
               '2020-01-01 06:00:00'],
              dtype='datetime64[ns]', freq='H')

### 시계열 기본

In [147]:
dates = [datetime(2020, 1, 1), datetime(2020, 1, 2), datetime(2020, 1, 4), datetime(2020, 1, 7), 
        datetime(2020, 1, 10), datetime(2020, 1, 11), datetime(2020, 1, 15)]
dates

[datetime.datetime(2020, 1, 1, 0, 0),
 datetime.datetime(2020, 1, 2, 0, 0),
 datetime.datetime(2020, 1, 4, 0, 0),
 datetime.datetime(2020, 1, 7, 0, 0),
 datetime.datetime(2020, 1, 10, 0, 0),
 datetime.datetime(2020, 1, 11, 0, 0),
 datetime.datetime(2020, 1, 15, 0, 0)]

In [148]:
ts = pd.Series(np.random.randn(7), index = dates)
ts

2020-01-01   -0.144512
2020-01-02   -0.102623
2020-01-04   -1.381612
2020-01-07    0.373547
2020-01-10    0.106084
2020-01-11   -0.015939
2020-01-15    0.696637
dtype: float64

In [149]:
ts.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-04', '2020-01-07',
               '2020-01-10', '2020-01-11', '2020-01-15'],
              dtype='datetime64[ns]', freq=None)

In [150]:
ts[2]

-1.3816124914641326

In [151]:
ts['2020-01-04':]

2020-01-04   -1.381612
2020-01-07    0.373547
2020-01-10    0.106084
2020-01-11   -0.015939
2020-01-15    0.696637
dtype: float64

In [152]:
ts = pd.Series(np.random.randn(1000), 
              index = pd.date_range('2017-10-01', periods = 1000))
ts

2017-10-01    0.514411
2017-10-02   -1.944660
2017-10-03    1.510137
2017-10-04   -0.761017
2017-10-05    0.445537
                ...   
2020-06-22    0.387774
2020-06-23   -0.255861
2020-06-24    1.527490
2020-06-25    0.642486
2020-06-26   -1.919826
Freq: D, Length: 1000, dtype: float64

In [154]:
ts['2020-02'].head()

2020-02-01    0.360926
2020-02-02   -1.360571
2020-02-03    0.549570
2020-02-04   -1.058921
2020-02-05   -0.347114
Freq: D, dtype: float64

In [157]:
tdf = pd.DataFrame(np.random.randn(1000, 4),
                  index = pd.date_range('2017-10-01', periods = 1000),
                  columns = ['A', 'B', 'C', 'D'])
tdf

Unnamed: 0,A,B,C,D
2017-10-01,1.151431,-0.495281,1.477472,-0.082801
2017-10-02,-1.070015,-0.059124,0.886396,-0.400063
2017-10-03,-0.533261,1.706940,2.180240,0.003381
2017-10-04,-0.328912,0.855626,0.575990,-0.122245
2017-10-05,-0.056312,0.184618,0.652848,-1.199874
...,...,...,...,...
2020-06-22,-0.266806,-0.138379,-0.969746,0.095106
2020-06-23,0.599309,1.750758,0.299914,-0.978483
2020-06-24,0.838841,0.886624,-0.503697,3.557923
2020-06-25,1.753543,-0.259446,1.512757,1.631180


In [158]:
tdf['2020-06-20':]

Unnamed: 0,A,B,C,D
2020-06-20,1.841388,0.051154,0.303627,-3.315509
2020-06-21,0.634794,-0.302268,-0.964357,-0.285908
2020-06-22,-0.266806,-0.138379,-0.969746,0.095106
2020-06-23,0.599309,1.750758,0.299914,-0.978483
2020-06-24,0.838841,0.886624,-0.503697,3.557923
2020-06-25,1.753543,-0.259446,1.512757,1.63118
2020-06-26,0.511439,-0.993677,-0.244574,0.608873


### 주기와 오프셋


|코드|오프셋|설명|
|:--|:--|:--|
|`D`|Day|달력상 일|
|`B`|BusinessDay|영업일|
|`W-MON`, `W-TUE`...|Week|주|
|`WON-MON`, `WON-2MON`...|WeekOfMonth|월별 주차와 요일|
|`MS`|MonthBegin|월 시작일|
|`BMS`|BusinessMonthBegin|영업일 기준 월 시작일|
|`M`|MonthEnd|월 마지막 일|
|`BM`|BusinessMonthBegin|영업일 기준 우러 마지막 일|
|`QS-JAN`, `QS-FEB`...|QuarterBegin|분기 시작|
|`BQS-JAN`, `BQS-FEB`...|BusinessQuarterBegin|영업일 기준 분기 시작|
|`Q-JAN`, `Q-FEB`...|QuarterEnd|분기 마지막|
|`BQ-JAN`, `BQ-FEB`...|BusinessQuarterEnd|영업일 기준 분기 마지막|
|`AS-JAN`, `AS-FEB`...|YearBegin|연초|
|`BAS-JAN`, `BAS-FEB`...|BusinessYearBegin|영업일 기준 연초|
|`A-JAN`, `A-FEB`...|YearEnd|연말|
|`BA-JAN`, `BA-FEB`...|BusinessYearEnd|영업일 기준 연말|
|`H`|Hour|시간|
|`BH`|Business Hour|영업시간|
|`T`또는`min`|Minute|분|
|`S`|Second|초|
|`L`또는`ms`|Milli|밀리초|
|`U`|Micro|마이크로초|
|`N`|Nano|나노초|

In [159]:
pd.timedelta_range(0, periods = 12, freq = 'H')

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00', '0 days 10:00:00', '0 days 11:00:00'],
               dtype='timedelta64[ns]', freq='H')

In [160]:
pd.timedelta_range(0, periods = 10, freq = '1H30T')

TimedeltaIndex(['0 days 00:00:00', '0 days 01:30:00', '0 days 03:00:00',
                '0 days 04:30:00', '0 days 06:00:00', '0 days 07:30:00',
                '0 days 09:00:00', '0 days 10:30:00', '0 days 12:00:00',
                '0 days 13:30:00'],
               dtype='timedelta64[ns]', freq='90T')

### 시프트(Shift)

In [161]:
ts = pd.Series(np.random.randn(5), 
              index = pd.date_range('2020-01-01', periods = 5, freq = 'B'))
ts

2020-01-01   -0.836605
2020-01-02    0.012400
2020-01-03    1.925268
2020-01-06   -0.138746
2020-01-07    1.428969
Freq: B, dtype: float64

In [162]:
ts.shift(1)

2020-01-01         NaN
2020-01-02   -0.836605
2020-01-03    0.012400
2020-01-06    1.925268
2020-01-07   -0.138746
Freq: B, dtype: float64

In [163]:
ts.shift(3)

2020-01-01         NaN
2020-01-02         NaN
2020-01-03         NaN
2020-01-06   -0.836605
2020-01-07    0.012400
Freq: B, dtype: float64

In [164]:
ts.shift(-1)

2020-01-01    0.012400
2020-01-02    1.925268
2020-01-03   -0.138746
2020-01-06    1.428969
2020-01-07         NaN
Freq: B, dtype: float64

In [165]:
ts.shift(3, freq = 'B') # 인덱스가 이동

2020-01-06   -0.836605
2020-01-07    0.012400
2020-01-08    1.925268
2020-01-09   -0.138746
2020-01-10    1.428969
Freq: B, dtype: float64

In [166]:
ts.shift(2, freq = 'W') # 인덱스가 이동

2020-01-12   -0.836605
2020-01-12    0.012400
2020-01-12    1.925268
2020-01-19   -0.138746
2020-01-19    1.428969
dtype: float64

### 시간대 처리

* 국제표준시(Coordinated Universal Time, UTC)를 기준으로 떨어진 거리만큼 오프셋으로 시간대 처리
* 전 세계의 시간대 정보를 모아놓은 올슨 데이터베이스를 활용한 라이브러리인 `pytz` 사용

In [168]:
import pytz
pytz.common_timezones[0:10]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre']

In [169]:
'Asia/Seoul' in pytz.common_timezones

True

In [170]:
dinx = pd.date_range('2020-01-01 09:00', periods = 7, freq = 'B')
ts = pd.Series(np.random.randn(len(dinx)), index = dinx )
ts

2020-01-01 09:00:00    1.011870
2020-01-02 09:00:00   -0.318777
2020-01-03 09:00:00    1.340037
2020-01-06 09:00:00    1.476495
2020-01-07 09:00:00    0.112601
2020-01-08 09:00:00   -0.796592
2020-01-09 09:00:00   -1.001139
Freq: B, dtype: float64

In [171]:
pd.date_range('2020-01-01 09:00', periods = 7, freq = 'B', tz = 'UTC')

DatetimeIndex(['2020-01-01 09:00:00+00:00', '2020-01-02 09:00:00+00:00',
               '2020-01-03 09:00:00+00:00', '2020-01-06 09:00:00+00:00',
               '2020-01-07 09:00:00+00:00', '2020-01-08 09:00:00+00:00',
               '2020-01-09 09:00:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='B')

In [172]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2020-01-01 09:00:00+00:00    1.011870
2020-01-02 09:00:00+00:00   -0.318777
2020-01-03 09:00:00+00:00    1.340037
2020-01-06 09:00:00+00:00    1.476495
2020-01-07 09:00:00+00:00    0.112601
2020-01-08 09:00:00+00:00   -0.796592
2020-01-09 09:00:00+00:00   -1.001139
Freq: B, dtype: float64

In [175]:
ts_utc.tz_convert('Asia/Seoul') # 기준 시간이 바뀜

2020-01-01 18:00:00+09:00    1.011870
2020-01-02 18:00:00+09:00   -0.318777
2020-01-03 18:00:00+09:00    1.340037
2020-01-06 18:00:00+09:00    1.476495
2020-01-07 18:00:00+09:00    0.112601
2020-01-08 18:00:00+09:00   -0.796592
2020-01-09 18:00:00+09:00   -1.001139
Freq: B, dtype: float64

In [176]:
ts_seoul = ts.tz_localize('Asia/Seoul') # 기준 시간은 그대로, 현지 시간은 +로 표시됨
ts_seoul

2020-01-01 09:00:00+09:00    1.011870
2020-01-02 09:00:00+09:00   -0.318777
2020-01-03 09:00:00+09:00    1.340037
2020-01-06 09:00:00+09:00    1.476495
2020-01-07 09:00:00+09:00    0.112601
2020-01-08 09:00:00+09:00   -0.796592
2020-01-09 09:00:00+09:00   -1.001139
dtype: float64

### 기간과 기간 연산

In [178]:
p = pd.Period(2020, freq = 'A-JAN')
p

Period('2020', 'A-JAN')

In [179]:
p+2

Period('2022', 'A-JAN')

In [182]:
p.asfreq('M', how = 'start')

Period('2019-02', 'M')

In [183]:
p.asfreq('M', how = 'end')

Period('2020-01', 'M')

In [180]:
pr = pd.period_range('2020-01-01', '2020-06-30', freq = 'M')
pr

PeriodIndex(['2020-01', '2020-02', '2020-03', '2020-04', '2020-05', '2020-06'], dtype='period[M]', freq='M')

In [181]:
pd.Series(np.random.randn(6), index = pr)

2020-01   -0.456527
2020-02   -0.403709
2020-03   -1.498626
2020-04    0.329553
2020-05    0.435783
2020-06    0.266035
Freq: M, dtype: float64

### 리샘플링(Resampling)

* 리샘플링(Resampling): 시계열의 빈도 변환
* 다운샘플링(Down sampling): 상위 빈도 데이터를 하위 빈도 데이터로 집계
* 업샘플링(Up sampling): 하위 빈도 데이터를 상위 빈도 데이터로 집계

|인자|설명|
|:--|:--|
|`freq`|리샘플링 빈도|
|`axis`|리샘플링 축(기본값 `axis=0`)|
|`fill_method`|업샘플링시 보간 수행(`None`,`ffill`,`bfill`)|
|`closed`|다운샘플링 시 각 간격의 포함 위치(`right`,`left`)|
|`label`|다운샘플링 시 집계된 결과 라벨 결정(`right`,`left`)|
|`loffset`|나뉜 그룹의 라벨을 맞추기 위한 오프셋|
|`limit`|보간법을 사용할 때 보간을 적용할 최대 기간|
|`kind`|기간(`period`) 또는 타임스탬프(`timestamp`) 집계 구분|
|`convention`|기간을 리샘플링할 때 하위 빈도 기간에서 상위 빈도로 변환 시 방식(`start`또는`end`)|

In [186]:
dr = pd.date_range('2020-01-01', periods = 200, freq = 'D')
ts = pd.Series(np.random.randn(len(dr)), index = dr)
ts

2020-01-01    2.131978
2020-01-02    1.012872
2020-01-03    0.365362
2020-01-04    0.642363
2020-01-05    0.092007
                ...   
2020-07-14   -2.075365
2020-07-15   -1.262689
2020-07-16   -1.853916
2020-07-17    1.040236
2020-07-18    0.368218
Freq: D, Length: 200, dtype: float64

In [189]:
ts.resample('M').mean() # D -> M (상위)

2020-01-31    0.045999
2020-02-29    0.172005
2020-03-31   -0.294756
2020-04-30    0.334618
2020-05-31   -0.053018
2020-06-30    0.263435
2020-07-31   -0.409763
Freq: M, dtype: float64

In [190]:
ts.resample('M', kind = 'period').mean()

2020-01    0.045999
2020-02    0.172005
2020-03   -0.294756
2020-04    0.334618
2020-05   -0.053018
2020-06    0.263435
2020-07   -0.409763
Freq: M, dtype: float64

In [191]:
dr = pd.date_range('2020-01-01', periods = 10, freq = 'T')
ts = pd.Series(np.arange(10), index = dr)
ts

2020-01-01 00:00:00    0
2020-01-01 00:01:00    1
2020-01-01 00:02:00    2
2020-01-01 00:03:00    3
2020-01-01 00:04:00    4
2020-01-01 00:05:00    5
2020-01-01 00:06:00    6
2020-01-01 00:07:00    7
2020-01-01 00:08:00    8
2020-01-01 00:09:00    9
Freq: T, dtype: int32

In [192]:
ts.resample('2T', closed = 'left').sum()

2020-01-01 00:00:00     1
2020-01-01 00:02:00     5
2020-01-01 00:04:00     9
2020-01-01 00:06:00    13
2020-01-01 00:08:00    17
Freq: 2T, dtype: int32

### Grouper
- groupby와 함꼐 쓰여서, 시간별로 데이터를 분류할 수 있는 기능
- df.groupby(pd.Grouper(key = '기준 칼럼', freq = 'M

In [201]:
tdf = pd.DataFrame({'time': pd.date_range(start = '2020-01-01', periods = 20),
                    'buy':np.random.randint(0, 100, 20)
    
})
tdf.head()

Unnamed: 0,time,buy
0,2020-01-01,40
1,2020-01-02,68
2,2020-01-03,84
3,2020-01-04,41
4,2020-01-05,65


In [203]:
tdf.groupby(pd.Grouper(key = 'time', freq = '2B')).sum()

Unnamed: 0_level_0,buy
time,Unnamed: 1_level_1
2020-01-01,108
2020-01-03,193
2020-01-07,111
2020-01-09,189
2020-01-13,96
2020-01-15,90
2020-01-17,136


### 무빙 윈도우(Moving Window)
- 이동 평균 계산

In [204]:
df = pd.DataFrame(np.random.randn(300, 4),
                 index = pd.date_range('2020-01-01', periods = 300, freq = 'D'), 
                 columns = ['C1', 'C2', 'C3', 'C4'])
df

Unnamed: 0,C1,C2,C3,C4
2020-01-01,1.676717,-2.393149,1.685255,-0.932049
2020-01-02,-0.736828,0.519134,-0.152438,-1.016536
2020-01-03,-0.836758,0.153875,0.968396,0.930451
2020-01-04,0.794563,0.270604,-0.843325,-0.466916
2020-01-05,0.930422,-1.893529,-0.543783,-0.330764
...,...,...,...,...
2020-10-22,-0.996573,-0.625406,1.370924,-1.652645
2020-10-23,-0.451803,0.830898,-0.785984,0.478492
2020-10-24,-0.527893,-0.173313,-0.021385,-1.426357
2020-10-25,1.744604,-0.690700,-0.414879,0.754897


In [206]:
df.rolling(30).mean().head(40)

Unnamed: 0,C1,C2,C3,C4
2020-01-01,,,,
2020-01-02,,,,
2020-01-03,,,,
2020-01-04,,,,
2020-01-05,,,,
2020-01-06,,,,
2020-01-07,,,,
2020-01-08,,,,
2020-01-09,,,,
2020-01-10,,,,


In [214]:
df.rolling(2).mean().head(10)

Unnamed: 0,C1,C2,C3,C4
2020-01-01,,,,
2020-01-02,0.469944,-0.937007,0.766409,-0.974293
2020-01-03,-0.786793,0.336505,0.407979,-0.043042
2020-01-04,-0.021098,0.21224,0.062535,0.231767
2020-01-05,0.862492,-0.811462,-0.693554,-0.39884
2020-01-06,-0.424266,-1.616822,-0.885407,0.157032
2020-01-07,-0.307026,-0.202984,-0.387909,-0.280344
2020-01-08,0.146931,-0.277275,-0.042644,-0.46031
2020-01-09,-0.154543,-0.347755,-0.396321,0.781537
2020-01-10,0.034901,-0.357563,-0.328261,1.301694


## 데이터 읽기 및 저장


|함수|설명|
|:--|:--|
|`read_csv`|파일, URL, 객체로부터 구분된 데이터 읽기(기본 구분자 ',')|
|`read_table`|파일, URL, 객체로부터 구분된 데이터 읽기(기본 구분자 '\t')|
|`read_fwf`|고정폭 컬럼 형식에서 데이터 읽기(구분자 없는 데이터)|
|`read_clipboard`|클립보드에 있는 데이터 읽기. 웹페이지에 있는 표를 읽어올 때 유용|
|`read_excel`|엑셀 파일(xls, xlsx)에서 표 형식 데이터 읽기|
|`read_hdfl`|Pandas에서 지정한 HDFS 파일의 데이터 읽기|
|`read_html`|HTML문서 내의 모든 테이블 데이터 읽기|
|`read_json`|JSON에서 데이터 읽기|
|`read_msgpack`|메시지팩 바이너리 포맷으로 인코딩된 Pandas 데이터 읽기|
|`read_pickle`|파이썬 피클 포멧으로 저장된 객체 읽기|
|`read_sas`|SAS 시스템의 사용자 정의 저장 포멧 데이터 읽기|
|`read_sql`|SQL 질의 결과를 DataFrame 형식으로 읽기|
|`read_stata`|Stata 파일에서 데이터 읽기|
|`read_feather`|Feather 바이너리 파일 포멧의 데이터 읽기|

### 텍스트 파일 읽기/쓰기

In [215]:
%%writefile example1.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13 ,14 ,15, csv

Overwriting example1.csv


In [217]:
%ls example1.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2E6B-7B15

 C:\Users\user\Documents\Data-Science\Data Analysis 디렉터리

2021-10-13  오후 07:02                89 example1.csv
               1개 파일                  89 바이트
               0개 디렉터리  194,033,188,864 바이트 남음


In [218]:
pd.read_csv('example1.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [219]:
%%writefile example2.csv
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, pandas
11, 12, 13 ,14 ,15, csv

Overwriting example2.csv


In [220]:
pd.read_csv('example2.csv', header = None)

Unnamed: 0,0,1,2,3,4,5
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [221]:
# 컬럼 이름
pd.read_csv('example2.csv', names = ['a', 'b', 'c', 'd', 'e','text'])

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [222]:
# 컬럼 -> 인덱스
pd.read_csv('example2.csv', names = ['a', 'b', 'c', 'd', 'e','text'], index_col = 'text')

Unnamed: 0_level_0,a,b,c,d,e
text,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
hi,1,2,3,4,5
pandas,6,7,8,9,10
csv,11,12,13,14,15


In [223]:
%%writefile example5.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, NA, 9, 10, pandas
11, NA, 13 ,14 ,15, csv

Overwriting example5.csv


In [224]:
pd.read_csv('example5.csv')

Unnamed: 0,a,b,c,d,e,text
0,1,2.0,3.0,4,5,hi
1,6,7.0,,9,10,pandas
2,11,,13.0,14,15,csv


In [225]:
pd.read_csv('example5.csv', nrows = 1)

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi


In [226]:
df = pd.read_csv('example5.csv')
df

Unnamed: 0,a,b,c,d,e,text
0,1,2.0,3.0,4,5,hi
1,6,7.0,,9,10,pandas
2,11,,13.0,14,15,csv


In [227]:
df.to_csv('output.csv')

In [228]:
%ls output.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2E6B-7B15

 C:\Users\user\Documents\Data-Science\Data Analysis 디렉터리

2021-10-13  오후 07:05                92 output.csv
               1개 파일                  92 바이트
               0개 디렉터리  194,036,477,952 바이트 남음


In [229]:
%%writefile example.json
[{"a":1, "b":2, "c":3, "d":4, "e":5},
{"a":6, "b":7, "c":8, "d":9, "e":10},
{"a":11, "b":12, "c":13, "d":14, "e":15}]

Overwriting example.json


In [230]:
%ls example.json

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2E6B-7B15

 C:\Users\user\Documents\Data-Science\Data Analysis 디렉터리

2021-10-13  오후 07:05               121 example.json
               1개 파일                 121 바이트
               0개 디렉터리  194,039,967,744 바이트 남음


In [231]:
pd.read_json('example.json')

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15


### 이진 데이터 파일 읽기/쓰기

In [233]:
df = pd.read_csv('example1.csv')
df

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [234]:
df.to_pickle('df_pickle') # 피클로 저장
pd.read_pickle('df_pickle') # 피클파일 읽기

Unnamed: 0,a,b,c,d,e,text
0,1,2,3,4,5,hi
1,6,7,8,9,10,pandas
2,11,12,13,14,15,csv


In [201]:
df = pd.DataFrame({'a' : np.random.randint(0, 100, size = 100),
                   'b' : np.random.randint(0, 100, size = 100),
                   'c' : np.random.randint(0, 100, size = 100)})
df

Unnamed: 0,a,b,c
0,99,69,16
1,49,57,52
2,88,31,36
3,77,10,9
4,29,76,57
...,...,...,...
95,18,0,10
96,49,64,69
97,30,18,62
98,68,42,25


In [202]:
h = pd.HDFStore('date.h5') # 계층적인 파일
h['obj1'] = df
h['dbj1_col1'] = df['a']
h['dbj1_col2'] = df['b']
h['dbj1_col3'] = df['c']
h

<class 'pandas.io.pytables.HDFStore'>
File path: date.h5

In [203]:
h['obj1']

Unnamed: 0,a,b,c
0,99,69,16
1,49,57,52
2,88,31,36
3,77,10,9
4,29,76,57
...,...,...,...
95,18,0,10
96,49,64,69
97,30,18,62
98,68,42,25


In [204]:
h.put('obj2', df, format = 'table')

In [205]:
h.select('obj2', where = ['index > 50 and index <= 60'])

Unnamed: 0,a,b,c
51,16,68,54
52,47,35,59
53,16,69,8
54,55,36,6
55,53,30,83
56,0,89,14
57,51,73,88
58,19,54,26
59,66,68,22
60,8,29,84


In [206]:
h.close()

In [207]:
df

Unnamed: 0,a,b,c
0,99,69,16
1,49,57,52
2,88,31,36
3,77,10,9
4,29,76,57
...,...,...,...
95,18,0,10
96,49,64,69
97,30,18,62
98,68,42,25


In [208]:
df.to_hdf('data.h5', 'obj3', format = 'table')

In [209]:
pd.read_hdf('data.h5', 'obj3', where = ['index < 10'])

Unnamed: 0,a,b,c
0,99,69,16
1,49,57,52
2,88,31,36
3,77,10,9
4,29,76,57
5,83,12,14
6,75,0,57
7,64,11,29
8,61,80,75
9,51,34,88


## 데이터 정제

### 누락값 처리

* 대부분의 실제 데이터들은 정제되지 않고 누락값들이 존재
* 서로 다른 데이터들은 다른 형태의 결측을 가짐
* 결측 데이터는 `null`, `NaN`, `NA`로 표기

#### None: 파이썬 누락 데이터

In [235]:
a = np.array([1, 2, None, 4, 5])
a

array([1, 2, None, 4, 5], dtype=object)

In [237]:
a.sum() # raise Error

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

#### NaN: 누락된 수치 데이터

In [238]:
a = np.array([1, 2, np.nan, 4, 5])
a.dtype

dtype('float64')

In [239]:
0 + np.nan

nan

In [240]:
np.nan+np.nan

nan

In [241]:
a.sum(), a.min(), a.max()

(nan, nan, nan)

In [242]:
np.nansum(a), np.nanmin(a), np.nanmax(a)

(12.0, 1.0, 5.0)

In [243]:
pd.Series([1, 2, np.nan, 4, None]) # None -> NaN

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [244]:
s = pd.Series(range(5), dtype = int)
s

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [245]:
s[0] = None
s[3] = np.nan

In [246]:
s

0    NaN
1    1.0
2    2.0
3    NaN
4    4.0
dtype: float64

#### Null 값 처리
- `.dropna()`: 결측치를 가진 행을 모두 삭제
    - subset = ['칼럼이름'] : 해당 칼럼에 결측치가 있으면 그 행만 삭제
    - how = 'all' or 'any
    - axis = 0 or 1
    - thresh = n : nan이 아닌 값이 n개 이상 있으면 삭제 안 함
- `fillna()` : 결측값을 특정 값으로 일괄 변경
    - method = 'ffill' or 'bfill'
    - axis = 0 or 1
    - .fillna({'Deaths':0, 'Recovered':0})
        - 특정 칼럼의 결측 치를 바꾸려면 사전 형태로 인수가 들어와야 함
    

In [247]:
s = pd.Series([1, 2, np.nan, 'String', None])
s

0         1
1         2
2       NaN
3    String
4      None
dtype: object

In [248]:
s.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [250]:
s[s.notnull()] # index

0         1
1         2
3    String
dtype: object

In [251]:
s.dropna()

0         1
1         2
3    String
dtype: object

In [255]:
df['a'] = [0, np.nan, 11]
df

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
1,,7,8,9,10,pandas
2,11.0,12,13,14,15,csv


In [257]:
df.dropna(axis = 0)

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
2,11.0,12,13,14,15,csv


In [258]:
df.dropna(axis = 1)

Unnamed: 0,b,c,d,e,text
0,2,3,4,5,hi
1,7,8,9,10,pandas
2,12,13,14,15,csv


In [261]:
df.dropna(axis = 1, how = 'all') # how = 'any' -> defualt

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
1,,7,8,9,10,pandas
2,11.0,12,13,14,15,csv


In [267]:
df.dropna(axis = 'columns', thresh = 2) # 컬럼의 nan이 아닌 값이 2개 이상이므로 행 삭제 안 함

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
1,,7,8,9,10,pandas
2,11.0,12,13,14,15,csv


In [268]:
s

0         1
1         2
2       NaN
3    String
4      None
dtype: object

In [269]:
s.fillna(0)

0         1
1         2
2         0
3    String
4         0
dtype: object

In [272]:
s.fillna(method = 'ffill') # or 'bfill'

0         1
1         2
2         2
3    String
4    String
dtype: object

In [273]:
df

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
1,,7,8,9,10,pandas
2,11.0,12,13,14,15,csv


In [275]:
df.fillna(method = 'ffill', axis = 0)

Unnamed: 0,a,b,c,d,e,text
0,0.0,2,3,4,5,hi
1,0.0,7,8,9,10,pandas
2,11.0,12,13,14,15,csv


### 중복 제거
- `duplicated()` : 중복 행 확인
- `.drop_duplicates(subset = '', keep = 'first')` : 중복 행 삭제
    - 특정 칼럼을(subset)을 기준으로 중복 행 제거
    - keep: 'first' or 'last'

In [276]:
df = pd.DataFrame({'c1': ['a','b','c']*2 + ['b']+['c'],
                  'c2' : [1, 2, 1, 1, 2, 3, 3, 4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [278]:
df.duplicated(subset = ['c1']) # a, b, c가 겹침

0    False
1    False
2    False
3     True
4     True
5     True
6     True
7     True
dtype: bool

In [281]:
df.drop_duplicates(subset = ['c1'])

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1


### 값 치환

In [282]:
s = pd.Series([1., 2., -999., 3., -1000., 4.])
s

0       1.0
1       2.0
2    -999.0
3       3.0
4   -1000.0
5       4.0
dtype: float64

In [284]:
s.replace(4, np.nan) # index가 아닌 values 기준

0       1.0
1       2.0
2    -999.0
3       3.0
4   -1000.0
5       NaN
dtype: float64

In [285]:
s.replace([-999,-1000], np.nan)

0    1.0
1    2.0
2    NaN
3    3.0
4    NaN
5    4.0
dtype: float64

In [286]:
s.replace([-999,-1000], 0)

0    1.0
1    2.0
2    0.0
3    3.0
4    0.0
5    4.0
dtype: float64

## 기타 추가한 것

### 판다스로 간단한 히트맵 그리기

In [6]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0, 100, (10, 10)))
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,40,94,20,19,95,42,60,53,67,31
1,89,37,66,44,95,63,63,47,6,13
2,55,25,21,14,19,1,41,4,58,80
3,83,81,11,78,17,30,65,78,26,4
4,83,58,3,68,70,31,34,71,71,13


In [7]:
df.style.background_gradient(cmap='summer')

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,40,94,20,19,95,42,60,53,67,31
1,89,37,66,44,95,63,63,47,6,13
2,55,25,21,14,19,1,41,4,58,80
3,83,81,11,78,17,30,65,78,26,4
4,83,58,3,68,70,31,34,71,71,13
5,86,23,28,79,15,95,24,73,92,18
6,4,13,45,1,19,84,63,11,89,49
7,9,45,48,51,9,60,98,25,67,90
8,81,79,84,29,83,61,54,35,15,72
9,70,95,7,86,85,51,76,25,27,61


### pandas 재구조화

#### pivot_table 이용하기

In [31]:
df = pd.read_csv('C:/Users/user/Desktop/stats_data/Ch12.교차분석(chi square)/Ch1202.사후설계교차분석(PostCH).csv', encoding = 'cp949')
df

Unnamed: 0,cancer,smoking,count
0,1,1,170867
1,1,2,51690
2,1,3,46598
3,1,4,29178
4,1,5,27784
5,2,1,723
6,2,2,370
7,2,3,497
8,2,4,319
9,2,5,504


In [32]:
pd.pivot_table(df, index = 'cancer', columns = 'smoking', values = 'count')

smoking,1,2,3,4,5
cancer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,170867,51690,46598,29178,27784
2,723,370,497,319,504


#### Crosstab(질적자료의 빈도수)

In [46]:
df = pd.DataFrame({'그룹' : np.concatenate([np.zeros(30, dtype = int), np.ones(30, dtype = int)]),'발병유무' : np.random.randint(0, 2, 60)})
df.head(7)

Unnamed: 0,그룹,발병유무
0,0,0
1,0,0
2,0,1
3,0,1
4,0,0
5,0,1
6,0,0


In [29]:
pd.crosstab(df.그룹, df.발병유무)

발병유무,0,1
그룹,Unnamed: 1_level_1,Unnamed: 2_level_1
0,19,11
1,13,17


#### 판다스 디스플레이 조정

In [1]:
import pandas as pd

pd.options.display.max_rows = 20000 

## 참고문헌

* Pandas 사이트: https://pandas.pydata.org/
* Jake VanderPlas, "Python Data Science Handbook", O'Reilly
* Wes Mckinney, "Python for Data Analysis", O'Reilly