## Pandas에서 제공하는 대표적인 자료구조

1) Series : 값 + index

2) DataFrame

3) https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

### Series

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
print(type(s))
print(s)

<class 'pandas.core.series.Series'>
0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


In [3]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]) :
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [4]:
# 인덱스를 자유롭게 저장

s = pd.Series([9904312, 3448737, 2890451, 2466052], 
              index = ['서울', '부산', '인천', '대구'])

print(s)
print('-'*85)

print(s.index)
print(s.values)    # 형태 배열
print(type(s.values))

print('-'*85)

s.index.name = '도시'
print(s)

print('-'*85)

s.name = '인구'
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------------------------------------------------------------------------
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]
<class 'numpy.ndarray'>
-------------------------------------------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------------------------------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [5]:
# 벡터화 연산

s1 = s/1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [6]:
# 인덱싱

print(s[1], s['부산'])

# 2차원 배열 원하는 순서로 나열 가능 
print(s[[0, 3, 1]], s[['서울', '대구', '부산']])

print(s[(250e4 < s) & (s < 500e4)])

print('-'*85)

print(s[1:3])
print(s['부산':'대구'])

print('-'*85)

print(s.부산, ',', s.서울)

3448737 3448737
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
-------------------------------------------------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
-------------------------------------------------------------------------------------
3448737 , 9904312


In [7]:
# Series와 dict

print('서울' in s)
print('대전' in s)

print(s.items())
for k, v in s.items() :
    print('%s = %d' % (k, v))
    
print('-'*85)

s2 = pd.Series({'서울' : 9631482, '부산' : 3448737,
               '인천' : 2632035, '대전' : 1490158})

print(s2)

True
False
<zip object at 0x0000019CF4029788>
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052
-------------------------------------------------------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [8]:
# 인덱스 기반 연산

print(s)

print('-' * 85)

print(s2)

print('-' * 85)

ds = s - s2    # 결측치가 들어있음
print(ds)

print('-' * 85)

print(s.values - s2.values)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
-------------------------------------------------------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
-------------------------------------------------------------------------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-------------------------------------------------------------------------------------
[272830      0 258416 975894]


In [9]:
# 결측치 제거

print(ds)
print(ds.notnull())
print(ds[ds.notnull()])

print('-'*85)

# 인구 증가율 : (끝연도 - 시작연도)/시작연도 * 100

ds2 = (s2 - s)/s * 100
print(ds2)
print('-'*85)

ds2 = ds2[ds2.notnull()]       # 결측치 제거
print(ds2)

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-------------------------------------------------------------------------------------
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
-------------------------------------------------------------------------------------
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [10]:
# 데이터를 수정, 삭제, 갱신

ds2['부산'] = 1.63
print(ds2)

print('-'*85)

ds2['대구'] = 1.41
print(ds2)

print('-'*85)

del ds2['서울']
print(ds2)

부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64
-------------------------------------------------------------------------------------
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
-------------------------------------------------------------------------------------
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### DataFrame

In [11]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [12]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [13]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [14]:
# 컬럼의 위치 변경

cols = ['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율']
df = pd.DataFrame(data, columns = cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [15]:
# 인덱스 변경

idx = ['서울', '부산', '인천', '대구']
df = pd.DataFrame(data, columns = cols, index = idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [16]:
print(type(df.values))

<class 'numpy.ndarray'>


In [17]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [18]:
# 컬럼과 인덱스에 이름 부여

df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [19]:
# 전치 가능

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [20]:
# 열 인덱싱

## series로 출력
print(df['지역'])         
print(type(df['지역']))
print(df['2015'])

print('-'*85)

## df로 출력
print(df[['지역']])
print(type(df[['지역']]))
print(df[['2005', '2010']])

print('-'*85)

# df[0]       : 숫자로 인덱싱은 안 됨

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64
-------------------------------------------------------------------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
특성     2005     2010
도시                  
서울  9762546  9631482
부산  3512547  3393191
인천  2517680  2632035
대구  2456016  2431774
-------------------------------------------------------------------------------------


In [21]:
# 행 인덱스 : 반드시 슬라이스 이용

df[:]
df[:1]
df[1:2]
df['서울':'서울']

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [22]:
# 동시에 행과 열에 접근하는 방법

df['2005']['서울'] # 열/행 순서
df[['2005', '2010']][:'서울']

특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [23]:
# 열 데이터의 갱신, 추가, 삭제

df['2010-2015 증가율'] = df['2010-2015 증가율']* 100
df

df['2005-2010 증가율'] = ((df['2010'] - df['2005']) /df['2005']* 100).round(2)
df

del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 실습문제

In [24]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터프레임 df를 작성하시오.

data = {
    '국어' : [80, 90, 70, 30],
    '영어' : [90, 70, 60, 40],
    '수학' : [90, 60, 80, 70]
}

col = ['국어', '수학', '영어']
idx = ['춘향', '몽룡', '향단', '방자']

df = pd.DataFrame(data, columns = col, index = idx)
df

Unnamed: 0,국어,수학,영어
춘향,80,90,90
몽룡,90,60,70
향단,70,80,60
방자,30,70,40


In [25]:
# 2. 모든 학생의 수학점수를 나타내시오

df[['수학']]

Unnamed: 0,수학
춘향,90
몽룡,60
향단,80
방자,70


In [26]:
# 3. 모든 학생의 국어와 영어 점수를 나타내시오

df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [27]:
# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.

df['평균'] = df.mean(axis = 1).round(2)
df

Unnamed: 0,국어,수학,영어,평균
춘향,80,90,90,86.67
몽룡,90,60,70,73.33
향단,70,80,60,70.0
방자,30,70,40,46.67


In [28]:
# 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오

df['영어']['방자'] == 80

df

Unnamed: 0,국어,수학,영어,평균
춘향,80,90,90,86.67
몽룡,90,60,70,73.33
향단,70,80,60,70.0
방자,30,70,40,46.67


In [29]:
# 6. 춘향의 점수를 데이터 프레임으로 나타내시오

df.T[['춘향']]

Unnamed: 0,춘향
국어,80.0
수학,90.0
영어,90.0
평균,86.67


In [30]:
# 7. 향단의 점수를 Series로 나타내시오.

df.T['향단']

국어    70.0
수학    80.0
영어    60.0
평균    70.0
Name: 향단, dtype: float64

## 데이터 입출력

* read_csv()
* to_csv()
* read_table()

In [31]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [32]:
sample1 = pd.read_csv('data/sample1.csv')     # df로 불러옴
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [33]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [34]:
# 컬럼명 부여

sample2 = pd.read_csv('data/sample2.csv', names = ['c1', 'c2', 'c3'])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [35]:
# 특정 열을 인덱스로 지정하고 싶을때

sample1 = pd.read_csv('data/sample1.csv', index_col='c1')
sample1

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [36]:
%%writefile data/sample3.csv
파일제목 : sample3.csv
데이터포맷의 설명 :
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample3.csv


In [37]:
# 필요없는 행 제거 후 출력

sample3 = pd.read_csv('data/sample3.csv', skiprows=[0, 1])
sample3

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [38]:
%%writefile data/sample4.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Overwriting data/sample4.csv


In [39]:
# 결측치 처리

sample4 = pd.read_csv('data/sample4.csv', na_values = [' ', '누락'])
sample4

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [40]:
%%writefile data/sample5.txt
c1      c2      c3       c4
0.23    0.33    0.534    0.2389
0.123   0.345   0.567    0.986

Overwriting data/sample5.txt


In [41]:
# 여러 개의 공백 제거 시 정규표현식 사용

sample5 = pd.read_table('data/sample5.txt', sep = '\s+') # \s+ : 공백이 1개 이상
sample5

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.534,0.2389
1,0.123,0.345,0.567,0.986


In [42]:
# to_csv

df.to_csv('data/sample6.csv')
df.to_csv('data/sample7.txt', sep = '|')  # |로 구분
df.to_csv('data/sample8.csv', index = False, header = False) # 인덱스, 컬럼 제거
sample4.to_csv('data/sample9.txt', sep = '|', na_rep = '누락') # 결측치명 설정

## 고급 인덱싱 : indexer

* loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서. 문자로만 입력
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱서. 정수로만 입력
* ix : loc와 iloc의 통합형. 가독성 및 컴파일에 문제가 있음.
* at : 문자로 된 인덱스 받음. 스칼라 값을 가져올 때 사용. 딱 한 개의 값. 속도가 빠름
* iat : 정수로 된 인덱스 받음

### loc

In [43]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index = ['a', 'b', 'c'],
                 columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [44]:
df[:'a']  # 열 기준. df로 출력
df.loc['a']  # 행 우선. series로 출력
df.loc['a' : 'b']   # df로 출력

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [45]:
df[['A', 'B']]  # 열 출력
df.loc[['a', 'c']]   # 행 출력. 인덱서는 행 기준.

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [46]:
df.A > 15
df.loc[df.A>15] # A가 15보다 큰 행 찾아서 출력

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [47]:
def select_rows(df, num) :
    return df.A > num

select_rows(df, 15)    # df.A > 15와 같은 결과
df.loc[select_rows(df, 15)]    # df.loc[df.A > 15]와 같은 결과

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [48]:
# 인덱싱을 행과 열로 모두 받을 경우

df['A']['b']     # 열/행 순서
df.loc['b']['A']    # 행/열 순서

df.loc['b', 'A']     # df['A', 'b']는 에러
df.loc['b':, 'A']    # 슬라이싱 가능. 행은 b 이상, 열은 A인 것 출력
df.loc['a', :]       # 행 : a, 열 : 전체 출력

df.loc[['a', 'b'], ['B', 'C']]   # 한 줄일 땐 series, 두 줄 이상은 df로 출력

Unnamed: 0,B,C
a,11,12
b,15,16


In [49]:
# 모든 행에 대해서 첫 번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출

df.loc[:, df.loc['a', :]<=11]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


### iloc

In [50]:
# 인덱스를 숫자로만 써야 함

df.iloc[0, 1]  # 행/열 순서

11

In [51]:
df.iloc[:2, 2]
df.iloc[0, -1]   # 음수로 작성 가능 : 역순
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

### at, iat
#### loc, iloc와 같은 값을 출력하지만 처리 속도가 좀 더 빠름.

In [52]:
# 처리 시간이 얼마나 걸렸는지 측정해주는 명령어 : %timeit

In [53]:
%timeit df.loc['a', 'A']
%timeit df.at['a', 'A']

5.33 µs ± 86.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.03 µs ± 120 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 데이터 조작
https://datascienceschool.net/view-notebook/aa62265f02fc429aa636ef343c3b1fda/

### 데이터 갯수 카운팅

In [54]:
# count() : 열을 기준으로 갯수 카운팅
s = pd.Series(range(10))
s.count()   # 10


s[3] = np.nan
s
s.count()     # 9. 카운팅하면 결측치는 세지 않는다

9

In [55]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
print(df)
print("----------------------------")

print(df.count()) # 열의 갯수
print("----------------------------")

df.iloc[2, 3] = np.nan
print(df.count())
print("----------------------------")

print(df.count(axis = 0)) # 열 기준
print(df.count(axis = 1)) # 행 기준

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
----------------------------
0    4
1    4
2    4
3    4
dtype: int64
----------------------------
0    4
1    4
2    4
3    3
dtype: int64
----------------------------
0    4
1    4
2    4
3    3
dtype: int64
0    4
1    4
2    3
3    4
dtype: int64


In [56]:
# value_counts() : 카테고리별로 갯수 세기
# Series에서만 제공하는 함수 [열을 기준으로 카운팅하기 때문]

np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
print(s.head(10)) # s.tail(10) : 마지막 10개
print("----------------------------")

print(s.value_counts()) # 각 숫자가 몇 개인지 카운팅. 내림차순.
print("----------------------------")
print(df[0].value_counts())

0    5
1    3
2    4
3    0
4    1
5    3
6    5
7    0
8    0
9    1
dtype: int32
----------------------------
1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64
----------------------------
3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64


### 정렬
- sort_index(), sort_values()
- 결측치는 정렬의 대상이 되지 않는다.

In [57]:
# 인덱스를 기준으로 정렬. 오름차순
## NaN 값이 있는 경우 정렬 시 가장 밑으로 감

s2.value_counts().sort_index()
s.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [58]:
# sort_values() : 값을 기준으로 오름차순 정렬이 default
## acsending = False : 반대 방향으로 정렬

print(s.value_counts().sort_values())
print("----------------------------")

print(s.value_counts().sort_values(ascending = False)) # 내림차순으로 변경

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64
----------------------------
1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64


In [59]:
# by = n : n열의 데이터를 기준으로 정렬. default = 오름차순

print(df)
print("----------------------------")

print(df.sort_values(by = 2))
print("----------------------------")


## 열이 여러 개일 때 어떤 열을 기준으로 정렬할 것인지 설정
print(df.sort_values(by = [1, 2]))


## inplace = True : by = 2로 정렬된 데이터가 원본에 저장됨
print(df.sort_values(by = 2, inplace = True))


# na_position : 결측치를 몇번째에 정렬한 것인지
## 기본은 맨 마지막
print(df.sort_values(by = 3, na_position = 'first'))
print("----------------------------")

## 행은 'by' 쓸 수 없다
print(df.sort_index())

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0
----------------------------
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0
----------------------------
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0
None
     0    1    2    3
2  3.0  2.0  4.0  NaN
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
3  4.0  3.0  4.0  2.0
----------------------------
     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


### 행/열 합계

In [60]:
np.random.seed(1)

df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

df.sum() # 열의 합계. default : axis = 0

df.sum(axis = 1)  # 행의 합계

0    35
1    34
2    41
3    42
dtype: int64

In [144]:
# 열의 합계를 행에 추가
df.loc["colsum", :] = df.sum()   # 인구, idxsum만 숫자라 제대로 계산
df


df.loc[:,"idxsum"] = df.sum(axis=1)
# df["idxsum"] = df.sum(axis = 1) : 그냥 인덱스 써도 무관
df

Unnamed: 0,도시,연도,인구,지역,idxsum
0,서울,2015,9904312.0,수도권,9904312.0
1,서울,2010,9631482.0,수도권,9631482.0
2,서울,2005,9762546.0,수도권,9762546.0
3,부산,2015,3448737.0,경상권,3448737.0
4,부산,2010,3393191.0,경상권,3393191.0
5,부산,2005,3512547.0,경상권,3512547.0
6,인천,2015,2890451.0,수도권,2890451.0
7,인천,2010,263203.0,수도권,263203.0
colsum,서울서울서울부산부산부산인천인천,20152010200520152010200520152010,42806469.0,수도권수도권수도권경상권경상권경상권수도권수도권,42806469.0


### apply
* 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때 사용
* 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [145]:
df = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [146]:
def diff(x):
    return x.max() - x.min()

print(diff(df['A']))
print(diff(df['B']))
print(diff(df['C']))
print("----------------")
print(df.apply(diff))
print()
print(df.apply(diff, axis = 1)) # 행 기준으로


df.apply(lambda x: x.max() - x.min())


print(df['A'].value_counts())
print(df['B'].value_counts())
print(df['C'].value_counts())

df.apply(pd.value_counts)

3
2
4
----------------
A    3
B    2
C    4
dtype: int64

0    1
1    2
2    3
3    2
4    1
dtype: int64
4    2
3    2
1    1
Name: A, dtype: int64
3    2
2    2
1    1
Name: B, dtype: int64
4    2
5    1
2    1
1    1
Name: C, dtype: int64


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [61]:
# fillna() : NaN값을 원하는 값으로 변경

df.apply(pd.value_counts).fillna(0).astype(int)
# astype() : 타입 설정


실수 값을 카테고리 값으로 변환
cut(), qout()


ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

# x : data / bins : 기준 / labels : 식별 위해 별칭 붙이기
cat = pd.cut(x = ages, bins = [1, 15, 25, 35, 60, 99],
      labels = ["미성년자", "청년", "중년", "장년", "노년"])
# 데이터는 'ages'
# 기준 밖의 데이터는 결측치 [bins : 범위 지정 느낌]

print(cat)

print(type(cat))
print()
print(cat.categories)
print(cat.codes)

print("-------------------------")
df = pd.DataFrame(ages, columns=['ages'])
print(df)
df['age_cat'] = cat
print(df)


data = np.random.randn(1000)
cat2 = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(cat2)
print()
print(cat2.value_counts())


인덱스 조작
- set_index()
- reset_index()

백지현6 [14:36]
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list('ABCDE'),np.round(np.random.rand(3, 5), 2)]).T,
                   columns = ['C1', 'C2', 'C3', 'C4'])
df1

# 최종적으로 5행4열짜리 만들기
# df = pd.DataFrame()


df2 = df1.set_index("C1") # 'C1'을 기본 인덱스로 저장
df2


df2.set_index("C2")
df2


# 기존에 작성했던 인덱스로 컴백
df2.reset_index()


# 설정한 인덱스를 아예 버리는 것
df2.reset_index(drop=True)


다중 인덱스


np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df3


df3.columns.names = ["Cidx1", "Cidx2"]
df3


df3.T


np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                   index = [['M','M','M','F','F','F'],
                            ["id_"+str(i +1) for i in range(3)]*2])
                            #'id_1','id_2','id_3',...

df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4


행 인덱스와 열 인덱스 교환
stack() : 열을 행으로
unstack() : 행을 열로


df4.stack('Cidx1')

#원본이 바뀌는 건 아니기 때문에 df4치면 원래대로 출력된다


# 인덱스의 이름을 모를 경우 위치로 나타내주어도 무관
df4.stack(1)


df4.unstack('Ridx2')


df4.unstack('Ridx1')
# df4.unstack(0)


인덱싱


df3


df3[('B', 'C1')]

print(df3[('B', 'C1')][0])
print()
print(df3[('B', 'C1')][0:2])


df3.loc[0, ('B','C1')]


df3.loc[:, ('B','C1')]


# iloc : 무조건 숫자로만 인덱싱 가능
df3.iloc[0:2]

SyntaxError: invalid syntax (<ipython-input-61-0005790b82b0>, line 12)

In [62]:
### df4를 이용해서 인덱싱

# 첫번째 행, 첫번째 열에 있는 1.76 출력


# 첫번째 열 1.76 ~ -2.55까지 출력


# 첫번째 행의 모든 컬럼값을 출력


# 맨 마지막 행에 "ALL"이란 인덱스를 추가해서 각 열의 합을 출력

### 인덱스 순서 교환 : swaplevel(i, j, axis)

In [63]:
df5 = df4.swaplevel("Ridx1", 'Rdix2', axis = 0)    # 열 인덱스 순서 교환
df5

df6 = df4.swaplevel("Cidx1", 'Cdix2', axis = 1)    # 행 인덱스 순서 교환
df6

NameError: name 'df4' is not defined

#### 정렬

In [64]:
# level = 0 : 1차 인덱스. Ridx1, Cidx1
# level = 1 : 2차 인덱스. Ridx2, Cidx2

df4.sort_index(level = 0)   # 열 인덱스 정렬. axis 생략 = defalut : axis = 0
df4.sort_index(level = 0, axis = 1) # 행 인덱스 정렬. 원래 오름차순이라 변경 없음
df4.sort_index(level = 0, axis = 1, ascending = False)  # 거꾸로 나타남

NameError: name 'df4' is not defined

In [65]:
'''
1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임을 만든다
2. 데이터 프레임에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.
3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임을 만든다.
4. 데이터 프레임에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.
'''

df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

# 답 예시 : 채팅창 사진 참고

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


### 병합(합성)

#### merge()

* 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다
* 이 때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [66]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [67]:
# join과 동일. 공통 열을 기준으로 병합. default = inner join
## key : 공통 열 - 고객번호

pd.merge(df1, df2)


## how : join 방식. outer, left, right
pd.merge(df1, df2, how = 'outer')
pd.merge(df1, df2, how = 'left')
pd.merge(df1, df2, how = 'right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


In [68]:
# 키가 여러 개인 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})


## on : 키 지정
pd.merge(df1, df2, on = '고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [69]:
# 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})
print(df1)
print('-'*85)

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})
print(df2)
print('-'*85)

## left_on : df1의 컬럼, right_on : df2의 컬럼
pd.merge(df1, df2, left_on = '이름', right_on = '성명')

   이름  성적
0  영희   1
1  철수   2
2  철수   3
-------------------------------------------------------------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6
-------------------------------------------------------------------------------------


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [70]:
# 인덱스를 기준열로 사용하는 경우

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")


## 한 쪽은 컬럼, 한 쪽은 인덱스일 경우
pd.merge(df1, df2, left_on = ['도시', '연도'], right_index = True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [71]:
# 둘 다 인덱스를 기준열로 사용할 경우

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

pd.merge(df1, df2, left_index = True, right_index = True) # 공통 인덱스로 병합
pd.merge(df1, df2, how = 'outer', left_index = True, right_index = True)

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [72]:
df1.join(df2)  # how = 'left'와 동일. df1에 공통된 키를 기준으로 df2를 병합.
df1.join(df2, how='outer')  # merge(how = 'outer')와 동일

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### concat() : 기준열을 사용하지 않고 단순히 데이터를 연결

In [73]:
s1 = pd.Series([0, 1], index = ['A', 'B'])
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])

pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [74]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")


pd.concat([df1, df2])
pd.concat([df1, df2], axis = 0)  # 행 추가. (아래로 데이터 생성)
pd.concat([df1, df2], axis = 1)  # 열 추가. (옆으로 데이터 생성)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
------------------------------
   데이터3  데이터4
a     5     6
c     7     8
------------------------------


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [75]:
"""
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

매출	비용
1월	1000	1500
2월	1500	2000
3월	3000	2500
4월	4000	2700
5월	5000	3000
6월	6000	3200

매출	비용
7월	4500	2800
8월	4000	2700
9월	5000	3000
10월	6000	3200
11월	3000	2500
12월	2000	2000
"""

'\n어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 \n후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. \n실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).\n또한 1년간의 총 실적을 마지막 행으로 덧붙인다.\n\n매출\t비용\n1월\t1000\t1500\n2월\t1500\t2000\n3월\t3000\t2500\n4월\t4000\t2700\n5월\t5000\t3000\n6월\t6000\t3200\n\n매출\t비용\n7월\t4500\t2800\n8월\t4000\t2700\n9월\t5000\t3000\n10월\t6000\t3200\n11월\t3000\t2500\n12월\t2000\t2000\n'

### 피봇 테이블과 그룹 분석 : pivot(), groupby(), pivot_table()

#### pivot()

    DataFrame.pivot(self, index = None, columns = None, values = None)

In [76]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191,
           3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권",
           "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [77]:
# 각 도시에서 연도별 인구 수 출력
## 순서대로 넣을 땐 index, columns, values 작성 안 해도 됨

df.pivot('도시', '연도', '인구') # 객체가 지정돼있을 땐 이렇게 사용
pd.pivot(df, '도시', '연도', '인구') # 위와 동일

df.set_index(['도시', '연도'])['인구']   # series로 출력
df.set_index(['도시', '연도'])[['인구']]   # df로 출력

df.set_index(['도시', '연도'])[['인구']].unstack() # 행열 변경(?)
#pivot과 동일하게 출력

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### groupby()

    DataFrame.groupby(self, by=None, axis=0, level=None, as_index: bool = True,
    sort: bool = True, group_keys: bool = True, squeeze: bool = False,
    observed: bool = False)
    
* 특정 조건에 맞는 데이터가 하나 이상, 즉 그룹을 이루는 경우에 사용
* pivot()과는 달리 키에 의해서 결정되는 데이터가 여러 개 있어도 괜찮음
* 그룹 연산 메서드 :
    * size(), count() : 갯수
    * mean(), median(), min(), max()
    * sum(), prod(), std(), var(), quantile()
    * first(), last()
    * agg(), aggregate()
    * describe()
    * apply()
    * transform()
    

In [78]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [79]:
g = df2.groupby(by = 'key1')
g.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [80]:
print(df2.groupby(by='key1').sum())
print('-'*85)

print(df2.groupby(df2.key1).sum())
print('-'*85)

print(df2.data1.groupby(df2.key1).sum())
print('-'*85)

print(df2.groupby(df2.key1)['data1'].sum()) # data1만 선택해서 분석
print('-'*85)

print(df2.groupby(df2.key1).sum()['data1']) # 전체 데이터 분석 후 data1만 선택
print('-'*85)

print(df2.groupby(df2.key1).sum()[['data1']])

      data1  data2
key1              
A         8     80
B         7     70
-------------------------------------------------------------------------------------
      data1  data2
key1              
A         8     80
B         7     70
-------------------------------------------------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------------------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------------------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------------------------------------------------------
      data1
key1       
A         8
B         7


In [86]:
# 분석하고자 하는 키가 복수이면 리스트 사용

df2.data1.groupby([df2.key1, df2.key2]).sum()  # series로 출력

df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()   # pivot_table로 출력


## pivot은 키를 두 개 이상 가질 수 없음.

df["인구"].groupby([df.지역, df.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [None]:
import seaborn as sns     # 붓꽃 데이터

In [87]:
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [88]:
# 각 붓꽃 품종 별로 가장 큰 값과 가장 작은 값의 비율로 구해보자
## agg() : 일부분만 가져올 땐 매칭이 안 돼서 에러 남. apply() 사용.
## agg는 df의 축을 기준으로 통계량 집계. 데이터 타입이 숫자 타입인 행열에만 적용
## apply는 한 번에 묶어서 처리.

def peak_to_peak_ratio(x) :
    return x.max() / x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [89]:
# 위와 동일

def peak_to_peak_ratio(x) :
    return x.max() / x.min()

iris.groupby(iris.species).apply(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [92]:
# 각 붓꽃 별로 가장 꽃잎 길이가 작은 것 3개 데이터 추출

def min3(df) :
    return df.sort_values(by='petal_length')[:3]

print(iris.groupby(iris.species).apply(min3))

#print(iris.groupby(iris.species).agg(min3)) 하나씩 매칭해서 가져오기 때문에 에러

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,22,4.6,3.6,1.0,0.2,setosa
setosa,13,4.3,3.0,1.1,0.1,setosa
setosa,14,5.8,4.0,1.2,0.2,setosa
versicolor,98,5.1,2.5,3.0,1.1,versicolor
versicolor,93,5.0,2.3,3.3,1.0,versicolor
versicolor,57,4.9,2.4,3.3,1.0,versicolor
virginica,106,4.9,2.5,4.5,1.7,virginica
virginica,126,6.2,2.8,4.8,1.8,virginica
virginica,138,6.0,3.0,4.8,1.8,virginica


In [93]:
def test(df) :
    return 0

print(iris.groupby(iris.species).apply(test))  # 전체 데이터 가져옴

print(iris.groupby(iris.species).agg(test))    # 하나씩 매칭해서 가져옴

species
setosa        0
versicolor    0
virginica     0
dtype: int64
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               0.0          0.0           0.0          0.0
versicolor           0.0          0.0           0.0          0.0
virginica            0.0          0.0           0.0          0.0


In [94]:
# 품종별로 합계, 평균, 표준편차

iris.groupby('species').agg([np.sum, np.mean, np.std])  # apply는 안 됨

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [95]:
iris.groupby('species').describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [97]:
# transform() : 그룹별 계산을 통해 데이터프레임 자체를 변화시킴.

def func_qcut(s) :
    return pd.qcut(s, 3, labels = ['대', '중', '소'])

iris['petal_length_class'] = iris.groupby(iris.species)['petal_length'].transform(func_qcut)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


### 실습 예제

In [99]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [107]:
# 도시별로 과일의 가격 평균과 수량 평균을 구해보시오

print(df.groupby(df.city).agg([np.mean]))

print('-'*85)

print(df.groupby('city').mean())

      price quantity
       mean     mean
city                
부산    212.5      2.5
서울    250.0      6.0
-------------------------------------------------------------------------------------
      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0


In [109]:
# 도시별, 과일별 가격평균과 수량평균을 구해보시오

print(df.groupby([df.city, df.fruits]).agg([np.mean]))

print('-'*85)

print(df.groupby(['city', 'fruits']).mean())

            price quantity
             mean     mean
city fruits               
부산   apple    100      1.0
     banana   275      3.5
     orange   200      2.0
서울   apple    175      5.5
     banana   400      7.0
-------------------------------------------------------------------------------------
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0


In [110]:
# 위의 문제에서 도시별, 과일별 라벨을 인덱스로 하고싶지 않을 경우

print(df.groupby([df.city, df.fruits], as_index = False).agg([np.mean]))

print('-'*85)

print(df.groupby(['city', 'fruits'], as_index = False).mean())

            price quantity
             mean     mean
city fruits               
부산   apple    100      1.0
     banana   275      3.5
     orange   200      2.0
서울   apple    175      5.5
     banana   400      7.0


In [113]:
# 도시별로 가격의 평균과 수량의 합계를 동시에 구하고자 했을 때

print(df.groupby('city').agg({'price':np.mean, 'quantity':np.sum}))

      price  quantity
city                 
부산    212.5        10
서울    250.0        18


#### pivot_table()
    DataFrame.pivot_table(self, values=None, index=None, columns=None,
    aggfunc='mean', fill_value=None, margins=False, dropna=True,
    margins_name='All', observed=False)
    
* values : 분석할 df에서 분석할 열
* aggfunc : 분석 메서드
* fill_value : NaN 대체값
* dropna : NaN에 해당하는 값을 버릴지 여부
* margins : 행과 열 끝에 소계 추가

In [114]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191,
           3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권",
           "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [115]:
df.pivot('도시', '연도', '인구') # index, columns, values 순서

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [116]:
df.pivot_table('인구', '도시', '연도')  # values, index, columns 순서

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [122]:
df.pivot_table('인구', '도시', '연도', aggfunc = np.sum, margins = True, 
              margins_name = '합계')

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,10354475
서울,9762546.0,9631482.0,9904312.0,29298340
인천,,263203.0,2890451.0,3153654
합계,13275093.0,13287876.0,16243500.0,42806469


In [118]:
df.pivot_table(values = '인구', index = ['연도', '도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


### 활용 예제

In [120]:
import seaborn as sns

In [121]:
# tips : 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높은지 나타내는 데이터

tips = sns.load_dataset('tips')
tips.describe()
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [126]:
# 식사대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct 추가

tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [131]:
# 성별로 인원수 파악

print(tips.groupby("sex").count())

print('-'*85)

print(tips.groupby('sex').size())

        total_bill  tip  smoker  day  time  size  tip_pct
sex                                                      
Male           157  157     157  157   157   157      157
Female          87   87      87   87    87    87       87
-------------------------------------------------------------------------------------
sex
Male      157
Female     87
dtype: int64


In [134]:
# 성별에 따라 흡연 유무 인원수 파악

print(tips.groupby(["sex", "smoker"]).size())

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64


In [133]:
# 위의 두 정보를 하나의 테이블로 출력(pivot_table 활용)

print(tips.pivot_table("tip_pct", "sex", "smoker", 
                       aggfunc="count", margins=True))

smoker  Yes   No  All
sex                  
Male     60   97  157
Female   33   54   87
All      93  151  244


In [135]:
# 성별에 따른 팁 비율

tips.groupby('sex')['tip_pct'].mean()   # series로 출력
tips.groupby('sex')[['tip_pct']].mean()   # df로 출력

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [137]:
# 흡연 여부에 따른 팁 비율

tips.groupby('smoker')['tip_pct'].mean()
tips.groupby('smoker')[['tip_pct']].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [140]:
# 위의 정보를 하나의 테이블로 출력

tips.pivot_table('tip_pct', ['sex', 'smoker'])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [143]:
# 팁의 비율이 요일과 점심/저녁 여부, 인원 수에 어떤 영향을 받는지 분석

tips.pivot_table('tip_pct', ['day', 'time', 'size'])

# groupby로 할 수는 있지만 결측치가 많이 생김 - dropna() 사용해서 제거
tips.groupby(['day', 'time', 'size'])[['tip_pct']].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [147]:
# 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이

def peak_to_peak(x) :
    return x.max() - x.min()

tips.groupby(['sex', 'smoker'])[['tip']].agg(peak_to_peak)

tips.groupby(['sex', 'smoker']).agg({'tip_pct' : 'mean', 'total_bill' : peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [148]:
tips.pivot_table(['tip_pct', 'size'], ['sex', 'day'], 'smoker')

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [149]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [151]:
# 나이를 미성년(1~20), 성년(21~60), 노년(61~100)
# titanic 테이블에 age_class라는 파생변수 추가

bins = [1, 20, 60, 100]
labels = ['미성년', '성년', '노년']

titanic['age_class'] = pd.cut(titanic['age'], bins = bins, labels = labels)
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,성년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,성년
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,성년
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,성년
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,성년
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,성년
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,미성년
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,성년
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,미성년


In [155]:
# 성별, 나이대별로 객실별 생존여부의 평균값 조회

titanic.pivot_table('survived', index = ['sex', 'age_class'], columns = 'class')
titanic.groupby(['sex', 'age_class', 'class'])[['survived']].mean().unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,class,First,Second,Third
sex,age_class,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,미성년,0.928571,1.0,0.465116
female,성년,0.971014,0.896552,0.407407
female,노년,1.0,,1.0
male,미성년,0.5,0.357143,0.180556
male,성년,0.426829,0.051948,0.132948
male,노년,0.083333,0.333333,0.0


###  시계열 데이터

* DateTimeIndex 자료형
    * pd.to_datetime() : 문자열을 날짜타입으로 변환
    * pd.date_range() : 날짜의 범위 지정

In [161]:
data_str = ['2020.1.1', '2020.1.4', '2020.1.6', '2020.1.9']
idx = pd.to_datetime(data_str)
idx

DatetimeIndex(['2020-01-01', '2020-01-04', '2020-01-06', '2020-01-09'], dtype='datetime64[ns]', freq=None)

In [162]:
# 날짜를 인덱스로 활용

np.random.seed(0)
s = pd.Series(np.random.randn(4))
s

0    1.764052
1    0.400157
2    0.978738
3    2.240893
dtype: float64

In [167]:
# 날짜 데이터 생성

pd.date_range("2020-1-1", "2020-4-30")
pd.date_range("2020-4-1", periods=30)

DatetimeIndex(['2020-04-01', '2020-04-02', '2020-04-03', '2020-04-04',
               '2020-04-05', '2020-04-06', '2020-04-07', '2020-04-08',
               '2020-04-09', '2020-04-10', '2020-04-11', '2020-04-12',
               '2020-04-13', '2020-04-14', '2020-04-15', '2020-04-16',
               '2020-04-17', '2020-04-18', '2020-04-19', '2020-04-20',
               '2020-04-21', '2020-04-22', '2020-04-23', '2020-04-24',
               '2020-04-25', '2020-04-26', '2020-04-27', '2020-04-28',
               '2020-04-29', '2020-04-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
"""
freq
    s : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫 날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일 중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

In [170]:
pd.date_range('2020-1-1', '2020-1-30', freq = 'B')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-20', '2020-01-21', '2020-01-22',
               '2020-01-23', '2020-01-24', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30'],
              dtype='datetime64[ns]', freq='B')

In [177]:
# Shift 연산자

np.random.seed(0)

ts = pd.Series(np.random.randn(4),
               index = pd.date_range('2020-1-1', periods = 4, freq = 'M'))
print(ts)

print('-'*85)

print(ts.shift(1))   # 아래로 한 칸씩 값 내림

print('-'*85)

print(ts.shift(-1))   # 위로 한 칸씩 값 올림

print('-'*85)

print(ts.shift(1, freq = "M"))   # 인덱스 값이 1달씩 뒤로 넘어감

print('-'*85)

print(ts.shift(1, freq = "W"))   # 인덱스 값이 그 주 일요일로 변경

2020-01-31    1.764052
2020-02-29    0.400157
2020-03-31    0.978738
2020-04-30    2.240893
Freq: M, dtype: float64
-------------------------------------------------------------------------------------
2020-01-31         NaN
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
Freq: M, dtype: float64
-------------------------------------------------------------------------------------
2020-01-31    0.400157
2020-02-29    0.978738
2020-03-31    2.240893
2020-04-30         NaN
Freq: M, dtype: float64
-------------------------------------------------------------------------------------
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
2020-05-31    2.240893
Freq: M, dtype: float64
-------------------------------------------------------------------------------------
2020-02-02    1.764052
2020-03-01    0.400157
2020-04-05    0.978738
2020-05-03    2.240893
Freq: WOM-1SUN, dtype: float64


#### resampling : 시간 간격을 재조정

* up-sampling : 시간 구간이 작아지면서 데이터 양 증가
* down-sampling : 시간 구간이 커지면서 데이터 양 감소

In [178]:
# down-sampling : 그룹연산을 통해 대표값 구하기

ts = pd.Series(np.random.randn(100),
              index = pd.date_range('2020-1-1', periods = 100))

ts.head(10)

2020-01-01    1.867558
2020-01-02   -0.977278
2020-01-03    0.950088
2020-01-04   -0.151357
2020-01-05   -0.103219
2020-01-06    0.410599
2020-01-07    0.144044
2020-01-08    1.454274
2020-01-09    0.761038
2020-01-10    0.121675
Freq: D, dtype: float64

In [179]:
ts.resample('W').mean()

2020-01-05    0.317158
2020-01-12    0.524167
2020-01-19   -0.041006
2020-01-26    0.419134
2020-02-02   -0.185249
2020-02-09   -0.244474
2020-02-16   -0.592162
2020-02-23   -0.076485
2020-03-01   -0.627297
2020-03-08   -0.223782
2020-03-15   -0.305585
2020-03-22    0.300772
2020-03-29    0.287157
2020-04-05    0.623550
2020-04-12    0.058576
Freq: W-SUN, dtype: float64

In [180]:
ts.resample('M').first()

2020-01-31    1.867558
2020-02-29    0.156349
2020-03-31    0.177426
2020-04-30    0.706573
Freq: M, dtype: float64

In [181]:
# up-sampling
## ffill() : forward filling. 앞에서 나온 데이터를 그대로 사용.
## bfill() : backward filling. 뒤에서 나올 데이터를 앞에서 미리 사용

ts.resample('30s').ffill().head(20)
ts.resample('30s').bfill().head(20)

2020-01-01 00:00:00    1.867558
2020-01-01 00:00:30    1.867558
2020-01-01 00:01:00    1.867558
2020-01-01 00:01:30    1.867558
2020-01-01 00:02:00    1.867558
2020-01-01 00:02:30    1.867558
2020-01-01 00:03:00    1.867558
2020-01-01 00:03:30    1.867558
2020-01-01 00:04:00    1.867558
2020-01-01 00:04:30    1.867558
2020-01-01 00:05:00    1.867558
2020-01-01 00:05:30    1.867558
2020-01-01 00:06:00    1.867558
2020-01-01 00:06:30    1.867558
2020-01-01 00:07:00    1.867558
2020-01-01 00:07:30    1.867558
2020-01-01 00:08:00    1.867558
2020-01-01 00:08:30    1.867558
2020-01-01 00:09:00    1.867558
2020-01-01 00:09:30    1.867558
Freq: 30S, dtype: float64