<a href="https://colab.research.google.com/github/Junjaee/Study/blob/main/Python_Data_Analytics_Library/02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## PANDAS에서 제공하는 대표적인 자료구조

- 1) Series
  - 값 + index
- 2) DataFrame
  - 여러 개의 Series를 묶어놓은 형태
- 3) https://pandas.pydata.org
  

In [1]:
import pandas as pd
import numpy as np

### 1. Series 

In [4]:
s = pd.Series([9904312, 34487377, 2890451, 2466052])
print(s)
print(type(s))

0     9904312
1    34487377
2     2890451
3     2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 34487377, 2890451, 2466052]):
  print(i)

(0, 9904312)
(1, 34487377)
(2, 2890451)
(3, 2466052)


In [25]:
#### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index = ["서울", "부산", "인천", "대구"])
print(s)

print("=====================================")

print(s.values)
print(s.index)

print("=====================================")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("=====================================")

# Series 전체에 이름 지정
s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [10]:
#### 벡터화 연산

s1 = s / 1000000

In [26]:
#### 인덱싱

print(s[1], s["부산"])

print("=====================================")

print(s[[0, 3, 1]], s[["서울", "대구", "부산"]])

print("=====================================")

print(s[(s>250e4) & (s<500e4)])

print("=====================================")

print(s[1:3])
print(s["부산" : "대구"])

3448737 3448737
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [28]:
#### Series와 dict

print("서울" in s)
print("대전" in s)

print("=====================================")

print(list(s.items()))
for k, v in s.items():
  print("%s = %d"%(k, v))
  
print("=====================================")

s2 = pd.Series({"서울" : 9631482, "부산" : 3448737, "인천" : 2632035, "대전" : 1490158})
print(s2)

True
False
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [32]:
#### 인덱스 기반 연산
print(s)

print("=====================================")

print(s2)

print("=====================================")

result = s - s2
print(s - s2)

print("=====================================")

print(s.values - s2.values)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
[272830      0 258416 975894]


In [43]:
#### 결측치 제거

print(result)
print(result.notnull())
print(result[result.notnull()])

print("=====================================")

# s와 s2 데이터를 이용해서 인구 증가율 : (끝 연도 - 시작연도) / 시작연도 * 100

result2 = ((s2-s)/s*100)[((s2-s)/s*100).notnull()]

print((s2-s)/s*100)

print(((s2-s)/s*100)[((s2-s)/s*100).notnull()])

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [45]:
#### 데이터를 수정, 삭제, 갱신

result2["부산"] = 1.63
print(result2)

result2["대구"] = 1.41
print(result2)

del result2["서울"] # 삭제
print(result2)

부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### 2. DataFrame

In [47]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [48]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [49]:
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


#### 1) 컬럼의 위치(순서) 바꾸기

In [53]:
cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]

df = pd.DataFrame(data, columns = cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


#### 2) 인덱스 변경

In [54]:
idx = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data, columns = cols, index = idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [55]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [56]:
#### 컬럼과 인덱스에 이름 부여

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [57]:
#### 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### 3) 인덱싱

In [62]:
#### 열 인덱싱

print(df)
print("=====================================")

print(df["지역"])
print(type(df["지역"]))
print("=====================================")
print(df[["지역"]])
print(type(df[["지역"]]))
print("=====================================")
print(df[["2015", "2010"]])

# df[0] : 숫자로 지정 안됨
# df["2010" : "2000"] : 슬라이싱 안됨

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
특성     2015     2010
도시                  
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


In [69]:
#### 행 인덱싱 (2개 이상 데이터를 뽑아올 때 반드시 : 으로 슬라이싱)

print(df[:])
print("=====================================")
print(df[:1])
print("=====================================")
print(df[1:3])
print("=====================================")
print(df["서울" : "부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.01

In [85]:
#### 동시에 행과 열에 접근

df["2005"]["서울"] # 열에 먼저 접근
# df["2005", "서울"] 이건 안됨

print("=====================================")

# 2005년도와 2010년의 서울 인구를 조회
df[["2005", "2010"]][:"서울"]
df.loc['서울',['2005', '2010']]



특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


#### 4) 열 데이터 갱신, 추가, 삭제

In [89]:
# 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

# 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

# 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### 5) 실습1

In [90]:
data = {
    "국어" : [80, 90, 70, 30],
    "영어" : [90, 70, 60, 40],
    "수학" : [90, 60, 80, 70]
}

In [94]:
#### 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성

idx = ["춘향", "몽룡", "향단", "방자"]

df = pd.DataFrame(data, index = idx)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [117]:
#### 2. 모든 학생의 수학 점수를 조회
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [113]:
#### 3. 모든 학생의 국어와 영어 점수를 조회
df[['국어', '영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,80


In [115]:
#### 4. 모든 학생의 각 과목평균점수를 새로운 열(과목평균)로 추가하시오
df["과목평균"] = ((df['국어'] + df['영어'] + df['수학'])/3).round(2)
df

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [116]:
#### 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오
df['영어']['방자'] = 80
df["과목평균"] = ((df['국어'] + df['영어'] + df['수학'])/3).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [108]:
#### 6. 춘향의 점수를 데이터 프레임 형식으로 출력하시오
df[:"춘향"]

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67


In [111]:
#### 7. 향단의 점수를 Series로 출력하시오
df.T['향단']


국어      70.0
영어      60.0
수학      80.0
과목평균    70.0
Name: 향단, dtype: float64

#### 6) 데이터 입출력

- read_csv()
- to_csv()
- read_table()

In [None]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, open
2, 2.22, two
3, 3.33, three

In [None]:
sample1 = pd.read_csv("data/sample1.csv", names = [])
sample1

In [None]:
# 특정한 열을 인덱스로 지정
sample3 = pd.read_csv("data/sample1.csv", index_col = "c1")
sample3

In [None]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

In [None]:
sample3 = pd.read_table("data/sample3.txt", sep = "")
sample3

In [None]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터 포맷의 설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, open
2, 2.22, two
3, 3.33, three

In [None]:
sample4 = pd.read_table("data/sample4.txt", skiprows = [0, 1])
sample4

In [None]:
%%writefile data/sample5.txt
c1, c2, c3
1, 1.11,
2, , two
누락, 3.33, three

In [3]:
sample5 = pd.read_csv("data/sample5.csv", na_values = [" ", "누락"])
sample5

In [None]:
# csv로 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep = "|")
df.to_csv("data/sample8.csv", index = False, header = False)
sample5.to_csv("data/sample9.txt", sep = ":", na_rep = "누락")

#### 7) Indexer

- loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
- iloc : 순서를 나타내는 정수 기반의 인덱서
- ix
- at
- iat

##### - loc

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index = ["a", "b", "c"],
                  columns = ["A", "B", "C", "D"])

df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [3]:
#### 첫번째 행 추출

print(df[:1])
print(df[:"a"])

print("="*40)

print(df.loc["a"])
print(type(df.loc["a"]))

print("="*40)

print(df.loc[df.A > 15])

print("="*40)

def select_row(df, num):
  return df.A > num

print(df.loc[select_row(df, 15)])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
A    10
B    11
C    12
D    13
Name: a, dtype: int64
<class 'pandas.core.series.Series'>
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


In [24]:
#### 행과 열을 모두 사용할 경우

# b행 A열에 있는 하나의 값을 추출
print(df["B"]["b"])

print("="*40)

print(df.loc["b"]["B"])
print(df.loc["b", "B"])

print("="*40)

print(df.loc["b":, "B":])
print(df.loc[["a", "c"], ["B", "C"]])

# 모든 항에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 조회
print(df.loc[:, df.loc["a", :] <= 11])


15
15
15
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20
    A   B
a  10  11
b  14  15
c  18  19
A     True
B     True
C    False
D    False
Name: a, dtype: bool


##### - iloc

In [34]:
print(df["A"])
# df[0]

print("="*40)

# df.loc[0, 0]
print(df.loc["a", "A"])

print("="*40)

print(df.iloc[0, 0])
print(df.iloc[:2, 2])
print(df.iloc[0, -2:])

print(df.iloc[2, 2:3])

a    10
b    14
c    18
Name: A, dtype: int64
10
10
a    12
b    16
Name: C, dtype: int64
C    12
D    13
Name: a, dtype: int64
C    20
Name: c, dtype: int64


In [43]:
print(df.iloc[[2], [1,2]])
print(df.iloc[2: , 1:3])

    B   C
c  19  20
    B   C
c  19  20


##### - at

In [46]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]

# at의 속도가 더 빠르다

The slowest run took 32.45 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 7.77 µs per loop
The slowest run took 14.12 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 4.61 µs per loop


### 3. Data Manipulation

#### 1) 데이터의 갯수 세기

In [50]:
#### Series에서 갯수 세기

s = pd.Series(range(10))
s
s.count()

s[3] = np.nan
s
s.count()
# nan 은 세지 않는다

9

In [55]:
#### DataFrame에서 갯수 세기

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
df
df.count()

df.iloc[2, 3] = np.nan
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [57]:
#### titanic

import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

#### 2) 카테고리별 갯수 세기

In [61]:
np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size = 100))
print(s2)

print(s2.value_counts())

print(df.value_counts()) # 데이터 프레임에서는 불가능 -> Series로 바꿔서 뽑자

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64
1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64
0    1    2    3  
4.0  3.0  4.0  2.0    1
3.0  0.0  2.0  1.0    1
0.0  0.0  3.0  2.0    1
dtype: int64


#### 3) 정렬

- sort_index()
- sort_value()

In [7]:
# Series를 이용한 정렬

np.random.seed(1)
s = pd.Series(np.random.randint(6, size = 100))

s.value_counts().sort_index()
s.value_counts().sort_values()
s.sort_values()
s.sort_values(ascending = False)

0     5
11    5
46    5
40    5
71    5
     ..
28    0
85    0
39    0
38    0
57    0
Length: 100, dtype: int64

In [31]:
# DataFrame을 이용한 정렬

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size = (4, 4)), dtype = float)
print(df)
print("="*40)

print(df.sort_values(by = 2)) # 2번 컬럼을 기준으로 정렬
print(df.sort_values(by = [1, 2])) # 1번 컬럼 우선 정렬, 동률시 2번 컬럼으로 정렬

print("="*40)

df1 = pd.DataFrame({
    "seq" : [1, 3, 2], "name" : ["park", "lee", "choi"], "age" : [30, 20, 40]
})

print(df1)

print("="*40)

# seq를 기준으로 정렬(내림차순)
print(df1.sort_values(by = "seq", ascending = False, axis = 0))
print("="*40)

# index를 기준으로 정렬
print(df1.sort_index())
print(df1.sort_index(axis = 0))
print(df1.sort_index(axis = 1))
print(df1.sort_index(axis = 1, ascending = False))
print("="*40)

# inplace
print(df1.sort_index(axis = 1))
print(df1) # 원본에 적용되어 있지 않다

df1 = df1.sort_index(axis = 1)
print(df1)

df1.sort_values(by = ["seq", "name"], axis = 0, ascending = False, inplace = True)
print(df1)
print("="*40)

# 결측치의 위치 선정
df2 = pd.DataFrame({
    "seq" : [1, np.nan, 2], "name" : ["pakr", "lee", " choi"], "age" : [30, 20, 40]
})

print(df2)

print(df2.sort_values(by = "seq"))
print(df2.sort_values(by = "seq", na_position = "first"))

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   seq  name  age
1    3   lee   20
2    2  choi   40
0    1  park   30
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   age  name  seq
0   30  park    1
1   20   lee    3
2   40  choi    2
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   age  name  seq
0   30  park    1
1   20   lee    3
2   40  choi    2
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   age  name  seq
0   30  park    1
1   20   lee    3
2   40  choi    2
   age  name  seq
1   

#### 4) 행, 열의 합계

In [41]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size = (4, 8)))
print(df)

print("="*40)

print(df.sum())
print(df.sum(axis = 0))

df.loc["ColSum", :] = df.sum()
print(df)

df.loc[:,"RowSum"] = df.sum(axis = 1)
print(df)

   0  1  2  3  4  5  6  7
0  5  8  9  5  0  0  1  7
1  6  9  2  4  5  2  4  2
2  4  7  7  9  1  7  0  6
3  9  9  7  6  9  1  0  1
0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64
0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64
           0     1     2     3     4     5    6     7
0        5.0   8.0   9.0   5.0   0.0   0.0  1.0   7.0
1        6.0   9.0   2.0   4.0   5.0   2.0  4.0   2.0
2        4.0   7.0   7.0   9.0   1.0   7.0  0.0   6.0
3        9.0   9.0   7.0   6.0   9.0   1.0  0.0   1.0
ColSum  24.0  33.0  25.0  24.0  15.0  10.0  5.0  16.0
           0     1     2     3     4     5    6     7  RowSum
0        5.0   8.0   9.0   5.0   0.0   0.0  1.0   7.0    35.0
1        6.0   9.0   2.0   4.0   5.0   2.0  4.0   2.0    34.0
2        4.0   7.0   7.0   9.0   1.0   7.0  0.0   6.0    41.0
3        9.0   9.0   7.0   6.0   9.0   1.0  0.0   1.0    42.0
ColSum  24.0  33.0  25.0  24.0  15.0  10.0  5.0  16.0   152.0


#### 5) apply()

- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넢으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [42]:
df = pd.DataFrame({
    "A" : [1, 3, 4, 3, 4],
    "B" : [2, 3, 1, 2, 3],
    "C" : [1, 5, 2, 4, 4]
})
print(df)

   A  B  C
0  1  2  1
1  3  3  5
2  4  1  2
3  3  2  4
4  4  3  4


In [46]:
#### 각 열(행)별로 최대값에서 최소값을 뺀 값을 구하고자 한다

def diff(x):
  return x.max() - x.min()

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("="*40)

print(df.apply(diff, axis = 0))
print(df.apply(diff, axis = 1))

3
2
4
A    3
B    2
C    4
dtype: int64
0    1
1    2
2    3
3    2
4    1
dtype: int64


In [47]:
#### 람다 함수
df.apply(lambda x : x.max() - x.min(), axis = 0)

A    3
B    2
C    4
dtype: int64

In [53]:
#### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회 : value_counts()

print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())
print("="*40)

print(df.apply(pd.value_counts, axis = 0).fillna(0))

4    2
3    2
1    1
Name: A, dtype: int64
3    2
2    2
1    1
Name: B, dtype: int64
4    2
5    1
2    1
1    1
Name: C, dtype: int64
     A    B    C
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0


#### 6) 실수값을 카테고리로 변경(양적 데이터 -> 질적 데이터)

- cut()
- qcut()

In [54]:
# 1 ~ 15 : 미성년자, 16 ~ 25 : 청년, 26 ~ 35 : 중년, 36 ~ 60 : 장년, 61 ~ 99 : 노년

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x = ages, bins = [1, 15, 25, 35, 60, 99], labels = ["미성년자", "청년", "중년", "장년", "노년"])
print(cat)


[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']


In [56]:
print(type(cat))
print(cat.categories)
print(cat.codes)

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [59]:
df = pd.DataFrame(ages, columns = ["ages"])
df 

df["age_cat"] = cat
df

df["age_cat_num"] = cat.codes
df

Unnamed: 0,ages,age_cat,age_cat_num
0,0,,-1
1,2,미성년자,0
2,10,미성년자,0
3,21,청년,1
4,23,청년,1
5,37,장년,3
6,31,중년,2
7,61,노년,4
8,20,청년,1
9,41,장년,3


In [61]:
#### qcut()

data = np.random.randn(100)
cat1 = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cat1
pd.value_counts(cat1)

Q4    25
Q3    25
Q2    25
Q1    25
dtype: int64

### 4. Index Manipulation

#### 1) set_index(), reset_index()

In [67]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
             columns = ["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [68]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [72]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [74]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [76]:
# 기존 index는 drop 시키기
df2.reset_index(drop = True)

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


#### 2) 다중 인덱스 조작

In [79]:
np.random.seed(0)

df2 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
             columns = [["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])

df2

df2.columns.names = ["Cidx1", "Cidx2"]
df2

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [89]:
# 인덱싱

df2[("A", "C1")]
df2[("B", "C1")]
df2[("B", "C2")]

print(df2[("B", "C1")][0])
print(df2[("B", "C1")][0:])

print("="*40)

print(df2.loc[0, ("B", "C1")])
print(df2.loc[0:, ("B", "C1")])

print("="*40)

print(df2.iloc[0:, 2])

1.0
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
1.0
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object


In [96]:
# 다중 컬럼과 다중 인덱스

df3 = pd.DataFrame(np.round(np.random.rand(6, 4), 2),
                   columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                   index = [["M", "M", "M", "F", "F", "F"], 
                            ["id_" + str(i+1) for i in range(3)] * 2])
df3

df3.columns.names = ["Cidx1", "Cidx2"]
df3.index.names = ["Ridx1", "Ridx2"]
df3

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.59,0.57,0.65,0.65
M,id_2,0.43,0.9,0.37,0.44
M,id_3,0.89,0.81,0.7,0.1
F,id_1,0.92,0.71,1.0,0.15
F,id_2,0.87,0.16,0.62,0.12
F,id_3,0.85,0.81,0.57,0.41


In [103]:
#### 행 인덱스와 열 인덱스를 교환 : stack(), unstack()

print(df3.T)

print("="*40)

print(df3.stack("Cidx1"))
print(df3.stack(1))

print("="*40)

print(df3.unstack("Ridx1"))
print(df3.unstack(1))

Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.59  0.43  0.89  0.92  0.87  0.85
      D      0.57  0.90  0.81  0.71  0.16  0.81
B     C      0.65  0.37  0.70  1.00  0.62  0.57
      D      0.65  0.44  0.10  0.15  0.12  0.41
Cidx2                 C     D
Ridx1 Ridx2 Cidx1            
M     id_1  A      0.59  0.57
            B      0.65  0.65
      id_2  A      0.43  0.90
            B      0.37  0.44
      id_3  A      0.89  0.81
            B      0.70  0.10
F     id_1  A      0.92  0.71
            B      1.00  0.15
      id_2  A      0.87  0.16
            B      0.62  0.12
      id_3  A      0.85  0.81
            B      0.57  0.41
Cidx1                 A     B
Ridx1 Ridx2 Cidx2            
M     id_1  C      0.59  0.65
            D      0.57  0.65
      id_2  C      0.43  0.37
            D      0.90  0.44
      id_3  C      0.89  0.70
            D      0.81  0.10
F   

In [113]:
#### 인덱싱

print(df3)
print("="*40)

# 첫번째 행과 첫번째 열에 있는 0.24값을 출력
print(df3.loc[("M", "id_1"), ("A", "C")])
print("="*40)

# 첫번째 열에 있는 0.24 ~ 0.43까지 출력
print(df3.iloc[:5, 0])
print("="*40)

# 첫번째 행에 모든 컬럼값들을 출력
print(df3.loc[("M", "id_1"), :])
print("="*40)

# 맨 마지막 행에 "All"이라는 인덱스를 추가하여 각 열의 합을 출력
df3.loc[("ALL", "ALL"), :] = df3.sum()
df3

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.59  0.57  0.65  0.65
      id_2   0.43  0.90  0.37  0.44
      id_3   0.89  0.81  0.70  0.10
F     id_1   0.92  0.71  1.00  0.15
      id_2   0.87  0.16  0.62  0.12
      id_3   0.85  0.81  0.57  0.41
0.59
Ridx1  Ridx2
M      id_1     0.59
       id_2     0.43
       id_3     0.89
F      id_1     0.92
       id_2     0.87
Name: (A, C), dtype: float64
Cidx1  Cidx2
A      C        0.59
       D        0.57
B      C        0.65
       D        0.65
Name: (M, id_1), dtype: float64


Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.59,0.57,0.65,0.65
M,id_2,0.43,0.9,0.37,0.44
M,id_3,0.89,0.81,0.7,0.1
F,id_1,0.92,0.71,1.0,0.15
F,id_2,0.87,0.16,0.62,0.12
F,id_3,0.85,0.81,0.57,0.41
ALL,ALL,4.55,3.96,3.91,1.87


In [115]:
#### 순서 교환 : swaplevel(i, j, axis = 0)

df4 = df3.swaplevel("Ridx1", "Ridx2")
df4

df5 = df3.swaplevel("Cidx1", "Cidx2", axis = 1)
df5

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.59,0.57,0.65,0.65
M,id_2,0.43,0.9,0.37,0.44
M,id_3,0.89,0.81,0.7,0.1
F,id_1,0.92,0.71,1.0,0.15
F,id_2,0.87,0.16,0.62,0.12
F,id_3,0.85,0.81,0.57,0.41
ALL,ALL,4.55,3.96,3.91,1.87


In [131]:
#### 정렬 : sort_index(level)

print(df3)
print("="*40)

print(df3.sort_index(level = 0))
print(df3.sort_index(level = 1))

print("="*40)

print(df3.sort_index(level = 0, axis = 1))
print(df3.sort_index(level = 1, axis = 1))


Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.59  0.57  0.65  0.65
      id_2   0.43  0.90  0.37  0.44
      id_3   0.89  0.81  0.70  0.10
F     id_1   0.92  0.71  1.00  0.15
      id_2   0.87  0.16  0.62  0.12
      id_3   0.85  0.81  0.57  0.41
ALL   ALL    4.55  3.96  3.91  1.87
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    4.55  3.96  3.91  1.87
F     id_1   0.92  0.71  1.00  0.15
      id_2   0.87  0.16  0.62  0.12
      id_3   0.85  0.81  0.57  0.41
M     id_1   0.59  0.57  0.65  0.65
      id_2   0.43  0.90  0.37  0.44
      id_3   0.89  0.81  0.70  0.10
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    4.55  3.96  3.91  1.87
F     id_1   0.92  0.71  1.00  0.15
M     id_1   0.59  0.57  0.65  0.65
F     id_2   0.87  0.16  0.62  0.12
M     id_2   0.43  0.90  0.3

#### 3) 실습

In [132]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [None]:
#### 1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"를 가지는 데이터 프레임 작성
df_score1 = df_score1.set_index(["반", "번호"])
df_score1

In [None]:
df_score1.sore_index

In [None]:
#### 2. 학생의 평균을 나타내는 행을 오른쪽에 추가
df_score1["평균"] = df_score1.mean(axis = 1)
df_score1

In [None]:
#### 3. 행 인덱스로 "번호"를 1차 열 인덱스로 "국어", " 영어", " 수학"을, 2차 열 인덱스로 "반"을 가지는 데이터 프레임 작성
df_score1 = df_score1.unstack("반")
df_score1

In [None]:
#### 4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가
df_score1.loc[("평균"), :] = df_score1.mean(axis = 0)
df_score1

### 5. 데이터 프레임 합성(병합)

- merge()
    - 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다
    - 이 때 기준이 되는 열, 행의 데이트럴 key라고 한다
- concat()
    - 기준열을 사용하지 않고 단순히 데이터를 연결

#### 1) merge()

In [133]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [135]:
pd.merge(df1, df2)
pd.merge(df1, df2, how = "left")
pd.merge(df1, df2, how = "right")
pd.merge(df1, df2, how = "outer")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [138]:
#### 키가 여러 개인 경우 

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("="*40)
print(df2)

print("="*40)

pd.merge(df1, df2, on = "고객명")

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
  고객명 데이터
0  춘향  여자
1  몽룡  남자


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [140]:
#### 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("="*40)
print(df2)

print("="*40)

pd.merge(df1, df2, left_on = "이름", right_on = "성명")

   이름  성적
0  영희   1
1  철수   2
2  철수   3
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [143]:
#### 인덱스를 기준 열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스)
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2

print("="*40)

pd.merge(df1, df2, left_on = ["도시", "연도"], right_index = True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [149]:
#### 인덱스를 기준 열로 사용하는 경우(둘 다 인덱스인 경우)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")
print("="*40)

pd.merge(df1, df2, left_index = True, right_index = True)
pd.merge(df1, df2, left_index = True, right_index = True, how = "outer")

# merge 대신에 join() 사용 가능
df1.join(df2, how = "outer")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### 2) concat()

In [152]:
#### Series에서 사용

s1 = pd.Series([0, 1], index = ["A", "B"])
s2 = pd.Series([2, 3, 4], index = ["A", "B", "C"])

print(s1)
print(s2)
print("="*40)

pd.concat([s1, s2])
pd.concat([s1, s2], axis = 1)

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64


Unnamed: 0,0,1
A,0.0,2
B,1.0,3
C,,4


In [155]:
#### DataFrame에서 사용
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])

print(df1)

print("-------------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])

print(df2)

print("-------------------------------------")
print("="*40)

print(pd.concat([df1, df2], axis = 0))
print(pd.concat([df1, df2], axis = 1))

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-------------------------------------
   데이터3  데이터4
a     5     6
c     7     8
-------------------------------------
   데이터1  데이터2  데이터3  데이터4
a   0.0   1.0   NaN   NaN
b   2.0   3.0   NaN   NaN
c   4.0   5.0   NaN   NaN
a   NaN   NaN   5.0   6.0
c   NaN   NaN   7.0   8.0
   데이터1  데이터2  데이터3  데이터4
a     0     1   5.0   6.0
b     2     3   NaN   NaN
c     4     5   7.0   8.0


### 6. 피봇 테이블과 그룹 분석

- pivot()
    - DataFrame.pivot(index=None, columns=None, values=None)
- groupby()
    - DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=`<object object>`, observed=False, dropna=True)
- pivot_table()
    - DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)

#### 1) pivot()

In [9]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [12]:
#### 각 도시에서 연도별로 인구 수를 알고싶다

df.pivot(index = "도시", columns = "연도", values = "인구")
pd.pivot(data = df, index = "도시", columns = "연도", values = "인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [17]:
df[['도시', '연도', '인구']].set_index(['도시', '연도']).unstack('연도')

df.set_index(["도시", "연도"])[["인구"]].unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### 2) groupby()

- 반드시 집계함수와 같이 사용
      size(), count()
      mean(), median(), min(), max()
      sum(), prod(), std(), var(), quantile()
      first(), last()
      agg(), aggregate()
      describe()
      apply()
      transform()

In [18]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [22]:
g = df2.groupby(by = "key1")
print(g)
print(g.sum())

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f260631fb50>
      data1  data2
key1              
A         8     80
B         7     70


In [27]:
#### 다양한 사용 방법

print(df2.groupby("key1").sum())
print("="*40)
print(df2.data1.groupby(df2.key1).sum())
print("="*40)
print(df2.groupby("key1")["data1"].sum())
print("="*40)
print(df2.groupby("key1").sum()["data1"])
print("="*40)
print(df2.groupby("key1").sum()[["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
      data1
key1       
A         8
B         7


In [31]:
#### 복합 키

print(df2.data1.groupby([df2.key1, df2.key2]).sum())
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()

# df를 이용하여 각 도시에서 연도별로 인구수를 조회
df.인구.groupby([df.도시, df.연도]).sum().unstack("연도")

# 지역별 합계
df.groupby(by = ["지역", "연도"]).sum().unstack("연도")
df.groupby(["지역", "연도"])[["인구"]].sum().unstack()
df.groupby([df["지역"], df["연도"]]).sum().unstack()
df["인구"].groupby([df["지역"], df["연도"]]).sum().unstack()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64


연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [52]:
#### apply, agg, transform

import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [34]:
def test(x):
  return 1

################################

g = iris.groupby("species")

print(g.apply(test))
print("="*40)
print(g.agg(test))
print("="*40)
print(g.transform(test))

species
setosa        1
versicolor    1
virginica     1
dtype: int64
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               1.0          1.0           1.0          1.0
versicolor           1.0          1.0           1.0          1.0
virginica            1.0          1.0           1.0          1.0
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1            1
146             1            1             1            1
147             1            1             1            1
148             1         

In [38]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율을 조회

def peak_to_peak_ratio(x):
  return x.max() / x.min()

#####################################

print(iris.groupby(iris.species).apply(peak_to_peak_ratio))
print("="*40)
print(iris.groupby(iris.species).agg(peak_to_peak_ratio))
print("="*40)
print(iris.groupby(iris.species).transform(peak_to_peak_ratio))

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      1.900000     6.000000
3        1.348837     1.913043      1.900000     6.000000
4        1.348837     1.913043      1.900000     6.000000
..

In [43]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은 것 3개만 조회

def min3(x):
  return x.sort_values(by = 'petal_length')[:3]

#######################################

print(iris.groupby(iris.species).apply(min3))
print("="*40)
# print(iris.groupby(iris.species).agg(min3))

                sepal_length  sepal_width  ...  petal_width     species
species                                    ...                         
setosa     22            4.6          3.6  ...          0.2      setosa
           13            4.3          3.0  ...          0.1      setosa
           14            5.8          4.0  ...          0.2      setosa
versicolor 98            5.1          2.5  ...          1.1  versicolor
           93            5.0          2.3  ...          1.0  versicolor
           57            4.9          2.4  ...          1.0  versicolor
virginica  106           4.9          2.5  ...          1.7   virginica
           126           6.2          2.8  ...          1.8   virginica
           138           6.0          3.0  ...          1.8   virginica

[9 rows x 5 columns]


In [44]:
iris.groupby("species").agg([np.sum, np.mean, np.std, peak_to_peak_ratio])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


In [None]:
def func_qcut(x):
  return pd.qcut(x, 3, labels = ["대", "중", "소"])

###################################################

# iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(func_qcut)

# iris.head()

In [60]:
iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].apply(func_qcut)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


In [71]:
#### 연습 문제
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

print(df)

print("="*40)

# 1) 도시별로 과일의 가격 평균과 수량 평균을 구하시오
print(df.groupby("city").mean())

# 2) 도시별, 과일별 가격 평균과 수량 평균을 구하시오
print(df.groupby(["city","fruits"]).mean())

# 3) 위의 문제에서 도시별, 과일별을 인덱스로 하고 싶지 않은 경우
print(df.groupby(["city","fruits"], as_index=False).mean())

# 4) 도시별로 가격의 평균과 수량의 합계를 동시에 구하시오
# print(df.groupby("city").agg([np.mean, np.sum]))
print(df.groupby("city").agg({"price":np.mean, "quantity":np.sum}))

  city  fruits  price  quantity
0   부산   apple    100         1
1   부산  orange    200         2
2   부산  banana    250         3
3   부산  banana    300         4
4   서울   apple    150         5
5   서울   apple    200         6
6   서울  banana    400         7
      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0
      price  quantity
city                 
부산    212.5        10
서울    250.0        18
      price      quantity    
       mean  sum     mean sum
city                         
부산    212.5  850      2.5  10
서울    250.0  750      6.0  18


#### 3) pivot_table()

- values : 분석할 데이터 프레임에서 분석할 열
- aggfunc : 분석할 메서드
- fill_value : NaN 대체값
- dropna : NaN에 해당하는 값을 버릴지 여부
- margins : 행과 열 끝에 소계 추가

In [72]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [76]:
#### 각 도기에서 연도별로 인구 수를 알고싶다

df.pivot("도시", "연도", "인구")
df.groupby(["도시", "연도"])[["인구"]].sum().unstack("연도")

df.pivot_table(values = "인구", index = "도시", columns = "연도")
df.pivot_table("인구", "도시", "연도")
pd.pivot_table(df, "인구", "도시", "연도")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [82]:
#### 연도별, 도시별로 인구 수를 알고싶다

print(df.groupby(["연도", "도시"])[["인구"]].mean())
print("="*40)
print(df.pivot_table("인구", ["연도", "도시"]))

              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451
              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451


In [87]:
#### 각 도시에서 연도별로 인구 수를 알고싶다
df.pivot_table("인구", "도시", "연도", aggfunc = "sum", margins = True, margins_name = "합계", fill_value = 0)

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


### 7. 활용 예제

#### 1) 데이터 준비

In [2]:
import seaborn as sns

tips = sns.load_dataset("tips")
tips.head()
tips.tail()
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [3]:
#식사 대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct를 추가
tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [4]:
#성별로 인원수 파악
tips.groupby("sex").count()
tips.groupby("sex").size()

sex
Male      157
Female     87
dtype: int64

In [5]:
#성별, 흡연 유무별로 인원수 파악
#tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="count", margins=True)
tips.groupby(["sex","smoker"]).count()
tips.groupby(["sex","smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [11]:
#위의 두 정보를 하나의 테이블로 출력(pivot_table 사용)
tips.pivot_table("tip_pct",["sex","smoker"])
# tips.pivot_table("tip_pct",["sex","smoker"],aggfunc="count", margins=True,margins_name="합계")
tips.pivot_table(values = "tip_pct", index = "sex", columns = "smoker")
tips.pivot_table(values = "tip_pct", index = ["sex", "smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [16]:
#성별에 따른 평균 평균 팁 비율
# tips.groupby("sex")[["tip_pct"]].describe()
tips.groupby("sex")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [13]:
#흡연 여부에 따른 팁 비율
tips.groupby("smoker")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [14]:
#팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴보자.
tips.pivot_table("tip_pct","day")
tips.pivot_table("tip_pct","time")
tips.pivot_table("tip_pct","size")

tips.pivot_table("tip_pct",["day","time","size"])
tips.groupby(["day","time","size"])[["tip_pct"]].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [15]:
#성별,흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이

def peak_to_peak(x):
    return x.max() - x.min()
tips.groupby(["sex","smoker"])[["tip"]].agg(peak_to_peak)
tips.groupby(["sex","smoker"])[["tip"]].apply(peak_to_peak)
#tips.groupby(["sex","smoker"])[["tip"]].transform(peak_to_peak)
tips.groupby(["sex","smoker"]).agg({"tip_pct":"mean","total_bill":peak_to_peak})

tips.pivot_table(["tip_pct", "size"], ["sex", "day"], "smoker")
tips.pivot_table("size", ["time", "sex", "smoker"], "day", aggfunc = "sum", fill_value = 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


#### 2) 데이터 준비

In [17]:
titanic = sns.load_dataset("titanic")
titanic.count()
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [20]:
##### 나이대별 클래스를 만들어서 파생변수로 추가(age_class)
# 1,20,60,100으로 3등분해서 미성년, 성년, 노년으로 분류

titanic["age_class"] = pd.qcut(titanic["age"], 3, labels = ["미성년", "성년", "노년"])
titanic.head(10)

bins = [1, 20, 60, 100]
labels = ["미성년", "성년", "노년"]
titanic["age_class2"] = pd.cut(titanic["age"], bins = bins, labels = labels)
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class,age_class2
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,미성년,성년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,노년,성년
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,성년,성년
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,노년,성년
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,노년,성년
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,,
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,노년,성년
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,미성년,미성년
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,성년,성년
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,미성년,미성년


In [22]:
##### 성별 , 나이대별, 객실별로 생존여부의 평균값 조회
titanic.groupby(["sex", "age_class2", "pclass"])[["survived"]].mean()
titanic.groupby(["sex", "age_class2", "pclass"])[["survived"]].mean().unstack("pclass")
titanic.pivot_table("survived", ["sex", "pclass"])

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
sex,pclass,Unnamed: 2_level_1
female,1,0.968085
female,2,0.921053
female,3,0.5
male,1,0.368852
male,2,0.157407
male,3,0.135447


#### 8. 시계열 데이터

- DateTimeIndex 자료형
      - pd.to_datetime() : 문자열을 날짜 타입으로 변환
      - pd.date_range() : 날짜의 범위

In [95]:
date_str = ["2021, 1, 1", "2021, 1, 4", "2021, 1, 6", "2021, 1, 9"]

idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2021-01-01', '2021-01-04', '2021-01-06', '2021-01-09'], dtype='datetime64[ns]', freq=None)

In [92]:
# 날짜를 인덱스로 활용

np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2021-01-01    1.764052
2021-01-04    0.400157
2021-01-06    0.978738
2021-01-09    2.240893
dtype: float64

In [100]:
# 날짜 데이터 생성
pd.date_range("2020-1-1","2020-4-30")
pd.date_range("2020-1-1",periods = 30)
# freq = 'D' 일수를 기준으로 반복했다

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-18', '2020-01-19', '2020-01-20',
               '2020-01-21', '2020-01-22', '2020-01-23', '2020-01-24',
               '2020-01-25', '2020-01-26', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
"""
freq
    S : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

In [101]:
pd.date_range("2021-1-1","2021-1-31",freq="B")

DatetimeIndex(['2021-01-01', '2021-01-04', '2021-01-05', '2021-01-06',
               '2021-01-07', '2021-01-08', '2021-01-11', '2021-01-12',
               '2021-01-13', '2021-01-14', '2021-01-15', '2021-01-18',
               '2021-01-19', '2021-01-20', '2021-01-21', '2021-01-22',
               '2021-01-25', '2021-01-26', '2021-01-27', '2021-01-28',
               '2021-01-29'],
              dtype='datetime64[ns]', freq='B')

In [104]:
#### shift 연산

np.random.seed(0)
ts = pd.Series(np.random.randn(4),index=pd.date_range("2021-1,1",periods=4, freq="M"))

print(ts)
print("="*40)
print(ts.shift(1))
print("="*40)
print(ts.shift(-1))
print("="*40)

print(ts.shift(1, freq="M"))

print("="*40)

print(ts.shift(1, freq="W"))

2021-01-31    1.764052
2021-02-28    0.400157
2021-03-31    0.978738
2021-04-30    2.240893
Freq: M, dtype: float64
2021-01-31         NaN
2021-02-28    1.764052
2021-03-31    0.400157
2021-04-30    0.978738
Freq: M, dtype: float64
2021-01-31    0.400157
2021-02-28    0.978738
2021-03-31    2.240893
2021-04-30         NaN
Freq: M, dtype: float64
2021-02-28    1.764052
2021-03-31    0.400157
2021-04-30    0.978738
2021-05-31    2.240893
Freq: M, dtype: float64
2021-02-07    1.764052
2021-03-07    0.400157
2021-04-04    0.978738
2021-05-02    2.240893
dtype: float64


In [112]:
#### resampling :시간 간격을 다시 재조정
#### 시간구간이 작아지면 데이터 양이 증가 : 업-샘플링
#### 시간 구간이 커지면 데이터 양이 감소 : 다운-샘플링

ts= pd.Series(np.random.randn(100), index=pd.date_range("2021-1-1",periods=100, freq="D"))

print(ts.tail(10))

print("="*40)

#### 다운 샘플링 : 데이터가 그룹으로 묶이기 때문에 집계 연산을 해서 대표값을 구해야 한다

print(ts.resample("W").mean())

print("="*40)

print(ts.resample("M").mean())

print("="*40)

ts= pd.Series(np.random.randn(60), index=pd.date_range("2021-1-1",periods=60, freq="T"))
ts
print(ts.resample("10T").sum())

2021-04-01   -0.532703
2021-04-02    1.090750
2021-04-03   -0.346249
2021-04-04   -0.794636
2021-04-05    0.197967
2021-04-06    1.081935
2021-04-07   -1.444940
2021-04-08   -1.210543
2021-04-09   -0.788669
2021-04-10    1.094638
Freq: D, dtype: float64
2021-01-03   -0.702170
2021-01-10   -0.495660
2021-01-17    0.183109
2021-01-24   -0.093654
2021-01-31   -0.174310
2021-02-07    0.456463
2021-02-14   -0.161245
2021-02-21    0.147296
2021-02-28   -0.635044
2021-03-07   -0.224454
2021-03-14   -0.802170
2021-03-21    0.713130
2021-03-28   -0.044222
2021-04-04   -0.416237
2021-04-11   -0.178269
Freq: W-SUN, dtype: float64
2021-01-31   -0.199036
2021-02-28   -0.048132
2021-03-31   -0.155962
2021-04-30   -0.165245
Freq: M, dtype: float64
2021-01-01 00:00:00    3.733230
2021-01-01 00:10:00   -0.670456
2021-01-01 00:20:00   -3.659101
2021-01-01 00:30:00   -2.256838
2021-01-01 00:40:00    0.255288
2021-01-01 00:50:00   -0.195517
Freq: 10T, dtype: float64


In [116]:
#### up-samling
#### forward filling : 앞에서 나온 데이터를 그대로 사용
#### backward filling : 뒤에서 나올 데이터를 앞에서 미리 사용

print(ts.head(10))
print("="*40)
print(ts.resample("30S").ffill().head(10))
print("="*40)
print(ts.resample("30S").bfill().head(10))

2021-01-01 00:00:00    0.234822
2021-01-01 00:01:00    2.132153
2021-01-01 00:02:00    0.936446
2021-01-01 00:03:00   -0.035095
2021-01-01 00:04:00    1.265078
2021-01-01 00:05:00    0.211497
2021-01-01 00:06:00   -0.704921
2021-01-01 00:07:00    0.679975
2021-01-01 00:08:00   -0.696327
2021-01-01 00:09:00   -0.290397
Freq: T, dtype: float64
2021-01-01 00:00:00    0.234822
2021-01-01 00:00:30    0.234822
2021-01-01 00:01:00    2.132153
2021-01-01 00:01:30    2.132153
2021-01-01 00:02:00    0.936446
2021-01-01 00:02:30    0.936446
2021-01-01 00:03:00   -0.035095
2021-01-01 00:03:30   -0.035095
2021-01-01 00:04:00    1.265078
2021-01-01 00:04:30    1.265078
Freq: 30S, dtype: float64
2021-01-01 00:00:00    0.234822
2021-01-01 00:00:30    2.132153
2021-01-01 00:01:00    2.132153
2021-01-01 00:01:30    0.936446
2021-01-01 00:02:00    0.936446
2021-01-01 00:02:30   -0.035095
2021-01-01 00:03:00   -0.035095
2021-01-01 00:03:30    1.265078
2021-01-01 00:04:00    1.265078
2021-01-01 00:04:30   