In [1]:
import pandas as pd
import numpy as np

## `merge` (두 개 이상의 데이터프레임을 join, 연결)

In [2]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [5]:
df1.품종.value_counts() # 종류 2개

setosa       2
virginica    2
Name: 품종, dtype: int64

In [3]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [6]:
df2.품종.value_counts() # 종류 2개

virginica     2
setosa        1
versicolor    1
Name: 품종, dtype: int64

In [7]:
# 공통을 존재하는 컬럼: 품종
# 같은 열에 동일한 원소가 여러개일 때, 원소들끼리의 모든 경우의 수를 조합
# sql에서 크로스하는 결과와 같다.
pd.merge(df1, df2) 

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [8]:
# 두 df 에서 이름이 같은 열은 모두 연결하는 기준 (키=on)
# 이름은 같아도 키가 안되는 열(이름의 의미가 다름) -> on  무없을 기준으로 할지 명시
# (학생) 수업ID / 이름 (학생의 이름)
# (수업) 수업ID / 이름 (수업의 이름)
# -> on=[수업ID, 이름]
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [9]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [11]:
pd.merge(df1, df2) # 고객명과 데이터를 동시에 일치 없음

Unnamed: 0,고객명,날짜,데이터


In [12]:
pd.merge(df1,df2,on='고객명') # 겹치는 이름을 가진 컬럼을 알아서 불러줌(x,y 붙여서)

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


### 연결하는 기준이 되는 열들의 이름이 다를때

In [13]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [14]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2 # df2['이름'] = df2['성명'], df2.drop...['성명']??, rename...#직접 바꿀때 쓸 수 있는 방법

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [16]:
try:
    pd.merge(df1, df2) # common columns X
except Exception as e:
    print(type(e))
    print(e)

<class 'pandas.errors.MergeError'>
No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False


In [17]:
pd.merge(df1, df2, left_on='이름', right_on='성명') # 이름과 성명 연결

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [20]:
pd.merge(df1, df2, left_on='이름', right_on='성명').drop('성명',axis=1)

Unnamed: 0,이름,성적,성적2
0,영희,1,4
1,영희,1,5
2,철수,2,6
3,철수,3,6


### 인덱스를 기준으로 합치고 싶을때

In [21]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [22]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [24]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [25]:
df2.reset_index()

Unnamed: 0,level_0,level_1,데이터1,데이터2
0,부산,2000,0,1
1,부산,2005,2,3
2,서울,2000,4,5
3,서울,2005,6,7
4,서울,2010,8,9
5,서울,2015,10,11


In [26]:
pd.merge(df1, df2.reset_index(),
         left_on=['도시', '연도'],
         right_on=['level_0', 'level_1']) # merge는 공통 열을 찾음

Unnamed: 0,도시,연도,인구,level_0,level_1,데이터1,데이터2
0,서울,2000,9853972,서울,2000,4,5
1,서울,2005,9762546,서울,2005,6,7
2,서울,2010,9631482,서울,2010,8,9
3,부산,2000,3655437,부산,2000,0,1
4,부산,2005,3512547,부산,2005,2,3


### `join`을 통한 합성

In [28]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [29]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [31]:
try:
    df1.join(df2)
except Exception as e:
    print(type(e))
    print(e)

<class 'ValueError'>
columns overlap but no suffix specified: Index(['품종'], dtype='object')


In [30]:
# dataframe 호출해서 left
df1.join(df2, lsuffix='l') # 행을 기준으로 합침 #보강 필요

Unnamed: 0,품종i,꽃잎길이,품종,꽃잎너비
0,setosa,1.4,setosa,0.4
1,setosa,1.3,virginica,0.3
2,virginica,1.5,virginica,0.5
3,virginica,1.3,versicolor,0.3


In [32]:
df1.join(df2, lsuffix='l', rsuffix='r') # 행을 기준으로 합쳐줌 

Unnamed: 0,품종l,꽃잎길이,품종r,꽃잎너비
0,setosa,1.4,setosa,0.4
1,setosa,1.3,virginica,0.3
2,virginica,1.5,virginica,0.5
3,virginica,1.3,versicolor,0.3


 `merge`
- 두 데이터프레임 사이의 크기가 같을 필요가 없음 (기준이 되는 열, 인덱스를 바탕으로 outer, inner... 내용들을 재구성
- `on` ... -> 어떠한 열을 기준으로 해줄까? `index`...
- 두 개의 데이터가 공통 분모만 있다면 (키) 연결
- 열 기준으로 연결할 필요가 없다? `join` -> 인덱스를 기준

## `concat`
* `merge` : 특정한 열을 기준(또는 인덱스)으로 해서 연결
* `concat` : 기준 열을 사용하지 않고 데이터를 연결(붙임) - np.concatenate, vstack, hstack, ...

In [33]:
s1 = pd.Series([0, 1], index=['A','B'])
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])

In [34]:
s1

A    0
B    1
dtype: int64

In [35]:
s2

A    2
B    3
C    4
dtype: int64

In [36]:
# pd.concat
pd.concat([s1, s2]) # axis=0 위아래로
pd.concat([s1, s2], axis=0)

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [37]:
pd.concat([s1, s2], axis=1) # s1은 2개여서 nan 붙음, 열기준

Unnamed: 0,0,1
A,0.0,2
B,1.0,3
C,,4


# 피벗 테이블과 그룹 분석

## 피봇테이블
* Pivot Table : 데이터 열 중에서 두 개의 열을 각각 행과 열 인덱스로 사용해서 데이터를 조회한 결과
* 엑셀 -> 피봇테이블
* Pandas -> 피봇테이블 `pivot` (행 인덱스로 사용할 열이름, 열 인덱스로 사용할 열 이름)

In [38]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]

In [39]:
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [40]:
# 행인덱스, 열인덱스로 묶어줄 데이터 순서대로 입력
df1.pivot('도시','연도','인구') # 인덱스별 값이 없으면 nan (결측치)

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [42]:
df1.set_index(['도시', '연도'])['인구'] # 시리즈 형태

도시  연도  
서울  2015    9904312
    2010    9631482
    2005    9762546
부산  2015    3448737
    2010    3393191
    2005    3512547
인천  2015    2890451
    2010     263203
Name: 인구, dtype: int64

In [43]:
df1.set_index(['도시', '연도'])[['인구']] #데이터프레임 형태

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,연도,Unnamed: 2_level_1
서울,2015,9904312
서울,2010,9631482
서울,2005,9762546
부산,2015,3448737
부산,2010,3393191
부산,2005,3512547
인천,2015,2890451
인천,2010,263203


In [45]:
try:
    df1.pivot('지역', '연도', '인구') # 조건을 만족시키는 데이터가 2개 이상일 경우에는 피
except Exception as e:
    print(type(e))
    print(e)

<class 'ValueError'>
Index contains duplicate entries, cannot reshape


In [44]:
df1.set_index(['도시', '연도'])[['인구']].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


## 그룹분석

## 그룹분석
* 조건에 맞는 데이터가 하나 이상일 경우 데이터그룹을 만든다.
* 데이터그룹을 피봇테이블로 만들 수 없다.
* 그룹의 특성을 보여주는 통계치, 계산 등을 그룹분석 한다.
* `groupby` 이용 

1. 분석하고자 하는 Series, df에 `groupby` 메소드를 호출해서 그룹화를 한다.
2. 그룹화 = 그룹객체, 그룹연산 -> sum 등

### groupby 메소드
* 데이터를 그룹별로 분류하는 역활
  * 열 또는 열의 리스트(어떤 열을 기준으로 그룹을 넣어줄 것인가?)
  * 행 인덱스
  * 행 인덱스 => GroupBy (그룹화) => 그룹 함수 or 그룹 연산 => 특정한 값. 배열...

In [46]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [47]:
groups = df2.groupby(df2.key1)
groups # 연산하기 전에 그룹으로 묶여진 형태

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc9862e2970>

In [48]:
# 어떤한 기준으로 어떻게 묶였는지, 그룹별 구성현황을 알 수 있다.
groups.groups # A - 0,1,4행, B - 2,3행

{'A': [0, 1, 4], 'B': [2, 3]}

In [49]:
groups.count() # 그룹별 열 데이터 세기(nan는 세지 않음)

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,3,3,3
B,2,2,2


In [50]:
groups.size() # 그룹데이터의 행의 개수

key1
A    3
B    2
dtype: int64

In [51]:
groups.mean() # 통계값은 (int, float) => 연속형 변수만 가능

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.666667,26.666667
B,3.5,35.0


In [52]:
# 평균을 구할때(그룹별)
groups.median() # A는 1,2,5 중 2를 중간값으로, B는 3과 4가 있어서 3.5(둘의 평균)를 중간값으로

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.0,20.0
B,3.5,35.0


In [53]:
# 합계
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [54]:
groups.min()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,1,10
B,one,3,30


In [55]:
# 곱하기
groups.prod()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,10000
B,12,1200


In [57]:
# 표준편차, 분산, 중간값(50%)
groups.std(), groups.var(), groups.quantile()

  groups.std(), groups.var(), groups.quantile()


(         data1      data2
 key1                     
 A     2.081666  20.816660
 B     0.707107   7.071068,          data1       data2
 key1                      
 A     4.333333  433.333333
 B     0.500000   50.000000,       data1  data2
 key1              
 A       2.0   20.0
 B       3.5   35.0)

In [58]:
groups.quantile(0.25), groups.quantile(0.75) # 1분위 (25/100... 50/100... 75/100...)

  groups.quantile(0.25), groups.quantile(0.75)


(      data1  data2
 key1              
 A      1.50   15.0
 B      3.25   32.5,       data1  data2
 key1              
 A      3.50   35.0
 B      3.75   37.5)

In [None]:
# 특정한 열만 뽑아주고 싶다
df2.groupby(df2.key1).sum().data1 # 열이름
df2.groupby(df2.key1).sum()['data1'] #'[열이름]

### 복합키

In [59]:
# df.groupby([key1, key2])
df2.groupby([df2.key1, df2.key2]) # key를 2개이상 사용해서 groupby 나눠주기

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc98629bd90>

In [65]:
df2.groupby([df2.key1, df2.key2]).groups # groups 속성 : 어떻게 행이 나뉘었는지 보기

{('A', 'one'): [0, 4], ('A', 'two'): [1], ('B', 'one'): [2], ('B', 'two'): [3]}

In [60]:
df2.groupby([df2.key1, df2.key2]).sum()# 모든 속성(열)에 대해 합계 보기

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [61]:
df2.groupby([df2.key1, df2.key2]).sum().data1  # 모든 속성(열)에 대해 합계 보기

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [62]:
df2.data1.groupby([df2.key1, df2.key2]).sum()  # data1에 대한 합계만 보기

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [66]:
# key2 -> 인덱스 분기 => unstack 인덱스 쪼개져있는 것 => 해제
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack('key2')

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [68]:
# 지역별 합계 구하기
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [69]:
df1.groupby(df1.지역).sum()

Unnamed: 0_level_0,인구
지역,Unnamed: 1_level_1
경상권,10354475
수도권,32451994


In [70]:
df1.groupby([df1.지역,df1.연도]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
지역,연도,Unnamed: 2_level_1
경상권,2005,3512547
경상권,2010,3393191
경상권,2015,3448737
수도권,2005,9762546
수도권,2010,9894685
수도권,2015,12794763


In [71]:
df1.groupby([df1.지역,df1.연도]).sum().unstack('연도')

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


### agg(aggregate)


In [73]:
import seaborn as sns # 예시 데이터들을 불러올 수 있음
iris = sns.load_dataset('iris') # 붓꽃
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [74]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [75]:
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [76]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [77]:
iris.describe(include='all')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,setosa
freq,,,,,50
mean,5.843333,3.057333,3.758,1.199333,
std,0.828066,0.435866,1.765298,0.762238,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


In [78]:
# 각 붓꽃의 종별로 (열별로) 가장 큰 값과 가장 작은 값의 비율을 구해보기
def peak_to_peak_ratio(x):
    # x -> species별로 묶여져 있는
    return x.max() / x.min() # 사용자 함수를 정의

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [79]:
iris.species.unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [80]:
iris.groupby(iris.species).agg(lambda x: x.max() / x.min()) # 일회용으로 람다함수 사용

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


* `agg` : 그룹 들의 대표값
* `apply` : 그룹들로 나뉘어진 행에 대해서 반복적 연산

In [87]:
# 꽃잎의 길이가 가장 긴 상위 3개를 뽑는다 - 각 3개씩?
def top3_petal_length(df): # group
    # 내림차순
    return df.sort_values(by='petal_length', ascending=False)[:3] # 0, 1, 2
def top1_petal_length(df): # group
    # 내림차순
    return df.sort_values(by='petal_length', ascending=False)[:1] # 0, 1, 2

iris.groupby(iris.species).apply(top3_petal_length)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


In [88]:
iris.groupby(iris.species).apply(top1_petal_length)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica


# 시계열 자료 다루기
* 인덱스가 시간 또는 날짜인 데이터 -> 순서가 시간/날짜 데이터에 따라 정해져있음
* 시계열 데이터의 인덱스 `DatetimeIndex`
'''
2022-12-09는 텍스트 형태로 인덱스가 제공
'''
* 꼭 일정 기간에 꽉차져 있는 형태로 인덱스가 x(날짜 형식만 지기면 됨)
* pd.to_datetime
* pd.date_range

In [89]:
# pd.to_datetime (시간, 날자 형태로 표현된 데이터들의 나열된 리스트)
date_str = ['2018, 1, 1', '2018, 1, 4', '2018, 1, 5', '2018, 1, 6']
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [93]:
np.random.seed(9)
s = pd.Series(np.random.seed(4), index=idx)
s

  s = pd.Series(np.random.seed(4), index=idx)


2018-01-01   NaN
2018-01-04   NaN
2018-01-05   NaN
2018-01-06   NaN
dtype: float64

In [94]:
# pd.date_range : range, arange처럼 시작일/종료일 또는 시작일/기간을 입력하면 범위 내의 시간/날짜 인덱스를 생성
# 1. 시작일과 종료일
pd.date_range('2018-4-1', '2018-4-30') # freq:빈도 -> '0'('Day')

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [95]:
# 2. 시작일과 기간
pd.date_range(start='2018-4-1', periods=30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [97]:
pd.date_range(start='2018-4-1', periods=30, freq='M') # 월별 말일

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31',
               '2018-08-31', '2018-09-30', '2018-10-31', '2018-11-30',
               '2018-12-31', '2019-01-31', '2019-02-28', '2019-03-31',
               '2019-04-30', '2019-05-31', '2019-06-30', '2019-07-31',
               '2019-08-31', '2019-09-30', '2019-10-31', '2019-11-30',
               '2019-12-31', '2020-01-31', '2020-02-29', '2020-03-31',
               '2020-04-30', '2020-05-31', '2020-06-30', '2020-07-31',
               '2020-08-31', '2020-09-30'],
              dtype='datetime64[ns]', freq='M')

### shift/unshift

In [98]:
# 시계열의 데이터의 인덱스는 '시간'(순서)로 날짜이동-전날과 오늘 비교 같은 일 비교 연산 등
# datetimeindex는 인덱스를 두고 데이터만 이동

np.random.seed(9)
ts = pd.Series(np.random.randn(4),
               index=pd.date_range('2018-1-1', periods=4, freq='M'))
ts

2018-01-31    0.001109
2018-02-28   -0.289544
2018-03-31   -1.116066
2018-04-30   -0.012883
Freq: M, dtype: float64

In [99]:
ts.shift(1) # 아래로 한칸 밀기

2018-01-31         NaN
2018-02-28    0.001109
2018-03-31   -0.289544
2018-04-30   -1.116066
Freq: M, dtype: float64

In [100]:
ts.shift(-1)

2018-01-31   -0.289544
2018-02-28   -1.116066
2018-03-31   -0.012883
2018-04-30         NaN
Freq: M, dtype: float64

In [101]:
ts.shift(1, freq='M')

2018-02-28    0.001109
2018-03-31   -0.289544
2018-04-30   -1.116066
2018-05-31   -0.012883
Freq: M, dtype: float64

In [102]:
ts.shift(1, freq='D')

2018-02-01    0.001109
2018-03-01   -0.289544
2018-04-01   -1.116066
2018-05-01   -0.012883
dtype: float64

### `resample` 연산
* 시간 간격을 재조정
* 시간 구간을 작게 만든다 = 데이터의 양이 증가 -> 업샘플링(up-sampleing)
* 시간 구간을 크게 만든다 = 데이터의 양이 감소 -> 다운샘플링(down-sampleing)

In [104]:
np.random.seed(12)
ts = pd.Series(np.random.randn(100),
               index=pd.date_range('2022-1-1', periods=100, freq='D'))
ts

2022-01-01    0.472986
2022-01-02   -0.681426
2022-01-03    0.242439
2022-01-04   -1.700736
2022-01-05    0.753143
                ...   
2022-04-06   -0.969176
2022-04-07    0.871968
2022-04-08   -1.446359
2022-04-09   -0.536481
2022-04-10    0.197921
Freq: D, Length: 100, dtype: float64

In [105]:
# 다운-샘플링 -> 시간을 더 크게 묶는 거 -> "D(Day)" => "Week?"
ts.resample('W').mean()

2022-01-02   -0.104220
2022-01-09   -0.451708
2022-01-16    0.549635
2022-01-23    0.222913
2022-01-30   -1.310883
2022-02-06   -0.273550
2022-02-13   -0.054233
2022-02-20   -0.167965
2022-02-27    0.318114
2022-03-06    0.336975
2022-03-13   -0.292303
2022-03-20    0.227593
2022-03-27   -0.392297
2022-04-03   -0.628749
2022-04-10   -0.115301
Freq: W-SUN, dtype: float64

In [106]:
ts.resample('W').max()

2022-01-02    0.472986
2022-01-09    0.753143
2022-01-16    2.871819
2022-01-23    1.209796
2022-01-30    0.527333
2022-02-06    0.214976
2022-02-13    1.335831
2022-02-20    2.241818
2022-02-27    2.114344
2022-03-06    0.943575
2022-03-13    1.029211
2022-03-20    1.636463
2022-03-27    1.828821
2022-04-03    0.356223
2022-04-10    0.871968
Freq: W-SUN, dtype: float64

In [107]:
ts.resample('W').min()

2022-01-02   -0.681426
2022-01-09   -1.700736
2022-01-16   -1.215169
2022-01-23   -1.029530
2022-01-30   -2.218535
2022-02-06   -0.997204
2022-02-13   -0.713856
2022-02-20   -3.147417
2022-02-27   -1.148213
2022-03-06   -0.143337
2022-03-13   -1.528985
2022-03-20   -1.687696
2022-03-27   -1.689653
2022-04-03   -2.091691
2022-04-10   -1.446359
Freq: W-SUN, dtype: float64

In [108]:
ts.resample('W').median()

2022-01-02   -0.104220
2022-01-09   -0.120228
2022-01-16    0.472457
2022-01-23    0.501872
2022-01-30   -1.681757
2022-02-06   -0.253904
2022-02-13   -0.105862
2022-02-20   -0.114920
2022-02-27    0.159788
2022-03-06    0.357644
2022-03-13   -0.105268
2022-03-20   -0.201362
2022-03-27   -0.603299
2022-04-03   -0.466351
2022-04-10    0.197921
Freq: W-SUN, dtype: float64

In [109]:
# .first/.last : 맨 처음과 맨 마지막
ts.resample("M").first()

2022-01-31    0.472986
2022-02-28   -0.039209
2022-03-31   -0.143337
2022-04-30   -0.397880
Freq: M, dtype: float64

In [110]:
ts.resample("M").last()

2022-01-31   -0.528404
2022-02-28    0.050523
2022-03-31    0.356223
2022-04-30    0.197921
Freq: M, dtype: float64

In [111]:
np.random.seed(2022)
ts = pd.Series(np.random.rand(60), index=pd.date_range('2022-1-1', periods=60, freq='T')) # 1분
ts.tail

<bound method NDFrame.tail of 2022-01-01 00:00:00    0.009359
2022-01-01 00:01:00    0.499058
2022-01-01 00:02:00    0.113384
2022-01-01 00:03:00    0.049974
2022-01-01 00:04:00    0.685408
2022-01-01 00:05:00    0.486988
2022-01-01 00:06:00    0.897657
2022-01-01 00:07:00    0.647452
2022-01-01 00:08:00    0.896963
2022-01-01 00:09:00    0.721135
2022-01-01 00:10:00    0.831353
2022-01-01 00:11:00    0.827568
2022-01-01 00:12:00    0.833580
2022-01-01 00:13:00    0.957044
2022-01-01 00:14:00    0.368044
2022-01-01 00:15:00    0.494838
2022-01-01 00:16:00    0.339509
2022-01-01 00:17:00    0.619429
2022-01-01 00:18:00    0.977530
2022-01-01 00:19:00    0.096433
2022-01-01 00:20:00    0.744206
2022-01-01 00:21:00    0.292499
2022-01-01 00:22:00    0.298675
2022-01-01 00:23:00    0.752473
2022-01-01 00:24:00    0.018664
2022-01-01 00:25:00    0.523737
2022-01-01 00:26:00    0.864436
2022-01-01 00:27:00    0.388843
2022-01-01 00:28:00    0.212192
2022-01-01 00:29:00    0.475181
2022-01-01

In [112]:
ts.resample('10T').sum() # 시간단위에서는  가장빠른 값은 포함하지만 가장 느린값은 포함하지 않음.
# 대략 10분단위로 끊어서 합계를 구하고 
# 맨 끝에 있는 그 값 => 다음 단계의 시작값

2022-01-01 00:00:00    5.007377
2022-01-01 00:10:00    6.345329
2022-01-01 00:20:00    4.570907
2022-01-01 00:30:00    6.080002
2022-01-01 00:40:00    4.167549
2022-01-01 00:50:00    3.826857
Freq: 10T, dtype: float64

In [113]:
ts.head()

2022-01-01 00:00:00    0.009359
2022-01-01 00:01:00    0.499058
2022-01-01 00:02:00    0.113384
2022-01-01 00:03:00    0.049974
2022-01-01 00:04:00    0.685408
Freq: T, dtype: float64

In [114]:
## 00:00:00 / 00:10:00 (포함)
ts.resample('10T', closed='right').sum()

2021-12-31 23:50:00    0.009359
2022-01-01 00:00:00    5.829372
2022-01-01 00:10:00    6.258182
2022-01-01 00:20:00    4.391373
2022-01-01 00:30:00    5.596715
2022-01-01 00:40:00    4.124552
2022-01-01 00:50:00    3.788468
Freq: 10T, dtype: float64

In [115]:
ts.resample('5T').ohlc() # 시고저종 (시작-고점-저점-종료)

Unnamed: 0,open,high,low,close
2022-01-01 00:00:00,0.009359,0.685408,0.009359,0.685408
2022-01-01 00:05:00,0.486988,0.897657,0.486988,0.721135
2022-01-01 00:10:00,0.831353,0.957044,0.368044,0.368044
2022-01-01 00:15:00,0.494838,0.97753,0.096433,0.096433
2022-01-01 00:20:00,0.744206,0.752473,0.018664,0.018664
2022-01-01 00:25:00,0.523737,0.864436,0.212192,0.475181
2022-01-01 00:30:00,0.564672,0.975909,0.03782,0.79427
2022-01-01 00:35:00,0.357883,0.964883,0.357883,0.964883
2022-01-01 00:40:00,0.081386,0.490255,0.042451,0.490255
2022-01-01 00:45:00,0.668519,0.898331,0.080592,0.898331


### Down-sampling
* 1분 -> 10분 묶음 (데이터의 전체 수는 줄이고, 데이터 간의 구간은 늘리는 리샘플링) => 다운-샘플링 => 묶인 데이터들간의 '대표값' => 그룹함수, 집계함수 ==> (대표값)

## Up-sampling
* `ffill` : 앞전 시간대의 값을 불러와줌 (forward)
* `bfill` : 뒤 시간대의 값을 채워줌 (backward)

In [116]:
# up-sampling (10분 -> 1분짜리 쪼갬) => 없던거를 만드는 거
ts.resample('30s').ffill() # 1분 -> 0.5분 => 같은 데이터를 2번
ts.resample('10s').ffill() # 1분 -> 10초(1/6분) => 같은 데이터를 6번
# f-fill (front) => 비었을 때 앞전 시간대에 존재하는 데이터로 채워줌

2022-01-01 00:00:00    0.009359
2022-01-01 00:00:10    0.009359
2022-01-01 00:00:20    0.009359
2022-01-01 00:00:30    0.009359
2022-01-01 00:00:40    0.009359
                         ...   
2022-01-01 00:58:20    0.403473
2022-01-01 00:58:30    0.403473
2022-01-01 00:58:40    0.403473
2022-01-01 00:58:50    0.403473
2022-01-01 00:59:00    0.894102
Freq: 10S, Length: 355, dtype: float64

In [117]:
# back bfill
ts.resample('30s').bfill()

2022-01-01 00:00:00    0.009359
2022-01-01 00:00:30    0.499058
2022-01-01 00:01:00    0.499058
2022-01-01 00:01:30    0.113384
2022-01-01 00:02:00    0.113384
                         ...   
2022-01-01 00:57:00    0.008125
2022-01-01 00:57:30    0.403473
2022-01-01 00:58:00    0.403473
2022-01-01 00:58:30    0.894102
2022-01-01 00:59:00    0.894102
Freq: 30S, Length: 119, dtype: float64

### `dt`

In [118]:
# dt -> datetime 여러가지 연산, 속성
s = pd.Series(pd.date_range("2022-1-1", periods=100, freq='D'))
s # datetime 속성으로 만들어진 시리즈 (열)

0    2022-01-01
1    2022-01-02
2    2022-01-03
3    2022-01-04
4    2022-01-05
        ...    
95   2022-04-06
96   2022-04-07
97   2022-04-08
98   2022-04-09
99   2022-04-10
Length: 100, dtype: datetime64[ns]

In [119]:
# dtype -> 일괄적으로 날짜/시간값을 처리할 수 있게 속성값
s.dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x7fc97e259400>

In [120]:
s.astype('str').str # dtype string일 때 문자열관련되서 (split, replace...)

<pandas.core.strings.accessor.StringMethods at 0x7fc97e259fa0>

In [121]:
s.dt.month

0     1
1     1
2     1
3     1
4     1
     ..
95    4
96    4
97    4
98    4
99    4
Length: 100, dtype: int64

In [122]:
s.dt.month

0     1
1     1
2     1
3     1
4     1
     ..
95    4
96    4
97    4
98    4
99    4
Length: 100, dtype: int64

In [123]:
s.dt.weekday

0     5
1     6
2     0
3     1
4     2
     ..
95    2
96    3
97    4
98    5
99    6
Length: 100, dtype: int64

In [124]:
s.dt.strftime('%Y년 %m월 %d일')

0     2022년 01월 01일
1     2022년 01월 02일
2     2022년 01월 03일
3     2022년 01월 04일
4     2022년 01월 05일
          ...      
95    2022년 04월 06일
96    2022년 04월 07일
97    2022년 04월 08일
98    2022년 04월 09일
99    2022년 04월 10일
Length: 100, dtype: object

In [125]:
# https://financedatareader.readthedocs.io/en/latest/
!pip install finance-datareader -q
# --quiet = 멘트 없이 설치