In [23]:
import numpy as np
import pandas as pd

### 데이터 프레임 합성(병합)

- merge()
    - 두 데이터프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.
    - 이 때 기준이 되는 열, 행의 데이터를 key라고 한다.
    
- concat()
    - 기준열을 사용하지 않고 단순히 데이터를 연결

In [1]:
##### 은행 데이터프레임, 고객번호 컬럼이 동일

df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=========================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [3]:
pd.merge(df1,df2) # inner join, 같은 필드를 기준으로 조인

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [4]:
?pd.merge

In [5]:
pd.merge(df1, df2, how='left') # left outer join, df1의 필드를 기준으로 조인

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [6]:
pd.merge(df1, df2, how='right') # right outer join, df2의 필드를 기준으로 조인

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [7]:
pd.merge(df1, df2, how="outer")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [9]:
##### 공통된 컬럼 이름이 여러개일 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("-------------------------------------------")
print(df2)
print("===========================================")

pd.merge(df1, df2, on="고객명")

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
-------------------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [11]:
##### 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("------------------------------")
print(df2)

print("==============================")

pd.merge(df1, df2, left_on="이름", right_on="성명")

   이름  성적
0  영희   1
1  철수   2
2  철수   3
------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [12]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)

pd.merge(df1, df2, left_on=["도시", "연도"], right_index=True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [18]:
##### 인덱스를 기준열로 사용하는 경우(둘 다 인덱스)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("========================================")

pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### concat()

In [19]:
s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])

In [20]:
##### Series 형태로 합쳐짐
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [29]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])

print(df1)

print("-------------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])

print(df2)

print("======================================")

pd.concat([df1, df2], axis=0) # 열(컬럼) 기준으로 합침
# pd.concat([df1, df2], axis=1) # 행(인덱스) 기준으로 합침

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-------------------------------------
   데이터3  데이터4
a     5     6
c     7     8


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,5.0,6.0
c,,,7.0,8.0


### 6. 피봇 테이블과 그룹 분석

- pivot()
        pd.pivot(
            data: 'DataFrame',
            index: 'IndexLabel | None' = None,
            columns: 'IndexLabel | None' = None,
            values: 'IndexLabel | None' = None,
        ) -> 'DataFrame'
        
- groupby()
        pd.DataFrame.groupby(
            self,
            by=None,
            axis: 'Axis' = 0,
            level: 'Level | None' = None,
            as_index: 'bool' = True,
            sort: 'bool' = True,
            group_keys: 'bool' = True,
            squeeze: 'bool | lib.NoDefault' = <no_default>,
            observed: 'bool' = False,
            dropna: 'bool' = True,
        ) -> 'DataFrameGroupBy'
        
- pivot_table()
        pd.pivot_table(
            data: 'DataFrame',
            values=None,
            index=None,
            columns=None,
            aggfunc: 'AggFuncType' = 'mean',
            fill_value=None,
            margins: 'bool' = False,
            dropna: 'bool' = True,
            margins_name: 'str' = 'All',
            observed: 'bool' = False,
            sort: 'bool' = True,
        ) -> 'DataFrame'

In [30]:
?pd.pivot

In [31]:
?pd.DataFrame.groupby

In [32]:
?pd.pivot_table

In [42]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [46]:
##### 각 도시에서 연도별로 인구 수를 알고 싶다.

df.pivot(index="도시", columns="연도", values="인구")
# df.pivot(index="연도", columns="도시", values="인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [45]:
df2 = df.set_index(["연도", "도시"])
df2.sort_index(level=0)

del df2["지역"]
df2

df2.unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [47]:
df[["도시", "연도", "인구"]].set_index(["도시", "연도"]).unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [50]:
df.set_index(["도시", "연도"])[["인구"]].unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [51]:
df.set_index(["도시", "연도"]).unstack("연도")[["인구"]]

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### (2) groupby()

- 반드시 집계 함수와 함께 사용
        size(), count()
        mean(), median(), min(), max()
        sum(), prod(), std(), var(), quantile()
        first(), last() : 이동
        agg(), aggregate()
        describe() : 기초통계
        apply()
        transform()
        ...

In [56]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [66]:
print(df2.groupby(by="key1").sum())
print("--------------------------")
print(df2.data1.groupby(df2.key1).sum())
print("--------------------------")
print(df2.groupby("key1").data1.sum())
print("--------------------------")
print(df2.groupby("key1")["data1"].sum())
print("--------------------------")
print(df2.groupby("key1").sum()[["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
--------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------
      data1
key1       
A         8
B         7


In [70]:
##### 복합 키
df2.data1.groupby([df2.key1, df2.key2]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack("key1") # 인자 생략시 두번째 키가 넘어감

key1,A,B
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
one,6,3
two,2,4


In [84]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df
df.인구.groupby([df.도시, df.연도]).sum().unstack("연도")
# df.groupby(by=["도시", "연도"])[["인구"]].sum().unstack("연도")
df.groupby([df.지역, df.연도]).sum().unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [3]:
##### agg(), aggregate(), transform()

import seaborn as sns

iris = sns.load_dataset("iris")
iris.describe()
iris.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [10]:
# 각 붓꽃 품종별로 가장 큰값과 가장 작은값의 비율 조회

def peek_to_peek_ratio(x):
    return x.max()/x.min()

#########################################################################

print(iris.groupby("species").apply(peek_to_peek_ratio))
print("---------------------------------------------------------------------")
print(iris.groupby("species").agg(peek_to_peek_ratio))
print("---------------------------------------------------------------------")
print(iris.groupby("species").transform(peek_to_peek_ratio)) # 그룹으로 묶어도 다 풀어서 출력됨


            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
---------------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
---------------------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      

In [16]:
# 각 붓꽃 품종별로 가장 꽃잎 길이가 작은 것 3개만 조회

def min3(x):
    return x.sort_values(by="petal_length")[:3]

# iris.groupby("species").apply(min3)[["petal_length"]]
print(iris.groupby("species").apply(min3))
print("-------------------------------------------------------------")
print(iris.groupby("species").agg(min3)) # 꽃잎의 길이만을 볼 수 없음, 모든 컬럼에 대해 비교하려고 함

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

ValueError: Buffer has wrong number of dimensions (expected 1, got 2)

In [20]:
def test(x):
    return 1

#######################################

print(iris.groupby("species").apply(test))
print("------------------------------------------------")
print(iris.groupby("species").agg(test)) # 품종마다 컬럼을 모두 가져와서 확인
print("------------------------------------------------")
print(iris.groupby("species").transform(test)) # 모든 값에 대하여 적용

species
setosa        1
versicolor    1
virginica     1
dtype: int64
------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa                 1            1             1            1
versicolor             1            1             1            1
virginica              1            1             1            1
------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1            1
146             1            1             1

In [24]:
iris.groupby("species").agg([sum, np.mean, np.std, peek_to_peek_ratio]) # agg는 다양한 집계 함수를 동시에 사용 가능(apply 불가)

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


# 연습문제

In [142]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

print(df)

print("===========================================================")

# 1) 도시별로 과일의 가격 평균과 수량 평균을 구하시오.
print(df.groupby("city").mean())
print("-----------------------------------------------------------")

# 2) 도시별, 과일별 가격 평균과 수량 평균을 구하시오.
print(df.groupby(["city", "fruits"]).mean())
print("-----------------------------------------------------------")

# 3) 위의 문제에서 도시별, 과일별을 인덱스로 하고 싶지 않은 경우
print(df.groupby(["city", "fruits"]).mean().reset_index(drop=True))
print("-----------------------------------------------------------")

# 4) 도시별로 가격의 평균과 수량의 합계를 동시에 구하시오.
print(df.pivot_table(values=["price", "quantity"], index="city", aggfunc=["mean", "sum"]).iloc[:, [0,3]])

  city  fruits  price  quantity
0   부산   apple    100         1
1   부산  orange    200         2
2   부산  banana    250         3
3   부산  banana    300         4
4   서울   apple    150         5
5   서울   apple    200         6
6   서울  banana    400         7
      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
-----------------------------------------------------------
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
-----------------------------------------------------------
   price  quantity
0  100.0       1.0
1  275.0       3.5
2  200.0       2.0
3  175.0       5.5
4  400.0       7.0
-----------------------------------------------------------
       mean      sum
      price quantity
city                
부산    212.5       10
서울    250.0       18
------------------------------------------------------

In [128]:
?pd.DataFrame.stack

#### (3) pivot_table()

In [71]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)

In [67]:
##### 각 도시에서 연도별로 인구 수를 알고 싶다

df.pivot(index="도시", columns="연도", values="인구")
df.groupby(["도시", "연도"])[["인구"]].sum().unstack()
df.pivot_table(values="인구", index="도시", columns="연도")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [68]:
##### 연도별, 도시별로 인구수를 알고 싶다.

# df.pivot(index=["연도", "도시"], values="인구")
print(df.groupby(["연도", "도시"])[["인구"]].sum())
print("-------------------------")
print(df.pivot_table("인구", ["연도", "도시"], aggfunc="sum"))

              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451
-------------------------
              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451


In [73]:
print(df.pivot_table("인구", "연도", "도시", aggfunc="sum", margins=True, # 행의 합, 열의 합을 자동으로 만들어 줌
                    fill_value=0)) 

도시          부산        서울       인천       All
연도                                         
2005   3512547   9762546        0  13275093
2010   3393191   9631482   263203  13287876
2015   3448737   9904312  2890451  16243500
All   10354475  29298340  3153654  42806469


In [74]:
?df.pivot_table

### 7. 활용 예제

In [2]:
import seaborn as sns
tips = sns.load_dataset("tips")

In [82]:
print(tips.head())
print(tips.tail())
print(tips.describe())
print(tips.info())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
     total_bill   tip     sex smoker   day    time  size
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.00000

In [4]:
##### 식사 대금과 팁의 비율(팁/식사대금 == tip/total_bill)을 나타내는 tip_pct라는 파생변수 추가(컬럼 추가)

tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [5]:
##### 성별로 인원수 파악
tips.groupby("sex")[["size"]].describe()

Unnamed: 0_level_0,size,size,size,size,size,size,size,size
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,2.630573,0.955997,1.0,2.0,2.0,3.0,6.0
Female,87.0,2.45977,0.937644,1.0,2.0,2.0,3.0,6.0


In [7]:
tips.groupby("sex").count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [6]:
tips["sex"].value_counts()

Male      157
Female     87
Name: sex, dtype: int64

In [8]:
tips.groupby("sex").size()

sex
Male      157
Female     87
dtype: int64

In [105]:
##### 성별, 흡연 유무별로 인원수 파악
tips.groupby(["sex", "smoker"])[["size"]].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,size,size,size,size,size,size
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,2.5,0.89253,1.0,2.0,2.0,3.0,5.0
Male,No,97.0,2.71134,0.989094,2.0,2.0,2.0,3.0,6.0
Female,Yes,33.0,2.242424,0.613917,1.0,2.0,2.0,2.0,4.0
Female,No,54.0,2.592593,1.073146,1.0,2.0,2.0,3.0,6.0


In [114]:
##### 위의 두 정보를 하나의 테이블로 tip_pct 조회
"""
smoker    Yes    No
    sex
    Male
    Female
"""
# tips.pivot(index="sex", columns="smoker", values="tip_pct")
print(tips.groupby(["sex", "smoker"])[["tip_pct"]].mean().unstack())
tips.pivot_table(index="sex", columns="smoker", values="tip_pct", aggfunc="mean")

         tip_pct          
smoker       Yes        No
sex                       
Male    0.152771  0.160669
Female  0.182150  0.156921


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [10]:
##### 성별에 따른 평균 팁 비율
tips.pivot_table(index="sex", values="tip_pct", aggfunc="mean")
tips.groupby("sex")[["tip_pct"]].mean()
tips.groupby("sex")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [11]:
##### 흡연 여부에 따른 팁 비율
tips.pivot_table(index="smoker", values="tip_pct")
tips.groupby("smoker")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [18]:
##### 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴볼 수 있게 하기
tips.pivot_table(index=["day", "time", "size"], values="tip_pct").unstack("size")
tips.groupby(["day", "time", "size"])[["tip_pct"]].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [23]:
##### 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이
tips.groupby(["sex", "smoker"])[["tip"]].max() - tips.groupby(["sex", "smoker"])[["tip"]].min()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [24]:
def peek_to_peek(x):
    return x.max() - x.min()

tips.groupby(["sex", "smoker"])[["tip"]].agg(peek_to_peek)
tips.groupby(["sex", "smoker"])[["tip"]].apply(peek_to_peek)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


### 8. 시계열 데이터
- DataTimeIndex 자료형
    - pd.to_datetime() : 문자열을 날짜 타입으로 변환
    - pd.date_range() : 특정 범위의 날짜 인덱스를 생성

In [25]:
data_str = ["2022, 1, 1", "2022, 1, 4", "2022, 1, 6", "2022, 1, 9"]

idx = pd.to_datetime(data_str)
idx

DatetimeIndex(['2022-01-01', '2022-01-04', '2022-01-06', '2022-01-09'], dtype='datetime64[ns]', freq=None)

In [26]:
# 날짜를 인덱스로 활용

np.random.seed(0)

s = pd.Series(np.random.randn(4), index=idx)
s

2022-01-01    1.764052
2022-01-04    0.400157
2022-01-06    0.978738
2022-01-09    2.240893
dtype: float64

In [29]:
# 날짜 데이터 생성

pd.date_range("2022, 1, 1", "2022, 4, 30")
pd.date_range("2022, 1, 1", periods=30)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-22', '2022-01-23', '2022-01-24',
               '2022-01-25', '2022-01-26', '2022-01-27', '2022-01-28',
               '2022-01-29', '2022-01-30'],
              dtype='datetime64[ns]', freq='D')

In [30]:
"""
freq
    S : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

'\nfreq\n    S : 초\n    T : 분\n    H : 시간\n    D : 일\n    B : 주말이 아닌 평일\n    W : 주(일요일)\n    W-MON : 주(월요일)\n    M : 각 달의 마지막 날\n    MS : 각 달의 첫날\n    BM : 주말이 아닌 평일중에서 각 달의 마지막 날\n    BMS : 주말이 아닌 평일중에서 각 달의 첫날\n    WOM-2THU : 각 달의 두번째 목요일\n    Q-JAN : 각 분기의 첫 달의 마지막 날\n    Q-DEC : 각 분기의 마지막 달의 마지막 날\n'

In [31]:
pd.date_range("2020, 1, 1", "2022, 1, 31", freq="W")

DatetimeIndex(['2020-01-05', '2020-01-12', '2020-01-19', '2020-01-26',
               '2020-02-02', '2020-02-09', '2020-02-16', '2020-02-23',
               '2020-03-01', '2020-03-08',
               ...
               '2021-11-28', '2021-12-05', '2021-12-12', '2021-12-19',
               '2021-12-26', '2022-01-02', '2022-01-09', '2022-01-16',
               '2022-01-23', '2022-01-30'],
              dtype='datetime64[ns]', length=109, freq='W-SUN')

In [37]:
##### shit 연산
np.random.seed(0)

ts = pd.Series(np.random.randn(4),
              index=pd.date_range("2022-1-1", periods=4, freq="M"))

print(ts)

print("-----------------------")

print(ts.shift(1))

print("-----------------------")

print(ts.shift(-1))

print("-----------------------")

print(ts.shift(1, freq="M")) # 날짜가 한 달씩 밀림 

print("-----------------------")

print(ts.shift(1, freq="W"))

2022-01-31    1.764052
2022-02-28    0.400157
2022-03-31    0.978738
2022-04-30    2.240893
Freq: M, dtype: float64
-----------------------
2022-01-31         NaN
2022-02-28    1.764052
2022-03-31    0.400157
2022-04-30    0.978738
Freq: M, dtype: float64
-----------------------
2022-01-31    0.400157
2022-02-28    0.978738
2022-03-31    2.240893
2022-04-30         NaN
Freq: M, dtype: float64
-----------------------
2022-02-28    1.764052
2022-03-31    0.400157
2022-04-30    0.978738
2022-05-31    2.240893
Freq: M, dtype: float64
-----------------------
2022-02-06    1.764052
2022-03-06    0.400157
2022-04-03    0.978738
2022-05-01    2.240893
dtype: float64


In [44]:
##### resampling : 시간 간격을 재조정
##### 시간 구간을 작게 해서 데이터 양을 증가 : 업 샘플링
##### 시간 구간을 크게 해서 데이터 양을 증가 : 다운 샘플링

np.random.seed(0)

ts = pd.Series(np.random.randn(100),
              index=pd.date_range("2022-1-1", periods=100))
ts.head(10)

# 다운 샘플링 : 데이터가 그룹으로 묶이기 때문에 집계 연산을 통해 대표값을 구해야 함

print(ts.resample("W").mean())

print("--------------------------")

print(ts.resample("M").mean())

print("--------------------------")

ts = pd.Series(np.random.randn(60), index=pd.date_range("2022-1-1", periods=60, freq="T"))
print(ts.resample("10T").sum()) # 10분 단위로 묶기

2022-01-02    1.082105
2022-01-09    0.686489
2022-01-16    0.524167
2022-01-23   -0.041006
2022-01-30    0.419134
2022-02-06   -0.185249
2022-02-13   -0.244474
2022-02-20   -0.592162
2022-02-27   -0.076485
2022-03-06   -0.627297
2022-03-13   -0.223782
2022-03-20   -0.305585
2022-03-27    0.300772
2022-04-03    0.287157
2022-04-10    0.623550
Freq: W-SUN, dtype: float64
--------------------------
2022-01-31    0.433569
2022-02-28   -0.302781
2022-03-31   -0.141109
2022-04-30    0.539239
Freq: M, dtype: float64
--------------------------
2022-01-01 00:00:00    3.247184
2022-01-01 00:10:00    6.685424
2022-01-01 00:20:00    2.551313
2022-01-01 00:30:00   -1.161345
2022-01-01 00:40:00    1.504165
2022-01-01 00:50:00   -2.226607
Freq: 10T, dtype: float64


In [50]:
##### up-sampling
##### 1) forward filling : 앞에서 나온 데이터를 그대로 사용
##### 2) backword filling : 뒤에서 나올 데이터를 그대로 사용

print(ts.head())

print("------------------------------")

print(ts.resample("20S").ffill().head(10)) # 원본이 60초이므로 20초로 끊으면 묶음 중 첫 번째 데이터를 3번 씀

print("------------------------------")

print(ts.resample("20S").bfill().head(10)) # 다음 묶음의 첫 번째 데이터를 3번 씀

2022-01-01 00:00:00    1.883151
2022-01-01 00:01:00   -1.347759
2022-01-01 00:02:00   -1.270485
2022-01-01 00:03:00    0.969397
2022-01-01 00:04:00   -1.173123
Freq: T, dtype: float64
------------------------------
2022-01-01 00:00:00    1.883151
2022-01-01 00:00:20    1.883151
2022-01-01 00:00:40    1.883151
2022-01-01 00:01:00   -1.347759
2022-01-01 00:01:20   -1.347759
2022-01-01 00:01:40   -1.347759
2022-01-01 00:02:00   -1.270485
2022-01-01 00:02:20   -1.270485
2022-01-01 00:02:40   -1.270485
2022-01-01 00:03:00    0.969397
Freq: 20S, dtype: float64
------------------------------
2022-01-01 00:00:00    1.883151
2022-01-01 00:00:20   -1.347759
2022-01-01 00:00:40   -1.347759
2022-01-01 00:01:00   -1.347759
2022-01-01 00:01:20   -1.270485
2022-01-01 00:01:40   -1.270485
2022-01-01 00:02:00   -1.270485
2022-01-01 00:02:20    0.969397
2022-01-01 00:02:40    0.969397
2022-01-01 00:03:00    0.969397
Freq: 20S, dtype: float64
