In [1]:
import pandas as pd
import numpy as np

# 데이터 프레임 병합(합성)

## merge
    두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합틴다.
    이 때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [4]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])

df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])

print(df1)
df2

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [8]:
pd.merge(df1, df2)  # 공통되지 않은 도우너와 또치, 길동, 영희는 빠진다(inner join?)
pd.merge(df1, df2, how='left')  # how: 어떻게 조인할거냐
pd.merge(df1, df2, how='right')
pd.merge(df1, df2, how='outer')  # full outer join = left outer join + right outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [15]:
df1 = pd.DataFrame({
    "품종":['setosa', 'setosa', 'virginica', 'virginica'],
    "꽃잎길이":[1.4, 1.3, 1.5, 1.3]
}, columns=["품종", "꽃잎길이"])
df1

df2 = pd.DataFrame({
    "품종":['setosa', 'virginica', 'virginica', 'versicolor'],
    "꽃잎너비":[0.4, 0.3, 0.5, 0.3]
}, columns=["품종", "꽃잎너비"])
df2

pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [None]:
# key

In [14]:
df1 = pd.DataFrame({
    '고객명':['춘향', '춘향','몽룡'],
    '날짜':['2018-01-01', '2018-01-02', '2018-01-03'],
    '데이터':['20000','30000','100000']
})

df2 = pd.DataFrame({
    '고객명':['춘향','몽룡'],
    '데이터':['여자', '남자']
})

# 고객명을 잡고 가겠다? 고 표시해줘야함 = key지정
pd.merge(df1, df2, on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-03,100000,남자


In [18]:
df1 = pd.DataFrame({
    '이름':['영희', '철수', '철수'],
    '성적':[1,2,3]
})

df2 = pd.DataFrame({
    '성명':['영희', '영희', '철수'],
    '성적2':[4,5,6]
})

pd.merge(df1, df2, left_on='이름', right_on='성명')

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [26]:
df1 = pd.DataFrame({
    '도시':['서울', '서울', '서울', '부산', '부산'],
    '연도':[2000, 2005, 2010, 2000, 2005],
    '인구':[9853972, 9762546, 9631482, 3655437, 3512547]
})

print(df1)

df2 = pd.DataFrame(np.arange(12).reshape(6,2),   # 1차월 배열을 6행2열의 2차원 배열로
    index=[["부산", "부산", "서울", "서울", "서울", "서울"],[2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])

print(df2)

pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [35]:
df1 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                  index=['a', 'c', 'e'],
                  columns=['서울', '부산'])
                   
print(df1)  

df2 = pd.DataFrame([[7., 8.], [9., 10.],[11., 12.],[13., 14.],],
                    index=['b', 'c', 'd', 'e'],
                    columns=['대구', '광주'])
        
print(df2)

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


In [37]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

#merge를 단순화한 것 = join
df1.join(df2, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [40]:
df1 = pd.DataFrame({
   'Name' : ['Morning', 'K3', 'K5', 'K8', 'K9'],
   'Segment' : ['Mini', 'Small', 'Mid', 'Sport', 'Large'],
   'Engine' : ['1.0L', '1.6', '2.0', '3.0', '5.0'],
   'Fuel' : ['14km', '18km', '16km', '12km', '10km'],
   'Price' : [1000, 2000, 3000, 4000, 5000]},
   columns = ["Name", "Segment", "Engine", "Fuel", "Price"])
df1

df2 = pd.DataFrame({
   '이름' : ['Morning', 'K3', 'K5', 'K8', 'K9'],
   '출시년도' : ['2000', '2005', '2005', '2016', '2010'],
   '연료' : ['휘발유', '경유', '경유', '휘발유', '휘발유'],
   '마력' : [50, 100, 150, 250, 300],
   '탑승인원' : [4, 5, 5, 4, 4]},
   columns = ["이름", "출시년도", "연료", "마력", "탑승인원"])
df2

pd.merge(df1, df2, left_on="Name", right_on="이름")
df1.join(df2, how="outer")

Unnamed: 0,Name,Segment,Engine,Fuel,Price,이름,출시년도,연료,마력,탑승인원
0,Morning,Mini,1.0L,14km,1000,Morning,2000,휘발유,50,4
1,K3,Small,1.6,18km,2000,K3,2005,경유,100,5
2,K5,Mid,2.0,16km,3000,K5,2005,경유,150,5
3,K8,Sport,3.0,12km,4000,K8,2016,휘발유,250,4
4,K9,Large,5.0,10km,5000,K9,2010,휘발유,300,4


## concat
    단순하게 위아래 연결

In [44]:
s1 = pd.Series([0,1], index=["A", "B"])
s2 = pd.Series([2,3,4], index=["A", "B", "C"])
print(s1)
print(s2)
pd.concat([s1, s2])  # 단순하게 s1 아래에 s2 붙임

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64


A    0
B    1
A    2
B    3
C    4
dtype: int64

In [50]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2), index=['a', 'b', 'c'], columns=['데이터1', '데이터2'])
print(df1)

df2 = pd.DataFrame(5+np.arange(4).reshape(2,2), index=['a', 'c'], columns=['데이터3', '데이터4'])
print(df2)

pd.concat([df1, df2], axis=1)   # 축은 행을 기준으로!

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
   데이터3  데이터4
a     5     6
c     7     8


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  import sys


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


### concat을 이용한 연습문제
    어느 회사의 전반기(1월~6월) 실적을 나타내는 데이터프레임과
    후반기(7월~12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
    실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용),
    또한 1년 간의 총 실적을 마지막 행으로 덧붙인다.

In [53]:
df1 = pd.DataFrame({
    "매출":[1000,1500,3000,4000,5000,6000],
    "비용":[1500,2000,2500,2700,3000,3200]},
    index=["1월","2월","3월","4월","5월","6월"],
    columns=["매출","비용"])
print(df1)

df2 = pd.DataFrame({
    "매출":[4500,4000,5000,6000,3000,2000],
    "비용":[2800,2700,3000,3200,2500,2000]},
    index=["7월","8월","9월","10월","11월","12월"],
    columns=["매출","비용"])
print(df2)


df3 = pd.concat([df1, df2])
df3

      매출    비용
1월  1000  1500
2월  1500  2000
3월  3000  2500
4월  4000  2700
5월  5000  3000
6월  6000  3200
       매출    비용
7월   4500  2800
8월   4000  2700
9월   5000  3000
10월  6000  3200
11월  3000  2500
12월  2000  2000


Unnamed: 0,매출,비용
1월,1000,1500
2월,1500,2000
3월,3000,2500
4월,4000,2700
5월,5000,3000
6월,6000,3200
7월,4500,2800
8월,4000,2700
9월,5000,3000
10월,6000,3200


# 피봇테이블과 그룹분석
    DataFrame.pivot(index=None, columns=None, values=None)

In [54]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [60]:
# 인덱스와 컬럼을 재배열하여 관심있는 데이터만 뽑아볼 수 있게끔 한다
df1.pivot("도시", "연도", "인구")   # 인덱스 도시, 컬럼 연도

# 도시와 연도 = key  one and only여야함. 또 나오면 안됨.
# 연도, 지역의 경우를 보면 2015,수도권이 중복되는 값이 있기 때문에 key가 될 수 없음

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [61]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()    

# 도시와 연도 = key  one and only여야함. 또 나오면 안됨.
# 연도, 지역의 경우를 보면 2015,수도권이 중복되는 값이 있기 때문에 key가 될 수 없음
#df1.pivot("지역", "연도", "인구")  # Duplicate error

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


## 그룹 분석
    DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, 
    group_keys=True, squeeze=False, observed=False, **kwargs)
    
    - size, count
    - mean, median, min, max
    - sum, prod, std, var, quantile
    - first, last
    
    - agg, aggregate
    - describe
    - apply
    - transform

In [63]:
df2 = pd.DataFrame({
    "key1":['A', 'A', 'B', 'B', 'A'],
    "key2":['one', 'two', 'one', 'two', 'one'],
    "data1":[1,2,3,4,5],
    "data2":[10,20,30,40,50]
})
df2

# key1 : A와 B로 묶을 수 있음
# key2 : one, two로 묶을 수 있음

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [73]:
# group by를 이용하자!
g = df2.groupby(df2.key1)
g
g.groups   # index 표시 볼 수 있음

g.sum()   # 각 그룹별 합계

df2.groupby(df2.key1).sum()  # 객체 생성없이 바로 해결!
df2.data1.groupby(df2.key1).sum()      # data1 불러온뒤에 groupby? -> sum()
df2.groupby(df2.key1)["data1"].sum()   # `GroupBy` 클래스 객체에서 data1만 선택하여 분석하는 경우
df2.groupby(df2.key1).sum()["data1"]    # 전체 데이터를 분석한 후 data1만 선택한 경우

key1
A    8
B    7
Name: data1, dtype: int64

In [75]:
df2.data1.groupby(by=[df2.key1, df2.key2]).sum()  #첫번째 인자라서 by는 생략가능하다
df2.data1.groupby(by=[df2.key1, df2.key2]).sum().unstack("key2")  # 행을 열로 보냄 = unstack명령으로 피봇테이블 형태로 만듦

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


    다음 데이터는 150 송이의 붓꽃(iris)에 대해 붓꽃 종(species)별로 꽃잎길이(sepal_length), 
    꽃잎폭(sepal_width), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width)을 측정한 데이터이다. 
    (Seaborn 패키지가 설치되어 있어야 한다.)

In [80]:
import seaborn as sns
iris = sns.load_dataset("iris")   # load_dataset 메서드를 통해 iris를 불러옴
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [84]:
# 각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율을 구해보자. 
# 이러한 계산을 하는 그룹연산 메서드는 없으므로 직접 만든 후 agg 메서드를 적용한다.  apply랑 비슷? apply 강의노트 다시보기
def peak_to_peak_ratio(x):
    return x.max()/x.min()

print(iris.groupby(iris.species).agg(peak_to_peak_ratio))   # 품종별 그룹화 후 aggregate, agg: apply의 확장판이라고 보면 됨
iris.groupby(iris.species).apply(peak_to_peak_ratio)

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714


Unnamed: 0_level_0,petal_length,petal_width,sepal_length,sepal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.9,6.0,1.348837,1.913043
versicolor,1.7,1.8,1.428571,1.7
virginica,1.533333,1.785714,1.612245,1.727273


In [86]:
# describe 메서드를 사용하면 다양한 기술 통계(descriptive statistics)값을 한 번에 구한다. 
# 그룹별로 하나의 스칼라 값이 아니라 하나의 데이터프레임이 생성된다는 점에 주의하라.
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
petal_length,count,50.0,50.0,50.0
petal_length,mean,1.462,4.26,5.552
petal_length,std,0.173664,0.469911,0.551895
petal_length,min,1.0,3.0,4.5
petal_length,25%,1.4,4.0,5.1
petal_length,50%,1.5,4.35,5.55
petal_length,75%,1.575,4.6,5.875
petal_length,max,1.9,5.1,6.9
petal_width,count,50.0,50.0,50.0
petal_width,mean,0.246,1.326,2.026


In [88]:
# transform
def q3cut(s):
    return pd.qcut(s, 3, labels=["소", "중", "대"])
iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(q3cut)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
5,5.4,3.9,1.7,0.4,setosa,대
6,4.6,3.4,1.4,0.3,setosa,소
7,5.0,3.4,1.5,0.2,setosa,중
8,4.4,2.9,1.4,0.2,setosa,소
9,4.9,3.1,1.5,0.1,setosa,중


##### 연습문제
    붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width), 길이, 꽃받침, 꽃받침 폭 등의 평균을 구하라. 
    만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [112]:
def mean(x):
    return x.mean()

mean_data = iris.groupby(iris.species).agg(mean)
mean_data.loc["setosa"]

sepal_length    5.006
sepal_width     3.428
petal_length    1.462
petal_width     0.246
Name: setosa, dtype: float64

## pivot_table()
    pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', 
    fill_value=None, margins=False, dropna=True, margins_name='All')
    
    data : 분석할 데이터프레임
    values : 분석할 데이터프레임에서 분석할 열
    index : 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
    columns : 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
    aggfunc : 분석 메서드 (기본값은 '평균'으로 되어있음)
    fill_value : NaN 대체값
    margins : 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
    dropna : NaN에 해당하는 값을 버릴지 여부 (기본값은 NaN에 해당하는 값을 버림)
    margins_name: 마진 열(행)의 이름

In [2]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [8]:
df1.pivot("도시", "연도", "인구")    # 연도, 지역  or 도시, 지역은 안됨 (중복값 존재)
df1.pivot_table("인구", "도시", "연도")
# pd.pivot_table(df1, ) 이런 식으로 작성하나 위와 같이 df1.pivot_table()인 경우에는 첫번째 인자는 생략해도 무방하다.

df1.pivot_table("인구", "도시", "연도", margins=True, aggfunc="sum", margins_name="합계") # mean값

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,10354475
서울,9762546.0,9631482.0,9904312.0,29298340
인천,,263203.0,2890451.0,3153654
합계,13275093.0,13287876.0,16243500.0,42806469


In [9]:
df1.pivot_table("인구", index=["연도", "도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## 활용 예제

## 1. Tips 데이터 예제
    목표 : 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지는지 찾고자 한다.

In [13]:
import seaborn as sns

tips = sns.load_dataset('tips')
tips.describe()
tips.tail()
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [42]:
# 식사 대금과 팁의 비율을 나타내는 tip_pct를 추가
tips["tip_pct"] = tips["tip"]/tips["total_bill"]
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
5,25.29,4.71,Male,No,Sun,Dinner,4,0.186240
6,8.77,2.00,Male,No,Sun,Dinner,2,0.228050
7,26.88,3.12,Male,No,Sun,Dinner,4,0.116071
8,15.04,1.96,Male,No,Sun,Dinner,2,0.130319
9,14.78,3.23,Male,No,Sun,Dinner,2,0.218539


In [24]:
# 성별로 인원수 파악
# tips.groupby(tips.sex).sum()
print(tips.groupby("sex").count())
tips.groupby("sex").size()

        total_bill  tip  smoker  day  time  size
sex                                             
Male           157  157     157  157   157   157
Female          87   87      87   87    87    87


sex
Male      157
Female     87
dtype: int64

In [33]:
# 성별과 흡연유무로 인원수를 파악
tips.groupby(["sex","smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [43]:
# 위의 두 과정을 한 테이블에 출력
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="count", margins=True)

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [128]:
# 성별에 따른 평균 팁 비율
tips.groupby("sex")[["tip_pct"]].mean()

# 흡연 여부에 따른 평균 팁 비율
tips.groupby("smoker")[["tip_pct"]].mean() # 한번더 []해주면 dataframe?

# pivot_table
tips.pivot_table("tip_pct", "sex")   # groupby를 썼을 때보다 훨씬 더 간단명료함.
tips.pivot_table("tip_pct", "sex", "smoker")
tips.pivot_table("tip_pct", ["sex", "smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [83]:
# 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴보자.
print(tips.pivot_table("tip_pct", "day"))
print("-------------")
print(tips.pivot_table("tip_pct", "time"))
print("-------------")
print(tips.pivot_table("tip_pct", "size"))
print("-------------")
tips.pivot_table("tip_pct", ["day", "time", "size"])
print("-------------")

tips.groupby(["day", "time", "size"])[["tip_pct"]].mean().dropna()   #  dropna = NaN값은 버려라

       tip_pct
day           
Thur  0.161276
Fri   0.169913
Sat   0.153152
Sun   0.166897
-------------
         tip_pct
time            
Lunch   0.164128
Dinner  0.159518
-------------
       tip_pct
size          
1     0.217292
2     0.165719
3     0.152157
4     0.145949
5     0.141495
6     0.156229
-------------
-------------


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [86]:
# 각 그룹별로 가장 많은 팁과 가장 적은 팁의 차이
def peak_to_peak(x):
    return x.max()-x.min()

tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)
tips.groupby(["sex", "smoker"])[["tip"]].apply(peak_to_peak)   # 하나의 함수만 적용 가능

# 데이터 열마다 다른 연산을 하고 싶다면 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다
tips.groupby(["sex", "smoker"]).agg({"tip_pct":"mean", "total_bill":peak_to_peak})  # apply에선 불가능한 agg의 기능?

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [109]:
titanic = sns.load_dataset("titanic")
titanic.count()
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [139]:
# 세개의 나이그룹을 생성하여 추가["미성년", "성년", "노년"]
# age 정리하기 (세개의 등급으로: 양적변수를 질적변수로 변환하기)
# 미성년, 성년, 노년 -> 새로운 필드 추가


labels = ["미성년자", "성년", "노년"]
bins = [0,18,50,100]    # binary라는 뜻

titanic["age_cat"] = pd.cut(titanic["age"], bins, labels=labels)
titanic.tail()

titanic["age_class"] = pd.qcut(titanic["age"], 3, labels=labels)
titanic.tail(10)


# 생존자 평균확인
groupby_survived = titanic.groupby(["sex", "age_class", "class"])[["survived"]].mean().unstack()
print(groupby_survived)
titanic.pivot_table("survived", index=['sex', 'age_class'], columns='class')

                  survived                    
class                First    Second     Third
sex    age_class                              
female 미성년자       0.954545  1.000000  0.508475
       성년         0.947368  0.909091  0.481481
       노년         0.977273  0.857143  0.250000
male   미성년자       0.500000  0.357143  0.158879
       성년         0.500000  0.076923  0.195652
       노년         0.347826  0.062500  0.055556


Unnamed: 0_level_0,class,First,Second,Third
sex,age_class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,미성년자,0.954545,1.0,0.508475
female,성년,0.947368,0.909091,0.481481
female,노년,0.977273,0.857143,0.25
male,미성년자,0.5,0.357143,0.158879
male,성년,0.5,0.076923,0.195652
male,노년,0.347826,0.0625,0.055556


## 항공운항 데이터
    http://data.gov
    http://stat-computing.org

In [140]:
df1 = pd.read_csv("data/2007.csv", sep=",")
# df2 = pd.read_csv("data/2008.csv", sep=",")
# df3 = pd.read_csv("data/2009.csv", sep=",")

# df1 = df1.append(df2)  # 파일 여러개 같이 불러올 경우
# df1 = df1.append(df3)

df1.shape

(7453215, 29)

In [141]:
df1.columns    # 29개의 컬럼들 확인

Index(['Year', 'Month', 'DayofMonth', 'DayOfWeek', 'DepTime', 'CRSDepTime',
       'ArrTime', 'CRSArrTime', 'UniqueCarrier', 'FlightNum', 'TailNum',
       'ActualElapsedTime', 'CRSElapsedTime', 'AirTime', 'ArrDelay',
       'DepDelay', 'Origin', 'Dest', 'Distance', 'TaxiIn', 'TaxiOut',
       'Cancelled', 'CancellationCode', 'Diverted', 'CarrierDelay',
       'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay'],
      dtype='object')

In [142]:
df2 = df1[["Year", "Month", "ArrDelay", "DepDelay"]]  # 필요한것 열만 인덱싱
df2.head()

Unnamed: 0,Year,Month,ArrDelay,DepDelay
0,2007,1,1.0,7.0
1,2007,1,8.0,13.0
2,2007,1,34.0,36.0
3,2007,1,26.0,30.0
4,2007,1,-3.0,1.0


In [145]:
#any : 하나의 열이라도 NaN이 포함되어 있으면 그 행을 drop시킴
#all : 모든 열의 값이 NaN일 때 drop
df2 = df2.dropna(how="any")
df2.shape

(7275288, 4)

In [148]:
# 해당 연/월별로 출발 지연횟수와 도착 지연횟수의 갯수
#df2.pivot_table(["DepDelay", "ArrDelay"], index=["Year", "Month"], columns="Year", margins=count
count = df2.groupby(["Year", "Month"]).count()
print(count)
df2.groupby(["Year", "Month"]).sum()

            ArrDelay  DepDelay
Year Month                    
2007 1        604582    604582
     2        538878    538878
     3        621057    621057
     4        602317    602317
     5        623326    623326
     6        609838    609838
     7        632904    632904
     8        638883    638883
     9        592718    592718
     10       621665    621665
     11       597989    597989
     12       591131    591131


Unnamed: 0_level_0,Unnamed: 1_level_0,ArrDelay,DepDelay
Year,Month,Unnamed: 2_level_1,Unnamed: 3_level_1
2007,1,5539272.0,6198771.0
2007,2,7285520.0,7534925.0
2007,3,6263303.0,7323449.0
2007,4,5129470.0,6058297.0
2007,5,4386899.0,5177319.0
2007,6,9866891.0,9839752.0
2007,7,8928807.0,9348901.0
2007,8,8031739.0,8606869.0
2007,9,2222395.0,3640093.0
2007,10,4045957.0,4937529.0


## 시계열 데이터
    to_datetime()
    date_range()

In [None]:
# to_datetime(): 변환 기능
# date_range(): 날짜에 범위를 지정

In [153]:
date_str = ["2019, 1, 1", "2019, 1, 2", "2019, 1, 3", "2019, 1, 4"]
# pandas를 이용해서 날짜형식으로 바꾸어주기
idx = pd.to_datetime(date_str)
type(idx)
idx

np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)   # index를 날짜로 설정하자
s

2019-01-01    1.764052
2019-01-02    0.400157
2019-01-03    0.978738
2019-01-04    2.240893
dtype: float64

In [154]:
pd.date_range("2019-4-1", "2019-4-30")

pd.date_range(start="2019-4-1", periods=30)

DatetimeIndex(['2019-04-01', '2019-04-02', '2019-04-03', '2019-04-04',
               '2019-04-05', '2019-04-06', '2019-04-07', '2019-04-08',
               '2019-04-09', '2019-04-10', '2019-04-11', '2019-04-12',
               '2019-04-13', '2019-04-14', '2019-04-15', '2019-04-16',
               '2019-04-17', '2019-04-18', '2019-04-19', '2019-04-20',
               '2019-04-21', '2019-04-22', '2019-04-23', '2019-04-24',
               '2019-04-25', '2019-04-26', '2019-04-27', '2019-04-28',
               '2019-04-29', '2019-04-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
# http://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases
'''
s : second(초)
T : 분
H : 시간
D : 일(day)
B : 주말이 아닌 평일
W : 주(weekend, 일요일)
W-MON : 주(week, 월요일)
M : 각 달(month)의 마지막 날
MS : 각 달의 첫날
BM : 주말이 아닌 평일 중에서 각 달의 마지막 날
BMS : 주말이 아닌 평일 중에서 각 달의 첫날
WOM-2THU : 각 분기의 첫 달의 마지막 날
Q-JAN : 각 분기의 첫 달의 마지막 날
Q-DEX : 각 분기의 마지막 달의 마지막날

'''

In [158]:
pd.date_range('2019-4-1', '2019-4-30', freq='B')
pd.date_range('2019-4-1', '2019-12-31', freq='W')

DatetimeIndex(['2019-04-07', '2019-04-14', '2019-04-21', '2019-04-28',
               '2019-05-05', '2019-05-12', '2019-05-19', '2019-05-26',
               '2019-06-02', '2019-06-09', '2019-06-16', '2019-06-23',
               '2019-06-30', '2019-07-07', '2019-07-14', '2019-07-21',
               '2019-07-28', '2019-08-04', '2019-08-11', '2019-08-18',
               '2019-08-25', '2019-09-01', '2019-09-08', '2019-09-15',
               '2019-09-22', '2019-09-29', '2019-10-06', '2019-10-13',
               '2019-10-20', '2019-10-27', '2019-11-03', '2019-11-10',
               '2019-11-17', '2019-11-24', '2019-12-01', '2019-12-08',
               '2019-12-15', '2019-12-22', '2019-12-29'],
              dtype='datetime64[ns]', freq='W-SUN')

In [163]:
# shift 연산

np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range('2019-1-1', periods=4, freq='M'))
ts

2019-01-31    1.764052
2019-02-28    0.400157
2019-03-31    0.978738
2019-04-30    2.240893
Freq: M, dtype: float64

In [165]:
ts.shift(1)
ts.shift(-1)

2019-01-31    0.400157
2019-02-28    0.978738
2019-03-31    2.240893
2019-04-30         NaN
Freq: M, dtype: float64

In [167]:
ts.shift(1, freq='M')  # 월요일에 해당하는 날짜
ts.shift(1, freq='W')  # 일요일에 해당하는 날짜

2019-02-03    1.764052
2019-03-03    0.400157
2019-04-07    0.978738
2019-05-05    2.240893
Freq: WOM-1SUN, dtype: float64

In [None]:
# resample : 시간간격을 다시 재조정
'''
    up-sampling : 시간 구간이 작아지면서 데이터 양이 증가
    down-sampling : 구간이 커지면서 데이터 양이 감소
'''

In [169]:
ts = pd.Series(np.random.randn(100), index=pd.date_range('2019-1-1', periods=100, freq='D'))
ts.tail(10)   # 2019-1-1 에서 딱 100일째 되는 날 = 2019-4-10

2019-04-01    0.126912
2019-04-02    0.401989
2019-04-03    1.883151
2019-04-04   -1.347759
2019-04-05   -1.270485
2019-04-06    0.969397
2019-04-07   -1.173123
2019-04-08    1.943621
2019-04-09   -0.413619
2019-04-10   -0.747455
Freq: D, dtype: float64

In [173]:
# down sampling
ts.resample("W").mean()   
ts.resample("M").first()  # 대표값 뽑기

2019-01-31   -0.103219
2019-02-28   -0.302303
2019-03-31    0.462782
2019-04-30    0.126912
Freq: M, dtype: float64

In [174]:
ts = pd.Series(np.random.randn(60), index=pd.date_range('2019-1-1', periods=60, freq='T'))
ts.head(20)

2019-01-01 00:00:00    1.922942
2019-01-01 00:01:00    1.480515
2019-01-01 00:02:00    1.867559
2019-01-01 00:03:00    0.906045
2019-01-01 00:04:00   -0.861226
2019-01-01 00:05:00    1.910065
2019-01-01 00:06:00   -0.268003
2019-01-01 00:07:00    0.802456
2019-01-01 00:08:00    0.947252
2019-01-01 00:09:00   -0.155010
2019-01-01 00:10:00    0.614079
2019-01-01 00:11:00    0.922207
2019-01-01 00:12:00    0.376426
2019-01-01 00:13:00   -1.099401
2019-01-01 00:14:00    0.298238
2019-01-01 00:15:00    1.326386
2019-01-01 00:16:00   -0.694568
2019-01-01 00:17:00   -0.149635
2019-01-01 00:18:00   -0.435154
2019-01-01 00:19:00    1.849264
Freq: T, dtype: float64

In [176]:
ts.resample('10T').sum()
ts.resample('10T', closed='right').sum()

2018-12-31 23:50:00    1.922942
2019-01-01 00:00:00    7.243732
2019-01-01 00:10:00    3.066058
2019-01-01 00:20:00    0.339179
2019-01-01 00:30:00    0.872688
2019-01-01 00:40:00   -2.250372
2019-01-01 00:50:00   -0.895407
Freq: 10T, dtype: float64

In [None]:
ts.resample('ST').ohlc()    # (open, high, low, close)

In [None]:
# 업 샘플링
'''
    forward filling : 앞에서 나온 데이터를 그대로 사용
    backward filling : 뒤에서 나올 데이터를 앞에서 미리 사용
'''

In [178]:
ts.resample('30s').ffill().head(20)   # forward fill
ts.resample('30s').bfill().head(20)   # 뒤에서 나올 데이터를????? 끌어옴???

2019-01-01 00:00:00    1.922942
2019-01-01 00:00:30    1.480515
2019-01-01 00:01:00    1.480515
2019-01-01 00:01:30    1.867559
2019-01-01 00:02:00    1.867559
2019-01-01 00:02:30    0.906045
2019-01-01 00:03:00    0.906045
2019-01-01 00:03:30   -0.861226
2019-01-01 00:04:00   -0.861226
2019-01-01 00:04:30    1.910065
2019-01-01 00:05:00    1.910065
2019-01-01 00:05:30   -0.268003
2019-01-01 00:06:00   -0.268003
2019-01-01 00:06:30    0.802456
2019-01-01 00:07:00    0.802456
2019-01-01 00:07:30    0.947252
2019-01-01 00:08:00    0.947252
2019-01-01 00:08:30   -0.155010
2019-01-01 00:09:00   -0.155010
2019-01-01 00:09:30    0.614079
Freq: 30S, dtype: float64