In [1]:
import pandas as pd
import numpy as np

# 데이터 프레임 병합(합성)

## merge
    두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합틴다.
    이 때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [4]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])

df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])

print(df1)
df2

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [8]:
pd.merge(df1, df2)  # 공통되지 않은 도우너와 또치, 길동, 영희는 빠진다(inner join?)
pd.merge(df1, df2, how='left')  # how: 어떻게 조인할거냐
pd.merge(df1, df2, how='right')
pd.merge(df1, df2, how='outer')  # full outer join = left outer join + right outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [15]:
df1 = pd.DataFrame({
    "품종":['setosa', 'setosa', 'virginica', 'virginica'],
    "꽃잎길이":[1.4, 1.3, 1.5, 1.3]
}, columns=["품종", "꽃잎길이"])
df1

df2 = pd.DataFrame({
    "품종":['setosa', 'virginica', 'virginica', 'versicolor'],
    "꽃잎너비":[0.4, 0.3, 0.5, 0.3]
}, columns=["품종", "꽃잎너비"])
df2

pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [None]:
# key

In [14]:
df1 = pd.DataFrame({
    '고객명':['춘향', '춘향','몽룡'],
    '날짜':['2018-01-01', '2018-01-02', '2018-01-03'],
    '데이터':['20000','30000','100000']
})

df2 = pd.DataFrame({
    '고객명':['춘향','몽룡'],
    '데이터':['여자', '남자']
})

# 고객명을 잡고 가겠다? 고 표시해줘야함 = key지정
pd.merge(df1, df2, on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-03,100000,남자


In [18]:
df1 = pd.DataFrame({
    '이름':['영희', '철수', '철수'],
    '성적':[1,2,3]
})

df2 = pd.DataFrame({
    '성명':['영희', '영희', '철수'],
    '성적2':[4,5,6]
})

pd.merge(df1, df2, left_on='이름', right_on='성명')

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [26]:
df1 = pd.DataFrame({
    '도시':['서울', '서울', '서울', '부산', '부산'],
    '연도':[2000, 2005, 2010, 2000, 2005],
    '인구':[9853972, 9762546, 9631482, 3655437, 3512547]
})

print(df1)

df2 = pd.DataFrame(np.arange(12).reshape(6,2),   # 1차월 배열을 6행2열의 2차원 배열로
    index=[["부산", "부산", "서울", "서울", "서울", "서울"],[2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])

print(df2)

pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [35]:
df1 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                  index=['a', 'c', 'e'],
                  columns=['서울', '부산'])
                   
print(df1)  

df2 = pd.DataFrame([[7., 8.], [9., 10.],[11., 12.],[13., 14.],],
                    index=['b', 'c', 'd', 'e'],
                    columns=['대구', '광주'])
        
print(df2)

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


In [37]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

#merge를 단순화한 것 = join
df1.join(df2, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [40]:
df1 = pd.DataFrame({
   'Name' : ['Morning', 'K3', 'K5', 'K8', 'K9'],
   'Segment' : ['Mini', 'Small', 'Mid', 'Sport', 'Large'],
   'Engine' : ['1.0L', '1.6', '2.0', '3.0', '5.0'],
   'Fuel' : ['14km', '18km', '16km', '12km', '10km'],
   'Price' : [1000, 2000, 3000, 4000, 5000]},
   columns = ["Name", "Segment", "Engine", "Fuel", "Price"])
df1

df2 = pd.DataFrame({
   '이름' : ['Morning', 'K3', 'K5', 'K8', 'K9'],
   '출시년도' : ['2000', '2005', '2005', '2016', '2010'],
   '연료' : ['휘발유', '경유', '경유', '휘발유', '휘발유'],
   '마력' : [50, 100, 150, 250, 300],
   '탑승인원' : [4, 5, 5, 4, 4]},
   columns = ["이름", "출시년도", "연료", "마력", "탑승인원"])
df2

pd.merge(df1, df2, left_on="Name", right_on="이름")
df1.join(df2, how="outer")

Unnamed: 0,Name,Segment,Engine,Fuel,Price,이름,출시년도,연료,마력,탑승인원
0,Morning,Mini,1.0L,14km,1000,Morning,2000,휘발유,50,4
1,K3,Small,1.6,18km,2000,K3,2005,경유,100,5
2,K5,Mid,2.0,16km,3000,K5,2005,경유,150,5
3,K8,Sport,3.0,12km,4000,K8,2016,휘발유,250,4
4,K9,Large,5.0,10km,5000,K9,2010,휘발유,300,4


## concat
    단순하게 위아래 연결

In [44]:
s1 = pd.Series([0,1], index=["A", "B"])
s2 = pd.Series([2,3,4], index=["A", "B", "C"])
print(s1)
print(s2)
pd.concat([s1, s2])  # 단순하게 s1 아래에 s2 붙임

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64


A    0
B    1
A    2
B    3
C    4
dtype: int64

In [50]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2), index=['a', 'b', 'c'], columns=['데이터1', '데이터2'])
print(df1)

df2 = pd.DataFrame(5+np.arange(4).reshape(2,2), index=['a', 'c'], columns=['데이터3', '데이터4'])
print(df2)

pd.concat([df1, df2], axis=1)   # 축은 행을 기준으로!

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
   데이터3  데이터4
a     5     6
c     7     8


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  import sys


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


### concat을 이용한 연습문제
    어느 회사의 전반기(1월~6월) 실적을 나타내는 데이터프레임과
    후반기(7월~12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
    실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용),
    또한 1년 간의 총 실적을 마지막 행으로 덧붙인다.

In [53]:
df1 = pd.DataFrame({
    "매출":[1000,1500,3000,4000,5000,6000],
    "비용":[1500,2000,2500,2700,3000,3200]},
    index=["1월","2월","3월","4월","5월","6월"],
    columns=["매출","비용"])
print(df1)

df2 = pd.DataFrame({
    "매출":[4500,4000,5000,6000,3000,2000],
    "비용":[2800,2700,3000,3200,2500,2000]},
    index=["7월","8월","9월","10월","11월","12월"],
    columns=["매출","비용"])
print(df2)


df3 = pd.concat([df1, df2])
df3

      매출    비용
1월  1000  1500
2월  1500  2000
3월  3000  2500
4월  4000  2700
5월  5000  3000
6월  6000  3200
       매출    비용
7월   4500  2800
8월   4000  2700
9월   5000  3000
10월  6000  3200
11월  3000  2500
12월  2000  2000


Unnamed: 0,매출,비용
1월,1000,1500
2월,1500,2000
3월,3000,2500
4월,4000,2700
5월,5000,3000
6월,6000,3200
7월,4500,2800
8월,4000,2700
9월,5000,3000
10월,6000,3200


# 피봇테이블과 그룹분석
    DataFrame.pivot(index=None, columns=None, values=None)

In [54]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [60]:
# 인덱스와 컬럼을 재배열하여 관심있는 데이터만 뽑아볼 수 있게끔 한다
df1.pivot("도시", "연도", "인구")   # 인덱스 도시, 컬럼 연도

# 도시와 연도 = key  one and only여야함. 또 나오면 안됨.
# 연도, 지역의 경우를 보면 2015,수도권이 중복되는 값이 있기 때문에 key가 될 수 없음

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [61]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()    

# 도시와 연도 = key  one and only여야함. 또 나오면 안됨.
# 연도, 지역의 경우를 보면 2015,수도권이 중복되는 값이 있기 때문에 key가 될 수 없음
#df1.pivot("지역", "연도", "인구")  # Duplicate error

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


## 그룹 분석
    DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, 
    group_keys=True, squeeze=False, observed=False, **kwargs)
    
    - size, count
    - mean, median, min, max
    - sum, prod, std, var, quantile
    - first, last
    
    - agg, aggregate
    - describe
    - apply
    - transform

In [63]:
df2 = pd.DataFrame({
    "key1":['A', 'A', 'B', 'B', 'A'],
    "key2":['one', 'two', 'one', 'two', 'one'],
    "data1":[1,2,3,4,5],
    "data2":[10,20,30,40,50]
})
df2

# key1 : A와 B로 묶을 수 있음
# key2 : one, two로 묶을 수 있음

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [73]:
# group by를 이용하자!
g = df2.groupby(df2.key1)
g
g.groups   # index 표시 볼 수 있음

g.sum()   # 각 그룹별 합계

df2.groupby(df2.key1).sum()  # 객체 생성없이 바로 해결!
df2.data1.groupby(df2.key1).sum()      # data1 불러온뒤에 groupby? -> sum()
df2.groupby(df2.key1)["data1"].sum()   # `GroupBy` 클래스 객체에서 data1만 선택하여 분석하는 경우
df2.groupby(df2.key1).sum()["data1"]    # 전체 데이터를 분석한 후 data1만 선택한 경우

key1
A    8
B    7
Name: data1, dtype: int64

In [75]:
df2.data1.groupby(by=[df2.key1, df2.key2]).sum()  #첫번째 인자라서 by는 생략가능하다
df2.data1.groupby(by=[df2.key1, df2.key2]).sum().unstack("key2")  # 행을 열로 보냄 = unstack명령으로 피봇테이블 형태로 만듦

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


    다음 데이터는 150 송이의 붓꽃(iris)에 대해 붓꽃 종(species)별로 꽃잎길이(sepal_length), 
    꽃잎폭(sepal_width), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width)을 측정한 데이터이다. 
    (Seaborn 패키지가 설치되어 있어야 한다.)

In [80]:
import seaborn as sns
iris = sns.load_dataset("iris")   # load_dataset 메서드를 통해 iris를 불러옴
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [84]:
# 각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율을 구해보자. 
# 이러한 계산을 하는 그룹연산 메서드는 없으므로 직접 만든 후 agg 메서드를 적용한다.  apply랑 비슷? apply 강의노트 다시보기
def peak_to_peak_ratio(x):
    return x.max()/x.min()

print(iris.groupby(iris.species).agg(peak_to_peak_ratio))   # 품종별 그룹화 후 aggregate, agg: apply의 확장판이라고 보면 됨
iris.groupby(iris.species).apply(peak_to_peak_ratio)

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714


Unnamed: 0_level_0,petal_length,petal_width,sepal_length,sepal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.9,6.0,1.348837,1.913043
versicolor,1.7,1.8,1.428571,1.7
virginica,1.533333,1.785714,1.612245,1.727273


In [86]:
# describe 메서드를 사용하면 다양한 기술 통계(descriptive statistics)값을 한 번에 구한다. 
# 그룹별로 하나의 스칼라 값이 아니라 하나의 데이터프레임이 생성된다는 점에 주의하라.
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
petal_length,count,50.0,50.0,50.0
petal_length,mean,1.462,4.26,5.552
petal_length,std,0.173664,0.469911,0.551895
petal_length,min,1.0,3.0,4.5
petal_length,25%,1.4,4.0,5.1
petal_length,50%,1.5,4.35,5.55
petal_length,75%,1.575,4.6,5.875
petal_length,max,1.9,5.1,6.9
petal_width,count,50.0,50.0,50.0
petal_width,mean,0.246,1.326,2.026


In [88]:
# transform
def q3cut(s):
    return pd.qcut(s, 3, labels=["소", "중", "대"])
iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(q3cut)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
5,5.4,3.9,1.7,0.4,setosa,대
6,4.6,3.4,1.4,0.3,setosa,소
7,5.0,3.4,1.5,0.2,setosa,중
8,4.4,2.9,1.4,0.2,setosa,소
9,4.9,3.1,1.5,0.1,setosa,중


##### 연습문제
    붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width), 길이, 꽃받침, 꽃받침 폭 등의 평균을 구하라. 
    만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [112]:
def mean(x):
    return x.mean()

mean_data = iris.groupby(iris.species).agg(mean)
mean_data.loc["setosa"]

sepal_length    5.006
sepal_width     3.428
petal_length    1.462
petal_width     0.246
Name: setosa, dtype: float64