### 데이터프레임 합성

In [3]:
import numpy as np
import pandas as pd

merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.
=> MySQL Join과 비슷

In [7]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [6]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [10]:
""" INNER JOIN """
# 열 이름이 같은게 있으면 그걸 기준으로 inner join (공통인 부분만)
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [11]:
""" FULL OUTER JOIN """
# 합집합, 다 가져옴
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [15]:
""" LEFT JOIN """
# DF1(왼쪽) 에 있는것만 나온다. (1008 제외)
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [17]:
""" RIGHT JOIN """
# DF2(오른쪽) 에 있는것만 나온다. (1002,3,4,7 제외)
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


&nbsp;만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다. <br>
&nbsp;setosa에 대해 왼쪽 데이터프레임에는 1.4와 1.3라는 2개의 데이터, 오른쪽 데이터프레임에 0.4라는 1개의 데이터가 있으므로 병합된 데이터에는 setosa가 (1.4, 0.4), (1.3, 0.4) 두 개의 데이터가 생긴다. 키 값 virginica의 경우에는 왼쪽 데이터프레임에 1.5와 1.3라는 2개의 데이터, 오른쪽 데이터프레임에 0.3와 0.5라는 2개의 데이터가 있으므로 2개와 2개의 조합에 의해 4가지 값이 생긴다.


In [43]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [42]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [44]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


컬럼 이름이 다른 경우

In [24]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [23]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2


Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [26]:
pd.merge(df1, df2)

Unnamed: 0,고객명,날짜,데이터


In [27]:
pd.merge(df1, df2, on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


on을 써야 하는 열 이름이 이름 성명으로 다를 때 

In [29]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [30]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [34]:
# 각각 이름 다른 애들을 좌우로 나눠서 한다고 생각하면 됨
pd.merge(df1, df2, left_on='이름', right_on="성명")

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


인덱스를 기준으로 합칠 때

In [46]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [47]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [57]:
# df1에서는 '도시', '연도'를 기준으로, df2에선 인덱스를 기준으로
# 왜? df1에서는 도시, 연도가 df2에서는 인덱스로 들어가있잖아
# 기준열이 하나 이상이면 리스트/튜플로 들어감
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


### concat 함수
concat 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.

기본적으로는 위/아래 세로로 데이터 행을 연결한다. 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [63]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [64]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [65]:
pd.concat([s1,s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

- 가로로 합치고 싶으면 axis=1

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

In [66]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [68]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,도시,연도,인구,데이터3,데이터4
0,서울,2000.0,9853972.0,,
1,서울,2005.0,9762546.0,,
2,서울,2010.0,9631482.0,,
3,부산,2000.0,3655437.0,,
4,부산,2005.0,3512547.0,,
a,,,,5.0,6.0
c,,,,7.0,8.0


In [78]:
# 어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).
# 또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

columns1 = ['1월','2월','3월','4월','5월','6월']
columns2 = ['7월','8월','9월','10월','11월','12월']
index = ['매출','비용']

df1 = pd.DataFrame({
    '1월':[100,200],
    '2월':[100,200],
    '3월':[100,200],
    '4월':[100,200],
    '5월':[100,200],
    '6월':[100,200]
}, index=index, columns=columns1).T
df1['이익'] = df1['매출'] - df1['비용']
df1

Unnamed: 0,매출,비용,이익
1월,100,200,-100
2월,100,200,-100
3월,100,200,-100
4월,100,200,-100
5월,100,200,-100
6월,100,200,-100


In [77]:
df2 = pd.DataFrame({
    '7월':[100,200],
    '8월':[100,200],
    '9월':[100,200],
    '10월':[300,100],
    '11월':[300,100],
    '12월':[300,100]
}, index=index, columns=columns2).T
df2['이익'] = df2['매출'] - df2['비용']
df2

Unnamed: 0,매출,비용,이익
7월,100,200,-100
8월,100,200,-100
9월,100,200,-100
10월,300,100,200
11월,300,100,200
12월,300,100,200


In [81]:
result = pd.concat([df1,df2])
result

Unnamed: 0,매출,비용,이익
1월,100,200,-100
2월,100,200,-100
3월,100,200,-100
4월,100,200,-100
5월,100,200,-100
6월,100,200,-100
7월,100,200,-100
8월,100,200,-100
9월,100,200,-100
10월,300,100,200


In [84]:
s = result.apply(lambda x: sum(x))
type(s)

pandas.core.series.Series

In [92]:
# 마지막 행 데이터타입이 다 같아서 가능
result.loc['결론',:] = result.apply(lambda x: sum(x))

In [90]:
result

Unnamed: 0,매출,비용,이익
1월,100.0,200.0,-100.0
2월,100.0,200.0,-100.0
3월,100.0,200.0,-100.0
4월,100.0,200.0,-100.0
5월,100.0,200.0,-100.0
6월,100.0,200.0,-100.0
7월,100.0,200.0,-100.0
8월,100.0,200.0,-100.0
9월,100.0,200.0,-100.0
10월,300.0,100.0,200.0


In [2]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
