# 05장 판다스 데이터프레임 Part2

In [None]:
## 01) Query

In [1]:
# 데이터프레임에서 불리언 표현식을 사용해서 조건을 만든 후 이를 사용해 필터링하는 
# 것처럼 query 메서드를 사용하면 특정 조건에 부합하는 데이터를 쉽게 필터링 할 수 있음

import pandas as pd

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = pd.DataFrame(data=data)
df = df.set_index('cd')
print(df)

             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200


In [2]:
cond = df['open'] > 2000
df[cond]

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [3]:
# 데이터프레임의 query 메서드로 필터링
# 쿼리라고 불리는 특수한 명령을 query 메서드로 전달
# 큰따옴표로 전체 쿼리를 정의하고 쿼리 안에서 사용하는 문자열은 작은따옴표로 구분

df.query("nm=='3S'") # df.query('nm=="3S"')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [5]:
df

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [6]:
# 종가가 시가보다 큰 상승 마감한 데이터만 출력
df.query('close > open')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A054620,APS홀딩스,3120,3200


In [8]:
df.query("nm in ['3S', 'AK홀딩스']")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010


In [11]:
# 인덱스를 기준으로 조회
df.query("cd == 'A060310'")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [12]:
# 파이썬 변수 참조 - "@" 키워드
name = 'AJ네트웍스'
df.query("nm == @name")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


## 02) Filter
- query 메서드가 값을 사용해서 필터링 할 수 있었다면 filter 메서드는 인덱스나 컬럼 이름에 대해서 특정 조건으로 필터링

In [13]:
import pandas as pd

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [14]:
# filter 메서드의 items 파라미터로 선택할 컬럼의 이름을 지정
df.filter(items=['2018/12'])

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [16]:
df[['2018/12']]

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [17]:
# 인덱스에 대해서도 필터링
df.filter(items=['PER'], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [20]:
df.iloc[[0]]

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0


In [21]:
df.loc[['PER']]

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [24]:
# 컬럼에서 2020이라는 문자열 일부로 필터링하는 것이 필요
df.filter(regex='2020')

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [26]:
# '^2020'은 2020으로 시작하는 문자열 패턴만을 선택
df.filter(regex='^2020')

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [28]:
# $은 끝을 의미해서 R$는 R로 끝나는 모든 패턴을 의미
df.filter(regex="R$", axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [29]:
# '\d'는 숫자를 의미하며 중괄호로 출현 횟수를 지정
df.filter(regex="\d{4}")

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [31]:
# 숫자 네 개와 '/' 그리고 숫자 두 개로 구성된 컬럼을 선택하는 정규식
df.filter(regex='\d{4}/\d{2}$')

Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


## 03) 정렬 및 순위

In [32]:
import pandas as pd

data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185]
]

columns = ["종목코드", "종목명", "현재가"]
df = pd.DataFrame(data=data, columns=columns)
df.set_index("종목코드", inplace=True)
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [37]:
# '현재가' 컬럼을 기준으로 정렬

df2 = df.sort_values(by='현재가', ascending=False)
df2

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
36360,3SOFT,1790
37730,3R,1510
5670,ACTS,1185


In [39]:
 # '현재가'가 낮은 종목부터 순위
 df['순위'] = df['현재가'].rank()
 df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5670,ACTS,1185,1.0


In [42]:
df.sort_values(by='순위', inplace=True)
df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5670,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


## 04) 인덱스 연산

In [43]:
import pandas as pd

idx1 = pd.Index([1, 2, 3])
idx2 = pd.Index([2, 3, 4])
print(type(idx1))

<class 'pandas.core.indexes.numeric.Int64Index'>


In [44]:
idx1

Int64Index([1, 2, 3], dtype='int64')

In [45]:
# union(합집합) - union 메서드는 현재의 인덱스와 입력된 인덱스를 모두 합쳐 중복된 것을 제거한 결과를 반환
idx1.union(idx2)

Int64Index([1, 2, 3, 4], dtype='int64')

In [46]:
# intersection(교집합) - 중복된 데이터만 선택하고 싶다면 intersection 메서드
idx1.intersection(idx2)

Int64Index([2, 3], dtype='int64')

In [47]:
# difference(차집합) - idx1에서 idx2와 중복되는 인덱스 값만을 제거
idx1.difference(idx2)

Int64Index([1], dtype='int64')

## 05) GroupBy

In [48]:
import pandas as pd

data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = pd.DataFrame(data=data, columns=columns)
df1 = df[df['테마'] == "2차전지(생산)"]
df1

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [49]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [50]:
df2 = df[df['테마'] == '해운']
df2

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


In [51]:
df3 = df[df['테마'] == '시스템반도체']
df3

Unnamed: 0,테마,종목명,PER,PBR
2,시스템반도체,티엘아이,35.97,1.12
4,시스템반도체,아이에이,37.32,3.55


In [54]:
# 테마별로 그룹화한 데이터프레임 객체에서 PER 컬럼의 평균값을 계산
mean1 = df1['PER'].mean()
mean2 = df2['PER'].mean()
mean3 = df3['PER'].mean()

mean1, mean2, mean3

(46.625, 21.375, 36.644999999999996)

In [55]:
# 테마별로 PER의 평균을 시리즈로 저장
data = [mean1, mean2, mean3]
index = ['2차전지(생산)', '해운','시스템반도체']
s = pd.Series(data=data, index=index)
s


2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64

In [56]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [58]:
# 데이터프레임은 이러한 데이터 집계 연산을 쉽게 처리할 수 있는 groupby 메서드를 제공
df.groupby('테마')['PER'].mean()

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64

In [62]:
# groupby 메서드는 분할(Split)을 담당하며 DataFrameGroupBy라는 타입의 객체를 리턴
# DataFrameGroupBy 객체의 get_group 메서드로 특정한 값을 갖는 데이터프레임을 얻을 수 있음

gb = df.groupby("테마")
temp = gb.get_group('2차전지(생산)')
print(temp)

         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75


In [65]:
df[['테마', 'PER', "PBR"]].groupby('테마').get_group('2차전지(생산)')

Unnamed: 0,테마,PER,PBR
0,2차전지(생산),10.19,1.29
5,2차전지(생산),83.06,3.75


In [64]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [66]:
df.groupby('테마')[['PER', 'PBR']].get_group('2차전지(생산)')

Unnamed: 0,PER,PBR
0,10.19,1.29
5,83.06,3.75


In [74]:
df.groupby('테마')[['PER','PBR']].mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [73]:
df.groupby('테마').mean()[['PER', 'PBR']]

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [75]:
df.groupby('테마').mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [76]:
# 데이터프레임을 그룹화한 후 특정 컬럼마  다 다른 함수를 적용

df.groupby('테마').agg({'PER':max, 'PBR':min})

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [78]:
# 하나의 컬럼에 여러 연산을 지정

import numpy as np

df.groupby('테마').agg({'PER':[min, max], 'PBR':[np.std, np.var]})

Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


In [77]:
df.groupby('테마').get_group('해운')

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


## 06) 좌/우로 붙이기
- concat 함수를 사용하여 데이터프레임을 좌/우로 붙이기 
- 인덱스는 동일한데 컬럼의 데이터가 분리되어 있을 때 여러 데이터프레임을 붙여서 
  하나의 데이터프레임으로 만들 수 있습니다

In [79]:
# concat 함수는 기본적으로 같은 컬럼 레이블을 갖는 데이터프레임 객체를 위/아래로 연결
# axis=1 파라미터를 전달하면 리스트로 전달된 데이터프레임을 좌/우로 연결

import pandas as pd

# 첫 번째 데이터프레임
data = {
    '종가':   [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = pd.DataFrame(data=data, index=index)

# 두 번째 데이터프레임
data = {
    '시가':   [112500, 110000],
    '고가':   [115000, 112000],
    '저가':   [111500, 109000]
}
index = ['2019-06-21', '2019-06-20']
df2 = pd.DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000


In [81]:
# 좌우로 이어 붙인 데이터프레임에서 컬럼의 순서 변경
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서]
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


In [82]:
# 인덱스가 다른 데이터프레임의 concat

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = pd.DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}

index = ["2019-06-20", "2019-06-19"]
df2 = pd.DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)

                  종가       거래량        시가        고가        저가
2019-06-21  113000.0  555850.0       NaN       NaN       NaN
2019-06-20  111500.0  282163.0  112500.0  115000.0  111500.0
2019-06-19       NaN       NaN  110000.0  112000.0  109000.0


In [83]:
# concat 함수에서 join 파라미터를 사용하여 outer, inner 옵션으로 인덱스가 
# 다를 때의 동작을 지정
print(df1)
print(df2)
df = pd.concat([df1, df2], axis=1, join='inner')
print(df)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
                시가      고가      저가
2019-06-20  112500  115000  111500
2019-06-19  110000  112000  109000
                종가     거래량      시가      고가      저가
2019-06-20  111500  282163  112500  115000  111500


## 07) 위/아래로 붙이기

In [89]:
import pandas as pd

# 첫 번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = pd.DataFrame(data, index=index)

# 두 번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946]
}
index = ["2019-06-19", "2019-06-18"]
df2 = pd.DataFrame(data, index=index)

In [90]:
# 두 개의 데이터프레임을 위/아래로 연결할 때는 append 메서드를 사용하고 
# 연결할 데이터프레임이 여러 개인 경우 concat 함수를 사용하면 편리

df_append = df1.append(df2)
print(df_append)

df_concat = pd.concat([df1, df2]) 
print(df_concat)


                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946
                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946


## 08) Merge
- 판다스의 merge는 데이터프레임을 '병합'
- concat이 단순히 두 데이터프레임을 이어 붙이는 연결이라면 
- merge는 특정 컬럼의 값을 기준으로 데이터를 병합

In [91]:
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)
print(df1)
print(df2)


     업종    종목코드     종목명     현재가
0  전기전자  005930    삼성전자   74400
1    화학  051910    LG화학  896000
2  전기전자  000660  SK하이닉스  101500
     업종   등락률
0    은행  2.92
1    보험  0.37
2    화학  0.06
3  전기전자 -2.43


In [92]:
# merge 함수는 두 데이터프레임을 합칠 기준값(컬럼명)을 on 파라미터에 지정

pd.merge(left=df1, right=df2, on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [93]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)

In [94]:
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,서비스업,35720,카카오,121500


In [95]:
df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [96]:
pd.merge(left=df1, right=df2, how='left', on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,서비스업,35720,카카오,121500,


In [97]:
# merge 하고자하는 컬럼의 이름이 다른 경우 

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)

In [99]:
df1, df2

(     업종    종목코드   종목명     현재가
 0  전기전자  005930  삼성전자   74400
 1    화학  051910  LG화학  896000
 2  서비스업  035720   카카오  121500,
      항목   등락률
 0    은행  2.92
 1    보험  0.37
 2    화학  0.06
 3  전기전자 -2.43)

In [103]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='left' )
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06
2,서비스업,35720,카카오,121500,,


In [104]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='right' )
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,,,,,은행,2.92
1,,,,,보험,0.37
2,화학,51910.0,LG화학,896000.0,화학,0.06
3,전기전자,5930.0,삼성전자,74400.0,전기전자,-2.43


In [105]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


In [106]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='inner')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


## 09) Join
- 데이터프레임의 인덱스를 기준으로 병합(merge)하는 경우 join을 사용

In [107]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")

In [108]:
df1

Unnamed: 0_level_0,종목코드,종목명,현재가
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,5930,삼성전자,74400
화학,51910,LG화학,896000
서비스업,35720,카카오,121500


In [109]:
df2

Unnamed: 0_level_0,등락률
항목,Unnamed: 1_level_1
은행,2.92
보험,0.37
화학,0.06
전기전자,-2.43


In [110]:
df1.join(df2)

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [111]:
df1.join(other=df2) 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [112]:
# how='left/right/outer/inner'
df1.join(other=df2, how='left') 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [113]:
df1.join(other=df2, how='right') 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
항목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
은행,,,,2.92
보험,,,,0.37
화학,51910.0,LG화학,896000.0,0.06
전기전자,5930.0,삼성전자,74400.0,-2.43


In [114]:
df1.join(other=df2, how='inner') 

Unnamed: 0,종목코드,종목명,현재가,등락률
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06


In [115]:
df1.join(other=df2, how='outer') 

Unnamed: 0,종목코드,종목명,현재가,등락률
보험,,,,0.37
서비스업,35720.0,카카오,121500.0,
은행,,,,2.92
전기전자,5930.0,삼성전자,74400.0,-2.43
화학,51910.0,LG화학,896000.0,0.06


In [116]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],    
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],    
]

columns = ["연도", "회사", "시가총액"]
df = pd.DataFrame(data=data, columns=columns)
print(df)

     연도      회사  시가총액
0  2017      삼성   500
1  2017      LG   300
2  2017  SK하이닉스   200
3  2018      삼성   600
4  2018      LG   400
5  2018  SK하이닉스   300
