# 05장 판다스 데이터프레임 Part2

In [None]:
## 01) Query

In [1]:
# 데이터프레임에서 불리언 표현식을 사용해서 조건을 만든 후 이를 사용해 필터링하는 
# 것처럼 query 메서드를 사용하면 특정 조건에 부합하는 데이터를 쉽게 필터링 할 수 있음

import pandas as pd

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = pd.DataFrame(data=data)
df = df.set_index('cd')
print(df)

             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200


In [2]:
cond = df['open'] > 2000
df[cond]

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [3]:
# 데이터프레임의 query 메서드로 필터링
# 쿼리라고 불리는 특수한 명령을 query 메서드로 전달
# 큰따옴표로 전체 쿼리를 정의하고 쿼리 안에서 사용하는 문자열은 작은따옴표로 구분

df.query("nm=='3S'") # df.query('nm=="3S"')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [5]:
df

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [6]:
# 종가가 시가보다 큰 상승 마감한 데이터만 출력
df.query('close > open')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A054620,APS홀딩스,3120,3200


In [8]:
df.query("nm in ['3S', 'AK홀딩스']")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010


In [11]:
# 인덱스를 기준으로 조회
df.query("cd == 'A060310'")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [12]:
# 파이썬 변수 참조 - "@" 키워드
name = 'AJ네트웍스'
df.query("nm == @name")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


## 02) Filter
- query 메서드가 값을 사용해서 필터링 할 수 있었다면 filter 메서드는 인덱스나 컬럼 이름에 대해서 특정 조건으로 필터링

In [13]:
import pandas as pd

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [14]:
# filter 메서드의 items 파라미터로 선택할 컬럼의 이름을 지정
df.filter(items=['2018/12'])

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [16]:
df[['2018/12']]

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [17]:
# 인덱스에 대해서도 필터링
df.filter(items=['PER'], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [20]:
df.iloc[[0]]

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0


In [21]:
df.loc[['PER']]

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [24]:
# 컬럼에서 2020이라는 문자열 일부로 필터링하는 것이 필요
df.filter(regex='2020')

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [26]:
# '^2020'은 2020으로 시작하는 문자열 패턴만을 선택
df.filter(regex='^2020')

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [28]:
# $은 끝을 의미해서 R$는 R로 끝나는 모든 패턴을 의미
df.filter(regex="R$", axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [29]:
# '\d'는 숫자를 의미하며 중괄호로 출현 횟수를 지정
df.filter(regex="\d{4}")

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [31]:
# 숫자 네 개와 '/' 그리고 숫자 두 개로 구성된 컬럼을 선택하는 정규식
df.filter(regex='\d{4}/\d{2}$')

Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


## 03) 정렬 및 순위

In [32]:
import pandas as pd

data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185]
]

columns = ["종목코드", "종목명", "현재가"]
df = pd.DataFrame(data=data, columns=columns)
df.set_index("종목코드", inplace=True)
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [37]:
# '현재가' 컬럼을 기준으로 정렬

df2 = df.sort_values(by='현재가', ascending=False)
df2

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
36360,3SOFT,1790
37730,3R,1510
5670,ACTS,1185


In [39]:
 # '현재가'가 낮은 종목부터 순위
 df['순위'] = df['현재가'].rank()
 df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5670,ACTS,1185,1.0


In [42]:
df.sort_values(by='순위', inplace=True)
df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5670,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


## 04) 인덱스 연산

In [43]:
import pandas as pd

idx1 = pd.Index([1, 2, 3])
idx2 = pd.Index([2, 3, 4])
print(type(idx1))

<class 'pandas.core.indexes.numeric.Int64Index'>


In [44]:
idx1

Int64Index([1, 2, 3], dtype='int64')

In [45]:
# union(합집합) - union 메서드는 현재의 인덱스와 입력된 인덱스를 모두 합쳐 중복된 것을 제거한 결과를 반환
idx1.union(idx2)

Int64Index([1, 2, 3, 4], dtype='int64')

In [46]:
# intersection(교집합) - 중복된 데이터만 선택하고 싶다면 intersection 메서드
idx1.intersection(idx2)

Int64Index([2, 3], dtype='int64')

In [47]:
# difference(차집합) - idx1에서 idx2와 중복되는 인덱스 값만을 제거
idx1.difference(idx2)

Int64Index([1], dtype='int64')

## 05) GroupBy

In [48]:
import pandas as pd

data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = pd.DataFrame(data=data, columns=columns)
df1 = df[df['테마'] == "2차전지(생산)"]
df1

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [49]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [50]:
df2 = df[df['테마'] == '해운']
df2

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


In [51]:
df3 = df[df['테마'] == '시스템반도체']
df3

Unnamed: 0,테마,종목명,PER,PBR
2,시스템반도체,티엘아이,35.97,1.12
4,시스템반도체,아이에이,37.32,3.55


In [54]:
# 테마별로 그룹화한 데이터프레임 객체에서 PER 컬럼의 평균값을 계산
mean1 = df1['PER'].mean()
mean2 = df2['PER'].mean()
mean3 = df3['PER'].mean()

mean1, mean2, mean3

(46.625, 21.375, 36.644999999999996)

In [55]:
# 테마별로 PER의 평균을 시리즈로 저장
data = [mean1, mean2, mean3]
index = ['2차전지(생산)', '해운','시스템반도체']
s = pd.Series(data=data, index=index)
s


2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64

In [56]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [58]:
# 데이터프레임은 이러한 데이터 집계 연산을 쉽게 처리할 수 있는 groupby 메서드를 제공
df.groupby('테마')['PER'].mean()

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64

In [62]:
# groupby 메서드는 분할(Split)을 담당하며 DataFrameGroupBy라는 타입의 객체를 리턴
# DataFrameGroupBy 객체의 get_group 메서드로 특정한 값을 갖는 데이터프레임을 얻을 수 있음

gb = df.groupby("테마")
temp = gb.get_group('2차전지(생산)')
print(temp)

         테마      종목명    PER   PBR
0  2차전지(생산)  SK이노베이션  10.19  1.29
5  2차전지(생산)     LG화학  83.06  3.75


In [65]:
df[['테마', 'PER', "PBR"]].groupby('테마').get_group('2차전지(생산)')

Unnamed: 0,테마,PER,PBR
0,2차전지(생산),10.19,1.29
5,2차전지(생산),83.06,3.75


In [64]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [66]:
df.groupby('테마')[['PER', 'PBR']].get_group('2차전지(생산)')

Unnamed: 0,PER,PBR
0,10.19,1.29
5,83.06,3.75


In [74]:
df.groupby('테마')[['PER','PBR']].mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [73]:
df.groupby('테마').mean()[['PER', 'PBR']]

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [75]:
df.groupby('테마').mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [76]:
# 데이터프레임을 그룹화한 후 특정 컬럼마  다 다른 함수를 적용

df.groupby('테마').agg({'PER':max, 'PBR':min})

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [78]:
# 하나의 컬럼에 여러 연산을 지정

import numpy as np

df.groupby('테마').agg({'PER':[min, max], 'PBR':[np.std, np.var]})

Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


In [77]:
df.groupby('테마').get_group('해운')

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


## 06) 좌/우로 붙이기
- concat 함수를 사용하여 데이터프레임을 좌/우로 붙이기 
- 인덱스는 동일한데 컬럼의 데이터가 분리되어 있을 때 여러 데이터프레임을 붙여서 
  하나의 데이터프레임으로 만들 수 있습니다

In [79]:
# concat 함수는 기본적으로 같은 컬럼 레이블을 갖는 데이터프레임 객체를 위/아래로 연결
# axis=1 파라미터를 전달하면 리스트로 전달된 데이터프레임을 좌/우로 연결

import pandas as pd

# 첫 번째 데이터프레임
data = {
    '종가':   [113000, 111500],
    '거래량': [555850, 282163]
}
index = ['2019-06-21', '2019-06-20']
df1 = pd.DataFrame(data=data, index=index)

# 두 번째 데이터프레임
data = {
    '시가':   [112500, 110000],
    '고가':   [115000, 112000],
    '저가':   [111500, 109000]
}
index = ['2019-06-21', '2019-06-20']
df2 = pd.DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)

                종가     거래량      시가      고가      저가
2019-06-21  113000  555850  112500  115000  111500
2019-06-20  111500  282163  110000  112000  109000


In [81]:
# 좌우로 이어 붙인 데이터프레임에서 컬럼의 순서 변경
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서]
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


In [82]:
# 인덱스가 다른 데이터프레임의 concat

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = pd.DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}

index = ["2019-06-20", "2019-06-19"]
df2 = pd.DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
print(df)

                  종가       거래량        시가        고가        저가
2019-06-21  113000.0  555850.0       NaN       NaN       NaN
2019-06-20  111500.0  282163.0  112500.0  115000.0  111500.0
2019-06-19       NaN       NaN  110000.0  112000.0  109000.0


In [83]:
# concat 함수에서 join 파라미터를 사용하여 outer, inner 옵션으로 인덱스가 
# 다를 때의 동작을 지정
print(df1)
print(df2)
df = pd.concat([df1, df2], axis=1, join='inner')
print(df)

                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
                시가      고가      저가
2019-06-20  112500  115000  111500
2019-06-19  110000  112000  109000
                종가     거래량      시가      고가      저가
2019-06-20  111500  282163  112500  115000  111500


## 07) 위/아래로 붙이기

In [89]:
import pandas as pd

# 첫 번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = pd.DataFrame(data, index=index)

# 두 번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946]
}
index = ["2019-06-19", "2019-06-18"]
df2 = pd.DataFrame(data, index=index)

In [90]:
# 두 개의 데이터프레임을 위/아래로 연결할 때는 append 메서드를 사용하고 
# 연결할 데이터프레임이 여러 개인 경우 concat 함수를 사용하면 편리

df_append = df1.append(df2)
print(df_append)

df_concat = pd.concat([df1, df2]) 
print(df_concat)


                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946
                종가     거래량
2019-06-21  113000  555850
2019-06-20  111500  282163
2019-06-19  110000  109000
2019-06-18  483689  791946


## 08) Merge
- 판다스의 merge는 데이터프레임을 '병합'
- concat이 단순히 두 데이터프레임을 이어 붙이는 연결이라면 
- merge는 특정 컬럼의 값을 기준으로 데이터를 병합

In [91]:
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)
print(df1)
print(df2)


     업종    종목코드     종목명     현재가
0  전기전자  005930    삼성전자   74400
1    화학  051910    LG화학  896000
2  전기전자  000660  SK하이닉스  101500
     업종   등락률
0    은행  2.92
1    보험  0.37
2    화학  0.06
3  전기전자 -2.43


In [92]:
# merge 함수는 두 데이터프레임을 합칠 기준값(컬럼명)을 on 파라미터에 지정

pd.merge(left=df1, right=df2, on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [93]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)

In [94]:
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,서비스업,35720,카카오,121500


In [95]:
df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [96]:
pd.merge(left=df1, right=df2, how='left', on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,서비스업,35720,카카오,121500,


In [97]:
# merge 하고자하는 컬럼의 이름이 다른 경우 

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)

In [99]:
df1, df2

(     업종    종목코드   종목명     현재가
 0  전기전자  005930  삼성전자   74400
 1    화학  051910  LG화학  896000
 2  서비스업  035720   카카오  121500,
      항목   등락률
 0    은행  2.92
 1    보험  0.37
 2    화학  0.06
 3  전기전자 -2.43)

In [103]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='left' )
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06
2,서비스업,35720,카카오,121500,,


In [104]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='right' )
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,,,,,은행,2.92
1,,,,,보험,0.37
2,화학,51910.0,LG화학,896000.0,화학,0.06
3,전기전자,5930.0,삼성전자,74400.0,전기전자,-2.43


In [105]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


In [106]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목', how='inner')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


## 09) Join
- 데이터프레임의 인덱스를 기준으로 병합(merge)하는 경우 join을 사용

In [107]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = pd.DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = pd.DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")

In [108]:
df1

Unnamed: 0_level_0,종목코드,종목명,현재가
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,5930,삼성전자,74400
화학,51910,LG화학,896000
서비스업,35720,카카오,121500


In [109]:
df2

Unnamed: 0_level_0,등락률
항목,Unnamed: 1_level_1
은행,2.92
보험,0.37
화학,0.06
전기전자,-2.43


In [110]:
df1.join(df2)

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [111]:
df1.join(other=df2) 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [112]:
# how='left/right/outer/inner'
df1.join(other=df2, how='left') 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [113]:
df1.join(other=df2, how='right') 

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
항목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
은행,,,,2.92
보험,,,,0.37
화학,51910.0,LG화학,896000.0,0.06
전기전자,5930.0,삼성전자,74400.0,-2.43


In [114]:
df1.join(other=df2, how='inner') 

Unnamed: 0,종목코드,종목명,현재가,등락률
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06


In [115]:
df1.join(other=df2, how='outer') 

Unnamed: 0,종목코드,종목명,현재가,등락률
보험,,,,0.37
서비스업,35720.0,카카오,121500.0,
은행,,,,2.92
전기전자,5930.0,삼성전자,74400.0,-2.43
화학,51910.0,LG화학,896000.0,0.06


In [116]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],    
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],    
]

columns = ["연도", "회사", "시가총액"]
df = pd.DataFrame(data=data, columns=columns)
print(df)

     연도      회사  시가총액
0  2017      삼성   500
1  2017      LG   300
2  2017  SK하이닉스   200
3  2018      삼성   600
4  2018      LG   400
5  2018  SK하이닉스   300


In [None]:
# 시리즈를 데이터프레임으로 변환 - to_frame()

df_mean = df.groupby('연도')['시가총액'].mean().to_frame()
df_mean.columns = ['시가총액평균']
df_mean

In [None]:
df = df.join(df_mean, on='연도')

In [None]:
import numpy as np

df['규모'] = np.where(df['시가총액'] > df['시가총액평균'], '대형주', '중/소형주')
df

In [None]:
df = df.drop('시가총액평균', axis=1)
df

## 10) 멀티인덱스 (Multi-Index)

In [None]:
import pandas as pd

data = [
    ['영업이익', '컨센서스', 1000, 1200],
    ['영업이익', '잠정치', 900, 1400],
    ['당기순이익', '컨센서스', 800, 900],
    ['당기순이익', '잠정치', 700, 800],
]

df = pd.DataFrame(data=data)
df = df.set_index( [ 0, 1 ] )
df

In [None]:
# 인덱스명, 컬럼명 변경

df.index.names = ['재무연월','']
df.columns = ['2020/06','2020/09']
df

In [None]:
df.loc['영업이익']

In [None]:
# df.loc['영업이익']['컨센서스'] # 에러 발생

In [None]:
# 멀티인덱스에서 하나의 행을 선택할 때는 level 0부터 level N까지 인덱스를 튜플로 정의
# 영업이익 안의 컨센서스에 들어 있는 로우를 선택하며, 1000과 1200이 들어 있는 하나의 행이 시리즈 객체로 반환

df.loc[('영업이익', '컨센서스')]

In [None]:
# iloc를 사용하면 인덱스의 레벨과 무관하게 하나의 로우를 선택

df.iloc[0]

In [None]:
df.iloc[0,0]

In [None]:
df.loc[('영업이익','컨센서스'), '2020/06'] 

In [None]:
# level 1 인덱스에 컨센서스 값이 들어 있는 모든 데이터를 슬라이싱
# 이러한 의도로 df.loc['컨센서스'] 형태의 인덱싱을 하면 KeyError가 발생
# 데이터프레임은 낮은 level부터 탐색하기 때문에 level 0에서 컨센서스를 찾지만, 
# level 0에는 영업이익과 당기순이익밖에 없어 발생하는 에러

In [None]:
# 파이썬에서 슬라이싱할 때 '시작:끝:오프셋' 형태로 증감폭을 지정
# 콜론 대신 콤마로 인덱스를 구분해서 slice 초기화자로 전달

a = [1,2,3,4,5]
print(a[0:5:2])
print(a[slice(0,5,2)])


In [None]:
a = [1, 2, 3, 4, 5]
b = [3, 4, 5, 6, 7]

s = slice(0, 5, 2)
print(a[s])
print(b[s])

In [None]:
a = [1, 2, 3, 4, 5]
print(a[:])
print(a[slice(None)])
print(a[::])
print(a[slice(None,None)])

In [None]:
# 에러 발생
df.loc[( :, '컨센서스'), :] 

In [None]:
# 멀티인덱스에서 level1 의 값을 추출하는 방법

df.loc[(slice(None), '컨센서스'), :]

In [None]:
idx = pd.IndexSlice
df.loc[idx[:, '컨센서스'], :]

## 11) 멀티컬럼 (Multi-Column)

In [None]:
import pandas as pd

data = [
    [1000, 900, 800, 700],
    [1200, 1400, 900, 800],    
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

df = pd.DataFrame(data=data, index=["2020/06", "2020/09"], columns=columns)
df

In [None]:
# 판다스 MultiIndex의 from_product 함수는 입력된 리스트로 데이터의 조합을 만듬

import pandas as pd

level_0 = ['영업이익', '당기순이익']
level_1 = ['컨센서스', '잠정치']

idx = pd.MultiIndex.from_product( [level_0, level_1] )

print(idx)
print(idx.get_level_values(0))

In [None]:
data = [
    [1000, 900, 800, 700],
    [1200, 1400, 900, 800],    
]

level_0 = ['영업이익', '당기순이익']
level_1 = ['컨센서스', '잠정치']
columns = pd.MultiIndex.from_product( [level_0, level_1] )
df = pd.DataFrame(data=data, index=["2020/06", "2020/09"], columns=columns)
df

In [None]:
df['영업이익']

In [None]:
df[('영업이익','컨센서스')]

In [None]:
df['영업이익']
df.loc['2020/06','영업이익']
df.loc['2020/06', ('영업이익', '컨센서스')]
df.loc['2020/06', (slice(None),'컨센서스')]

In [None]:
# 멀티 컬럼으로 표현된 데이터를 멀티 인덱스를 갖는 데이터로 변환
# T 속성을 사용하거나 transpose 메서드를 호출하면 데이터의 x축과 y축이 변경

print(df.transpose())
print(df.T)


## 12) Stack/Unstack

In [None]:
# 데이터프레임 객체에서 컬럼을 인덱스로 옮기거나 이와 반대로 인덱스를 컬럼으로 옮겨서 데이터를 다루는 것이 효과적일 때가 있음
# 데이터프레임에서 stack메서드가 컬럼의 항목을 인덱스로 옮겨 데이터를 길게 쌓아 올린 형태로 변경하기 때문에 stack이라고 부름

In [None]:
import pandas as pd

data = [
    [1000, 900, 800, 700],
    [1200, 1400, 900, 800],    
]

level_0 = ['영업이익', '당기순이익']
level_1 = ['컨센서스', '잠정치']
columns = pd.MultiIndex.from_product( [level_0, level_1] )

df = pd.DataFrame(data=data, index=["2020/06", "2020/09"], columns=columns)
print(df)
df.stack() # 높은 레벨(level)의 컬럼이 인덱스로 변경되지만 level 옵션을 사용해서 특정 컬럼을 인덱스로 변경할 수 있음

In [None]:
# 기본적으로 높은 레벨(level)의 컬럼이 인덱스로 변경되지만 level 옵션을 사용해서 특정 컬럼을 인덱스로 변경

df.stack(level=0)

In [None]:
# 컬럼이 존재한다면 반복해서 stack 메서드를 호출할 수도 있음
# 2차원 컬럼을 가진 원본 데이터프레임에 stack 메서드를 두 번 사용하면 모든 컬럼이 인덱스로 이동

df.stack().stack()

In [None]:
# stack 한 결과를 다시 원래대로 되돌리기 위해서는 unstack 메서드를 사용
# 컬럼을 인덱스로 변경한 다음, 다시 인덱스를 컬럼으로 변경해서 원본과 동일한 결과를 반환하는 의미 없는 코드
df.stack().unstack()

In [None]:
data = [
    [1000, 1100, 900, 1200, 1300],
    [800, 2000, 1700, 1500, 1800]
]
index = ['자본금', '부채']
columns = ["2020/03", "2020/06", "2020/09", "2021/03", "2021/06"]
df = pd.DataFrame(data, index, columns)
df

In [None]:
df_stacked = df.stack().reset_index()
df_stacked

In [None]:
df_stacked['level_1'].str.split('/')
df_split = pd.DataFrame(list(df_stacked['level_1'].str.split('/')))
df_split

In [None]:
df_merged = pd.concat([df_stacked, df_split], axis=1)
df_merged

In [None]:
df_merged.columns = ['계정','년월','금액','연도','월']
df_merged

In [None]:
df_group = df_merged.groupby(['계정', '연도']).sum()
df_group

In [None]:
df_unstack = df_group.unstack()
df_unstack

In [None]:
result = df_unstack['금액']
result

In [None]:
result.columns.name =''
result

In [None]:
result.index.name = ''
result

## 13) Pivot

In [None]:
# 데이터프레임의 피벗 기능 또한 인덱스와 컬럼 및 데이터를 지정해서 새로운 데이터프레임을 생성

import pandas as pd

data = [
    ["2021-08-12", "삼성전자", 77000],
    ["2021-08-13", "삼성전자", 74400],
    ["2021-08-12", "LG전자", 153000],
    ["2021-08-13", "LG전자", 150500],
    ["2021-08-12", "SK하이닉스", 100500],
    ["2021-08-13", "SK하이닉스", 101500]
]
columns = ["날짜", "종목명", "종가"]
df = pd.DataFrame(data=data, columns=columns)
df

In [None]:
pd.pivot(data=df, index='날짜', columns='종목명', values='종가')

In [None]:
# groupby와 unstack을 사용해서 동일 결과를 만들 수 있음

df.groupby(["날짜", "종목명"]).mean()

In [None]:
df.groupby(["날짜", "종목명"]).mean().unstack()

In [None]:
pd.pivot(data=df, index='종목명', columns='날짜', values='종가')

## 14) Melt
- 데이터프레임의 melt 메서드는 컬럼의 수가 많아서 넓은 와이드 포맷의 데이터프레임을 세로로 긴 롱 포맷의 데이터프레임으로 재구조화

In [None]:
import pandas as pd

data = [
    ["005930", "삼성전자", 75800, 76000, 74100, 74400],
    ["035720", "카카오", 147500, 147500, 144500, 146000],
    ["000660", "SK하이닉스", 99600, 101500, 98900, 101500]
]

columns = ["종목코드", "종목명", "시가", "고가", "저가", "종가"]
df = pd.DataFrame(data=data, columns=columns)
df

In [None]:
df.melt(id_vars=['종목코드','종목명'])

In [None]:
df.melt(value_vars=['시가','종가'])

## 15) 파일 저장하기
- 판다스의 데이터프레임 객체는 여러 포맷으로 저장 가능 - to_csv, to_excel, to_sql, to_html 등

In [None]:
import pandas as pd

data = {
    "종목명": ["3R", "3SOFT", "ACTS"],
    "현재가": [1510, 1790, 1185],
    "등락률": [7.36, 1.65, 1.28],
}
df = pd.DataFrame(data, index=["037730", "036360", "005760"])
df

In [None]:
df.to_csv('data.csv')

In [None]:
# 정상적으로 실행되기 위해서는 abc 폴더가 존재해야 합
df.to_csv("abc/data.csv")

In [None]:
# os 모듈을 사용하면 폴더의 존재 유무를 확인하고, 폴더를 생성하는 일까지 코드로 표현할 수 있음

import os 
if not os.path.isdir("abc"):
    os.mkdir("abc")
df.to_csv("abc/data.csv")


In [None]:
# 최상위 경로에서 파일의 위치까지 모든 경로를 나열하는 절대 경로 방식 사용
"C:\\A\\B\\C\\data.csv"
"C:/A/B/C/data.csv"
r"C:\A\B\C\data.csv"

In [None]:
# 데이터프레임의 to_excel 메서드를 사용해서 엑셀 파일로 저장
# to_excel 메서드는 PC에 엑셀이 설치돼 있지 않더라도 데이터프레임을 엑셀로 파일로 변환할 수 있습
df.to_excel("data.xlsx")

In [None]:
# 데이터프레임에서 인덱스를 제외하고 파일로 저장하려면 to_excel 메서드의 index 파라미터에 False
df.to_excel("data3.xlsx", index=False)

In [None]:
# 컬럼명을 생략하고 싶다면 header 옵션에 False
df.to_excel("data4.xlsx", header=False)

## 16) 파일 불러오기

In [None]:
import pandas as pd

df = pd.read_excel("code.xlsx")

In [None]:
# 엑셀 파일을 읽을 때 엑셀 파일의 특정 컬럼을 데이터프레임의 인덱스로 지정
df = pd.read_excel("code.xlsx", index_col='cd')

In [None]:
df = pd.read_excel("code.xlsx", index_col=1)


In [None]:
# usecols은 인덱스를 0부터 사용하므로 usecols=[1, 2, 3]은 두 번째, 세 번째, 네 번째 컬럼만을 사용함
df = pd.read_excel("code.xlsx", index_col='cd', usecols=[1, 2, 3])

In [None]:
# 특정 행 이후부터 엑셀을 읽으려면 header 파라미터를 사용
df = pd.read_excel("code2.xlsx", header=2, index_col='cd', usecols=[1, 2, 3])   

In [None]:
# CSV 파일은 read_csv 함수를 사용
# read_excel 함수와 유사하게 header, index_col, usecols 옵션을 모두 사용할 수 있음
df = pd.read_csv("magic.csv")

In [None]:
# CSV 파일을 판다스로 읽을 때 앞쪽에 위치하는 0이 사라지는 문제가 종종 발생
# read_csv 함수는 각 컬럼의 데이터 타입을 추정하는데, code 컬럼이 숫자라고 판단
# 돼서 001800이 정수 1800으로 출력
# 데이터프레임의 dtypes 속성을 출력해서 데이터 타입을 확인
df = pd.read_csv("magic.csv", dtype={'code': str})