# 판다스 데이터프레임 Part2

## 5.1 Query

In [40]:
from pandas import DataFrame

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = DataFrame(data=data)
df = df.set_index('cd')
df

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [2]:
cond = df['open'] >= 2000 #column으로 인덱싱 유념 !
df[cond]

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [5]:
df.query("nm == '3S'")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [6]:
df.query("open > close")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010


In [44]:
df.query("nm in ['3S', 'AK홀딩스']")


Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010


In [8]:
df.query("cd == 'A060310'")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [9]:
name = "AJ네트웍스"
df.query('nm == @name') # @를 통해 변수 참조

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


## 5.2 filter

In [10]:
from pandas import DataFrame

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [12]:
df.filter(items=["2018/12"])
# 앞에서는 data 에 대한 필터링이면 이제부터는 컬럼명과 인덱스에 관한 필터링

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [13]:
df.filter(items=["PER"], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [14]:
df.filter(regex="2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [15]:
df.filter(regex="^2020", axis=1)
# regex를 통한 정규표현식 사용 가능
# ^ 는 이로 시작하는 문자열 필터링

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [17]:
df.filter(regex="R$", axis=0)
#$는 이로 끝나는 문자열 필터링

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [18]:
df.filter(regex="\d{4}")
#숫자를 의미하며 중괄호 안에 출현 횟수 즉 숫자 네개가 연속해서 발생하는 맍열만을 탐색

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [19]:
df.filter(regex="\d{4}/\d{2}$")

Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


## 5.3 정렬 및 순위

In [20]:
from pandas import DataFrame

data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185]
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df.set_index("종목코드", inplace=True)
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [21]:
df.sort_values("현재가") # 정렬 기준 적어주기

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5670,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


In [22]:
df.sort_values(by="현재가") #by 파라미터 이름 지정 그러므로 가독성 up

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5670,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


In [23]:
df.sort_values(by="현재가", ascending=False)

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
36360,3SOFT,1790
37730,3R,1510
5670,ACTS,1185


In [25]:
df['현재가'].sort_values(by="현재가", ascending=False) # 필터링을 한 데이터프레임에 sort_values 는 안됨

TypeError: Series.sort_values() got an unexpected keyword argument 'by'

In [26]:
df['현재가'].rank()

Unnamed: 0_level_0,현재가
종목코드,Unnamed: 1_level_1
37730,2.0
36360,3.0
5670,1.0


In [27]:
df['순위'] = df['현재가'].rank()

In [None]:
df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5670,ACTS,1185,1.0


In [28]:
df.sort_values(by="순위", inplace=True)

## 5.4 인덱스 연산

In [29]:
import pandas as pd

idx1 = pd.Index([1, 2, 3])
idx2 = pd.Index([2, 3, 4])

type(idx1)

pandas.core.indexes.base.Index

In [30]:
idx1.union(idx2) # 중복 제거

Index([1, 2, 3, 4], dtype='int64')

In [31]:
idx1.intersection(idx2)

Index([2, 3], dtype='int64')

In [32]:
idx1.difference(idx2) # 차집합의 개념

Index([1], dtype='int64')

## 5.5 GroupBy

In [45]:
from pandas import DataFrame

data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [46]:
df1 = df[df["테마"] == "2차전지(생산)"]
df2 = df[df["테마"] == "해운"]
df3 = df[df["테마"] == "시스템반도체"]
#

In [None]:
# 올바르지 않은 예시 (동작하지 않음)
df_filtered = df[df["테마"] in ["2차전지(생산)", "해운"]]

# 올바른 방법
df_filtered = df[df["테마"].isin(["2차전지(생산)", "해운"])]

df_filtered = df.query("nm in ['3S', 'AK홀딩스']") # 얜 작동함

'''df.query()는 Python 표현식 기반으로 동작하기 때문에 in 연산자를 사용할 수 있습니다.
반면에 df[df["컬럼"] in 리스트] 형태는 Pandas의 isin() 메서드를 사용해야 하는 다른 방식의 필터링입니다.'''

In [47]:
df1

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [48]:
df2

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


In [49]:
df3

Unnamed: 0,테마,종목명,PER,PBR
2,시스템반도체,티엘아이,35.97,1.12
4,시스템반도체,아이에이,37.32,3.55


In [50]:
mean1 = df1["PER"].mean()
mean2 = df2["PER"].mean()
mean3 = df3["PER"].mean()

In [51]:
import pandas as pd

data = [mean1, mean2, mean3]
index = ["2차전지(생산)", "해운", "시스템반도체"]
s = pd.Series(data=data, index=index)
s

Unnamed: 0,0
2차전지(생산),46.625
해운,21.375
시스템반도체,36.645


In [52]:
df.groupby("테마").get_group("2차전지(생산)")

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [53]:
df.groupby("테마").get_group("2차전지(생산)")

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [54]:
temp = df[["테마", "PER", "PBR"]].groupby("테마").get_group("2차전지(생산)")
print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


In [55]:
temp = df.groupby("테마")[ ["PER", "PBR"] ].get_group("2차전지(생산)")
print(temp) # 순서차이 즉 groupby를 적용하고 슬라이싱

     PER   PBR
0  10.19  1.29
5  83.06  3.75


In [56]:
df.groupby("테마")["PER"].mean()

Unnamed: 0_level_0,PER
테마,Unnamed: 1_level_1
2차전지(생산),46.625
시스템반도체,36.645
해운,21.375


In [57]:
df.groupby("테마")[["PER", "PBR"]].mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [58]:
df.groupby("테마").agg({"PER": max, "PBR": min})

  df.groupby("테마").agg({"PER": max, "PBR": min})
  df.groupby("테마").agg({"PER": max, "PBR": min})


Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [59]:
import numpy as np

df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})

  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})


Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


## 5.6 옆으로 붙이기

In [61]:
from pandas import DataFrame
import pandas as pd

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)
df1

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163


In [62]:
data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}
df2 = DataFrame(data=data, index=index)
df2

Unnamed: 0,시가,고가,저가
2019-06-21,112500,115000,111500
2019-06-20,110000,112000,109000


In [63]:
df = pd.concat([df1, df2], axis=1) #좌우로 이어붙이기
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000,555850,112500,115000,111500
2019-06-20,111500,282163,110000,112000,109000


In [65]:
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서] #컬럼 순서 변경
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


In [66]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}

index = ["2019-06-20", "2019-06-19"]
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
df
#즉 같은 인덱스끼리만 대응되어서 합쳐짐

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000.0,555850.0,,,
2019-06-20,111500.0,282163.0,112500.0,115000.0,111500.0
2019-06-19,,,110000.0,112000.0,109000.0


In [67]:
df = pd.concat([df1, df2], axis=1, join='inner')
df
# inner join 즉 인덱스의 교집합에 대해서만 진행

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-20,111500,282163,112500,115000,111500


In [68]:
df = pd.concat([df1, df2], axis=1, join='outer')
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000.0,555850.0,,,
2019-06-20,111500.0,282163.0,112500.0,115000.0,111500.0
2019-06-19,,,110000.0,112000.0,109000.0


## 5.7 위/아래로 붙이기

In [70]:
from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data, index=index)

# 두번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946]
}
index = ["2019-06-19", "2019-06-18"]
df2 = DataFrame(data, index=index)

df = df1.append(df2) #append 메서드 삭제된듯
df

AttributeError: 'DataFrame' object has no attribute 'append'

In [71]:
df = pd.concat([df1, df2])
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,109000
2019-06-18,483689,791946


## 5.8 Merge

In [72]:
from pandas import DataFrame
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [73]:
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,전기전자,660,SK하이닉스,101500


In [74]:

df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [None]:
pd.merge(left=df1, right=df2, on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [75]:
pd.merge(left=df1, right=df2, how='inner', on='업종') #sql join의 개념과 거의 일치

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [76]:
pd.merge(left=df1, right=df2, how='outer', on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930.0,삼성전자,74400.0,-2.43
1,전기전자,660.0,SK하이닉스,101500.0,-2.43
2,화학,51910.0,LG화학,896000.0,0.06
3,은행,,,,2.92
4,보험,,,,0.37


In [77]:
from pandas import DataFrame
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [78]:
df = pd.merge(left=df1, right=df2, how='left', on='업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,서비스업,35720,카카오,121500,


In [79]:
df = pd.merge(left=df1, right=df2, how='right', on='업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,은행,,,,2.92
1,보험,,,,0.37
2,화학,51910.0,LG화학,896000.0,0.06
3,전기전자,5930.0,삼성전자,74400.0,-2.43


In [81]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [82]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목') #기준이 되는 컬럼명이 서로 다를 때
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


## 5.9 Join

In [83]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")

In [None]:
df1

Unnamed: 0_level_0,종목코드,종목명,현재가
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,5930,삼성전자,74400
화학,51910,LG화학,896000
서비스업,35720,카카오,121500


In [None]:
df2

Unnamed: 0_level_0,등락률
항목,Unnamed: 1_level_1
은행,2.92
보험,0.37
화학,0.06
전기전자,-2.43


In [84]:
df1.join(other=df2) #인덱스를 기준으로 병합할 때 join 사용 (즉 on이 굳이 필요 없을 때)

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [85]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],
]

columns = ["연도", "회사", "시가총액"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,연도,회사,시가총액
0,2017,삼성,500
1,2017,LG,300
2,2017,SK하이닉스,200
3,2018,삼성,600
4,2018,LG,400
5,2018,SK하이닉스,300


In [86]:
df_mean = df.groupby("연도")["시가총액"].mean().to_frame()
df_mean.columns = ['시가총액평균']
df_mean

Unnamed: 0_level_0,시가총액평균
연도,Unnamed: 1_level_1
2017,333.333333
2018,433.333333


In [88]:
df = df.join(df_mean, on='연도') # 이처럼 인덱스 지정 없이 on 사용도 가능
'''주요 차이점:
기준:

join()은 기본적으로 인덱스를 기준으로 동작하며, on을 사용할 때도 오른쪽 데이터프레임의 인덱스를 기준으로 결합합니다.
merge()는 지정된 컬럼을 기준으로 동작하며, 인덱스와 상관없이 결합이 가능합니다.
조인 방식:

join()은 기본적으로 left join만 수행합니다.
merge()는 inner, left, right, outer 조인을 모두 지원하며, 더 유연하게 사용 가능합니다.
유연성:

join()은 인덱스가 중요한 상황에서 사용됩니다.
merge()는 컬럼 기반으로 보다 다양한 조인 방법을 지원하여 더 복잡한 결합 작업에 적합합니다.
따라서, 인덱스를 기준으로 데이터를 결합하고자 할 때는 df.join()이 적합하고, 컬럼을 기준으로 더 유연한 방식의 결합이 필요할 때는 pd.merge()를 사용하는 것이 좋습니다.'''

In [None]:
df

Unnamed: 0,연도,회사,시가총액,시가총액평균
0,2017,삼성,500,333.333333
1,2017,LG,300,333.333333
2,2017,SK하이닉스,200,333.333333
3,2018,삼성,600,433.333333
4,2018,LG,400,433.333333
5,2018,SK하이닉스,300,433.333333


In [89]:
import numpy as np

df['규모'] = np.where(df['시가총액'] >= df['시가총액평균'], "대형주", "중/소형주")
df

Unnamed: 0,연도,회사,시가총액,시가총액평균,규모
0,2017,삼성,500,333.333333,대형주
1,2017,LG,300,333.333333,중/소형주
2,2017,SK하이닉스,200,333.333333,중/소형주
3,2018,삼성,600,433.333333,대형주
4,2018,LG,400,433.333333,중/소형주
5,2018,SK하이닉스,300,433.333333,중/소형주


## 5.10 멀티인덱스

In [90]:
from pandas import DataFrame
import pandas as pd

data = [
    ["영업이익", "컨센서스", 1000, 1200],
    ["영업이익", "잠정치", 900, 1400],
    ["당기순이익", "컨센서스", 800, 900],
    ["당기순이익", "잠정치", 700, 800]
]
#영업이익/당기순이익 이 level 0 인덱스, 컨센서스/ 잠정치가 level1 인덱스
df = DataFrame(data=data)
df = df.set_index([0, 1])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [91]:
df.index.names = ["재무연월", ""]
df.columns = ["2020/06", "2020/09"]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [93]:
df.loc["영업이익"]

Unnamed: 0,2020/06,2020/09
,,
컨센서스,1000.0,1200.0
잠정치,900.0,1400.0


In [97]:
df.loc[ ("영업이익", "컨센서스") ] # 튜플로 정의 추천!

Unnamed: 0_level_0,영업이익
Unnamed: 0_level_1,컨센서스
2020/06,1000
2020/09,1200


In [98]:
df.iloc[0] #하나의 로우 반환

Unnamed: 0_level_0,영업이익
Unnamed: 0_level_1,컨센서스
2020/06,1000
2020/09,1200


In [99]:
df.loc[("영업이익", "컨센서스"), "2020/06"]

1000

In [100]:
df.loc[(slice(None), "컨센서스"),:]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


In [101]:
a = [1, 2, 3, 4, 5]

print(a[0:5:2])
print(a[slice(0, 5, 2)])

[1, 3, 5]
[1, 3, 5]


In [None]:
a = [1, 2, 3, 4, 5]
b = [3, 4, 5, 6, 7]

s = slice(0, 5, 2)
print(a[ s ])
print(b[ s ])

[1, 3, 5]
[3, 5, 7]


In [None]:
a = [1, 2, 3, 4, 5]

print(a[:])
print(a[slice(None)])
print(a[ : : ])
print(a[slice(None, None)])

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


In [None]:
print( df.loc[ ( :, '컨센서스'), : ] )

SyntaxError: invalid syntax (<ipython-input-97-0a8f565f7e0c>, line 1)

In [None]:
df.loc[ (slice(None), '컨센서스'), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


In [None]:
idx = pd.IndexSlice
df.loc[idx[:, "컨센서스"], :]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


## 5.11 멀티컬럼

In [None]:
from pandas import DataFrame

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [None]:
import pandas as pd

level_0 = ["영업이익", "당기순이익"]
level_1 = ["컨센서스", "잠정치"]

idx = pd.MultiIndex.from_product([level_0, level_1])

In [None]:
idx

MultiIndex([( '영업이익', '컨센서스'),
            ( '영업이익',  '잠정치'),
            ('당기순이익', '컨센서스'),
            ('당기순이익',  '잠정치')],
           )

In [None]:
idx.get_level_values(0)

Index(['영업이익', '영업이익', '당기순이익', '당기순이익'], dtype='object')

In [None]:
idx.get_level_values(1)

Index(['컨센서스', '잠정치', '컨센서스', '잠정치'], dtype='object')

In [None]:
df["영업이익"]

Unnamed: 0,컨센서스,잠정치
2020/06,100,900
2020/09,1200,1400


In [None]:
df[("영업이익", "컨센서스")]

2020/06     100
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

In [None]:
df['영업이익']

Unnamed: 0,컨센서스,잠정치
2020/06,100,900
2020/09,1200,1400


In [None]:
df.loc["2020/06", "영업이익"]

컨센서스    100
잠정치     900
Name: 2020/06, dtype: int64

In [None]:
df.loc["2020/06", ("영업이익", "컨센서스")]

100

In [None]:
df.loc["2020/06", (slice(None), "컨센서스")]

영업이익   컨센서스    100
당기순이익  컨센서스    800
Name: 2020/06, dtype: int64

In [None]:
df.T

Unnamed: 0,Unnamed: 1,2020/06,2020/09
영업이익,컨센서스,100,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [None]:
df.transpose()

Unnamed: 0,Unnamed: 1,2020/06,2020/09
영업이익,컨센서스,100,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


## 5.12 Stack/Unstack

In [None]:
from pandas import DataFrame

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [None]:
df.stack()

Unnamed: 0,Unnamed: 1,당기순이익,영업이익
2020/06,잠정치,700,900
2020/06,컨센서스,800,100
2020/09,잠정치,800,1400
2020/09,컨센서스,900,1200


In [None]:
df.stack(level=0)

Unnamed: 0,Unnamed: 1,잠정치,컨센서스
2020/06,당기순이익,700,800
2020/06,영업이익,900,100
2020/09,당기순이익,800,900
2020/09,영업이익,1400,1200


In [None]:
df.stack().stack()

2020/06  잠정치   당기순이익     700
               영업이익      900
         컨센서스  당기순이익     800
               영업이익      100
2020/09  잠정치   당기순이익     800
               영업이익     1400
         컨센서스  당기순이익     900
               영업이익     1200
dtype: int64

In [None]:
df.stack().unstack()

Unnamed: 0_level_0,당기순이익,당기순이익,영업이익,영업이익
Unnamed: 0_level_1,잠정치,컨센서스,잠정치,컨센서스
2020/06,700,800,900,100
2020/09,800,900,1400,1200


In [None]:
data = [
    [1000, 1100, 900, 1200, 1300],
    [800, 2000, 1700, 1500, 1800]
]
index = ['자본금', '부채']
columns = ["2020/03", "2020/06", "2020/09", "2021/03", "2021/06"]
df = DataFrame(data, index, columns)
df

Unnamed: 0,2020/03,2020/06,2020/09,2021/03,2021/06
자본금,1000,1100,900,1200,1300
부채,800,2000,1700,1500,1800


In [None]:
df_stacked = df.stack().reset_index()
df_stacked

Unnamed: 0,level_0,level_1,0
0,자본금,2020/03,1000
1,자본금,2020/06,1100
2,자본금,2020/09,900
3,자본금,2021/03,1200
4,자본금,2021/06,1300
5,부채,2020/03,800
6,부채,2020/06,2000
7,부채,2020/09,1700
8,부채,2021/03,1500
9,부채,2021/06,1800


In [None]:
df_stacked['level_1'].str.split('/')

0    [2020, 03]
1    [2020, 06]
2    [2020, 09]
3    [2021, 03]
4    [2021, 06]
5    [2020, 03]
6    [2020, 06]
7    [2020, 09]
8    [2021, 03]
9    [2021, 06]
Name: level_1, dtype: object

In [None]:
df_split = DataFrame( list(df_stacked['level_1'].str.split('/')) )
df_split

Unnamed: 0,0,1
0,2020,3
1,2020,6
2,2020,9
3,2021,3
4,2021,6
5,2020,3
6,2020,6
7,2020,9
8,2021,3
9,2021,6


In [None]:
df_merged = pd.concat( [df_stacked, df_split], axis=1 )
df_merged.columns = ['계정', "년월", "금액", "연도", "월"]

In [None]:
df_merged

Unnamed: 0,계정,년월,금액,연도,월
0,자본금,2020/03,1000,2020,3
1,자본금,2020/06,1100,2020,6
2,자본금,2020/09,900,2020,9
3,자본금,2021/03,1200,2021,3
4,자본금,2021/06,1300,2021,6
5,부채,2020/03,800,2020,3
6,부채,2020/06,2000,2020,6
7,부채,2020/09,1700,2020,9
8,부채,2021/03,1500,2021,3
9,부채,2021/06,1800,2021,6


In [None]:
df_group = df_merged.groupby(["계정", "연도"]).sum()
df_group

Unnamed: 0_level_0,Unnamed: 1_level_0,금액
계정,연도,Unnamed: 2_level_1
부채,2020,4500
부채,2021,3300
자본금,2020,3000
자본금,2021,2500


In [None]:
df_unstack = df_group.unstack()
df_unstack

Unnamed: 0_level_0,금액,금액
연도,2020,2021
계정,Unnamed: 1_level_2,Unnamed: 2_level_2
부채,4500,3300
자본금,3000,2500


In [None]:
result = df_unstack['금액']
result.columns.name = ''
result.index.name = ''
result

Unnamed: 0,2020,2021
,,
부채,4500.0,3300.0
자본금,3000.0,2500.0


## 5.13 pivot

In [None]:
from pandas import DataFrame
import pandas as pd

data = [
    ["2021-08-12", "삼성전자", 77000],
    ["2021-08-13", "삼성전자", 74400],
    ["2021-08-12", "LG전자", 153000],
    ["2021-08-13", "LG전자", 150500],
    ["2021-08-12", "SK하이닉스", 100500],
    ["2021-08-13", "SK하이닉스", 101500]
]
columns = ["날짜", "종목명", "종가"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,날짜,종목명,종가
0,2021-08-12,삼성전자,77000
1,2021-08-13,삼성전자,74400
2,2021-08-12,LG전자,153000
3,2021-08-13,LG전자,150500
4,2021-08-12,SK하이닉스,100500
5,2021-08-13,SK하이닉스,101500


In [None]:
pd.pivot(data=df, index="날짜", columns="종목명", values="종가")

종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


In [None]:
df.groupby(["날짜", "종목명"]).mean().unstack()

Unnamed: 0_level_0,종가,종가,종가
종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


In [None]:
pd.pivot(data=df, index="종목명", columns="날짜", values="종가")

날짜,2021-08-12,2021-08-13
종목명,Unnamed: 1_level_1,Unnamed: 2_level_1
LG전자,153000,150500
SK하이닉스,100500,101500
삼성전자,77000,74400


## 5.14 Melt

In [None]:
from pandas import DataFrame

data = [
    ["005930", "삼성전자", 75800, 76000, 74100, 74400],
    ["035720", "카카오", 147500, 147500, 144500, 146000],
    ["000660", "SK하이닉스", 99600, 101500, 98900, 101500]
]

columns = ["종목코드", "종목명", "시가", "고가", "저가", "종가"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,시가,고가,저가,종가
0,5930,삼성전자,75800,76000,74100,74400
1,35720,카카오,147500,147500,144500,146000
2,660,SK하이닉스,99600,101500,98900,101500


In [None]:
df.melt()

Unnamed: 0,variable,value
0,종목코드,005930
1,종목코드,035720
2,종목코드,000660
3,종목명,삼성전자
4,종목명,카카오
5,종목명,SK하이닉스
6,시가,75800
7,시가,147500
8,시가,99600
9,고가,76000


In [None]:
df.melt(id_vars=['종목코드', '종목명'])

Unnamed: 0,종목코드,종목명,variable,value
0,5930,삼성전자,시가,75800
1,35720,카카오,시가,147500
2,660,SK하이닉스,시가,99600
3,5930,삼성전자,고가,76000
4,35720,카카오,고가,147500
5,660,SK하이닉스,고가,101500
6,5930,삼성전자,저가,74100
7,35720,카카오,저가,144500
8,660,SK하이닉스,저가,98900
9,5930,삼성전자,종가,74400


In [None]:
df.melt(value_vars=['시가', '종가'])

Unnamed: 0,variable,value
0,시가,75800
1,시가,147500
2,시가,99600
3,종가,74400
4,종가,146000
5,종가,101500


## 5.15 엑셀 파일로 저장

In [None]:
from pandas import DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.index.name = '종목코드'
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


### CSV로 저장

In [None]:
df.to_csv("data.csv")

### 엑셀로 저장

In [None]:
from pandas import DataFrame

data = {
    "종목명": ["3R", "3SOFT", "ACTS"],
    "현재가": [1510, 1790, 1185],
    "등락률": [7.36, 1.65, 1.28],
}

df = DataFrame(data, index=["037730", "036360", "005760"])
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [None]:
df.to_csv("data.csv")

In [None]:
import os

if not os.path.isdir("abc"):
    os.mkdir("abc")

df.to_csv("abc/data.csv")

In [None]:
df.to_excel("data.xlsx")

In [None]:
df.to_excel("data2.xlsx", sheet_name="종목정보")

In [None]:
df.to_excel("data3.xlsx", index=False)

In [None]:
df.to_excel("data4.xlsx", header=False)

## 5.16 엑셀 파일 불러오기

In [None]:
import pandas as pd

df = pd.read_excel("code.xlsx")
df.head()

Unnamed: 0.1,Unnamed: 0,cd,nm,gb
0,0,A060310,3S,701
1,1,A095570,AJ네트웍스,701
2,2,A006840,AK홀딩스,701
3,3,A054620,APS홀딩스,701
4,4,A265520,AP시스템,701


In [None]:
df = pd.read_excel("code.xlsx", index_col='cd')
df.head()

Unnamed: 0_level_0,Unnamed: 0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,0,3S,701
A095570,1,AJ네트웍스,701
A006840,2,AK홀딩스,701
A054620,3,APS홀딩스,701
A265520,4,AP시스템,701


In [None]:
df = pd.read_excel("code.xlsx", index_col=1)
df.head()

Unnamed: 0_level_0,Unnamed: 0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,0,3S,701
A095570,1,AJ네트웍스,701
A006840,2,AK홀딩스,701
A054620,3,APS홀딩스,701
A265520,4,AP시스템,701


In [None]:
df = pd.read_excel("code.xlsx", index_col='cd', usecols=[1, 2, 3])
df.head()

Unnamed: 0_level_0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1
A060310,3S,701
A095570,AJ네트웍스,701
A006840,AK홀딩스,701
A054620,APS홀딩스,701
A265520,AP시스템,701


In [None]:
df = pd.read_excel("code2.xlsx", header=2, index_col='cd', usecols=[1, 2, 3])
df.head()

Unnamed: 0_level_0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1
A060310,3S,701
A095570,AJ네트웍스,701
A006840,AK홀딩스,701
A054620,APS홀딩스,701
A265520,AP시스템,701


In [None]:
df = pd.read_csv("magic.csv")
df

Unnamed: 0,code,name,ROIC,EV/EBITDA
0,187660,에디엠코리아,2110.7,0.02
1,227420,도부마스크,394.7,1.23
2,225220,제놀루션,333.9,2.4
3,1880,DL건설,344.8,3.15


In [None]:
df = pd.read_csv("magic.csv", dtype={'code': str})
df

Unnamed: 0,code,name,ROIC,EV/EBITDA
0,187660,에디엠코리아,2110.7,0.02
1,227420,도부마스크,394.7,1.23
2,225220,제놀루션,333.9,2.4
3,1880,DL건설,344.8,3.15
