# 판다스 데이터프레임 Part2

## 5.1 Query

In [1]:
from pandas import DataFrame

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = DataFrame(data=data)
df = df.set_index('cd')
df

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [2]:
cond = df['open'] >= 2000
df[cond]

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010
A054620,APS홀딩스,3120,3200


In [6]:
df.query("open == 3120")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A054620,APS홀딩스,3120,3200


In [7]:
df.query("open > close")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A095570,AJ네트웍스,1920,1900
A006840,AK홀딩스,2020,2010


In [8]:
df.query("nm in ['3S', 'AK홀딩스']")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800
A006840,AK홀딩스,2020,2010


In [9]:
df.query("cd == 'A060310'")

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,3S,2920,2800


In [10]:
name = "AJ네트웍스"
df.query('nm == @name')

Unnamed: 0_level_0,nm,open,close
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A095570,AJ네트웍스,1920,1900


## 5.2 filter

In [11]:
from pandas import DataFrame

data = [
    [1416, 1416, 2994, 1755],
    [6.42, 17.63, 21.09, 13.93],
    [1.10, 1.49, 2.06, 1.88]
]

columns = ["2018/12", "2019/12", "2020/12", "2021/12(E)"]
index = ["DPS", "PER", "PBR"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [18]:
df.filter(items=["2018/12"])

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [14]:
df.filter(items=["PER"], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93


In [19]:
df.filter(regex="2020")

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [25]:
df.filter(regex="^2020", axis=1)

037730
36360
5670


In [24]:
df.filter(regex="R$", axis=0)

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1


In [23]:
df.filter(regex="\d{4}")

037730
36360
5670


In [22]:
df.filter(regex="\d{4}/\d{2}$")

037730
36360
5670


## 5.3 정렬 및 순위

In [26]:
from pandas import DataFrame

data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185]
]

columns = ["종목코드", "종목명", "현재가"]
df = DataFrame(data=data, columns=columns)
df.set_index("종목코드", inplace=True)
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [27]:
df.sort_values("현재가")

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5670,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


In [28]:
df.sort_values(by="현재가")

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5670,ACTS,1185
37730,3R,1510
36360,3SOFT,1790


In [33]:
df.sort_values(by="현재가", ascending=False)

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
36360,3SOFT,1790
37730,3R,1510
5670,ACTS,1185


In [34]:
df['현재가'].rank()

종목코드
037730    2.0
036360    3.0
005670    1.0
Name: 현재가, dtype: float64

In [35]:
df['순위'] = df['현재가'].rank()

In [36]:
df

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,2.0
36360,3SOFT,1790,3.0
5670,ACTS,1185,1.0


In [37]:
df.sort_values(by="순위", inplace=True)

## 5.4 인덱스 연산

In [39]:
import pandas as pd

idx1 = pd.Index([1, 2, 3])
idx2 = pd.Index([2, 3, 4])

type(idx1)

pandas.core.indexes.base.Index

In [40]:
idx1.union(idx2)

Index([1, 2, 3, 4], dtype='int64')

In [41]:
idx1.intersection(idx2)

Index([2, 3], dtype='int64')

In [42]:
idx1.difference(idx2)

Index([1], dtype='int64')

## 5.5 GroupBy

In [43]:
from pandas import DataFrame

data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


In [44]:
df1 = df[df["테마"] == "2차전지(생산)"]
df2 = df[df["테마"] == "해운"]
df3 = df[df["테마"] == "시스템반도체"]

In [46]:
df1

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [47]:
df2

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


In [48]:
df3

Unnamed: 0,테마,종목명,PER,PBR
2,시스템반도체,티엘아이,35.97,1.12
4,시스템반도체,아이에이,37.32,3.55


In [49]:
mean1 = df1["PER"].mean()
mean2 = df2["PER"].mean()
mean3 = df3["PER"].mean()

In [50]:
import pandas as pd 

data = [mean1, mean2, mean3]
index = ["2차전지(생산)", "해운", "시스템반도체"]
s = pd.Series(data=data, index=index)
s

2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64

In [51]:
df.groupby("테마").get_group("2차전지(생산)")

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [52]:
df.groupby("테마").get_group("2차전지(생산)")

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),LG화학,83.06,3.75


In [53]:
temp = df[["테마", "PER", "PBR"]].groupby("테마").get_group("2차전지(생산)")
print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


In [54]:
temp = df.groupby("테마")[ ["PER", "PBR"] ].get_group("2차전지(생산)")
print(temp)

     PER   PBR
0  10.19  1.29
5  83.06  3.75


In [108]:
df.groupby("테마")["PER"].mean()

테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64

In [109]:
df.groupby("테마")[["PER", "PBR"]].mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [117]:
df.groupby("테마").agg({"PER": max, "PBR": min})

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [27]:
import numpy as np

df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})

Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


## 5.6 옆으로 붙이기

In [2]:
from pandas import DataFrame
import pandas as pd

data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)
df1

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163


In [3]:
data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}
df2 = DataFrame(data=data, index=index)
df2

Unnamed: 0,시가,고가,저가
2019-06-21,112500,115000,111500
2019-06-20,110000,112000,109000


In [126]:
df = pd.concat([df1, df2], axis=1)
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000,555850,112500,115000,111500
2019-06-20,111500,282163,110000,112000,109000


In [127]:
정렬순서 = ['시가', '고가', '저가', '종가', '거래량']
df = df[정렬순서]
df

Unnamed: 0,시가,고가,저가,종가,거래량
2019-06-21,112500,115000,111500,113000,555850
2019-06-20,110000,112000,109000,111500,282163


In [25]:
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}

index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data=data, index=index)

data = {
    '시가': [112500, 110000],
    '고가': [115000, 112000],
    '저가': [111500, 109000]
}

index = ["2019-06-20", "2019-06-19"]
df2 = DataFrame(data=data, index=index)

df = pd.concat([df1, df2], axis=1)
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000.0,555850.0,,,
2019-06-20,111500.0,282163.0,112500.0,115000.0,111500.0
2019-06-19,,,110000.0,112000.0,109000.0


In [26]:
df = pd.concat([df1, df2], axis=1, join='inner')
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-20,111500,282163,112500,115000,111500


In [27]:
df = pd.concat([df1, df2], axis=1, join='outer')
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000.0,555850.0,,,
2019-06-20,111500.0,282163.0,112500.0,115000.0,111500.0
2019-06-19,,,110000.0,112000.0,109000.0


## 5.7 위/아래로 붙이기

In [8]:
from pandas import DataFrame
import pandas as pd

# 첫번째 데이터프레임
data = {
    '종가': [113000, 111500],
    '거래량': [555850, 282163]
}
index = ["2019-06-21", "2019-06-20"]
df1 = DataFrame(data, index=index)

# 두번째 데이터프레임
data = {
    '종가': [110000, 483689],
    '거래량': [109000, 791946]
}
index = ["2019-06-19", "2019-06-18"]
df2 = DataFrame(data, index=index)

df = df1.append(df2)
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,109000
2019-06-18,483689,791946


In [9]:
df = pd.concat([df1, df2])
df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,109000
2019-06-18,483689,791946


## 5.8 Merge

In [32]:
from pandas import DataFrame
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["전기전자", "000660", "SK하이닉스", 101500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [33]:
df1

Unnamed: 0,업종,종목코드,종목명,현재가
0,전기전자,5930,삼성전자,74400
1,화학,51910,LG화학,896000
2,전기전자,660,SK하이닉스,101500


In [34]:
df2

Unnamed: 0,업종,등락률
0,은행,2.92
1,보험,0.37
2,화학,0.06
3,전기전자,-2.43


In [38]:
pd.merge(left=df1, right=df2, on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [39]:
pd.merge(left=df1, right=df2, how='inner', on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,전기전자,660,SK하이닉스,101500,-2.43
2,화학,51910,LG화학,896000,0.06


In [37]:
pd.merge(left=df1, right=df2, how='outer', on='업종')

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930.0,삼성전자,74400.0,-2.43
1,전기전자,660.0,SK하이닉스,101500.0,-2.43
2,화학,51910.0,LG화학,896000.0,0.06
3,은행,,,,2.92
4,보험,,,,0.37


In [40]:
from pandas import DataFrame
import pandas as pd

# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["업종", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [42]:
df = pd.merge(left=df1, right=df2, how='left', on='업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,전기전자,5930,삼성전자,74400,-2.43
1,화학,51910,LG화학,896000,0.06
2,서비스업,35720,카카오,121500,


In [43]:
df = pd.merge(left=df1, right=df2, how='right', on='업종')
df

Unnamed: 0,업종,종목코드,종목명,현재가,등락률
0,은행,,,,2.92
1,보험,,,,0.37
2,화학,51910.0,LG화학,896000.0,0.06
3,전기전자,5930.0,삼성전자,74400.0,-2.43


In [45]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)

In [47]:
df = pd.merge(left=df1, right=df2, left_on='업종', right_on='항목')
df

Unnamed: 0,업종,종목코드,종목명,현재가,항목,등락률
0,전기전자,5930,삼성전자,74400,전기전자,-2.43
1,화학,51910,LG화학,896000,화학,0.06


## 5.9 Join

In [48]:
# 첫 번째 데이터프레임
data = [
    ["전기전자", "005930", "삼성전자", 74400],
    ["화학", "051910", "LG화학", 896000],
    ["서비스업", "035720", "카카오", 121500]
]

columns = ["업종", "종목코드", "종목명", "현재가"]
df1 = DataFrame(data=data, columns=columns)
df1 = df1.set_index("업종")

# 두 번째 데이터프레임
data = [
    ["은행", 2.92],
    ["보험", 0.37],
    ["화학", 0.06],
    ["전기전자", -2.43]
]

columns = ["항목", "등락률"]
df2 = DataFrame(data=data, columns=columns)
df2 = df2.set_index("항목")

In [49]:
df1

Unnamed: 0_level_0,종목코드,종목명,현재가
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,5930,삼성전자,74400
화학,51910,LG화학,896000
서비스업,35720,카카오,121500


In [50]:
df2

Unnamed: 0_level_0,등락률
항목,Unnamed: 1_level_1
은행,2.92
보험,0.37
화학,0.06
전기전자,-2.43


In [52]:
df1.join(other=df2)

Unnamed: 0_level_0,종목코드,종목명,현재가,등락률
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
전기전자,5930,삼성전자,74400,-2.43
화학,51910,LG화학,896000,0.06
서비스업,35720,카카오,121500,


In [58]:
data = [
    ["2017", "삼성", 500],
    ["2017", "LG", 300],    
    ["2017", "SK하이닉스", 200],
    ["2018", "삼성", 600],
    ["2018", "LG", 400],
    ["2018", "SK하이닉스", 300],    
]

columns = ["연도", "회사", "시가총액"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,연도,회사,시가총액
0,2017,삼성,500
1,2017,LG,300
2,2017,SK하이닉스,200
3,2018,삼성,600
4,2018,LG,400
5,2018,SK하이닉스,300


In [59]:
df_mean = df.groupby("연도")["시가총액"].mean().to_frame()
df_mean.columns = ['시가총액평균']
df_mean

Unnamed: 0_level_0,시가총액평균
연도,Unnamed: 1_level_1
2017,333.333333
2018,433.333333


In [60]:
df = df.join(df_mean, on='연도')

In [167]:
df

Unnamed: 0,연도,회사,시가총액,시가총액평균
0,2017,삼성,500,333.333333
1,2017,LG,300,333.333333
2,2017,SK하이닉스,200,333.333333
3,2018,삼성,600,433.333333
4,2018,LG,400,433.333333
5,2018,SK하이닉스,300,433.333333


In [61]:
import numpy as np

df['규모'] = np.where(df['시가총액'] >= df['시가총액평균'], "대형주", "중/소형주")
df

Unnamed: 0,연도,회사,시가총액,시가총액평균,규모
0,2017,삼성,500,333.333333,대형주
1,2017,LG,300,333.333333,중/소형주
2,2017,SK하이닉스,200,333.333333,중/소형주
3,2018,삼성,600,433.333333,대형주
4,2018,LG,400,433.333333,중/소형주
5,2018,SK하이닉스,300,433.333333,중/소형주


## 5.10 멀티인덱스

In [72]:
from pandas import DataFrame
import pandas as pd

data = [
    ["영업이익", "컨센서스", 1000, 1200],
    ["영업이익", "잠정치", 900, 1400],
    ["당기순이익", "컨센서스", 800, 900],
    ["당기순이익", "잠정치", 700, 800]
]

df = DataFrame(data=data)
df = df.set_index([0, 1])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [73]:
df.index.names = ["재무연월", ""]
df.columns = ["2020/06", "2020/09"]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [74]:
df.loc["영업이익"]

Unnamed: 0,2020/06,2020/09
,,
컨센서스,1000.0,1200.0
잠정치,900.0,1400.0


In [75]:
df.loc[ ("영업이익", "컨센서스") ]

2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

In [76]:
df.iloc[0]

2020/06    1000
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

In [77]:
df.loc[("영업이익", "컨센서스"), "2020/06"]

1000

In [60]:
df.loc[(slice(None), "컨센서스"),:]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


In [76]:
a = [1, 2, 3, 4, 5]

print(a[0:5:2])
print(a[slice(0, 5, 2)])

[1, 3, 5]
[1, 3, 5]


In [80]:
a = [1, 2, 3, 4, 5]
b = [3, 4, 5, 6, 7]

s = slice(0, 5, 2)
print(a[ s ])
print(b[ s ])

[1, 3, 5]
[3, 5, 7]


In [81]:
a = [1, 2, 3, 4, 5]

print(a[:])
print(a[slice(None)])
print(a[ : : ])
print(a[slice(None, None)])

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


In [97]:
print( df.loc[ ( :, '컨센서스'), : ] )

SyntaxError: invalid syntax (<ipython-input-97-0a8f565f7e0c>, line 1)

In [100]:
df.loc[ (slice(None), '컨센서스'), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


In [99]:
idx = pd.IndexSlice
df.loc[idx[:, "컨센서스"], :]

Unnamed: 0_level_0,Unnamed: 1_level_0,2020/06,2020/09
재무연월,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
영업이익,컨센서스,1000,1200
당기순이익,컨센서스,800,900


## 5.11 멀티컬럼

In [114]:
from pandas import DataFrame

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [115]:
import pandas as pd

level_0 = ["영업이익", "당기순이익"]
level_1 = ["컨센서스", "잠정치"]

idx = pd.MultiIndex.from_product([level_0, level_1])

In [116]:
idx

MultiIndex([( '영업이익', '컨센서스'),
            ( '영업이익',  '잠정치'),
            ('당기순이익', '컨센서스'),
            ('당기순이익',  '잠정치')],
           )

In [117]:
idx.get_level_values(0)

Index(['영업이익', '영업이익', '당기순이익', '당기순이익'], dtype='object')

In [118]:
idx.get_level_values(1)

Index(['컨센서스', '잠정치', '컨센서스', '잠정치'], dtype='object')

In [119]:
df["영업이익"]

Unnamed: 0,컨센서스,잠정치
2020/06,100,900
2020/09,1200,1400


In [120]:
df[("영업이익", "컨센서스")]

2020/06     100
2020/09    1200
Name: (영업이익, 컨센서스), dtype: int64

In [121]:
df['영업이익']

Unnamed: 0,컨센서스,잠정치
2020/06,100,900
2020/09,1200,1400


In [122]:
df.loc["2020/06", "영업이익"]

컨센서스    100
잠정치     900
Name: 2020/06, dtype: int64

In [123]:
df.loc["2020/06", ("영업이익", "컨센서스")]

100

In [124]:
df.loc["2020/06", (slice(None), "컨센서스")]

영업이익   컨센서스    100
당기순이익  컨센서스    800
Name: 2020/06, dtype: int64

In [125]:
df.T

Unnamed: 0,Unnamed: 1,2020/06,2020/09
영업이익,컨센서스,100,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


In [126]:
df.transpose()

Unnamed: 0,Unnamed: 1,2020/06,2020/09
영업이익,컨센서스,100,1200
영업이익,잠정치,900,1400
당기순이익,컨센서스,800,900
당기순이익,잠정치,700,800


## 5.12 Stack/Unstack

In [127]:
from pandas import DataFrame

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]

columns = [
    ['영업이익', '영업이익', '당기순이익', '당기순이익'],
    ['컨센서스', '잠정치', '컨센서스', '잠정치']
]

index = ["2020/06", "2020/09"]

df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0_level_0,영업이익,영업이익,당기순이익,당기순이익
Unnamed: 0_level_1,컨센서스,잠정치,컨센서스,잠정치
2020/06,100,900,800,700
2020/09,1200,1400,900,800


In [128]:
df.stack()

Unnamed: 0,Unnamed: 1,당기순이익,영업이익
2020/06,잠정치,700,900
2020/06,컨센서스,800,100
2020/09,잠정치,800,1400
2020/09,컨센서스,900,1200


In [130]:
df.stack(level=0)

Unnamed: 0,Unnamed: 1,잠정치,컨센서스
2020/06,당기순이익,700,800
2020/06,영업이익,900,100
2020/09,당기순이익,800,900
2020/09,영업이익,1400,1200


In [131]:
df.stack().stack()

2020/06  잠정치   당기순이익     700
               영업이익      900
         컨센서스  당기순이익     800
               영업이익      100
2020/09  잠정치   당기순이익     800
               영업이익     1400
         컨센서스  당기순이익     900
               영업이익     1200
dtype: int64

In [132]:
df.stack().unstack()

Unnamed: 0_level_0,당기순이익,당기순이익,영업이익,영업이익
Unnamed: 0_level_1,잠정치,컨센서스,잠정치,컨센서스
2020/06,700,800,900,100
2020/09,800,900,1400,1200


In [140]:
data = [
    [1000, 1100, 900, 1200, 1300],
    [800, 2000, 1700, 1500, 1800]
]
index = ['자본금', '부채']
columns = ["2020/03", "2020/06", "2020/09", "2021/03", "2021/06"]
df = DataFrame(data, index, columns)
df

Unnamed: 0,2020/03,2020/06,2020/09,2021/03,2021/06
자본금,1000,1100,900,1200,1300
부채,800,2000,1700,1500,1800


In [141]:
df_stacked = df.stack().reset_index()
df_stacked

Unnamed: 0,level_0,level_1,0
0,자본금,2020/03,1000
1,자본금,2020/06,1100
2,자본금,2020/09,900
3,자본금,2021/03,1200
4,자본금,2021/06,1300
5,부채,2020/03,800
6,부채,2020/06,2000
7,부채,2020/09,1700
8,부채,2021/03,1500
9,부채,2021/06,1800


In [143]:
df_stacked['level_1'].str.split('/')

0    [2020, 03]
1    [2020, 06]
2    [2020, 09]
3    [2021, 03]
4    [2021, 06]
5    [2020, 03]
6    [2020, 06]
7    [2020, 09]
8    [2021, 03]
9    [2021, 06]
Name: level_1, dtype: object

In [148]:
df_split = DataFrame( list(df_stacked['level_1'].str.split('/')) )
df_split

Unnamed: 0,0,1
0,2020,3
1,2020,6
2,2020,9
3,2021,3
4,2021,6
5,2020,3
6,2020,6
7,2020,9
8,2021,3
9,2021,6


In [151]:
df_merged = pd.concat( [df_stacked, df_split], axis=1 )
df_merged.columns = ['계정', "년월", "금액", "연도", "월"]

In [152]:
df_merged

Unnamed: 0,계정,년월,금액,연도,월
0,자본금,2020/03,1000,2020,3
1,자본금,2020/06,1100,2020,6
2,자본금,2020/09,900,2020,9
3,자본금,2021/03,1200,2021,3
4,자본금,2021/06,1300,2021,6
5,부채,2020/03,800,2020,3
6,부채,2020/06,2000,2020,6
7,부채,2020/09,1700,2020,9
8,부채,2021/03,1500,2021,3
9,부채,2021/06,1800,2021,6


In [154]:
df_group = df_merged.groupby(["계정", "연도"]).sum()
df_group

Unnamed: 0_level_0,Unnamed: 1_level_0,금액
계정,연도,Unnamed: 2_level_1
부채,2020,4500
부채,2021,3300
자본금,2020,3000
자본금,2021,2500


In [156]:
df_unstack = df_group.unstack()
df_unstack

Unnamed: 0_level_0,금액,금액
연도,2020,2021
계정,Unnamed: 1_level_2,Unnamed: 2_level_2
부채,4500,3300
자본금,3000,2500


In [157]:
result = df_unstack['금액']
result.columns.name = ''
result.index.name = ''
result

Unnamed: 0,2020,2021
,,
부채,4500.0,3300.0
자본금,3000.0,2500.0


## 5.13 pivot

In [1]:
from pandas import DataFrame
import pandas as pd

data = [
    ["2021-08-12", "삼성전자", 77000],
    ["2021-08-13", "삼성전자", 74400],
    ["2021-08-12", "LG전자", 153000],
    ["2021-08-13", "LG전자", 150500],
    ["2021-08-12", "SK하이닉스", 100500],
    ["2021-08-13", "SK하이닉스", 101500]
]
columns = ["날짜", "종목명", "종가"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,날짜,종목명,종가
0,2021-08-12,삼성전자,77000
1,2021-08-13,삼성전자,74400
2,2021-08-12,LG전자,153000
3,2021-08-13,LG전자,150500
4,2021-08-12,SK하이닉스,100500
5,2021-08-13,SK하이닉스,101500


In [4]:
pd.pivot(data=df, index="날짜", columns="종목명", values="종가")

종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


In [6]:
df.groupby(["날짜", "종목명"]).mean().unstack()

Unnamed: 0_level_0,종가,종가,종가
종목명,LG전자,SK하이닉스,삼성전자
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2021-08-12,153000,100500,77000
2021-08-13,150500,101500,74400


In [3]:
pd.pivot(data=df, index="종목명", columns="날짜", values="종가")

날짜,2021-08-12,2021-08-13
종목명,Unnamed: 1_level_1,Unnamed: 2_level_1
LG전자,153000,150500
SK하이닉스,100500,101500
삼성전자,77000,74400


## 5.14 Melt

In [7]:
from pandas import DataFrame

data = [
    ["005930", "삼성전자", 75800, 76000, 74100, 74400],
    ["035720", "카카오", 147500, 147500, 144500, 146000],
    ["000660", "SK하이닉스", 99600, 101500, 98900, 101500]
]

columns = ["종목코드", "종목명", "시가", "고가", "저가", "종가"]
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,종목코드,종목명,시가,고가,저가,종가
0,5930,삼성전자,75800,76000,74100,74400
1,35720,카카오,147500,147500,144500,146000
2,660,SK하이닉스,99600,101500,98900,101500


In [9]:
df.melt()

Unnamed: 0,variable,value
0,종목코드,005930
1,종목코드,035720
2,종목코드,000660
3,종목명,삼성전자
4,종목명,카카오
5,종목명,SK하이닉스
6,시가,75800
7,시가,147500
8,시가,99600
9,고가,76000


In [11]:
df.melt(id_vars=['종목코드', '종목명'])

Unnamed: 0,종목코드,종목명,variable,value
0,5930,삼성전자,시가,75800
1,35720,카카오,시가,147500
2,660,SK하이닉스,시가,99600
3,5930,삼성전자,고가,76000
4,35720,카카오,고가,147500
5,660,SK하이닉스,고가,101500
6,5930,삼성전자,저가,74100
7,35720,카카오,저가,144500
8,660,SK하이닉스,저가,98900
9,5930,삼성전자,종가,74400


In [12]:
df.melt(value_vars=['시가', '종가'])

Unnamed: 0,variable,value
0,시가,75800
1,시가,147500
2,시가,99600
3,종가,74400
4,종가,146000
5,종가,101500


## 5.15 엑셀 파일로 저장

In [184]:
from pandas import DataFrame

data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df.index.name = '종목코드'
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


### CSV로 저장

In [187]:
df.to_csv("data.csv")

### 엑셀로 저장

In [1]:
from pandas import DataFrame

data = {
    "종목명": ["3R", "3SOFT", "ACTS"],
    "현재가": [1510, 1790, 1185],
    "등락률": [7.36, 1.65, 1.28],
}

df = DataFrame(data, index=["037730", "036360", "005760"])
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [2]:
df.to_csv("data.csv")

In [6]:
import os 

if not os.path.isdir("abc"):
    os.mkdir("abc")

df.to_csv("abc/data.csv")

In [185]:
df.to_excel("data.xlsx")

In [188]:
df.to_excel("data2.xlsx", sheet_name="종목정보")

In [190]:
df.to_excel("data3.xlsx", index=False)

In [191]:
df.to_excel("data4.xlsx", header=False)

## 5.16 엑셀 파일 불러오기

In [9]:
import pandas as pd

df = pd.read_excel("code.xlsx")
df.head()

Unnamed: 0.1,Unnamed: 0,cd,nm,gb
0,0,A060310,3S,701
1,1,A095570,AJ네트웍스,701
2,2,A006840,AK홀딩스,701
3,3,A054620,APS홀딩스,701
4,4,A265520,AP시스템,701


In [10]:
df = pd.read_excel("code.xlsx", index_col='cd')
df.head()

Unnamed: 0_level_0,Unnamed: 0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,0,3S,701
A095570,1,AJ네트웍스,701
A006840,2,AK홀딩스,701
A054620,3,APS홀딩스,701
A265520,4,AP시스템,701


In [11]:
df = pd.read_excel("code.xlsx", index_col=1)
df.head()

Unnamed: 0_level_0,Unnamed: 0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A060310,0,3S,701
A095570,1,AJ네트웍스,701
A006840,2,AK홀딩스,701
A054620,3,APS홀딩스,701
A265520,4,AP시스템,701


In [12]:
df = pd.read_excel("code.xlsx", index_col='cd', usecols=[1, 2, 3])
df.head()

Unnamed: 0_level_0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1
A060310,3S,701
A095570,AJ네트웍스,701
A006840,AK홀딩스,701
A054620,APS홀딩스,701
A265520,AP시스템,701


In [13]:
df = pd.read_excel("code2.xlsx", header=2, index_col='cd', usecols=[1, 2, 3])
df.head()

Unnamed: 0_level_0,nm,gb
cd,Unnamed: 1_level_1,Unnamed: 2_level_1
A060310,3S,701
A095570,AJ네트웍스,701
A006840,AK홀딩스,701
A054620,APS홀딩스,701
A265520,AP시스템,701


In [13]:
df = pd.read_csv("magic.csv")
df

Unnamed: 0,code,name,ROIC,EV/EBITDA
0,187660,에디엠코리아,2110.7,0.02
1,227420,도부마스크,394.7,1.23
2,225220,제놀루션,333.9,2.4
3,1880,DL건설,344.8,3.15


In [16]:
df = pd.read_csv("magic.csv", dtype={'code': str})
df

Unnamed: 0,code,name,ROIC,EV/EBITDA
0,187660,에디엠코리아,2110.7,0.02
1,227420,도부마스크,394.7,1.23
2,225220,제놀루션,333.9,2.4
3,1880,DL건설,344.8,3.15


In [58]:
import pandas as pd

data = [
    {"cd":"A060310", "nm":"3S", "open":2920, "close":2800},
    {"cd":"A095570", "nm":"AJ네트웍스", "open":1920, "close":1900},
    {"cd":"A006840", "nm":"AK홀딩스", "open":2020, "close":2010},
    {"cd":"A054620", "nm":"APS홀딩스", "open":3120, "close":3200}
]
df = pd.DataFrame(data).set_index("cd")
print("원본\n", df, "\n")

# TODO-1: query로 'open > close' 인 행만 선택
q1 = df.query("open > close")

# TODO-2: query로 'nm'이 ['3S','AK홀딩스'] 중 하나인 행만

q2 = df.query("nm == ['3S','AK홀딩스']")

# TODO-3: 변수 사용 (@name) — nm == @name
name = "AJ네트웍스"
q3 = df.query("nm == @name")

print(q1, "\n")
print(q2, "\n")
print(q3, "\n")

원본
              nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010
A054620  APS홀딩스  3120   3200 

             nm  open  close
cd                          
A060310      3S  2920   2800
A095570  AJ네트웍스  1920   1900
A006840   AK홀딩스  2020   2010 

            nm  open  close
cd                         
A060310     3S  2920   2800
A006840  AK홀딩스  2020   2010 

             nm  open  close
cd                          
A095570  AJ네트웍스  1920   1900 



In [66]:
import pandas as pd

price = pd.DataFrame(
    [["005930","삼성전자",77000],["051910","LG화학",896000],["000660","SK하이닉스",101500]],
    columns=["code","name","close"]
).set_index("code")

sector = pd.DataFrame(
    [["전기전자",-2.43],["화학",0.06],["은행",2.92]],
    columns=["업종","등락률"]
).set_index("업종")
print(sector)
# 업종 매핑 테이블 (code→업종)
code2sector = pd.Series({"005930":"전기전자","051910":"화학","000660":"전기전자"}, name="업종")
price = price.join(code2sector)     # code 인덱스 기준으로 업종 붙이기
print("price with 업종\n", price, "\n")

# TODO-1: 업종을 인덱스로 가진 sector와 join 해서 등락률 붙이기(left join)
#        힌트: price.set_index('업종', append=True) or join with 'on' 사용
#        참고: how 파라미터 사용하여 옵션 설정 (how="left")
price.set_index("업종", inplace=True)
joined = sector.join(price, how="left", on="업종")
display(joined)
# TODO-2: 누락값(없으면 그대로), 열 순서 ['name','close','업종','등락률'] 로 재배치
  
out = joined.reset_index()
out.columns = ['name','close','업종','등락률']
print(out)


       등락률
업종        
전기전자 -2.43
화학    0.06
은행    2.92
price with 업종
           name   close    업종
code                        
005930    삼성전자   77000  전기전자
051910    LG화학  896000    화학
000660  SK하이닉스  101500  전기전자 



Unnamed: 0_level_0,등락률,name,close
업종,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,-2.43,삼성전자,77000.0
전기전자,-2.43,SK하이닉스,101500.0
화학,0.06,LG화학,896000.0
은행,2.92,,


   name  close      업종       등락률
0  전기전자  -2.43    삼성전자   77000.0
1  전기전자  -2.43  SK하이닉스  101500.0
2    화학   0.06    LG화학  896000.0
3    은행   2.92     NaN       NaN


In [68]:
import pandas as pd

df = pd.DataFrame(
    [[77000,153000,100500],[74400,150500,101500]],
    index=["2021-08-12","2021-08-13"],
    columns=["삼성전자","LG전자","SK하이닉스"]
)
print("Wide\n", df, "\n")

# TODO-1: stack으로 Long 변환 (인덱스=날짜, 컬럼=종목 → 행전개)
long = df.stack()

# TODO-2: long을 다시 unstack 해서 원래 형태로 복원
wide_back = long.unstack()

print("Long\n", long.head(), "\n")
print("복원\n", wide_back, "\n")


Wide
              삼성전자    LG전자  SK하이닉스
2021-08-12  77000  153000  100500
2021-08-13  74400  150500  101500 

Long
 2021-08-12  삼성전자       77000
            LG전자      153000
            SK하이닉스    100500
2021-08-13  삼성전자       74400
            LG전자      150500
dtype: int64 

복원
              삼성전자    LG전자  SK하이닉스
2021-08-12  77000  153000  100500
2021-08-13  74400  150500  101500 



In [1]:
import pandas as pd

data = [
    ["영업이익","컨센서스",1000,1200],
    ["영업이익","잠정치",  900,1400],
    ["당기순이익","컨센서스",800,900],
    ["당기순이익","잠정치", 700,800],
]
df = pd.DataFrame(data).set_index([0,1])
df.index.names = ["계정","구분"]
df.columns = ["2020/06","2020/09"]
print(df, "\n")
print(df.index)

# TODO-1: ("영업이익","컨센서스") 의 2020/06 값만 선택
v1 = df.loc[( '영업이익', '컨센서스'), "2020/06"]

# TODO-2: 구분이 '컨센서스' 인 모든 행과 모든 열
#   힌트: pd.IndexSlice 사용 가능
idx = pd.IndexSlice
v2 = df.loc[idx[:, "컨센서스"], :]

# TODO-3: 인덱스 레벨 순서 바꾸기 (swaplevel) 후 정렬(sort_index)
df2 = df.swaplevel("계정", "구분").sort_index()
print(v1, "\n")
print(v2, "\n")
print(df2, "\n")


            2020/06  2020/09
계정    구분                    
영업이익  컨센서스     1000     1200
      잠정치       900     1400
당기순이익 컨센서스      800      900
      잠정치       700      800 

MultiIndex([( '영업이익', '컨센서스'),
            ( '영업이익',  '잠정치'),
            ('당기순이익', '컨센서스'),
            ('당기순이익',  '잠정치')],
           names=['계정', '구분'])
1000 

            2020/06  2020/09
계정    구분                    
영업이익  컨센서스     1000     1200
당기순이익 컨센서스      800      900 

            2020/06  2020/09
구분   계정                     
잠정치  당기순이익      700      800
     영업이익       900     1400
컨센서스 당기순이익      800      900
     영업이익      1000     1200 



In [5]:
import pandas as pd

data = [
    [100, 900, 800, 700],
    [1200, 1400, 900, 800]
]
cols = [
    ["영업이익","영업이익","당기순이익","당기순이익"],
    ["컨센서스","잠정치","컨센서스","잠정치"]
]
df = pd.DataFrame(data, index=["2020/06","2020/09"], columns=cols)
print(df, "\n")

# TODO-1: 상위 레벨 '영업이익' 만 선택
idx = pd.IndexSlice
c1 = df.loc[:, idx["영업이익", :]]

# TODO-2: 2020/06 행의 ('영업이익','컨센서스') 값만
v = df.loc["2020/06", ('영업이익','컨센서스')]

# TODO-3: 모든 계정의 '컨센서스' 열만 (slice 사용)
c2 = df.loc[:, idx[:, '컨센서스']]

print(c1, "\n")
print(v, "\n")
print(c2, "\n")


         영업이익       당기순이익     
         컨센서스   잠정치  컨센서스  잠정치
2020/06   100   900   800  700
2020/09  1200  1400   900  800 

         영업이익      
         컨센서스   잠정치
2020/06   100   900
2020/09  1200  1400 

100 

         영업이익 당기순이익
         컨센서스  컨센서스
2020/06   100   800
2020/09  1200   900 



In [12]:
import pandas as pd

df = pd.DataFrame(
    [["005930","삼성전자",75800,76000,74100,74400],
     ["035720","카카오", 147500,147500,144500,146000]],
    columns=["종목코드","종목명","시가","고가","저가","종가"]
)
print("Wide\n", df, "\n")

# TODO-1: id_vars=['종목코드','종목명'], 나머지 열을 variable/value로 녹이기
long = pd.melt(df, id_vars=['종목코드','종목명'], value_vars=['시가', '고가', '저가', '종가'])

# TODO-2: variable 이름을 '항목', value 이름을 '가격'으로 지정
long2 = pd.melt(df, id_vars=['종목코드','종목명'], var_name="항목", value_name="가격")

print("Long 기본\n", long.head(30), "\n")
print("Long 이름지정\n", long2.head(), "\n")


Wide
      종목코드   종목명      시가      고가      저가      종가
0  005930  삼성전자   75800   76000   74100   74400
1  035720   카카오  147500  147500  144500  146000 

Long 기본
      종목코드   종목명 variable   value
0  005930  삼성전자       시가   75800
1  035720   카카오       시가  147500
2  005930  삼성전자       고가   76000
3  035720   카카오       고가  147500
4  005930  삼성전자       저가   74100
5  035720   카카오       저가  144500
6  005930  삼성전자       종가   74400
7  035720   카카오       종가  146000 

Long 이름지정
      종목코드   종목명  항목      가격
0  005930  삼성전자  시가   75800
1  035720   카카오  시가  147500
2  005930  삼성전자  고가   76000
3  035720   카카오  고가  147500
4  005930  삼성전자  저가   74100 



In [17]:
import pandas as pd
import os

df = pd.DataFrame(
    {"종목명":["3R","3SOFT","ACTS"], "현재가":[1510,1790,1185], "등락률":[7.36,1.65,1.28]},
    index=["037730","036360","005760"]
)
df.index.name = "종목코드"
display(df)
# TODO-1: CSV로 저장 (폴더 'out' 없으면 만들기)
os.makedirs("out", exist_ok=True)
df.to_csv("out/stocks.csv", encoding="utf-8-sig")

# TODO-2: 엑셀로 저장 — 시트명 '종목정보', 인덱스/헤더 유지
df.to_excel("out/stocks.xlsx", sheet_name="종목정보", index=True, header=True)

# TODO-3: CSV 불러오기 — dtype={'종목코드':str} 로 인덱스 유지
df_csv = pd.read_csv("out/stocks.csv", dtype={"종목코드":str}, index_col="종목코드")

# TODO-4: 엑셀 불러오기 — index_col='종목코드', 필요한 열만(usecols)
df_excel = pd.read_excel(
    "out/stocks.xlsx",
    sheet_name="종목정보",
    index_col="종목코드",
    usecols=["종목코드", "종목명", "현재가"]   # 필요한 열만
)

print("CSV 불러오기\n", df_csv, "\n")
print("Excel 불러오기\n", df_excel, "\n")


Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


CSV 불러오기
           종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28 

Excel 불러오기
          종목명   현재가
종목코드              
37730     3R  1510
36360  3SOFT  1790
5760    ACTS  1185 



In [53]:
# =======================================
# Mini Project: 직접 생성 → 병합/연산 → 마지막에 CSV 저장
# =======================================
import pandas as pd
import numpy as np
import os

# -------------------------------------------------
# 0) 샘플 데이터 (파일에서 읽지 않고 '직접' 만듭니다)
# -------------------------------------------------
# prices: 날짜별 종가(그날의 마지막 가격)
prices = pd.DataFrame(
    [["005930","2025-08-25", 77000],
     ["005930","2025-08-26", 78000],
     ["051910","2025-08-25", 895000],
     ["051910","2025-08-26", 900000],
     ["000660","2025-08-25", 101500],
     ["000660","2025-08-26", 102000]],
    columns=["code","date","close"]
)

# fundamentals: 기업 기본 정보
# EPS = 1주당 이익 (Earnings Per Share)
# shares_thousand = 발행주식수(천 단위) → 실제 주식 수는 ×1000
fundamentals = pd.DataFrame(
    [["005930","삼성전자", 596978, 6200],
     ["051910","LG화학",   7067,   32000],
     ["000660","SK하이닉스",72828, 4500]],
    columns=["code","name","shares_thousand","EPS"]
)

# sectors: 업종 정보
sectors = pd.DataFrame(
    [["005930","전기전자"],
     ["051910","화학"],
     ["000660","전기전자"]],
    columns=["code","sector"]
)

# -------------------------------------------------
# 1) 오늘(최신일) 데이터만 추출
# -------------------------------------------------
# TODO: 최신 날짜를 찾습니다. (예: '2025-08-26')
latest_date = prices["date"] == '2025-08-26'

# TODO: 최신 날짜 행만 뽑아 오늘 종가 테이블을 만듭니다.
today_prices = prices[latest_date]
# display(today_prices)

# -------------------------------------------------
# 2) 병합 (code 기준으로 연결)
# -------------------------------------------------
# TODO: 오늘 종가 + 기본정보 병합
merged1 = pd.merge(today_prices, fundamentals, how='left', on='code')
# display(merged1)
# TODO: 여기에 업종 정보까지 병합 → 최종 분석 대상 테이블
merged = pd.merge(merged1, sectors, how='left', on='code')
# display(merged)

print("\n[병합 결과]\n", merged)

# -------------------------------------------------
# 3) 연산
# -------------------------------------------------
# (1) 하루 수익률(Return) = (오늘가격 - 어제가격) / 어제가격
# (2) 이동평균(MA2) = 최근 2일 평균 가격 (단기 추세 느낌)
# (3) 시가총액(market_cap) = 주가 × 발행주식수(천주 × 1000)
# (4) PER = 주가 ÷ EPS (EPS=0이면 계산 불가 → NaN)
# -------------------------------------------------

# TODO: 코드별-날짜순으로 정렬한 뒤, 전일 대비 수익률을 계산합니다.
prices_sorted = prices.sort_values(["code","date"])

prices_sorted["ret"] = prices_sorted.groupby("code")["close"].pct_change()

display(prices_sorted)

# TODO: 오늘 날짜의 수익률만 (code, ret)으로 뽑습니다.

today_ret = prices_sorted.query("date == '2025-08-26'").loc[:, ["code", 'ret']]

# TODO: 위에서 만든 'merged'에 수익률을 합칩니다.
merged = pd.merge(merged, today_ret, how='left', on='code')

# TODO: 코드별 2일 이동평균(MA2)을 계산합니다.
prices_sorted["ma2"] = prices_sorted.groupby("code")["close"].rolling(window=2).mean().reset_index(level=0, drop=True)
display(prices_sorted)
# TODO: 오늘 날짜의 MA2만 (code, ma2)로 뽑아 merged에 합칩니다.
today_ma2 = prices_sorted.query("date == '2025-08-26'").loc[:, ['code', 'ma2']]
merged = pd.merge(merged, today_ma2, how='left', on='code')
display(merged)

# TODO: 시가총액을 계산합니다. (close × (shares_thousand × 1000))
merged["market_cap"] = merged['close'] * (merged['shares_thousand'] * 1000)

# TODO: PER을 계산합니다. (close ÷ EPS)
merged["PER"] = merged['close'] / merged['EPS']

print("\n[연산 결과]\n", merged)

# -------------------------------------------------
# 4) 업종별 요약 (그룹 요약)
# -------------------------------------------------
# TODO: 업종별 평균 수익률(avg_ret), 평균 PER(avg_PER), 총 시총(sum_mktcap)
avg_ret = merged.groupby("sector")['ret'].mean()
avg_PER = merged.groupby("sector")['PER'].mean()
sum_mktcap = merged.groupby("sector")['market_cap'].sum()

sector_summary = pd.merge(avg_ret, avg_PER, how='left', on='sector')
sector_summary = pd.merge(sector_summary, sum_mktcap, how='left', on='sector')
sector_summary.columns = ['avg_ret', 'avg_PER', "sum_mktcap"]
display(sector_summary)

print("\n[업종별 요약]\n", sector_summary)

# -------------------------------------------------
# 5) (마지막) CSV 저장
# -------------------------------------------------
# 아래 줄을 실행하면 같은 폴더에 CSV 파일이 생성됩니다.
# 권한이 없으면 경로를 바꾸세요. 예: "results/merged_result.csv"
# index=False, encoding="utf-8-sig" 설정한 merged.to_csv 
# encoding="utf-8-sig" 설정한 sector_summary.csv
merged.to_csv("out/merged_result.csv", index=False, encoding="utf-8-sig")
sector_summary.to_csv("out/sector_summary.csv", index=True, encoding="utf-8-sig")


[병합 결과]
      code        date   close    name  shares_thousand    EPS sector
0  005930  2025-08-26   78000    삼성전자           596978   6200   전기전자
1  051910  2025-08-26  900000    LG화학             7067  32000     화학
2  000660  2025-08-26  102000  SK하이닉스            72828   4500   전기전자


Unnamed: 0,code,date,close,ret
4,660,2025-08-25,101500,
5,660,2025-08-26,102000,0.004926
0,5930,2025-08-25,77000,
1,5930,2025-08-26,78000,0.012987
2,51910,2025-08-25,895000,
3,51910,2025-08-26,900000,0.005587


Unnamed: 0,code,date,close,ret,ma2
4,660,2025-08-25,101500,,
5,660,2025-08-26,102000,0.004926,101750.0
0,5930,2025-08-25,77000,,
1,5930,2025-08-26,78000,0.012987,77500.0
2,51910,2025-08-25,895000,,
3,51910,2025-08-26,900000,0.005587,897500.0


Unnamed: 0,code,date,close,name,shares_thousand,EPS,sector,ret,ma2
0,5930,2025-08-26,78000,삼성전자,596978,6200,전기전자,0.012987,77500.0
1,51910,2025-08-26,900000,LG화학,7067,32000,화학,0.005587,897500.0
2,660,2025-08-26,102000,SK하이닉스,72828,4500,전기전자,0.004926,101750.0



[연산 결과]
      code        date   close    name  shares_thousand    EPS sector  \
0  005930  2025-08-26   78000    삼성전자           596978   6200   전기전자   
1  051910  2025-08-26  900000    LG화학             7067  32000     화학   
2  000660  2025-08-26  102000  SK하이닉스            72828   4500   전기전자   

        ret       ma2      market_cap        PER  
0  0.012987   77500.0  46564284000000  12.580645  
1  0.005587  897500.0   6360300000000  28.125000  
2  0.004926  101750.0   7428456000000  22.666667  


Unnamed: 0_level_0,avg_ret,avg_PER,sum_mktcap
sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
전기전자,0.008957,17.623656,53992740000000
화학,0.005587,28.125,6360300000000



[업종별 요약]
          avg_ret    avg_PER      sum_mktcap
sector                                     
전기전자    0.008957  17.623656  53992740000000
화학      0.005587  28.125000   6360300000000


In [None]:
import random   

while(True):

    i = random.randint(1, 50)
    n = int(input("숫자 1을 누르세요 : "))

    if n == 1:
        print("게임을 시작하세요!")
    if n < i:
        print("더 커야 합니다!")
    elif n > i:
        print("더 작아야 합니다")
    elif n == i:
        print("게임 끝! 다시 처음부터 시작")
        break;

게임을 시작하세요!
더 커야 합니다!
더 커야 합니다!
더 커야 합니다!
더 작아야 합니다
더 커야 합니다!
더 커야 합니다!
더 작아야 합니다
더 커야 합니다!
더 작아야 합니다
더 작아야 합니다
더 커야 합니다!
더 작아야 합니다
더 커야 합니다!
더 작아야 합니다


In [1]:
import random
i = random.randint(1, 50)
nickname_dic = {}
while(True):
    n = int(input("숫자 하나를 누르세요 : "))
    if n == 1:
        nick_name = input("닉네임을 입력하세요 : ")
        print("게임을 시작하세요!")
        attempt_number = 0
    
        while(True):
            number = int(input("숫자 하나를 입력하세요:"))
            attempt_number += 1
            if i < number:
                print("좀 더 작아야 됩니다!")
            elif i > number:
                print("좀 더 커야 합니다!")
            if (i == number) | (attempt_number == 5):
                print(f"게임이 완료되었습니다! 정답은 {i}였어요!")
                if (i == number) & (attempt_number <= 5):
                    print(f"{attempt_number}만에 성공했습니다!")
                    nickname_dic.update({nick_name : attempt_number})  
                break;
    elif n == 2:
        print("랭킹을 확인하세요!")
        sorted_nicknames = sorted(nickname_dic.items(), key=lambda x: x[1]) #[('영희', 75), ('민수', 85), ('철수', 90)]
        for i in range(len(sorted_nicknames)):
            print(f"{i + 1}위 {sorted_nicknames[i][0]} {sorted_nicknames[i][1]}번")
            if i == 4:
                break;
    elif n == 3:
        print("게임을 종료합니다!")
        break;

게임을 시작하세요!
좀 더 커야 합니다!
좀 더 커야 합니다!
좀 더 작아야 됩니다!
좀 더 작아야 됩니다!
좀 더 커야 합니다!
게임이 완료되었습니다! 정답은 37였어요!
게임을 시작하세요!
좀 더 커야 합니다!
좀 더 커야 합니다!
좀 더 커야 합니다!
게임이 완료되었습니다! 정답은 37였어요!
4만에 성공했습니다!
게임을 시작하세요!
게임이 완료되었습니다! 정답은 37였어요!
1만에 성공했습니다!
랭킹을 확인하세요!
1위 지민 1번
2위 증권 4번
게임을 종료합니다!


In [6]:
for i in range(4):
    for j in range(i + 1):
        print("*", end="")
    print("\n")
    

*

**

***

****



In [11]:
for i in range(1, 5):
    print("*" * i )


*
**
***
****


In [16]:
for i in range (1, 5):
    print(" " * (4 - i) + ("*" * i)) 


   *
  **
 ***
****


In [17]:
for i in range(1,4):
    print((" " * (5 - i)) + ("*" * (2 * i - 1)) + (" " * (3 - i)))

    *  
   *** 
  *****


In [8]:
for i in range(4):
    for k in range(3 - i):
        print(" ", end="")
    for j in range(i + 1):
        print("*", end="")
    print("\n")

   *

  **

 ***

****



In [None]:
import random

# 문제 1
lotto_numbers = []
print("당신의 로또 번호는!")
while(len(lotto_numbers) <= 6):
    n = random.randint(1, 45)
    if (len(lotto_numbers) == 0):
        lotto_numbers.append(n)
    elif n not in lotto_numbers:
        lotto_numbers.append(n)

lotto_numbers.sort()
for number in lotto_numbers:
    print(number, end=" ")
print("\n")

# 문제 2
n = int(input("로또번호..천원짜리 몇개 구입하실꺼에요?"))
print("당신의 로또 번호는!")
for i in range(n):
    lotto_numbers = []
    
    while(len(lotto_numbers) <= 6):
        n = random.randint(1, 45)
        if (len(lotto_numbers) == 0):
            lotto_numbers.append(n)
        elif n not in lotto_numbers:
            lotto_numbers.append(n)
    
    lotto_numbers.sort()
    for number in lotto_numbers:
        print(number, end=" ")
    print("\n")
# 문제 3


당신의 로또 번호는!
2 6 7 16 23 28 45 

당신의 로또 번호는!
5 11 18 32 40 41 44 

16 17 20 24 28 29 32 

9 14 20 28 33 39 43 

8 16 17 19 28 31 43 

2 5 8 11 13 26 27 



In [None]:
import random

word_list = ['apple', 'kiwi', 'banana', 'melon', 'orange']
life = ["O", "O", "O", "O", "O", "O"]
print("행맨 게임 시작! 단어를 맞춰보세요.")
answer = random.choice(word_list)

# 문자열이 아니라 리스트로 초기화
my_input = ["_"] * len(answer)

print("단어 : " + ' '.join(my_input))

while True:
    c = input("알파벳 한 글자 입력: ")
    if c in answer:
        print("맞았습니다!")
        for i, ch in enumerate(answer):
            if ch == c:
                my_input[i] = c   # 리스트는 인덱스 할당 가능
    else:
        print("틀렸습니다!")
        for i in range(len(life)):
            if life[i] != "X":
                life[i] = "X"
                break
        print("목숨 : " + " ".join(life))

    print("단어 :", " ".join(my_input))  
    
    if "".join(my_input) == answer :
        print("🎉 축하합니다 단어를 모두 맞췄습니다.")
        break
    elif "O" not in life:
        print("게임이 종료되었습니다! ☠️")
        break

행맨 게임 시작! 단어를 맞춰보세요.
단어 : _ _ _ _ _
틀렸습니다!
목숨 : X O O O O O
단어 : _ _ _ _ _
맞았습니다!
단어 : a _ _ _ _
틀렸습니다!
목숨 : X X O O O O
단어 : a _ _ _ _
틀렸습니다!
목숨 : X X X O O O
단어 : a _ _ _ _
틀렸습니다!
목숨 : X X X X O O
단어 : a _ _ _ _
틀렸습니다!
목숨 : X X X X X O
단어 : a _ _ _ _
틀렸습니다!
목숨 : X X X X X X
단어 : a _ _ _ _
게임이 종료되었습니다. ☠️


In [10]:
import random
import csv
import os
%pip install faker-food

from faker import Faker
from faker_food import FoodProvider
fake = Faker()
fake.add_provider(FoodProvider)


# -----------------------------
# 설정
# -----------------------------


MAX_LIFE = 6
MAX_EXTRA_LIFE = 8

# 단어 불러오기
if os.path.exists("words.txt"):
    with open("words.txt", "r", encoding="utf-8") as f:
        word_list = [w.strip() for w in f.readlines() if w.strip()]
else:
    word_list = [fake.fruit().lower() for _ in range(10)]

# -----------------------------
# 게임 함수
# -----------------------------
def play_game(player_name, life_count, difficulty="easy", win_streak=0, lose_streak=0):
    answer = random.choice(word_list)
    my_input = ["_"] * len(answer)
    life = ["❤️"] * life_count
    used_letters = set()
    print("\n행맨 게임 시작! 단어를 맞춰보세요.")
    print("단어 :", " ".join(my_input))

    while True:
        c = input("알파벳 한 글자 입력: ").lower()

        # 입력 검증
        if not c.isalpha() or len(c) != 1:
            print("❌ 알파벳 한 글자만 입력하세요.")
            continue

        # 이미 사용한 글자 처리
        if c in used_letters:
            print("⚠️ 이미 사용된 알파벳입니다.")
            continue

        used_letters.add(c)

        # 정답 여부 확인
        if c in answer:
            print("✅ 맞았습니다!")
            for i, ch in enumerate(answer):
                if ch == c:
                    my_input[i] = c
        else:
            print("❌ 틀렸습니다!")
            if "❤️" in life:
                life[life.index("❤️")] = "🖤"
            print("목숨 :", " ".join(life))

        # 힌트 제공 (Easy 모드 & 목숨 2 이하일 때)
        if difficulty == "easy" and life.count("❤️") <= 2 and "_" in my_input:
            hint_candidates = [ch for i, ch in enumerate(answer) if my_input[i] == "_"]
            if hint_candidates:
                hint = random.choice(hint_candidates)
                print(f"💡 힌트: '{hint}' 포함되어 있습니다!")

        print("단어 :", " ".join(my_input))

        # 승리 조건
        if "".join(my_input) == answer:
            print("🎉 축하합니다! 단어를 모두 맞췄습니다.")
            save_record(player_name, answer, life.count("❤️"), "승리")
            return True

        # 패배 조건
        if "❤️" not in life:
            print("☠️ 게임 종료! 정답은:", answer)
            save_record(player_name, answer, 0, "패배")
            return False

# -----------------------------
# 게임 기록 저장
# -----------------------------
def save_record(name, word, life_left, result):
    file_exists = os.path.exists("records.csv")
    with open("records.csv", "a", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        if not file_exists:
            writer.writerow(["플레이어", "단어", "남은 목숨", "결과"])
        writer.writerow([name, word, life_left, result])

# -----------------------------
# 메인 실행부
# -----------------------------
if __name__ == "__main__":
    player = input("플레이어 이름을 입력하세요: ")
    life_count = MAX_LIFE
    win_streak, lose_streak = 0, 0

    while True:
        result = play_game(player, life_count, difficulty="easy",
                           win_streak=win_streak, lose_streak=lose_streak)

        # 난이도 동적 조절
        if result:  # 승리
            win_streak += 1
            lose_streak = 0
            if win_streak >= 2 and life_count > 3:  # 최소 3목숨 보장
                life_count -= 1
                print(f"🔥 연승! 다음 게임은 목숨 {life_count}개로 시작합니다.")
        else:  # 패배
            lose_streak += 1
            win_streak = 0
            if lose_streak >= 2 and life_count < MAX_EXTRA_LIFE:
                life_count += 1
                print(f"💤 연패... 다음 게임은 목숨 {life_count}개로 시작합니다.")

        again = input("게임을 다시 하시겠습니까? (y/n): ")
        if again.lower() != "y":
            print("게임을 종료합니다. 기록은 records.csv에 저장되었습니다.")
            break


Note: you may need to restart the kernel to use updated packages.

행맨 게임 시작! 단어를 맞춰보세요.
단어 : _ _ _ _ _
❌ 틀렸습니다!
목숨 : 🖤 ❤️ ❤️ ❤️ ❤️ ❤️
단어 : _ _ _ _ _
❌ 틀렸습니다!
목숨 : 🖤 🖤 ❤️ ❤️ ❤️ ❤️
단어 : _ _ _ _ _
⚠️ 이미 사용된 알파벳입니다.
✅ 맞았습니다!
단어 : _ _ _ e _
✅ 맞았습니다!
단어 : _ _ _ e r
❌ 틀렸습니다!
목숨 : 🖤 🖤 🖤 ❤️ ❤️ ❤️
단어 : _ _ _ e r
✅ 맞았습니다!
단어 : _ n _ e r
❌ 틀렸습니다!
목숨 : 🖤 🖤 🖤 🖤 ❤️ ❤️
💡 힌트: 'a' 포함되어 있습니다!
단어 : _ n _ e r
❌ 틀렸습니다!
목숨 : 🖤 🖤 🖤 🖤 🖤 ❤️
💡 힌트: 'a' 포함되어 있습니다!
단어 : _ n _ e r
✅ 맞았습니다!
💡 힌트: 'g' 포함되어 있습니다!
단어 : a n _ e r
✅ 맞았습니다!
단어 : a n g e r
🎉 축하합니다! 단어를 모두 맞췄습니다.
게임을 종료합니다. 기록은 records.csv에 저장되었습니다.


In [11]:
import pandas as pd
df = pd.read_csv("C:/workspace/kiwoom-python/book-pandas-for-finance-main/ch05/records.csv")
display(df)

Unnamed: 0,플레이어,단어,남은 목숨,결과
0,정훈,melon,4,승리
1,정훈,kiwi,6,승리
2,,passionfruit,1,승리
3,이지민,apples,6,승리
4,이지민,apples,6,승리
5,정훈,oranges,2,승리
6,승현,elderberry,2,승리
7,성현,happiness,6,승리
8,세인,happiness,0,패배
9,이지민,happiness,3,승리
