In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt
import seaborn as sns


In [21]:
data = [
    [1416.00,1416,2994,1755],
    [6.42,17.63,21.09,13.93],
    [1.10,1.49,2.06,1.88]
    ]

index = ['DPS','PER',"PBR"]

columns = ['2018/12','2019/12','2020/12','2021/12(E)']

df = pd.DataFrame(data=data, index = index, columns = columns)

In [17]:
df.filter(items = ['2018/12']) # filters 에서는 [] 

Unnamed: 0,2018/12
DPS,1416.0
PER,6.42
PBR,1.1


In [24]:
df.filter(items = ['DPS'], axis=0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0


In [26]:
# 여러 종목에 대해서 백테스팅을 수행할 때 회사별로 결산월이 다름

# 이 경우 칼럼에서 2020 이라는 문자열 일부로 필터링 하는 것이 필요

# regex 파라미터는 정규표현식을 사용할 수 있습니다.

df.filter(regex='2020')

Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [28]:
# 2020 으로 시작하는 문자열 패턴만을 인식

df.filter(regex = '^2020')



Unnamed: 0,2020/12
DPS,2994.0
PER,21.09
PBR,2.06


In [31]:
# index에서 R로 끝나는 모든 패턴을 의미

df.filter(regex ="R$", axis = 0)

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [32]:
# regex 정규표현식에서 '\d'는 숫자를 의미하며 중괄호로 출현 회수를 지정할 수 있다.

# 두대를 조합하면 숫자 4개가 연속해서 발생하는 문자열만을 탐색
df.filter(regex = '\d{4}')

Unnamed: 0,2018/12,2019/12,2020/12,2021/12(E)
DPS,1416.0,1416.0,2994.0,1755.0
PER,6.42,17.63,21.09,13.93
PBR,1.1,1.49,2.06,1.88


In [34]:
df.filter(regex = '\d{4}/\d{2}$')

# 문자열 패턴을 검색할 때 유용하게 사용 할 수 있으니 정규식을 공부해두면 좋음

Unnamed: 0,2018/12,2019/12,2020/12
DPS,1416.0,1416.0,2994.0
PER,6.42,17.63,21.09
PBR,1.1,1.49,2.06


# 5.3 정렬 및 순위

In [40]:
data = [    
    ['037730',"3R",1510],
    ['036360',"3SOFT", 1790],
    ['005670','ACTS',1185]
]

columns =['종목코드','종목명','현재가']

df = pd.DataFrame(data = data, columns = columns)

df.set_index('종목코드', inplace= True)

In [41]:
df

Unnamed: 0_level_0,종목명,현재가
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
37730,3R,1510
36360,3SOFT,1790
5670,ACTS,1185


In [42]:
df2 = df.sort_values('현재가')

print(df2)

          종목명   현재가
종목코드               
005670   ACTS  1185
037730     3R  1510
036360  3SOFT  1790


In [47]:
# 파라미터 명시
df2 = df.sort_values(by = '현재가')

In [48]:
df['순위'] = df['현재가'].rank()

In [51]:
df3 = df.sort_values(by = '순위')

df3

Unnamed: 0_level_0,종목명,현재가,순위
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5670,ACTS,1185,1.0
37730,3R,1510,2.0
36360,3SOFT,1790,3.0


# 5.4 인덱스 연산



In [57]:
# 판다스는 브로드캐스팅이 적용되어 반복문을 사용하지 않고도 전체 데이터에 연산을 확장 적용하는 것이 가능

# 이때 같은 인덱스를 갖는 데이터 사이의 연산이 적용되기 때문에 인덱스가 같은지 혹은 차이가 있는지를 비교할 필요가 있습니다.

idx1 = pd.Index([1,2,3])
idx2 = pd.Index([2,3,4])

print(type(idx1))

<class 'pandas.core.indexes.base.Index'>


In [60]:
# unione 메서드는 현재의 인덱스와 입력된 인덱스를 모두 합쳐 중복된 것을 제거한 결과를 반환

# 이는 합집합의 결과와 같다.

idx1.union(idx2)

Index([1, 2, 3, 4], dtype='int64')

In [61]:
idx1.intersection(idx2) # 교집합

Index([2, 3], dtype='int64')

In [62]:
idx1.difference(idx2)

Index([1], dtype='int64')

# 5.5 Groupby

##### 테마별로 평균 PER, PBR을 구하려면 어떻게 해야 할까

In [2]:
from pandas import DataFrame

data = [
    
    ["2차전지(생산)","SK이노베이션", 10.19,1.29],
    ["해운","팬오션", 21.23,0.95],
    ["시스템반도체","티엘아이", 35.97,1.12],
    ["해운","HMM", 21.52,3.20],
    ["시스템반도체","아이에이", 37.32,3.55],
    ["2차전지(생산)","SK이노베이션", 83.06,3.75],
]

columns =["테마","종목명","PER","PBR"]
df = pd.DataFrame(data = data, columns = columns)

df1 =df[df['테마'] == "2차전지(생산)"]

df1

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),SK이노베이션,83.06,3.75


In [3]:
df2 = df[df['테마'] == '해운']
df3 = df[df['테마'] == '시스템반도체']

In [4]:
mean1 = df1['PER'].mean()
# print(mean1)

mean2 = df2['PER'].mean()
mean3 = df3['PER'].mean()


In [5]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),SK이노베이션,83.06,3.75


In [6]:
# groupby 메서드는 분할을 담당하며 DataFrameGroupBy라는 타입의 객체를 리턴합니다. 

df.groupby('테마')['PER'].mean()



테마
2차전지(생산)    46.625
시스템반도체      36.645
해운          21.375
Name: PER, dtype: float64

In [7]:
gb = df.groupby('테마')

temp = gb.get_group("2차전지(생산)")

temp

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
5,2차전지(생산),SK이노베이션,83.06,3.75


In [76]:
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),SK이노베이션,83.06,3.75


In [8]:
df.groupby('테마').get_group('해운')

Unnamed: 0,테마,종목명,PER,PBR
1,해운,팬오션,21.23,0.95
3,해운,HMM,21.52,3.2


In [9]:
temp = df[["테마","PER","PBR"]].groupby('테마').get_group('2차전지(생산)')

print(temp)

         테마    PER   PBR
0  2차전지(생산)  10.19  1.29
5  2차전지(생산)  83.06  3.75


In [79]:
temp = df.groupby("테마")[["PER","PBR"]].get_group("2차전지(생산)")

print(temp)

     PER   PBR
0  10.19  1.29
5  83.06  3.75


In [83]:
df.groupby('테마')[['PER','PBR']].mean()

Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),46.625,2.52
시스템반도체,36.645,2.335
해운,21.375,2.075


In [85]:
df.groupby('테마').agg({"PER": max, "PBR": min})

  df.groupby('테마').agg({"PER": max, "PBR": min})
  df.groupby('테마').agg({"PER": max, "PBR": min})


Unnamed: 0_level_0,PER,PBR
테마,Unnamed: 1_level_1,Unnamed: 2_level_1
2차전지(생산),83.06,1.29
시스템반도체,37.32,1.12
해운,21.52,0.95


In [10]:
# 하나의 칼럼에 여러 연산을 지정할 수도 있음

df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})

  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})
  df.groupby("테마").agg({"PER": [min, max], "PBR": [np.std, np.var]})


Unnamed: 0_level_0,PER,PER,PBR,PBR
Unnamed: 0_level_1,min,max,std,var
테마,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2차전지(생산),10.19,83.06,1.739483,3.0258
시스템반도체,35.97,37.32,1.718269,2.95245
해운,21.23,21.52,1.59099,2.53125


# 5.6 좌/우로 붙이기

In [11]:
data1 =[
    [113000,555850],
    [111500, 282163]]

columns1 = ['종가','거래량']
index = ['2019-06-21','2019-06-20']

data2 =[
    [112500, 115000, 111500],
    [110000, 112000, 109000]
]

columns2 = ['시가','고가','저가']


df1 = pd.DataFrame(data =data1, columns = columns1, index = index)
df2 = pd.DataFrame(data =data2, columns = columns2, index = index)

In [13]:
df1

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163


In [14]:
df2

Unnamed: 0,시가,고가,저가
2019-06-21,112500,115000,111500
2019-06-20,110000,112000,109000


In [17]:
df = pd.concat([df1,df2], axis = 1)

In [18]:
df

Unnamed: 0,종가,거래량,시가,고가,저가
2019-06-21,113000,555850,112500,115000,111500
2019-06-20,111500,282163,110000,112000,109000


In [19]:
정렬순서 = ['시가','고가','저가','종가','거래량']

df = df[정렬순서]

print(df)

                시가      고가      저가      종가     거래량
2019-06-21  112500  115000  111500  113000  555850
2019-06-20  110000  112000  109000  111500  282163


# 5.7 위/아래로 붙이기

In [21]:
data4 = [
    [113000,555850],
    [111500,282163]
]

data5 =[
    
    [110000, 109000],
    [483689, 791946]
]

columns = ['종가', '거래량']

index1 = ['2019-06-21','2019-06-20']

index2 = ['2019-06-19','2019-06-18']


df4 = pd.DataFrame(data = data4, columns = columns, index = index1)
df5 = pd.DataFrame(data = data5, columns = columns, index = index2)


In [22]:
df = pd.concat([df4,df5], axis = 0)

df

Unnamed: 0,종가,거래량
2019-06-21,113000,555850
2019-06-20,111500,282163
2019-06-19,110000,109000
2019-06-18,483689,791946


##### concat이 단순히 두 데이터프레임을 이어 붙이는 연결이라면

##### merge는 특정 컬럼의 값을 기준으로 데이터를 병합


In [25]:
import pandas as pd
import numpy as np

data1 = [
    ['전기전자', '005930', '삼성전자',74400],
    ['화학', '051910', 'LG화학',896000],
    ['전기전자', '000660', 'SK하이닉스',101500]   
    ]

data2 =[
    
   ['은행',2.92],
   ['보험',0.37],
   []
]

columns1 = ['업종','종목코드','종목명','현재가']
columns2 = ['업종','등락률']



[['은행', '보험', '화학', '전기전자'], [2.92, 0.37, 0.06, -2.43]]

In [27]:
df1 = pd.DataFrame(data=data1, columns = columns1)
df2 = pd.DataFrame(data=data2, columns = columns2)

ValueError: 3 columns passed, passed data had 4 columns