### Pandas로 더 매끄럽게
* 이전에는 리스트와 딕셔너리를 활용하여 PER과 ROA데이터를 활용하는 방안을 사용
* 그러나 매끄럽지 않은 부분이 있고 이를 코드로 보충하는 느낌이었음
* 이를 보완해줄 Pandas를 활용해보자
* Pandas -> series와 dataframe

In [1]:
import pandas as pd

In [2]:
pd.Series([100,500,150])

0    100
1    500
2    150
dtype: int64

In [3]:
# 인덱스도 설정할 수 있음
pd.Series([100,500,150],index=['카카오','삼성전자','현대차'])

카카오     100
삼성전자    500
현대차     150
dtype: int64

In [4]:
series_ex1 = pd.Series([100,500,150],index=['카카오','삼성전자','현대차'])
print(series_ex1['카카오'])
print(series_ex1['삼성전자']) # 판다스의 시리즈는 순서가 있으므로 리스트에 가까움

100
500


In [5]:
print(series_ex1[1]) # 인덱스로 값을 불러올 수도 있음 <-- 순서가 있기 때문

500


In [6]:
# 시리즈가 1차원의 데이터 구조라면 데이터프레임은 2차원의 데이터 구조
# 데이터프레임 -> "시리즈의 집합"
pd.DataFrame({'가격':[100,500,150],'PER':[0.5,1.2,0.2],'ROA':[1.01,3.1,0.97]},index=['카카오','삼성전자','현대차'])

Unnamed: 0,가격,PER,ROA
카카오,100,0.5,1.01
삼성전자,500,1.2,3.1
현대차,150,0.2,0.97


In [7]:
df_ex1 = pd.DataFrame({'가격':[100,500,150],'PER':[0.5,1.2,0.2],'ROA':[1.01,3.1,0.97]},index=['카카오','삼성전자','현대차'])
df_ex1['가격']

카카오     100
삼성전자    500
현대차     150
Name: 가격, dtype: int64

In [8]:
# 특정 데이터 가져오기
df_ex1['가격']['삼성전자']

500

In [9]:
# 행을 기준으로 선택하기
df_ex1.loc['카카오']

가격     100.00
PER      0.50
ROA      1.01
Name: 카카오, dtype: float64

In [10]:
# 카카오의 ROA값만 가져오기
df_ex1.loc['카카오']['ROA']

1.01

In [11]:
# 임의의 데이터프레임 생성
df_ex2 = pd.DataFrame({'가격':[100,140,155,70,90],
                      'PER':[1.1,0.8,0.7,2.3,3.9],
                      '거래량':[1000,800,890,700,2000]},
                     index=['a','b','c','d','e'])
df_ex2

Unnamed: 0,가격,PER,거래량
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890
d,70,2.3,700
e,90,3.9,2000


In [12]:
# 가격이 100이상인 데이터만 선택
df_ex2[df_ex2['가격']>=100]

Unnamed: 0,가격,PER,거래량
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890


In [13]:
# 거래량이 1000보다 작은 데이터만 선택
df_ex2[df_ex2['거래량']<1000]

Unnamed: 0,가격,PER,거래량
b,140,0.8,800
c,155,0.7,890
d,70,2.3,700


In [14]:
# PER 칼럼을 선택해서 정렬 (기본적으로 오름차순)
df_ex2['PER'].sort_values()

c    0.7
b    0.8
a    1.1
d    2.3
e    3.9
Name: PER, dtype: float64

In [15]:
# 내림차순으로 하고싶으면...
df_ex2['PER'].sort_values(ascending=False)

e    3.9
d    2.3
a    1.1
b    0.8
c    0.7
Name: PER, dtype: float64

In [16]:
# PER칼럼을 기준으로 "데이터프레임"을 정렬
df_ex2.sort_values(by='PER')

Unnamed: 0,가격,PER,거래량
c,155,0.7,890
b,140,0.8,800
a,100,1.1,1000
d,70,2.3,700
e,90,3.9,2000


In [17]:
# 이것도 내림차순으로 하고싶으면...
df_ex2.sort_values(by='PER',ascending=False)

Unnamed: 0,가격,PER,거래량
e,90,3.9,2000
d,70,2.3,700
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890


In [18]:
# 거래량을 기준으로 순위 만들기
df_ex2['거래량'].rank()

a    4.0
b    2.0
c    3.0
d    1.0
e    5.0
Name: 거래량, dtype: float64

In [19]:
# 이것도 내림차순...
df_ex2['거래량'].rank(ascending=False)

a    2.0
b    4.0
c    3.0
d    5.0
e    1.0
Name: 거래량, dtype: float64

In [20]:
# 판다스로 앞서 살펴본 마법공식 구현
file_path = 'E:\\jupyter\\Quant with Python\\Excel_data\\마법공식 데이터.xlsx'
pd.read_excel(file_path, sheet_name='PER')

Unnamed: 0,회사명,PER
0,3S,-11.87
1,AJ네트웍스,25.15
2,AJ렌터카,24.85
3,AK홀딩스,11.49
4,APS홀딩스,0.23
...,...,...
2000,흥국에프엔비,23.20
2001,흥국화재,5.93
2002,흥아해운,-4.87
2003,희림,20.66


In [21]:
# 인덱스 지정 --> 회사명
per_data = pd.read_excel(file_path, sheet_name='PER',index_col=0) # 특정 칼럼을 인덱스로 지정하겠다는 것
per_data

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
3S,-11.87
AJ네트웍스,25.15
AJ렌터카,24.85
AK홀딩스,11.49
APS홀딩스,0.23
...,...
흥국에프엔비,23.20
흥국화재,5.93
흥아해운,-4.87
희림,20.66


In [22]:
# PER < 0인 것들 제외시키기
filtered_per = per_data[per_data['PER']>0]
filtered_per

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
AJ네트웍스,25.15
AJ렌터카,24.85
AK홀딩스,11.49
APS홀딩스,0.23
AP시스템,14.63
...,...
흥국,8.61
흥국에프엔비,23.20
흥국화재,5.93
희림,20.66


In [23]:
# sort_values()로 정렬할 때 PER이 유일한 칼럼인 데이터프레임이지만
# by='PER'로 지정해줘야함
sorted_per = filtered_per.sort_values(by='PER')
sorted_per

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
APS홀딩스,0.23
STX중공업,0.37
제일파마홀딩스,0.39
이녹스,0.75
유비쿼스홀딩스,1.04
...,...
신영스팩3호,3369.00
SCI평가정보,3662.70
제이에스티나,5455.44
셀트리온제약,10318.45


In [24]:
# PER값으로 순위 만들기
sorted_per['PER'].rank()

회사명
APS홀딩스        1.0
STX중공업        2.0
제일파마홀딩스       3.0
이녹스           4.0
유비쿼스홀딩스       5.0
            ...  
신영스팩3호     1389.0
SCI평가정보    1390.0
제이에스티나     1391.0
셀트리온제약     1392.0
코미팜        1393.0
Name: PER, Length: 1393, dtype: float64

In [25]:
# PER 순위로 새로운 칼럼 생성
sorted_per['PER랭킹'] = sorted_per['PER'].rank()
sorted_per

Unnamed: 0_level_0,PER,PER랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1
APS홀딩스,0.23,1.0
STX중공업,0.37,2.0
제일파마홀딩스,0.39,3.0
이녹스,0.75,4.0
유비쿼스홀딩스,1.04,5.0
...,...,...
신영스팩3호,3369.00,1389.0
SCI평가정보,3662.70,1390.0
제이에스티나,5455.44,1391.0
셀트리온제약,10318.45,1392.0


In [26]:
print(sorted_per.loc['오리온홀딩스'])
print(sorted_per.loc['삼강엠앤티']) # PER이 같아 6,7의 평균 "6.5"등을 부여

PER      1.1
PER랭킹    6.5
Name: 오리온홀딩스, dtype: float64
PER      1.1
PER랭킹    6.5
Name: 삼강엠앤티, dtype: float64


In [27]:
# ROA도 똑같이 진행
roa_data = pd.read_excel(file_path,sheet_name='ROA',index_col=0)
roa_data

Unnamed: 0_level_0,ROA(영업이익)(%)
회사명,Unnamed: 1_level_1
3R,
3S,
3SOFT,
3노드디지탈,
AD모터스,
...,...
흥아해운,-1.67
흥양,
희림,5.62
희훈디앤지,


In [28]:
# 결측데이터 처리
filtered_roa = roa_data.dropna()
filtered_roa

Unnamed: 0_level_0,ROA(영업이익)(%)
회사명,Unnamed: 1_level_1
AJ네트웍스,3.43
AJ렌터카,3.39
AK홀딩스,11.36
AP시스템,11.92
AP위성,-4.76
...,...
흥국,7.51
흥국에프엔비,12.91
흥국화재,1.00
흥아해운,-1.67


In [29]:
# 칼럼명 "ROA"로 변경
filtered_roa.columns = ['ROA']
filtered_roa

Unnamed: 0_level_0,ROA
회사명,Unnamed: 1_level_1
AJ네트웍스,3.43
AJ렌터카,3.39
AK홀딩스,11.36
AP시스템,11.92
AP위성,-4.76
...,...
흥국,7.51
흥국에프엔비,12.91
흥국화재,1.00
흥아해운,-1.67


In [30]:
# ROA는 내림차순으로 구해야하므로...
sorted_roa = filtered_roa.sort_values(by='ROA',ascending=False)
sorted_roa

Unnamed: 0_level_0,ROA
회사명,Unnamed: 1_level_1
넥스턴,56.25
삼화네트웍스,50.18
오가닉티코스메틱,44.06
티웨이홀딩스,36.19
마이크로프랜드,34.58
...,...
아이진,-46.23
유바이오로직스,-48.08
이에스에이,-59.07
큐렉소,-89.29


In [31]:
# 랭킹 부여
sorted_roa['ROA랭킹'] = sorted_roa.rank(ascending=False)
sorted_roa

Unnamed: 0_level_0,ROA,ROA랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1
넥스턴,56.25,1.0
삼화네트웍스,50.18,2.0
오가닉티코스메틱,44.06,3.0
티웨이홀딩스,36.19,4.0
마이크로프랜드,34.58,5.0
...,...,...
아이진,-46.23,1926.0
유바이오로직스,-48.08,1927.0
이에스에이,-59.07,1928.0
큐렉소,-89.29,1929.0


In [32]:
# 데이터프레임 합치기
total_df = pd.merge(sorted_per,sorted_roa,how='inner',left_index=True,right_index=True)
total_df

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AJ네트웍스,25.15,905.0,3.43,895.0
AJ렌터카,24.85,893.0,3.39,901.5
AK홀딩스,11.49,413.0,11.36,223.0
AP시스템,14.63,582.0,11.92,194.0
AP위성,21.65,818.0,-4.76,1676.0
...,...,...,...,...
흥구석유,22.15,830.0,2.50,1017.5
흥국,8.61,257.0,7.51,461.0
흥국에프엔비,23.20,855.0,12.91,171.0
흥국화재,5.93,99.5,1.00,1209.5


* 두 개의 데이터프레임을 병합할 때는 pd.merge를 사용
* how옵션에서 병합 방법을 설정
  - outer: 두 기준열에 모두 포함되는 데이터뿐만 아니라 한쪽에만 있는 데이터도 모두 합쳐짐
  - inner: 두 데이터프레임의 기준열에 공통으로 있는 데이터만 합쳐짐
* 다음 옵션은 각 데이터프레임에서 어떤 열을 기준으로 병합할 것인지 표시
  - 여기서는 각 데이터프레임의 인덱스를 기준으로 병합을 하는 것으로 지정

In [33]:
# PER, ROA 랭킹을 합친 종합 랭킹 칼럼을 생성
total_df['종합랭크'] = (total_df['PER랭킹'] + total_df['ROA랭킹']).rank()
total_df.sort_values(by='종합랭크')

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹,종합랭크
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서한,3.22,22.0,23.65,25.0,1.0
골프존,4.19,38.0,24.77,21.0,2.0
동원개발,4.41,42.0,23.62,26.0,3.0
오가닉티코스메틱,5.11,66.5,44.06,3.0,4.0
모베이스,4.49,45.0,20.03,52.0,5.0
...,...,...,...,...,...
SCI평가정보,3662.70,1390.0,-6.80,1734.0,1247.0
덕양산업,424.93,1358.0,-8.46,1773.0,1248.0
디비케이,119.68,1281.0,-14.23,1863.0,1249.0
이루온,197.50,1328.0,-13.28,1847.0,1250.0


In [34]:
# 함수로 저장
def magic_by_pd(file_path):
    per_data = pd.read_excel(file_path, sheet_name='PER',index_col=0)
    filtered_per = per_data[per_data['PER']>0]
    sorted_per = filtered_per.sort_values(by='PER')
    sorted_per['PER랭킹'] = sorted_per['PER'].rank()
    
    roa_data = pd.read_excel(file_path, sheet_name='ROA',index_col=0)
    filtered_roa = roa_data.dropna()
    filtered_roa.columns = ['ROA']
    sorted_roa = filtered_roa.sort_values(by='ROA',ascending=False)
    sorted_roa['ROA랭킹'] = sorted_roa['ROA'].rank(ascending=False)
    
    total_df = pd.merge(sorted_per,sorted_roa,how='inner',left_index=True,right_index=True)
    
    total_df['종합랭크'] = (total_df['PER랭킹']+total_df['ROA랭킹']).rank()
    return total_df.sort_values(by='종합랭크')

* 함수를 파이썬 파일로 저장하여 사용하는 방법 --> spyder 활용 (나는 vscode를 활용하려함...)

In [35]:
# MagicQuant 모듈 불러오기 --> magic_by_pd 함수로 마법공식 구현
import MagicQuant
file_path = 'E:\\jupyter\\Quant with Python\\Excel_data\\마법공식 데이터.xlsx'
MagicQuant.magic_by_pd(file_path)

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹,종합랭크
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서한,3.22,22.0,23.65,25.0,1.0
골프존,4.19,38.0,24.77,21.0,2.0
동원개발,4.41,42.0,23.62,26.0,3.0
오가닉티코스메틱,5.11,66.5,44.06,3.0,4.0
모베이스,4.49,45.0,20.03,52.0,5.0
...,...,...,...,...,...
SCI평가정보,3662.70,1390.0,-6.80,1734.0,1247.0
덕양산업,424.93,1358.0,-8.46,1773.0,1248.0
디비케이,119.68,1281.0,-14.23,1863.0,1249.0
이루온,197.50,1328.0,-13.28,1847.0,1250.0
