# 판다스를 이용한 데이터 분석

딕셔너리를 사용함으로써, [회사명, 수치] 와 같은 데이터를 찾고 싶을 때 list[0]과 같은 인덱스가 아니라 dic[회사명]으로 쉽게 찾을 수 있었음 <br>
다만, 딕셔너리에서 무언가를 정렬해주기 위해서는 리스트와 같이 단순 sort가 아니라 sorted(dict.items(), key=operator.itemgetter(그 데이터 인덱스)와 같이 여러 장치를 해주어야 하니 번거로움 <br>
즉 효율적이지 않다. 그래서 판다스를 사용함

### 판다스
데이터프레임과 시리즈 사용

In [1]:
import pandas as pd
pd.Series([100,500,150])

0    100
1    500
2    150
dtype: int64

In [2]:
#인덱스를 설정해주고 싶다
pd.Series([100, 500, 150], index=['카카오','삼성전자','현대차'])

카카오     100
삼성전자    500
현대차     150
dtype: int64

In [5]:
series_ex1 = pd.Series([100, 500, 150], index=['카카오','삼성전자','현대차'])
print(series_ex1['카카오'])
print(series_ex1['현대차'])

#딕셔너리와 다른 점은 시리즈는 순서가 존재함

100
150


In [6]:
#데이터 프레임은 2차원 구조다
pd.DataFrame({'가격': [100, 500, 150], 'PER' : [0.5, 1.2, 0.2], 'ROA' : [1.01, 3.1, 0.97]}, index=['카카오','삼성전자','현대차'])

Unnamed: 0,가격,PER,ROA
카카오,100,0.5,1.01
삼성전자,500,1.2,3.1
현대차,150,0.2,0.97


In [9]:
#위 데이터프레임을 변수에 저장해보자
df_ex1 = pd.DataFrame({'가격': [100, 500, 150], 'PER' : [0.5, 1.2, 0.2], 'ROA' : [1.01, 3.1, 0.97]}, index=['카카오','삼성전자','현대차'])
df_ex1['가격']

#위와 같이 데이터프레임에서 한 컬럼을 선택하여 가져오면 앞서 본 것과 같이 1차원으로 변한다. 
#즉 열이든 행이든 데이터프레임에서 한 부분을 불러오면 시리즈 형태로 반환한다

카카오     100
삼성전자    500
현대차     150
Name: 가격, dtype: int64

In [13]:
print(df_ex1['가격']['삼성전자'])
print(df_ex1['가격'].iloc[1])
print(df_ex1['가격'].loc['삼성전자'])

500
500
500


### 판다스 주요 기능들 복습

필터링, 정렬, 순위 매기기

In [15]:
df_ex2 = pd.DataFrame({'가격': [100, 140, 155, 70, 90], 'PER': [1.1, 0.8, 0.7, 2.3, 3.9], '거래량' : [1000, 800, 890, 700, 2000]}, index=['a','b','c','d','e'])
df_ex2

Unnamed: 0,가격,PER,거래량
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890
d,70,2.3,700
e,90,3.9,2000


In [16]:
#이 때 칼럼명이나 인덱스명 대신 조건을 넣어, 해당 조건을 만족하는 데이터만 선택할 수도 있음
df_ex2[df_ex2['가격'] >= 100] 

Unnamed: 0,가격,PER,거래량
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890


In [17]:
df_ex2[df_ex2['거래량'] < 1000]

Unnamed: 0,가격,PER,거래량
b,140,0.8,800
c,155,0.7,890
d,70,2.3,700


In [19]:
#시리즈와 데이터프레임의 정렬 기능
#먼저, 시리즈
df_ex2['PER'].sort_values() #기본적으로 오름차순 정렬이다. ascending=True


c    0.7
b    0.8
a    1.1
d    2.3
e    3.9
Name: PER, dtype: float64

In [20]:
df_ex2['PER'].sort_values(ascending=False)

e    3.9
d    2.3
a    1.1
b    0.8
c    0.7
Name: PER, dtype: float64

In [22]:
#데이터프레임 정렬. 이 땐, 어떤 컬럼을 기준으로 정렬할지 알려줘야 함!
df_ex2.sort_values(by='PER')

Unnamed: 0,가격,PER,거래량
c,155,0.7,890
b,140,0.8,800
a,100,1.1,1000
d,70,2.3,700
e,90,3.9,2000


In [23]:
df_ex2.sort_values(by='PER', ascending=False)

Unnamed: 0,가격,PER,거래량
e,90,3.9,2000
d,70,2.3,700
a,100,1.1,1000
b,140,0.8,800
c,155,0.7,890


In [25]:
#데이터프레임에서 순위를 계산해주는 rank 함수 
df_ex2['거래량'].rank() #거래량을 기준으로 순위 매겨주기

a    4.0
b    2.0
c    3.0
d    1.0
e    5.0
Name: 거래량, dtype: float64

In [26]:
df_ex2['거래량'].rank(ascending=False)

a    2.0
b    4.0
c    3.0
d    5.0
e    1.0
Name: 거래량, dtype: float64

## 판다스를 이용한 마법 공식 구현

### PER 데이터 가져오기

In [28]:
file_path = 'C:/Users/eonjk/github/quantpython/엑셀 데이터/주식 책 데이터/마법공식 데이터.xlsx'
pd.read_excel(file_path, sheet_name='PER')
#xlrd라는 모듈 사용하지 않고 판다스로 읽어오기. 옵션으로 sheet_name을 사용해서 시트도 지정해준다

Unnamed: 0,회사명,PER
0,3S,-11.87
1,AJ네트웍스,25.15
2,AJ렌터카,24.85
3,AK홀딩스,11.49
4,APS홀딩스,0.23
...,...,...
2000,흥국에프엔비,23.20
2001,흥국화재,5.93
2002,흥아해운,-4.87
2003,희림,20.66


In [32]:
#의미없는 인덱스보다는 차라리 회사명을 인덱스로 지정해본다, 이 때는 index_col 이라는 인자를 사용해줌
per_data = pd.read_excel(file_path, sheet_name='PER', index_col=0)
per_data

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
3S,-11.87
AJ네트웍스,25.15
AJ렌터카,24.85
AK홀딩스,11.49
APS홀딩스,0.23
...,...
흥국에프엔비,23.20
흥국화재,5.93
흥아해운,-4.87
희림,20.66


In [35]:
filtered_per = per_data[per_data['PER'] > 0]
filtered_per

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
AJ네트웍스,25.15
AJ렌터카,24.85
AK홀딩스,11.49
APS홀딩스,0.23
AP시스템,14.63
...,...
흥국,8.61
흥국에프엔비,23.20
흥국화재,5.93
희림,20.66


In [39]:
sorted_per = filtered_per.sort_values(by='PER')
sorted_per

Unnamed: 0_level_0,PER
회사명,Unnamed: 1_level_1
APS홀딩스,0.23
STX중공업,0.37
제일파마홀딩스,0.39
이녹스,0.75
유비쿼스홀딩스,1.04
...,...
신영스팩3호,3369.00
SCI평가정보,3662.70
제이에스티나,5455.44
셀트리온제약,10318.45


In [44]:
sorted_per['PER'].rank()  #이건 시리즈로 반환되는데, 이를 위 데이터프레임에 합쳐서 한 번에 보는게 더 좋음
sorted_per['PER랭킹'] = sorted_per['PER'].rank()
sorted_per
#위 과정에서 PER값이 같다면 평균 값을 등수로 준다. 같은 등수를 처리하는 방법도 옵션으로 줄 수 있음. 근데 여기선 별 상관 ㄴㄴ일듯

Unnamed: 0_level_0,PER,PER랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1
APS홀딩스,0.23,1.0
STX중공업,0.37,2.0
제일파마홀딩스,0.39,3.0
이녹스,0.75,4.0
유비쿼스홀딩스,1.04,5.0
...,...,...
신영스팩3호,3369.00,1389.0
SCI평가정보,3662.70,1390.0
제이에스티나,5455.44,1391.0
셀트리온제약,10318.45,1392.0


### ROA 데이터 가져오기

In [63]:
roa_data = pd.read_excel(file_path, sheet_name ='ROA', index_col = 0)
roa_data

Unnamed: 0_level_0,ROA(영업이익)(%)
회사명,Unnamed: 1_level_1
3R,
3S,
3SOFT,
3노드디지탈,
AD모터스,
...,...
흥아해운,-1.67
흥양,
희림,5.62
희훈디앤지,


In [64]:
#결측치를 지워주자
filtered_roa = roa_data.dropna()
filtered_roa

Unnamed: 0_level_0,ROA(영업이익)(%)
회사명,Unnamed: 1_level_1
AJ네트웍스,3.43
AJ렌터카,3.39
AK홀딩스,11.36
AP시스템,11.92
AP위성,-4.76
...,...
흥국,7.51
흥국에프엔비,12.91
흥국화재,1.00
흥아해운,-1.67


In [65]:
#위 컬럼 명이 이상하므로 간결하게 바꾸어주자
filtered_roa.columns = ['ROA']
filtered_roa

Unnamed: 0_level_0,ROA
회사명,Unnamed: 1_level_1
AJ네트웍스,3.43
AJ렌터카,3.39
AK홀딩스,11.36
AP시스템,11.92
AP위성,-4.76
...,...
흥국,7.51
흥국에프엔비,12.91
흥국화재,1.00
흥아해운,-1.67


In [66]:
#이제 내림차순으로 ROA를 정렬해주자
sorted_roa = filtered_roa.sort_values(by='ROA', ascending=False)
sorted_roa

Unnamed: 0_level_0,ROA
회사명,Unnamed: 1_level_1
넥스턴,56.25
삼화네트웍스,50.18
오가닉티코스메틱,44.06
티웨이홀딩스,36.19
마이크로프랜드,34.58
...,...
아이진,-46.23
유바이오로직스,-48.08
이에스에이,-59.07
큐렉소,-89.29


In [68]:
sorted_roa['ROA랭킹'] = sorted_roa['ROA'].rank(ascending=False)
sorted_roa

Unnamed: 0_level_0,ROA,ROA랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1
넥스턴,56.25,1.0
삼화네트웍스,50.18,2.0
오가닉티코스메틱,44.06,3.0
티웨이홀딩스,36.19,4.0
마이크로프랜드,34.58,5.0
...,...,...
아이진,-46.23,1926.0
유바이오로직스,-48.08,1927.0
이에스에이,-59.07,1928.0
큐렉소,-89.29,1929.0


In [69]:
#PER데이터와 ROA 데이터를 모두 정리하였으니, 두 데이터를 합쳐서 종합 랭킹을 구해보자
total_df = pd.merge(sorted_per, sorted_roa, how='inner', left_index=True, right_index=True) #두 데이터프레임의 인덱스 모두 합쳐줌
#how 인자에는 outer(두 기준열에 모두 포함되는 데이터, 한 쪽에만 있는 데이터도 모두 합쳐진다), inner(두 데이터프레임의 기준열에 공통으로 있는 데이터만 합쳐짐)
total_df

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AJ네트웍스,25.15,905.0,3.43,895.0
AJ렌터카,24.85,893.0,3.39,901.5
AK홀딩스,11.49,413.0,11.36,223.0
AP시스템,14.63,582.0,11.92,194.0
AP위성,21.65,818.0,-4.76,1676.0
...,...,...,...,...
흥구석유,22.15,830.0,2.50,1017.5
흥국,8.61,257.0,7.51,461.0
흥국에프엔비,23.20,855.0,12.91,171.0
흥국화재,5.93,99.5,1.00,1209.5


In [71]:
#PER 랭킹과 ROA 랭킹을 합쳐서 종합랭킹을 만들고, 이를 기준으로 정렬하기
total_df['종합랭킹'] = (total_df['PER랭킹'] + total_df['ROA랭킹']).rank() #계산하라는 값이 작을 수록 1을 줌. 디폴트 오름차순
total_df.sort_values(by='종합랭킹', inplace=True)
total_df

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹,종합랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서한,3.22,22.0,23.65,25.0,1.0
골프존,4.19,38.0,24.77,21.0,2.0
동원개발,4.41,42.0,23.62,26.0,3.0
오가닉티코스메틱,5.11,66.5,44.06,3.0,4.0
모베이스,4.49,45.0,20.03,52.0,5.0
...,...,...,...,...,...
SCI평가정보,3662.70,1390.0,-6.80,1734.0,1247.0
덕양산업,424.93,1358.0,-8.46,1773.0,1248.0
디비케이,119.68,1281.0,-14.23,1863.0,1249.0
이루온,197.50,1328.0,-13.28,1847.0,1250.0


### 함수로 정리 및 모듈화하기

In [76]:
def magic_by_path(path):
    per_data = pd.read_excel(path, sheet_name='PER', index_col=0)
    filtered_per = per_data[per_data['PER'] > 0]
    sorted_per = filtered_per.sort_values(by='PER')
    sorted_per['PER랭킹'] = sorted_per['PER'].rank() 
    
    roa_data = pd.read_excel(path, sheet_name='ROA', index_col=0)
    filtered_roa = roa_data.dropna()
    filtered_roa.columns = ['ROA']
    sorted_roa = filtered_roa.sort_values(by='ROA', ascending=False) #내림차순
    sorted_roa['ROA랭킹'] = sorted_roa['ROA'].rank(ascending=False)
    
    total_df = pd.merge(sorted_per, sorted_roa, how='inner', left_index=True, right_index=True)
    total_df['종합랭킹'] = (total_df['PER랭킹'] + total_df['ROA랭킹']).rank() 
    
    return total_df.sort_values(by='종합랭킹')

In [77]:
magic_by_path(file_path)

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹,종합랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서한,3.22,22.0,23.65,25.0,1.0
골프존,4.19,38.0,24.77,21.0,2.0
동원개발,4.41,42.0,23.62,26.0,3.0
오가닉티코스메틱,5.11,66.5,44.06,3.0,4.0
모베이스,4.49,45.0,20.03,52.0,5.0
...,...,...,...,...,...
SCI평가정보,3662.70,1390.0,-6.80,1734.0,1247.0
덕양산업,424.93,1358.0,-8.46,1773.0,1248.0
디비케이,119.68,1281.0,-14.23,1863.0,1249.0
이루온,197.50,1328.0,-13.28,1847.0,1250.0


다른 파일에서도 위 함수를 사용할 수 있도록 모듈화해보자<br>
VS Code에서 .py 파일로 만들었음

In [78]:
import MagicQuant
MagicQuant.magic_by_path(file_path)

Unnamed: 0_level_0,PER,PER랭킹,ROA,ROA랭킹,종합랭킹
회사명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서한,3.22,22.0,23.65,25.0,1.0
골프존,4.19,38.0,24.77,21.0,2.0
동원개발,4.41,42.0,23.62,26.0,3.0
오가닉티코스메틱,5.11,66.5,44.06,3.0,4.0
모베이스,4.49,45.0,20.03,52.0,5.0
...,...,...,...,...,...
SCI평가정보,3662.70,1390.0,-6.80,1734.0,1247.0
덕양산업,424.93,1358.0,-8.46,1773.0,1248.0
디비케이,119.68,1281.0,-14.23,1863.0,1249.0
이루온,197.50,1328.0,-13.28,1847.0,1250.0
