In [2]:
import pandas as pd
from dateutil.relativedelta import relativedelta

### 데이터 로드

In [3]:
df = pd.read_csv("..\\..\\data\\연도별 재무.csv", encoding = "ms949")

### 매출액은 연결과 개별을 구분지어 필터생성할 것이기 때문에 구분해준다

In [4]:
A = df[(df["Kind"] == "NFS-IFRS(C)") & (df["Item Name "] == "매출액(천원)")]
df.loc[A.index, "Item Name "] = "매출액(연결)"

In [5]:
df.head()

Unnamed: 0,Symbol,Kind,Item Name,2014-12-31,2015-12-31,2016-12-31,2017-12-31,2018-12-31,2019-12-31,2020-01-31
0,A005930,NFS-IFRS(C),매출액(연결),206205987000,200653482000,201866745000,239575376000,243771415000,,
1,A005930,NFS-IFRS(S),매출액(천원),137825547000,135205045000,133947204000,161915007000,170381870000,,
2,A005930,NFS-IFRS(C),영업이익(천원),25025071000,26413442000,29240672000,53645038000,58886669000,,
3,A005930,NFS-IFRS(C),지배주주순이익(천원),23082499000,18694628000,22415655000,41344569000,43890877000,,
4,A005930,NFS-IFRS(C),총자본(천원),168088188000,179059805000,192963033000,214491428000,247753177000,,


### 데이터의 계정이름을 사용하기 쉬운 계정이름으로 변환

In [6]:
계정명 = df["Item Name "].drop_duplicates().tolist()

In [7]:
바꿀계정명 = ["연결매출","매출액", "영업이익", "지배주주순이익", "총자본", "총부채", "자본금", "이익잉여금", 
                 "영업활동으로인한현금흐름", "투자활동으로인한현금흐름", "배당", "주가", "종가", "상장주식수"]

In [8]:
temp = {}

for 계정 in range(len(계정명)):
    temp[계정명[계정]] = 바꿀계정명[계정]
    print(계정명[계정]+ "     ->     " +  바꿀계정명[계정])

매출액(연결)     ->     연결매출
매출액(천원)     ->     매출액
영업이익(천원)     ->     영업이익
지배주주순이익(천원)     ->     지배주주순이익
총자본(천원)     ->     총자본
총부채(천원)     ->     총부채
자본금(천원)     ->     자본금
이익잉여금(천원)     ->     이익잉여금
영업활동으로인한현금흐름(천원)     ->     영업활동으로인한현금흐름
투자활동으로인한현금흐름(천원)     ->     투자활동으로인한현금흐름
수정DPS(보통주,현금)(원)     ->     배당
수정주가(원)     ->     주가
종가(원)     ->     종가
상장주식수(주)     ->     상장주식수


### 바뀐 계정 할당

In [9]:
df = df.replace({"Item Name ": temp})

In [10]:
# 연결매출 판별하는데 사용한 Kind는 이제 필요가 없으므로 drop한다

In [11]:
df = df.drop("Kind", axis=1)

In [12]:
df.head()

Unnamed: 0,Symbol,Item Name,2014-12-31,2015-12-31,2016-12-31,2017-12-31,2018-12-31,2019-12-31,2020-01-31
0,A005930,연결매출,206205987000,200653482000,201866745000,239575376000,243771415000,,
1,A005930,매출액,137825547000,135205045000,133947204000,161915007000,170381870000,,
2,A005930,영업이익,25025071000,26413442000,29240672000,53645038000,58886669000,,
3,A005930,지배주주순이익,23082499000,18694628000,22415655000,41344569000,43890877000,,
4,A005930,총자본,168088188000,179059805000,192963033000,214491428000,247753177000,,


In [13]:
# df 시간변환

In [14]:
df = df.set_index(['Symbol', "Item Name "])
시간변환 = pd.to_datetime(df.columns)
시간변환 = 시간변환.strftime("%Y-%m-%d")
시간변환 = 시간변환.rename("date")
df.columns = pd.to_datetime(시간변환)

In [15]:
# 데이터를 받은 후 프레임의 가장 마지막 컬럼(2020-01-31)은 비워져있고, 
# 마지막 컬럼 전년도의 컬럼(2019-12-31)은 비워져있거나 채워져있거나이다.
# 즉 전년도의 재무데이터는 발표를 한 경우와 하지 않은 경우로 나뉘어진다.
# 감사보고서 제출일이 3월 15일이기 때문에 3월 15일 이전에는 전년도 컬럼이 비워져있고, 이후에는 채워져 있을 것이다.
# 넉넉잡아 4월을 기준으로 판단하기로 한다.
# 따라서 현재 시점이 4월 이전인 경우에는 현재컬럼과 마지막 전년도 컬럼이 둘 다 비워져있고
# 현재 시점이 4월 이후인 경우에는 현재 컬럼만 비워져 있을 것이다. 

# 현재 컬럼과 마지막 전년도 컬럼이 둘 다 비워져 있는 경우에는 현재 컬럼을 없애기로 하는데
# 이는 마지막 컬럼시점과 현재 컬럼시점에 얻을 수 있는 데이터가 동일하기 때문에 필터링 조건에 왜곡이 나타나기 때문이다.

# 본 프로그램의 목표는 2019-12-31컬럼에 채워지는 데이터들은 해당 시점에 알 수 있는 가장 최근 데이터들을 나타내는 것
# 그런데 2019-12-31일에 알 수 있는 데이터들이 2020-1-31일에 알 수 있는 데이터들과 재무데이터의 경우 완전 동일함
# 완전 동일한 경우 증감폭 등이 0이 되기 때문에 동일한 하나의 컬럼은 빼 줘야 하는것.
# 따라서 4월 이전인 경우에 현재 칼럼을 없애버린다.

In [16]:
if df.columns[-1].month < 4:
    df = df.drop(df.columns[-1], axis=1)
else:
    pass

In [17]:
df.head()

Unnamed: 0_level_0,date,2014-12-31 00:00:00,2015-12-31 00:00:00,2016-12-31 00:00:00,2017-12-31 00:00:00,2018-12-31 00:00:00,2019-12-31 00:00:00
Symbol,Item Name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
A005930,연결매출,206205987000,200653482000,201866745000,239575376000,243771415000,
A005930,매출액,137825547000,135205045000,133947204000,161915007000,170381870000,
A005930,영업이익,25025071000,26413442000,29240672000,53645038000,58886669000,
A005930,지배주주순이익,23082499000,18694628000,22415655000,41344569000,43890877000,
A005930,총자본,168088188000,179059805000,192963033000,214491428000,247753177000,


### 인덱스를 회사 - 시간의 이중 인덱스 변경. 컬럼은 재무 지표들로 변경

In [18]:
df = df.stack().swaplevel().unstack()

In [19]:
df.head()

Unnamed: 0_level_0,Item Name,매출액,배당,상장주식수,연결매출,영업이익,영업활동으로인한현금흐름,이익잉여금,자본금,종가,주가,지배주주순이익,총부채,총자본,투자활동으로인한현금흐름
Symbol,date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
A005930,2014-12-31,137825547000,400.0,147299337,206205987000,25025071000,36975389000,169529604000,897514000,1327000,26540,23082499000,62334770000,168088188000,-32806408000
A005930,2015-12-31,135205045000,420.0,147299337,200653482000,26413442000,40061761000,185132014000,897514000,1260000,25200,18694628000,63119716000,179059805000,-27167787000
A005930,2016-12-31,133947204000,570.0,140679337,201866745000,29240672000,47385644000,193086317000,897514000,1802000,36040,22415655000,69211291000,192963033000,-29658675000
A005930,2017-12-31,161915007000,850.0,129098494,239575376000,53645038000,62162041000,215811200000,897514000,2548000,50960,41344569000,87260662000,214491428000,-49385216000
A005930,2018-12-31,170381870000,1416.0,5969782550,243771415000,58886669000,67031863000,242698956000,897514000,38700,38700,43890877000,91604067000,247753177000,-52240453000


### df type 실수로 변환

In [20]:
for 계정 in df.columns:
    df[계정] = df[계정].str.replace(',', "")

df = df.astype(float)

In [21]:
# 데이터들의 년도를 미뤄주는 함수. 예를 들어 lag_year가 1년이면 1년전의 데이터를 가져오겠다는 뜻!! 한번 실행해보길
def lag_year(df, lag_year):
    copy_df = df.copy()
    lagged_df = copy_df.shift(lag_year)
    lag_index_list = []
    for index in df.columns:
        lag_index = index + " " + str(lag_year) + "Y lag"
        lag_index_list.append(lag_index)
    
    lagged_df.columns = lag_index_list
    
    return lagged_df

In [22]:
# 3월 15일을 기준으로 사용할 수 있는 재무데이터의 년도가 다름. 3월 전에는 전전년도의 재무데이터를 사용가능하지만
# 4월부터는 전년도 재무데이터를 사용할 수 있음
# 마찬가지로 이해가 안 된다면 실행시켜보길 권함!

def assign_announcement_year(df):
    copy_df = df.copy()
    
    # df 의 시간을 거슬러 올라가면서
    for time in reversed(copy_df.index):

        month = time.month
        day = time.day
        
        try:
            
            # 만약 해당 월이 4월 이상이라면
            if month > 3:
                
                ref_time = time- relativedelta(years = 1) # 작년 12월 데이터를 카피한다
                copy_df.loc[time] = copy_df.loc[ref_time]

                
            else:
                print("이때 언제 해당?")
                ref_time = time- relativedelta(years = 1) - relativedelta(months = month-1) - relativedelta(days = day) 
                copy_df.loc[time] = copy_df.loc[ref_time]                

        except Exception as e:
            copy_df.loc[time] = None
            pass
    
    return copy_df

### 시가총액과 ROE, 영업이익률 생성

In [23]:
df["시가총액"] = df["종가"] * df["상장주식수"]
df["ROE"] = df["지배주주순이익"] /  df["총자본"]
df["영업이익률"] = df["영업이익"] / df["매출액"]

In [24]:
company = 'A005930'
## 이 부분이 복잡해보이는데 복사해서 밖으로 빼서 별도의 셀에서 한 행씩 실행시켜보면 이해가 됨

 # 회사의 데이터를 가져와서
temp = df.loc[company] 
# 즉시 알 수 있는 주식 데이터들만을 뽑아온 후
stock_data = df.loc[company][["주가", "상장주식수", "시가총액"]]
# 전년도에 대한 감사보고서 제출일이 3월 15일 이므로 3월을 기준으로 이전이라면 2년전의 데이터, 이후라면 1년전의 데이터 사용
temp = assign_announcement_year(temp)
# 필터 조건을 위한 전년도 데이터들을 생성하고
lag_1Y = lag_year(temp, 1)
lag_2Y = lag_year(temp, 2)
lag_3Y = lag_year(temp, 3)
lag_4Y = lag_year(temp, 4)
# 이를 합친다
temp = pd.concat([temp, lag_1Y, lag_2Y, lag_3Y, lag_4Y], axis = 1)

# 즉시 알 수 있는 stock data들도 재무데이터들과 마찬가지로 미뤄졌으므로, 다시 원래 데이터를 할당한다
temp[stock_data.columns]= stock_data

# temp를 밖에서 빼서 한번씩 실행하면 이해가 될거임!

In [25]:
temp

Unnamed: 0_level_0,매출액,배당,상장주식수,연결매출,영업이익,영업활동으로인한현금흐름,이익잉여금,자본금,종가,주가,...,자본금 4Y lag,종가 4Y lag,주가 4Y lag,지배주주순이익 4Y lag,총부채 4Y lag,총자본 4Y lag,투자활동으로인한현금흐름 4Y lag,시가총액 4Y lag,ROE 4Y lag,영업이익률 4Y lag
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014-12-31,,,147299300.0,,,,,,,26540.0,...,,,,,,,,,,
2015-12-31,137825500000.0,400.0,147299300.0,206206000000.0,25025070000.0,36975390000.0,169529600000.0,897514000.0,1327000.0,25200.0,...,,,,,,,,,,
2016-12-31,135205000000.0,420.0,140679300.0,200653500000.0,26413440000.0,40061760000.0,185132000000.0,897514000.0,1260000.0,36040.0,...,,,,,,,,,,
2017-12-31,133947200000.0,570.0,129098500.0,201866700000.0,29240670000.0,47385640000.0,193086300000.0,897514000.0,1802000.0,50960.0,...,,,,,,,,,,
2018-12-31,161915000000.0,850.0,5969783000.0,239575400000.0,53645040000.0,62162040000.0,215811200000.0,897514000.0,2548000.0,38700.0,...,,,,,,,,,,
2019-12-31,170381900000.0,1416.0,5969783000.0,243771400000.0,58886670000.0,67031860000.0,242699000000.0,897514000.0,38700.0,55800.0,...,897514000.0,1327000.0,26540.0,23082500000.0,62334770000.0,168088200000.0,-32806410000.0,195466200000000.0,0.137324,0.181571


In [26]:
# temp의 모양을 살펴보면 위와 같음.
# 즉 아래함수의 윗 부분은 해당 시점에 알 수 있는 가장 최신 데이터들로 바꿔주는 역할을 해줌

## 필터링 조건 생성부

In [27]:
# 회사 리스트
company_list = df.index.levels[0]

In [28]:
new_data = []
for company in company_list:
    ## 이 부분이 복잡해보이는데 복사해서 밖으로 빼서 별도의 셀에서 한 행씩 실행시켜보면 이해가 됨
    
     # 회사의 데이터를 가져와서
    temp = df.loc[company] 
    # 즉시 알 수 있는 주식 데이터들만을 뽑아온 후
    stock_data = df.loc[company][["주가", "상장주식수", "시가총액"]]
    # 전년도에 대한 감사보고서 제출일이 3월 15일 이므로 3월을 기준으로 이전이라면 2년전의 데이터, 이후라면 1년전의 데이터 사용
    temp = assign_announcement_year(temp)
    # 필터 조건을 위한 전년도 데이터들을 생성하고
    lag_1Y = lag_year(temp, 1)
    lag_2Y = lag_year(temp, 2)
    lag_3Y = lag_year(temp, 3)
    lag_4Y = lag_year(temp, 4)
    # 이를 합친다
    temp = pd.concat([temp, lag_1Y, lag_2Y, lag_3Y, lag_4Y], axis = 1)
    
    # 즉시 알 수 있는 stock data들도 재무데이터들과 마찬가지로 미뤄졌으므로, 다시 원래 데이터를 할당한다
    temp[stock_data.columns]= stock_data
    
    # temp를 밖에서 빼서 한번씩 실행하면 이해가 될거임!
    

    # 2020년 2월 현재 알 수 있는 회사들의 재무데이터는 2019년 데이터가 아닌 2018년 데이터이다.
    # 2019년의 감사보고서의 제출 마감일은 2019년 3월 15일 까지로, 넉넉잡아 2019년 4월 1일부터는 감사보고서의
    # 데이터들을 사용할 수 있다.
    
    # 즉 정리하자면 2020년 2월 현재 회사에 대한 가장 최근 재무데이터들은 2018년 데이터들이고, 2019년 데이터가 아니다.
    # 2020년 4월이 된다면 활용할 수 있는 가장 최근 재무데이터들은 2019년 데이터이다.
    # 4월을 기점으로 이러한 시간의 변동이 일어나게 된다.
    

    
    ## 포괄손익계산서
    # 매출액 100억이상
    # 매출액은 단위가 (천원)
    temp["매출액 100억 이상"] = temp["매출액"] > 10000000
    
    #영업이익 3개년 모두 0 이상
    temp["영업이익 3년동안 0 이상"] = (temp["영업이익"] > 0) & (temp["영업이익 1Y lag"] > 0) & (temp["영업이익 2Y lag"] > 0)
    
    # 영업이익률 계속해서 증가
    temp["영업이익률 3년동안 증가"] = (temp["영업이익률"] > temp["영업이익률 1Y lag"]) &  (temp["영업이익률"] > temp["영업이익률 2Y lag"]) &  (temp["영업이익률 1Y lag"] > temp["영업이익률 2Y lag"])
    
    # 매출액 3년 동안 증가
    
    temp["매출액 3년동안 증가"] = (temp["매출액"] > temp["매출액 1Y lag"]) &  (temp["매출액"] > temp["매출액 2Y lag"]) &  (temp["매출액 1Y lag"] > temp["매출액 2Y lag"])
    
  
    # 시가총액 비율
    temp["순이익시총비율 0.1이상"] = (temp["지배주주순이익"] / temp["시가총액"])  > 0.1
    temp["영업이익시총비율 0.1이상"] = (temp["영업이익"] / temp["시가총액"]) > 0.1
    
    
    
    ## 재무상태표
    # 자본잠식
    temp["자본잠식 없음"] = temp["총자본"] > 0
    
    # 부채비율
    temp["부채비율"] = temp["총부채"] / temp["총자본"]
    temp["부채비율 150% 이하"] = temp["부채비율"] < 1.5
  
    # 자본금
    temp["자본금 증가율"] = (temp["자본금"] - temp["자본금 1Y lag"]) / temp["자본금 1Y lag"]
    temp["자본금 변동없음"] = temp["자본금 증가율"].abs() < 0.05
    
    # 이익잉여금
    
    temp["이익잉여금이 3년동안 증가"] = (temp["이익잉여금"] > temp["이익잉여금 1Y lag"]) &  (temp["이익잉여금"] > temp["이익잉여금 2Y lag"]) &  (temp["이익잉여금 1Y lag"] > temp["이익잉여금 2Y lag"])

    
    ## 현금흐름표
    
    # 영업활동현금흐름
    temp["영업활동으로인한현금흐름 판별"] = temp["영업활동으로인한현금흐름"] > 0
    temp["3년 중 2년 이상 영업활동으로인한현금흐름 0 초과"] = (temp["영업활동으로인한현금흐름 판별"].rolling(3).sum() > 2)
    
    # 투자활동현금흐름

    temp["투자활동으로인한현금흐름 판별"] = temp["투자활동으로인한현금흐름"] < 0
    temp["3년 중 2년 이상 투자활동으로인한현금흐름 0 미만"] = (temp["투자활동으로인한현금흐름 판별"].rolling(3).sum() > 2)
    
    
    ## 배당
    temp["배당존재"] = temp["배당"] > 0 
    temp["배당이 3년동안 증가"] =(temp["배당"] > temp["배당 1Y lag"]) &  (temp["배당"] > temp["배당 2Y lag"]) &  (temp["배당 1Y lag"] > temp["배당 2Y lag"])

    
    ## 기타
    
    # ROE가 5% 이상
    temp["ROE 5퍼 이상"]  = temp["ROE"] > 0.05
    
    # 추후 많은 지표들 추가
    
    
    temp["Symbol"] = company
    temp = temp.reset_index()
    temp = temp.set_index(["Symbol", "date"])
    
    new_data.append(temp)  

In [None]:
old = pd.DataFrame()
for company_data in new_data:
    old = pd.concat([old, company_data])

In [None]:
필터조건 = ["매출액 100억 이상", "영업이익 3년동안 0 이상", "영업이익률 3년동안 증가", "매출액 3년동안 증가", "순이익시총비율 0.1이상", 
        "영업이익시총비율 0.1이상","자본잠식 없음", "부채비율 150% 이하", "자본금 변동없음", 
        "이익잉여금이 3년동안 증가","3년 중 2년 이상 영업활동으로인한현금흐름 0 초과",
        "3년 중 2년 이상 투자활동으로인한현금흐름 0 미만","배당존재", "배당이 3년동안 증가","ROE 5퍼 이상"]

In [None]:
년도별조건 = old[필터조건]

In [None]:
년도별조건

In [None]:
년도별조건.to_csv("year_filter.csv", encoding = "ms949")