### 1. data load

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
#  data load
df = pd.read_csv("./data/2019_반기보고서_01_재무상태표_연결_20200627.txt", sep = "\t", encoding = "cp949")

### 2. 연속형변수 변경 dtype 변경

In [10]:
def str_to_float(data):
    import numpy as np
    
    data["당기 반기말"] = data["당기 반기말"].str.replace(",", "")
    data["전기말"] = data["전기말"].str.replace(",", "")
#     data["전전기말"] = data["전전기말"].str.replace(",", "")
    data["당기 반기말"] = data["당기 반기말"].astype(np.float32)
    return data

df = str_to_float(df)

### 3. 불필요한 변수 제거

In [17]:
# 필요 없는 변수 제거
def delete_col(data):
#     data.drop("통화", axis = 1, inplace = True)
#     data.drop("Unnamed: 15", axis = 1, inplace = True)
    data.drop("전기말", axis = 1, inplace = True)
    data.drop("전전기말", axis = 1, inplace = True)
    data.drop("재무제표종류", axis = 1, inplace = True)
    return data

df = delete_col(df)

### 4. 항목명 변수 처리

In [19]:
def duplication_check(data):
    # 항목코드 중복 확인
    entity_코드 = []
    entity_명 = []
    without_entity_코드 = []
    without_entity_명 = []

    # 각 리스트에 코드 및 코드명 append(소문자 처리)
    for idx in range(len(data)):
        if "entity" in data["항목코드"][idx]:
            entity_코드.append(data["항목코드"][idx].lower())
            entity_명.append(data["항목명"][idx].lower())
        else:
            without_entity_코드.append(data["항목코드"][idx].lower())
            without_entity_명.append(data["항목명"][idx].lower())

    # !entity 코드 딕셔너리
    dic_without_entity = {re.findall("_\w{1,}", without_entity_코드[idx])[0].lower():[] for idx in range(len(without_entity_코드))}

    for i, j in zip(without_entity_코드, without_entity_명):
        dic_without_entity[re.findall("_\w{1,}", i)[0].lower()].append(j)

    check_without_entity = {i:len(set(j)) for i, j in dic_without_entity.items()}
    
    # entity 코드 딕셔너리
    dic_entity = {entity_코드[idx]:[] for idx in range(len(entity_코드))}
    
    for i, j in zip(entity_코드, entity_명):
        dic_entity[i].append(j)
        
    check_entity = {i:len(set(j)) for i, j in dic_entity.items()}
    
    return entity_코드, entity_명, without_entity_코드, without_entity_명, dic_without_entity, dic_entity

entity_코드, entity_명, without_entity_코드, without_entity_명, dic_without_entity, dic_entity = duplication_check(df)

### 5. 공시된 항목명, 항목코드 가져오기(금융감독원 재무제표 양식)

In [23]:
def extract_element_id(data):
    element_idx_lst_entity = []
    element_idx_lst_without_entity = []
    
    for idx in range(len(data)):
        if "entity" in data["항목코드"][idx]:
            element_idx_lst_entity.append(data["항목코드"][idx])
        else:
            element_idx_lst_without_entity.append(data["항목코드"][idx])
            
    entity = sorted(set(element_idx_lst_entity), reverse = True)
    without_entity = sorted(set(element_idx_lst_without_entity), reverse = True)
    
    return entity, without_entity

a, b = extract_element_id(df)

elementid = pd.read_excel("./data/재무제표양식.xlsx", encoding = "utf-8", sheet_name = "BS1")
# '한글 Label', 'Element ID'
df_element = elementid[['한글 Label', 'Element ID']]
df_element = df_element[df_element["Element ID"].notnull()]

df_element.columns = df_element.columns.str.replace(" ", "_")
lst_element = df_element["Element_ID"].unique()

re_lst_element = []
for i in lst_element:
    a = re.findall("_\w{1,}", i)[0].lower()
    re_lst_element.append(a)
 
dic_element = {i:[] for i in re_lst_element}
for i, j in zip(re_lst_element, df_element["한글_Label"]):
    dic_element[i].append(j)

### 6. entity 제외 항목명 변수 전처리

In [24]:
lst_idx = []
for idx in range(len(df)):
    try:
        if "entity" not in df["항목코드"][idx]:
            df["항목명"][idx] = dic_element[re.findall("_\w{1,}", df["항목코드"][idx])[0].lower()][0]
    except Exception as e:
        lst_idx.append(idx)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """


### 7. 정제된 데이터 프레임 만들기

In [29]:
df.head()

Unnamed: 0,종목코드,회사명,시장구분,업종,업종명,결산월,결산기준일,보고서종류,항목코드,항목명,당기 반기말
0,[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-09-30,반기보고서,ifrs-full_AssetsAbstract,자산 [abstract],
1,[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-09-30,반기보고서,ifrs-full_CurrentAssets,유동자산,17092750000.0
2,[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-09-30,반기보고서,ifrs-full_CashAndCashEquivalents,현금및현금성자산,8833444000.0
3,[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-09-30,반기보고서,dart_ShortTermDepositsNotClassifiedAsCashEquiv...,단기금융상품,61141150.0
4,[060310],3S,코스닥시장상장법인,292,특수 목적용 기계 제조업,3,2019-09-30,반기보고서,ifrs-full_TradeAndOtherCurrentReceivables,매출채권 및 기타유동채권,2232528000.0


In [30]:
# DB 테이블에 적용할 D.F
# 회사이름 추출
lst_company = df["회사명"].unique()
element_value = []
for i in dic_element.values():
    element_value.append(i[0])
    
# columns
col = list(df.columns[0:8]) + element_value
check_col = list(dic_element.keys())

#  해당년도 데이터 행길이
company_dic = {i:[] for i in lst_company}
day = []

for i in lst_company:
    company_dic[i].append(df[df["회사명"] == i]["결산기준일"].unique())
    day.append(len(df[df["회사명"] == i]["결산기준일"].unique()))
    
row = sum(day)

bon = np.zeros([row,len(col)]) + np.NAN

# D.F
last_df = pd.DataFrame(bon, columns = col)

### 8. 데이터 입력

In [32]:
dic_standard = {i:list(df[df["회사명"] == i]["결산기준일"].unique()) for i in lst_company}
last_company = []
last_standard  = []
for key, value in dic_standard.items():
    for index in range(len(value)):
        last_company.append(key)
        last_standard.append(value[index])
        
cnt = 0

for idx in range(len(last_company)):

    a = df[(df["회사명"] == last_company[idx]) & (df["결산기준일"] == last_standard[idx])]
    a.reset_index(drop = True, inplace = True)
    for i in range(8):
        last_df.iloc[cnt, i] = a.iloc[0, i]

    for idx3 in range(len(a)):
        if "entity" not in a["항목코드"][idx3]:
            loc = dic_element[re.findall("_\w{1,}", a["항목코드"][idx3])[0].lower()][0]
            last_df.loc[cnt, loc] = a["당기 반기말"][idx3]
    cnt += 1

In [43]:
df2019 = pd.read_csv("./data/2017_2019_without_entity.csv", encoding = "euc-kr")

In [60]:
col2019 = df2019.columns
col = last_df.columns

for i, j in zip(col2019, col):
    if i != j:
        print(i, j)

last_df.columns = col2019

대손충당금.1 대손충당금
대손충당금.2 대손충당금
대손충당금.3 대손충당금
대손충당금.4 대손충당금
대손충당금.5 대손충당금
대손충당금.6 대손충당금
대손충당금.7 대손충당금
대손충당금.8 대손충당금
대손충당금.9 대손충당금
대손충당금.10 대손충당금
대손충당금.11 대손충당금
대손충당금.12 대손충당금
대손충당금.13 대손충당금
대손충당금.14 대손충당금
평가충당금.1 평가충당금
평가충당금.2 평가충당금
평가충당금.3 평가충당금
평가충당금.4 평가충당금
평가충당금.5 평가충당금
평가충당금.6 평가충당금
평가충당금.7 평가충당금
평가충당금.8 평가충당금
평가충당금.9 평가충당금
평가충당금.10 평가충당금
평가충당금.11 평가충당금
평가충당금.12 평가충당금
정부보조금.1 정부보조금
정부보조금.2 정부보조금
손상차손누계액.1 손상차손누계액
대손충당금.15 대손충당금
현재가치할인차금.1 현재가치할인차금
대손충당금.16 대손충당금
현재가치할인차금.2 현재가치할인차금
대손충당금.17 대손충당금
현재가치할인차금.3 현재가치할인차금
대손충당금.18 대손충당금
현재가치할인차금.4 현재가치할인차금
대손충당금.19 대손충당금
현재가치할인차금.5 현재가치할인차금
대손충당금.20 대손충당금
현재가치할인차금.6 현재가치할인차금
대손충당금.21 대손충당금
현재가치할인차금.7 현재가치할인차금
대손충당금.22 대손충당금
현재가치할인차금.8 현재가치할인차금
대손충당금.23 대손충당금
현재가치할인차금.9 현재가치할인차금
대손충당금.24 대손충당금
현재가치할인차금.10 현재가치할인차금
대손충당금.25 대손충당금
현재가치할인차금.11 현재가치할인차금
대손충당금.26 대손충당금
현재가치할인차금.12 현재가치할인차금
대손충당금.27 대손충당금
현재가치할인차금.13 현재가치할인차금
대손충당금.28 대손충당금
현재가치할인차금.14 현재가치할인차금
대손충당금.29 대손충당금
정부보조금.3 정부보조금
손상차손누계액.2 손상차손누계액
정부보조금.4 정부보조금
감가상각누계액.1 감가상각누계액
손상차손누계액.

In [63]:
real_df = pd.concat([df2019, last_df]).reset_index(drop = True)

In [66]:
real_df.to_csv("./data/분기_반기.csv", encoding = "euc=kr", index = False)