In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
from datetime import date, datetime, timedelta
pd.set_option('display.max_columns', None)
import warnings
warnings.filterwarnings('ignore')

---
# 1. 데이터 불러오기
----

In [None]:
finance = pd.read_table('/content/drive/MyDrive/Numble_Challenge/data/재무데이터.txt', encoding = 'CP949')

---
### 1-1 Null값 확인
---

In [None]:
finance.isnull().sum()

사업자번호               0
결산년월                0
유동자산              999
매출채권            18010
비유동자산            2025
유형자산             7244
자산총계              989
유동부채             1144
비유동부채           11260
부  채  총  계       1070
자본금              1029
이익잉여금(결손금）       1273
자본총계              997
매출액              5408
판매비와관리비          1375
영업이익（손실）         1096
법인세비용차감전순손익      1280
법인세비용           35684
당기순이익(손실)        1049
기업순이익률(%)          33
유보액/총자산(%)        127
유보액/납입자본(%)       133
매출액총이익률(%)        660
매출액영업이익률(%)       659
매출액순이익률(%)        661
수지비율(%)           159
경상수지비율           5277
영업비율(%)           659
금융비용대매출액비율(%     2135
금융비용대부채비율(%)       94
금융비용대총비용비율(%     1743
부채비율(%)           121
차입금의존도(%)         376
자기자본비율(%)         119
순운전자본비율(%)        119
유동부채비율(%)         132
비유동부채비율(%)        993
부채총계대 매출액(%)      624
총자본회전율(회)          15
재고자산회전율(회)         14
매출채권회전율(회)       2068
매입채무회전율(회)       3376
미수금             27548
매출원가            17769
무형자산            53849
재고자산      

---
### 1-2 결산년월 값 확인
---

일반적으로는 회계결산일  
- 12월 결산법인: 12월 31일   
- 3월 결산법인: 3월 31일  
- 6월 결산법인: 6월 30일  
- 9월 결산법인: 9월 30일  
을 기준으로 한다. 
하지만, 주식시장에 상장된 기업이나, 비상장기업이라도 필요에 따라서는 분기(3개월마다)나 반기(6개월마다)마다 재무상태표를 만드는 곳도 있다.

In [None]:
finance['결산년월'].value_counts()

20181231    29700
20191231    26360
20211231    24583
20201231    24498
20180331      399
20190331      356
20180630      319
20210331      314
20200331      312
20190630      311
20200630      283
20220331      274
20210630      256
20190930      134
20180930      132
20200930      118
20210930      112
20220630       50
20201031       30
20191031       30
20180531       27
20190228       27
20180228       27
20190430       26
20211031       26
20200229       26
20180430       26
20210430       24
20181031       24
20210531       24
20190531       24
20220531       23
20200430       22
20210228       20
20200531       19
20220430       16
20180831       15
20220228       15
20210131       15
20211130       13
20190831       13
20200131       12
20210731       11
20191130       11
20200831       11
20210831       11
20201130       10
20220131       10
20181130       10
20200731        9
20180131        8
20190131        6
20180731        5
20190731        5
Name: 결산년월, dtype: int64

---
### 1-3 등록된 사업자번호 개수 확인
----

In [None]:
############ 사업자번호가 중복되는 값의 인덱스를 변환하기 위한 코드 ############

# 사업자번호의 중복값의 시작값은 True
a = finance['사업자번호'].duplicated()

# 사업자번호 전체 인덱스 값 생성
b = list(range(len(a)))

for i in range(len(a)):
  if a[i] == True: # True 라는 것은 사업자번호가 중복되는 값의 시작점이며 다음 True가 나올때 까지 중복된 값임
    b.remove(i)

print('재무제표 전체 데이터 수:',len(finance))
print('중복을 제외한 사업자번호 수:',len(b))

재무제표 전체 데이터 수: 109142
중복을 제외한 사업자번호 수: 35709


---
### 1-4 사업자별 재무제표 보유 개수
---

In [None]:
year_count = []
for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  value = num2 - num
  year_count.append(value)

year_count

In [None]:
for i in range(1, max(year_count)+1):
  print(f'재무제표 보유개수가 {i}개인 사업자의 개수:',year_count.count(i),'\n')

재무제표 보유개수가 1개인 사업자의 개수: 7732 

재무제표 보유개수가 2개인 사업자의 개수: 3830 

재무제표 보유개수가 3개인 사업자의 개수: 3541 

재무제표 보유개수가 4개인 사업자의 개수: 20138 

재무제표 보유개수가 5개인 사업자의 개수: 384 

재무제표 보유개수가 6개인 사업자의 개수: 20 

재무제표 보유개수가 7개인 사업자의 개수: 20 

재무제표 보유개수가 8개인 사업자의 개수: 16 

재무제표 보유개수가 9개인 사업자의 개수: 22 

재무제표 보유개수가 10개인 사업자의 개수: 3 

재무제표 보유개수가 11개인 사업자의 개수: 0 

재무제표 보유개수가 12개인 사업자의 개수: 1 

재무제표 보유개수가 13개인 사업자의 개수: 1 

재무제표 보유개수가 14개인 사업자의 개수: 1 



---
### 기타. 손익계산서 계산
---


- 전체 매출액 - 매출원가 = 매출총이익
- 매출 총이익 - (판매비 + 관리비 + 감가상각비) = 영업이익
- 영업이익 - (기타 영업외손익 + 이자비용 + 법인세) = 당기순이익

- 즉, 전체 매출액 - ( 매출원가 + 판매비 + 관리비 + 감가상각비 + 기타 영업외손익 + 이자비용 + 법인세) = 당기순이익 

2~3가지 기업중에서 그 해의 망했을 떄 자료와 그 전 자료를 비교해서 (3년치) 유지하고 있는 기업의 3년치를 비교해서 어디서 변화가 있는지 확인

기업성자률은 당기순이익 혹은 자기자본비율 

기업내 경쟁력을 확인하는 것은 당기순이익 보다는 매출액을 기반으로 계산하는 것이 더 바람직할 수도

휴폐업 이유?
- 부채가 증가
- 이익잉여금이 마이너스 혹은 감소
- 영업이익이 마이너스
- 영업이익률 감소 혹은 마이너스  
  영업이익률 = 영업이익 / 매출액 * 100


---
### 1-5 성장률 계산
---
1. 매출액 성장률 = 전년도 대비 매출액이 얼마나 증가했는가? (20% 정도면 성장성이 높다)

2. 총자산 성장률 = 전년도 대비 자산이 얼마나 증가했는가? (20% 정도면 성장성이 높다)


#### 연평균 매출증가율(총자산 증가율) 계산식
    CAGR = (최종값/초기값)^(1/기간)-1
            = (2019년 매출액/2016년 매출액)^(1/(2019년-2016년))-1
            = ((59295357/27654942))^(1/3)-1
            = 28.9%



In [None]:
# #######################################################################################
# ############ 같은 사업자등록번호를 기준으로 맨 처음 값과 다음 년도의 값을 비교해 성장률을 측정 ############
# #######################################################################################
# finance['매출액성장률'] = None
# finance['총자산성장률'] = None


# for i in range(len(b)):
#   num = b[i]
#   if num == 109138 :
#     num2 = 109142
#   else: 
#     num2 = b[i+1]
#   count = num2 - num
#   for j in range(count):
#     if j != 0:
#       days = (finance['결산년월'][num + j] - finance['결산년월'][num]) / 10000
#       if days > 0 :
#         rate = (finance['매출액'][num + j] / finance['매출액'][num])**(1/days) - 1
#         rate2 = (finance['자산총계'][num + j] / finance['자산총계'][num])**(1/days) - 1
#         finance['매출액성장률'][num + j] = round(rate * 100,2)
#         finance['총자산성장률'][num + j] = round(rate2 * 100,2)

In [None]:
# print(finance['매출액성장률'].count())
# print(finance['총자산성장률'].count())

In [None]:
# #############################################################################################################
# ######## 같은 사업자등록번호를 기준으로 맨 처음 값이 Null값이면 다음 년도의 값을 기준으로 이후 년도의 값을 비교해 성장률을 측정 ########
# #############################################################################################################
# finance['매출액성장률'] = None


# for i in range(len(b)):
#   num = b[i]
#   if num == 109138 :
#     num2 = 109142
#   else: 
#     num2 = b[i+1]
#   count = num2 - num

#   for j in range(count):
#     if np.isnan(finance['매출액'][num + j]) == False :
#       new_count = count - j
#       for q in range(new_count):
#         if q != 0:
#           days = (finance['결산년월'][num + j + q] - finance['결산년월'][num + j]) / 10000
#           if days > 0 :
#             rate = (finance['매출액'][num + j + q] / finance['매출액'][num + j])**(1/days) - 1
#             finance['매출액성장률'][num + j + q] = round(rate * 100,2)

In [None]:
# finance['총자산성장률'] = None


# for i in range(len(b)):
#   num = b[i]
#   if num == 109138 :
#     num2 = 109142
#   else: 
#     num2 = b[i+1]
#   count = num2 - num

#   for j in range(count):
#     if np.isnan(finance['자산총계'][num + j]) == False :
#       new_count = count - j
#       for q in range(new_count):
#         if q != 0:
#           days = (finance['결산년월'][num + j + q] - finance['결산년월'][num + j]) / 10000
#           if days > 0 :
#             rate2 = (finance['자산총계'][num + j + q] / finance['자산총계'][num + j])**(1/days) - 1
#             finance['총자산성장률'][num + j + q] = round(rate2 * 100,2)

In [None]:
# print(finance['매출액성장률'].count())
# print(finance['총자산성장률'].count())

In [None]:
#############################################################################################################
######## 같은 사업자등록번호를 기준으로 맨 처음 값이 Null값이면 다음 년도의 값을 기준으로 이후 년도의 값을 비교해 성장률을 측정 ########
#############################################################################################################
finance['매출액성장률'] = None


for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  count = num2 - num

  for j in range(count):
    if np.isnan(finance['매출액'][num + j]) == False :
      standard = j
      break

  new_count = count - standard
  for q in range(new_count):
    if q != 0:
      days = (finance['결산년월'][num + standard + q] - finance['결산년월'][num + standard]) / 10000
      if days > 0 :
        rate = (finance['매출액'][num + standard + q] / finance['매출액'][num + standard])**(1/days) - 1
        finance['매출액성장률'][num + standard + q] = round(rate * 100,2)

In [None]:
#############################################################################################################
######## 같은 사업자등록번호를 기준으로 맨 처음 값이 Null값이면 다음 년도의 값을 기준으로 이후 년도의 값을 비교해 성장률을 측정 ########
#############################################################################################################
finance['총자산성장률'] = None


for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  count = num2 - num

  for j in range(count):
    if np.isnan(finance['매출액'][num + j]) == False :
      standard = j
      break

  new_count = count - standard
  for q in range(new_count):
    if q != 0:
      days = (finance['결산년월'][num + standard + q] - finance['결산년월'][num + standard]) / 10000
      if days > 0 :
        rate2 = (finance['자산총계'][num + standard + q] / finance['자산총계'][num + standard])**(1/days) - 1
        finance['총자산성장률'][num + standard + q] = round(rate2 * 100,2)

In [None]:
print(finance['매출액성장률'].count())
print(finance['총자산성장률'].count())

69331
71179


---
### 1-6 사업자별 성장률 합계
---

In [None]:
finance['매출액성장률 합계'] = None

for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  count = num2 - num
  value = 0
  for j in range(count):
    if finance['매출액성장률'][num + j] != None:
      value = value + finance['매출액성장률'][num + j]

  finance['매출액성장률 합계'][num + count -1] = value


In [None]:
finance['총자산성장률 합계'] = None

for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  count = num2 - num
  value = 0
  for j in range(count):
    if finance['총자산성장률'][num + j] != None:
      value = value + finance['총자산성장률'][num + j]

  finance['총자산성장률 합계'][num + count -1] = value



---
### 1-7 재무제표 데이터를 토대로 휴폐업 이력 확인
---

    전체 109142개의 재무제표에서 사업자번호 기준 중복을 제거하면 35709개의 사업자가 존재한다.  
    그 중 휴폐업이력이 있는 사업자를 표시한 결과 7093개의 사업자가 휴폐업이력이 있는 것으로 확인이 되었다.  
    그중 
    ##########################################
    "휴폐업 중소법인 재무보유.xlsx"의 사업자가 6731개
    "액티브 중소법인 재무보유.xlsx"의 사업자가 362개
    ##########################################
    로 구성되어 있다


In [None]:
active_history = pd.read_excel('/content/drive/MyDrive/Numble_Challenge/data/액티브 중소법인 재무보유.xlsx', sheet_name = 2)
close_history = pd.read_excel('/content/drive/MyDrive/Numble_Challenge/data/휴폐업 중소법인 재무보유.xlsx',sheet_name = 1)

In [None]:
finance['휴폐업이력'] = None

for i in range(len(b)):
  num = b[i]
  if num == 109138 :
    num2 = 109142
  else: 
    num2 = b[i+1]
  count = num2 - num
  if finance['사업자번호'][num + count -1] in active_history['BIZ_NO'].tolist():
    finance['휴폐업이력'][num + count -1] = 'active'
  elif finance['사업자번호'][num + count -1] in close_history['BIZ_NO'].tolist():
    finance['휴폐업이력'][num + count -1] = 'close'

In [None]:
finance['휴폐업이력'].value_counts()

close     6731
active     362
Name: 휴폐업이력, dtype: int64

In [None]:
print('휴폐업.xlsx 휴업이력이 있는 사업자 개수 :',len(set(close_history['BIZ_NO'].tolist())))
print('액티브.xlsx 휴업이력이 있는 사업자 개수 :',len(set(active_history['BIZ_NO'].tolist())))

휴폐업.xlsx 휴업이력이 있는 사업자 개수 : 6746
액티브.xlsx 휴업이력이 있는 사업자 개수 : 2083


----
### 1-8 FCFF (기업잉여현금흐름)
----

    세후영업이익(NOPLAT) -> EBIT(영업이익) - TAX(법인세 비용)
    - 운전자본비용(NWC) -> 매출채권 + 재고자산 - 매입채무
    + 비현금비용(감가상각비)
    - 자본적 지출(CAPEX) -> 비유동자산
    ------------------------------------------------------------
    FCFF

In [None]:
for i in range(len(finance)):
  if finance['매입채무회전율(회)'][i] == 1.000000e+12:
    finance['매입채무회전율(회)'][i] = None
  elif np.isnan(finance['매입채무회전율(회)'][i]):
    finance['매입채무회전율(회)'][i] = None

In [None]:
finance['매입채무'] = round(finance['매출원가'] / finance['매입채무회전율(회)'],2)

In [None]:
finance[['영업이익（손실）','법인세비용','매출채권','재고자산','매입채무','비유동자산']].isnull().sum()

영업이익（손실）     1096
법인세비용       35684
매출채권        18010
재고자산        29366
매입채무        34206
비유동자산        2025
dtype: int64

In [None]:
finance['기업가치'] = finance['영업이익（손실）'] - finance['법인세비용'] - (finance['매출채권'] + finance['재고자산'] - finance['매입채무']) - finance['비유동자산']

In [None]:
print('전체 데이터 개수:',len(finance),'\n')
print('기업가치가 계산되는 개수:',finance['기업가치'].count())
print('전체 대비 / 기업가치가 계산되는 비율:',round(finance['기업가치'].count() / len(finance),3),'\n')
print('기업가치가 계산 안되는 개수:',finance['기업가치'].isnull().sum())
print('전체 대비 / 기업가치가 계산 안되는 비율:',round(finance['기업가치'].isnull().sum() / len(finance),3),'\n')

전체 데이터 개수: 109142 

기업가치가 계산되는 개수: 49687
전체 대비 / 기업가치가 계산되는 비율: 0.455 

기업가치가 계산 안되는 개수: 59455
전체 대비 / 기업가치가 계산 안되는 비율: 0.545 

