# 기업 고유번호 불러오기

## 회사의 고유번호 데이터를 불러오는 작업

In [1]:
openApi = "ab851319407812ac10d593dcb2fef51d0c944b66"

In [2]:
### 필요한 모듈
from urllib.request import urlopen
from io import BytesIO
from zipfile import ZipFile

### 회사고유번호 데이터 불러오기
url = 'https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key=' + openApi
with urlopen(url) as zipresp:
    with ZipFile(BytesIO(zipresp.read())) as zfile:
        zfile.extractall('corp_num')

## XML 데이터 읽기

In [None]:
### 모듈 import
import xml.etree.ElementTree as ET

### 압축파일 안의 xml 파일 읽기
tree = ET.parse('CORPCODE.xml')
root = tree.getroot()
    ## 총 80939개 기업 

## 필요한 정보를 얻기위한 함수 만들기

In [None]:
### 회사 이름으로 회사 고유번호 찾기
def find_corp_num(find_name):
    for country in root.iter("list"):
        if country.findtext("corp_name") == find_name:
            return country.findtext("corp_code")

In [None]:
find_corp_num('삼성전자')

In [None]:
corp_code = []

for country in root.iter("list"):
    corp_code.append(country.findtext("corp_code"))
    

In [None]:
print(corp_code)

In [None]:
len(corp_code)

# 기업개황api

## 한 회사 검색 테스트

In [9]:
import requests
import pandas as pd
from urllib.request import urlopen
from time import sleep
import time

In [126]:
url = "https://opendart.fss.or.kr/api/company.json?crtfc_key=" + crtfc_key_2 + "&corp_code=00126380"
response = requests.get(url)
print(response.text)
#urldata = response.json()
#corp_df = pd.DataFrame(urldata, index=[0])

{"status":"000","message":"정상","corp_code":"00126380","corp_name":"삼성전자(주)","corp_name_eng":"SAMSUNG ELECTRONICS CO,.LTD","stock_name":"삼성전자","stock_code":"005930","ceo_nm":"김기남, 김현석, 고동진","corp_cls":"Y","jurir_no":"1301110006246","bizr_no":"1248100998","adres":"경기도 수원시 영통구  삼성로 129 (매탄동)","hm_url":"www.sec.co.kr","ir_url":"","phn_no":"031-200-1114","fax_no":"031-200-7538","induty_code":"264","est_dt":"19690113","acc_mt":"12"}


In [None]:
print(response)
# response에 200이 나오면 잘 응답이 온것. 400은 잘 응답이 안온것. 

## 모든 기업 개황 검색해 데이터프레임화 후 저장

### 회사 고유번호 불러오기 (Load 또는 Read)

In [1]:
### xml 모듈 import
import xml.etree.ElementTree as ET

### xml 파일 읽기
tree = ET.parse('CORPCODE.xml')
root = tree.getroot()

### 기업 고유번호 모음 list 만들기

In [2]:
### 기업 고유번호 모음 list 만들기
code_list=[]
for country in root.iter("corp_code"):
    code_list.append(country.text)

In [3]:
print(code_list[0:3])

['00434003', '00434456', '00430964']


### 기업 개황 검색 함수 만들기

In [4]:
### 본인의 인증키 입력
crtfc_key_1 = "ab851319407812ac10d593dcb2fef51d0c944b66"
crtfc_key_2 = "f494a3020128060351c817cabf5b1b4a851e0737"
crtfc_key_3 = "5a79f1c6d673e00b0614c74e542b390ddd0b3542" 
crtfc_key_4 = "614f7fe579f14daf0ecb6aa38652677ab0576191"
crtfc_key_5 = "d4857d7491b5c47d494584350731c06dc7b66882" 
crtfc_key_6 = "bb7d92cbd78b6b67d156bef779a02e74bce661c4"
crtfc_key_7 = "a30987f4b05d0371f9f3d84c898efc698bbbc1e2"
crtfc_key_8 = "012be8cea16c0d414c5273f7422280f3f9905adf"
crtfc_key_9 = "ba2c91d2cc13f79700da1e0ed1542d2a37f18068"
crtfc_key_10 = "02c190bf4a27db86defd39afd0c48183dbff1d2c"


In [5]:
crtfc_key_11 = "a263608b5e4e9040a9de7ad1f0ff62808b29503d"
crtfc_key_12 = "c42daf7eaba42a0ed786b61e59240c58caa1d5d6"

In [175]:
### 기업개황 검색 함수 만들기
def load_data(corp_code):
    
    ### 기업개황 요청 url
    url = "https://opendart.fss.or.kr/api/company.json?crtfc_key=" +crtfc_key_1+"&corp_code=" +corp_code

    ### HTTP 요청
    r = requests.get(url)
     
    ### 요청한 데이터는 json형태이기 때문에 json으로 읽어줍니다.
    company_data = r.json()

    ### 기업개황을 요청했을 때 기업개황에 대한 자료를 반환합니다.
    return company_data

In [None]:
print(r)

### 반복문을 통한 데이터 수집

In [10]:
### 데이터를 담아둘 list 생성
company_list_1 = [] # company_list_1 0 ~ 9,000 (ㅇ)
company_list_2 = [] # company_list_2 9,000 ~ 18,000 (ㅇ) 

company_list_4 = [] # company_list_4 18,000 ~ 27,000 (ㅇ)
company_list_5 = [] # company_list_5 27,000 ~ 36,000 (ㅇ)
company_list_6 = [] # company_list_6 36,000 ~ 45,000 (ㅇ)
company_list_7 = [] # company_list_7 45,000 ~ 54,000 (ㅇ)
company_list_8 = [] # company_list_8 54,000 ~ 63,000 (ㅇ)
company_list_9 = [] # company_list_9 63,000 ~ 72,000 (ㅇ)
company_list_10 = [] # company_list_10 72,000 ~ 80,939 (ㅇ)


In [178]:
company_list_4 = []

{'status': '000', 'message': '정상', 'corp_code': '00333148', 'corp_name': '(주)나노폴', 'corp_name_eng': 'NANOPOLYMER INC.', 'stock_name': '나노폴', 'stock_code': '', 'ceo_nm': '정  철  상', 'corp_cls': 'E', 'jurir_no': '1901110036639', 'bizr_no': '6088136150', 'adres': '경상남도 마산시 양덕2동 마산수출자유지역공단 974-7', 'hm_url': 'www.nanopol.com', 'ir_url': '', 'phn_no': '055-290-1901', 'fax_no': '055-299-9950', 'induty_code': '20202', 'est_dt': '19991029', 'acc_mt': '09'}


In [179]:

### 반복문 실행
for corp_code in code_list[18000:27000]:
    company_dict = load_data(corp_code)
    
    ### list 변경할것
    company_list_4.append(company_dict)

    # sleep으로 트래픽 휴식시간주기 
    time.sleep(0.1)

In [34]:
print(company_list_3[0])

{'status': '000', 'message': '정상', 'corp_code': '00594484', 'corp_name': '주식회사뉴그린테크', 'corp_name_eng': 'NEWGREENTECH CO.,LTD', 'stock_name': '뉴그린테크', 'stock_code': '', 'ceo_nm': '문종철', 'corp_cls': 'E', 'jurir_no': '2201110025057', 'bizr_no': '6168125241', 'adres': '충청북도 청원군 오창면 성산리 15-1', 'hm_url': '', 'ir_url': '', 'phn_no': '043-217-6851', 'fax_no': '043-217-6853', 'induty_code': '29172', 'est_dt': '19990401', 'acc_mt': '12'}


In [161]:
len(company_list_1)


9000

In [162]:
len(company_list_2)


9000

In [180]:
len(company_list_4)

9000

In [182]:
print(company_list_4[0])

{'status': '000', 'message': '정상', 'corp_code': '00594484', 'corp_name': '주식회사뉴그린테크', 'corp_name_eng': 'NEWGREENTECH CO.,LTD', 'stock_name': '뉴그린테크', 'stock_code': '', 'ceo_nm': '문종철', 'corp_cls': 'E', 'jurir_no': '2201110025057', 'bizr_no': '6168125241', 'adres': '충청북도 청원군 오창면 성산리 15-1', 'hm_url': '', 'ir_url': '', 'phn_no': '043-217-6851', 'fax_no': '043-217-6853', 'induty_code': '29172', 'est_dt': '19990401', 'acc_mt': '12'}


In [102]:
len(company_list_5)

9000

In [106]:
len(company_list_6)

9000

In [110]:
len(company_list_7)

9000

In [139]:
print(company_list_7[8999])

{'status': '000', 'message': '정상', 'corp_code': '00445072', 'corp_name': '(주)탠디', 'corp_name_eng': 'TANDY . CO., LTD', 'stock_name': '탠디', 'stock_code': '', 'ceo_nm': '정기수', 'corp_cls': 'E', 'jurir_no': '1101111113268', 'bizr_no': '1128138114', 'adres': '서울특별시 관악구 봉천11동 1655-1', 'hm_url': 'www.tandy-e.co.kr', 'ir_url': '', 'phn_no': '02-885-8753', 'fax_no': '02-874-8448', 'induty_code': '15211', 'est_dt': '19941227', 'acc_mt': '12'}


In [142]:
len(company_list_8)

9000

In [143]:
print(company_list_8[8999])

{'status': '000', 'message': '정상', 'corp_code': '01144019', 'corp_name': '주식회사 영수산업개발', 'corp_name_eng': 'YOUNGSOO DEVELOPMENT CO., LTD.', 'stock_name': '영수산업개발', 'stock_code': '', 'ceo_nm': '이정숙', 'corp_cls': 'E', 'jurir_no': '1801110925644', 'bizr_no': '6078615797', 'adres': '부산광역시 연제구 중앙대로 1094 (연산동, 금강빌딩5층)', 'hm_url': '', 'ir_url': '', 'phn_no': '0519618000', 'fax_no': '0519618001', 'induty_code': '6812', 'est_dt': '20140729', 'acc_mt': '12'}


In [149]:
len(company_list_9)

9000

In [150]:
print(company_list_9[8999])

{'status': '000', 'message': '정상', 'corp_code': '00126821', 'corp_name': '(주)삼안', 'corp_name_eng': 'Saman Corporation', 'stock_name': '삼안', 'stock_code': '', 'ceo_nm': '최동식', 'corp_cls': 'E', 'jurir_no': '1101110085517', 'bizr_no': '2118125425', 'adres': '경기도 과천시 별양상가3로 5 (별양동, 유니온빌딩) 6층', 'hm_url': 'www.samaneng.com', 'ir_url': '', 'phn_no': '02-6488-8000', 'fax_no': '02-6488-8080', 'induty_code': '72121', 'est_dt': '19671230', 'acc_mt': '12'}


In [153]:
len(company_list_10)

8939

In [154]:
print(company_list_10[8938])

{'status': '000', 'message': '정상', 'corp_code': '00585963', 'corp_name': '지앤지인베스트 주식회사', 'corp_name_eng': 'GnG Invest co., Ltd.', 'stock_name': '지앤지인베스트', 'stock_code': '', 'ceo_nm': '선경래', 'corp_cls': 'E', 'jurir_no': '1101113315002', 'bizr_no': '2118771445', 'adres': '서울특별시 강남구 남부순환로 2736 (도곡동)', 'hm_url': '', 'ir_url': '', 'phn_no': '02-3460-4821', 'fax_no': '02-3460-4829', 'induty_code': '68112', 'est_dt': '20050930', 'acc_mt': '03'}


### 데이터 저장

In [184]:
### pickle 모듈 import
import pickle

### pickle 모듈을 통해 list 저장
with open('company_4.txt','wb') as f:
       pickle.dump(company_list_4,f)

### 기업 개황 통합

In [None]:
### 기업개황 통합하기
# 모든 기업개황이 담길 list
total_company_list=[]

# for문을 이용해 통합
for num in range(1,10):
    file_name = 'company_'+str(num)+'.txt'
    with open(file_name,'rb') as f:
        data=pickle.load(f)
        total_company_list=total_company_list + data
        
 # 통합 list 저장
 with open('total_company_list.txt','wb') as f:
       pickle.dump(total_company_list,f)

In [185]:
total_company_list = []

total_company_list += company_list_1
total_company_list += company_list_2
total_company_list += company_list_4
total_company_list += company_list_5
total_company_list += company_list_6
total_company_list += company_list_7
total_company_list += company_list_8
total_company_list += company_list_9
total_company_list += company_list_10


In [186]:
len(total_company_list)

80939

## 데이터프레임화 및 통합리스트 엑셀화

In [187]:
data = pd.DataFrame(total_company_list)

In [188]:
data.to_excel('기업개황.xlsx')

In [171]:
type(total_company_list[0])

dict

# -------------------------------------------

# 재무제표 크롤링 

In [35]:
url = "https://opendart.fss.or.kr/api/fnlttSinglAcntAll.json?crtfc_key=" + crtfc_key_1 + "&corp_code=00126380&bsns_year=2017&reprt_code=11011&fs_div=OFS"       


In [63]:
print(code_list[30000])

00299996


In [38]:
r = requests.get(url)
finance_data = r.json()

In [65]:
print(load_finance_data('00126380'))

{'status': '000', 'message': '정상', 'list': [{'rcept_no': '20180402005019', 'reprt_code': '11011', 'bsns_year': '2017', 'corp_code': '00126380', 'sj_div': 'BS', 'sj_nm': '재무상태표', 'account_id': 'ifrs_CurrentAssets', 'account_nm': '유동자산', 'account_detail': '-', 'thstrm_nm': '제 49 기', 'thstrm_amount': '70155189000000', 'frmtrm_nm': '제 48 기', 'frmtrm_amount': '69981128000000', 'bfefrmtrm_nm': '제 47 기', 'bfefrmtrm_amount': '67002055000000', 'ord': '1'}, {'rcept_no': '20180402005019', 'reprt_code': '11011', 'bsns_year': '2017', 'corp_code': '00126380', 'sj_div': 'BS', 'sj_nm': '재무상태표', 'account_id': 'ifrs_CashAndCashEquivalents', 'account_nm': '현금및현금성자산', 'account_detail': '-', 'thstrm_nm': '제 49 기', 'thstrm_amount': '2763768000000', 'frmtrm_nm': '제 48 기', 'frmtrm_amount': '3778371000000', 'bfefrmtrm_nm': '제 47 기', 'bfefrmtrm_amount': '3062960000000', 'ord': '2'}, {'rcept_no': '20180402005019', 'reprt_code': '11011', 'bsns_year': '2017', 'corp_code': '00126380', 'sj_div': 'BS', 'sj_nm': '재무상태

In [47]:
len(finance_list_1)

9000

In [None]:
### 본인의 인증키 입력
crtfc_key_1 = "ab851319407812ac10d593dcb2fef51d0c944b66"
crtfc_key_2 = "f494a3020128060351c817cabf5b1b4a851e0737"
crtfc_key_3 = "5a79f1c6d673e00b0614c74e542b390ddd0b3542" 
crtfc_key_4 = "614f7fe579f14daf0ecb6aa38652677ab0576191"
crtfc_key_5 = "d4857d7491b5c47d494584350731c06dc7b66882" 
crtfc_key_6 = "bb7d92cbd78b6b67d156bef779a02e74bce661c4"
crtfc_key_7 = "a30987f4b05d0371f9f3d84c898efc698bbbc1e2"
crtfc_key_8 = "012be8cea16c0d414c5273f7422280f3f9905adf"
crtfc_key_9 = "ba2c91d2cc13f79700da1e0ed1542d2a37f18068"
crtfc_key_10 = "02c190bf4a27db86defd39afd0c48183dbff1d2c"
crtfc_key_11 = "a263608b5e4e9040a9de7ad1f0ff62808b29503d"
crtfc_key_12 = "c42daf7eaba42a0ed786b61e59240c58caa1d5d6"

In [359]:
### 재무제표 검색 함수 만들기
def load_finance_data(corp_code):
    
    ### 재무제표 요청 url
    url = "https://opendart.fss.or.kr/api/fnlttSinglAcntAll.json?crtfc_key=" +crtfc_key_6+"&corp_code=" +corp_code + "&bsns_year=2019&reprt_code=11011&fs_div=OFS"    

    ### HTTP 요청
    r = requests.get(url)
     
    ### 요청한 데이터는 json형태이기 때문에 json으로 읽어줍니다.
    finance_data = r.json()

    ### 재무제표를 요청했을 때 재무제표에 대한 자료를 반환합니다.
    return finance_data

## 반복문을 통한 데이터 수집

In [277]:
### 데이터를 담아둘 list 생성
finance_list_18_1 = [] # 0 ~ 9,000 (ㅇ)
finance_list_18_2 = [] # 9,000 ~ 18,000 
finance_list_18_3 = []# 18,000 ~ 27,000
finance_list_18_4 = []# 27,000~ 36,000 
finance_list_18_5 = [] # 36,000 ~ 45,000
finance_list_18_6 = [] # 45,000 ~ 54,000 
finance_list_18_7 = []  # 54,000 ~ 63,000
finance_list_18_8 = [] # 63,000 ~ 72,000 
finance_list_18_9 = []# 72,000 ~ 80,939 
finance_list_18_10 = [] 
finance_list_18_11 = [] 

In [323]:
### 데이터를 담아둘 list 생성
finance_list_19_1 = [] # 0 ~ 9,000 (ㅇ)
finance_list_19_2 = [] # 9,000 ~ 18,000 
finance_list_19_3 = []# 18,000 ~ 27,000
finance_list_19_4 = []# 27,000~ 36,000 
finance_list_19_5 = [] # 36,000 ~ 45,000
finance_list_19_6 = [] # 45,000 ~ 54,000 
finance_list_19_7 = []  # 54,000 ~ 63,000
finance_list_19_8 = [] # 63,000 ~ 72,000 
finance_list_19_9 = []# 72,000 ~ 80,939 
finance_list_19_10 = [] 
finance_list_19_11 = [] 

In [360]:
### 반복문 실행
for corp_code in code_list[72000:]:
    company_dict = load_finance_data(corp_code)
    
    ### list 변경할것
    
    if(company_dict["status"] != "013") :
        finance_list_19_9.append(company_dict)


    # sleep으로 트래픽 휴식시간주기 
    time.sleep(0.1)

In [273]:
# 2017년 
total_finance_list = []

total_finance_list += finance_list_2 # 1개 
total_finance_list += finance_list_5 # 3개
total_finance_list += finance_list_6 # 608개
total_finance_list += finance_list_7 # 327개
total_finance_list += finance_list_9 # 373개
total_finance_list += finance_list_10 # 574개

In [275]:
total_finance_list_17 = total_finance_list

In [276]:
len(total_finance_list_17)

1886

In [321]:
# 2018년
total_finance_list_18 = []

total_finance_list_18 += finance_list_18_2 # 1개
total_finance_list_18 += finance_list_18_5 # 3개
total_finance_list_18 += finance_list_18_6 # 624개
total_finance_list_18 += finance_list_18_7 # 347개
total_finance_list_18 += finance_list_18_8 # 402개
total_finance_list_18 += finance_list_18_9 # 601개

In [322]:
len(total_finance_list_18)

1978

In [363]:
# 2019년
total_finance_list_19 = []

total_finance_list_19 += finance_list_19_2 # 1개
total_finance_list_19 += finance_list_19_5 # 4개
total_finance_list_19 += finance_list_19_6 # 639개
total_finance_list_19 += finance_list_19_7 # 371개
total_finance_list_19 += finance_list_19_8 # 424개
total_finance_list_19 += finance_list_19_9 # 622개

In [362]:
finance_list_19_9[621]

{'status': '000',
 'message': '정상',
 'list': [{'rcept_no': '20200330001092',
   'reprt_code': '11011',
   'bsns_year': '2019',
   'corp_code': '00360674',
   'sj_div': 'BS',
   'sj_nm': '재무상태표',
   'account_id': 'ifrs-full_CurrentAssets',
   'account_nm': '유동자산',
   'account_detail': '-',
   'thstrm_nm': '제 20 기',
   'thstrm_amount': '85351808471',
   'frmtrm_nm': '제 19 기',
   'frmtrm_amount': '58690302024',
   'bfefrmtrm_nm': '제 18 기',
   'bfefrmtrm_amount': '56235281227',
   'ord': '1'},
  {'rcept_no': '20200330001092',
   'reprt_code': '11011',
   'bsns_year': '2019',
   'corp_code': '00360674',
   'sj_div': 'BS',
   'sj_nm': '재무상태표',
   'account_id': 'ifrs-full_CashAndCashEquivalents',
   'account_nm': '현금및현금성자산',
   'account_detail': '-',
   'thstrm_nm': '제 20 기',
   'thstrm_amount': '18884696935',
   'frmtrm_nm': '제 19 기',
   'frmtrm_amount': '19741642179',
   'bfefrmtrm_nm': '제 18 기',
   'bfefrmtrm_amount': '24152782622',
   'ord': '2'},
  {'rcept_no': '20200330001092',
   'repr

In [364]:
# 3개년치 통합
total_finance_all = []

total_finance_all += total_finance_list
total_finance_all += total_finance_list_18
total_finance_all += total_finance_list_19

In [365]:
len(total_finance_all)

5925

In [252]:
# 조회되지 않은 기업 걸러내기
while(len(finance_list_7) > 327) :
#cnt = 0
    for company in finance_list_7 :
        if(company["status"] != '000'):
            finance_list_7.remove(company)
        #cnt += 1
#print(cnt)


True

## 모델링 구조에 맞게 데이터 가공하기

< 공통 >
corp_code, thstrm_nm(회차), 등록일 

< 포괄손익계산서 >
수익(매출액), 영업이익(손실), 당기순이익(손실)

< 재무상태표 >
유동자산,비유동자산, 자산총계, 유동부채, 비유동부채, 부채총계, 자본금, 이익잉여금(결손금), 자본총계

< 현금흐름표 >
영업활동현금흐름, 투자활동현금흐름, 재무활동현금흐름


In [94]:
company = finance_list_7[2]  # 리스트에 들어있는 회사 하나 추출 (dict)
companyFin = company['list'] # 세가지 key값중 재무제표 list 키 추출 
print(companyFin[0]) # list 키의 첫번째 dict 추출

{'rcept_no': '20180329000878', 'reprt_code': '11011', 'bsns_year': '2017', 'corp_code': '01196313', 'sj_div': 'BS', 'sj_nm': '재무상태표', 'account_id': 'ifrs_CurrentAssets', 'account_nm': '유동자산', 'account_detail': '-', 'thstrm_nm': '제 1 기', 'thstrm_amount': '5900991531', 'ord': '1'}


In [367]:
# DB에 손익계산서, 재무상태표, 현금 흐름표로 나뉘어져있으므로 각각의 리스트와 딕셔너리를 만든다.
cash_flow_list = []
fs_status_list = []
icm_stmt_list = []

cash_flow_dict = {}
fs_status_dict = {}
icm_stmt_dict = {}


### 손익계산서

In [368]:

for org_dict in total_finance_all:
    finc_list = org_dict["list"]
    # 각 딕셔너리마다 기업 코드, 회차, 등록일 key 추가 
    icm_stmt_dict["기업코드"] = (finc_list[0])["corp_code"]
    icm_stmt_dict["회차"] = (finc_list[0])["thstrm_nm"]
    icm_stmt_dict["등록일"] = ((finc_list[0])["rcept_no"])[0:8]
    for finc_dict in finc_list:
        if(finc_dict["sj_nm"] == '포괄손익계산서'):
            # 필요한 항목만 골라 넣는다. 
            if(finc_dict["account_nm"] == '수익(매출액)') or (finc_dict["account_nm"] == '영업이익(손실)') or (finc_dict["account_nm"] == '당기순이익(손실)'):  
                column = finc_dict["account_nm"]
                icm_stmt_dict[column] = finc_dict["thstrm_amount"]
    icm_stmt_list.append(icm_stmt_dict) # 한 회사의 손익계산서 딕셔너리 완성 후 리스트에 넣기 
    icm_stmt_dict = {} # 딕셔너리 초기화 

In [371]:
icm_stmt_data = pd.DataFrame(icm_stmt_list)

In [380]:
icm_stmt_data.head(10)

Unnamed: 0,기업코드,회차,등록일,수익(매출액),영업이익(손실),당기순이익(손실)
0,956028,제 16 기,20180420,24347218.0,120381.0,-1629679.0
1,1165739,제 3 기,20180430,,-3982045.0,-13864646.0
2,171636,제 53 기,20180402,,14952676720.0,-143685542254.0
3,147772,제 49 기,20180330,,,
4,273110,제 29 기,20180402,,-8455346598.0,-10797600612.0
5,159500,제 55 기,20180402,,,
6,105466,제 29 기,20180402,,,22483322690.0
7,347716,제 19 기,20180402,,283563642.0,622165934.0
8,112165,제 42 기,20180402,,,
9,103510,제 40 기,20180402,,,


In [388]:
icm_stmt_data.sort_values('기업코드')

Unnamed: 0,기업코드,회차,등록일,수익(매출액),영업이익(손실),당기순이익(손실)
58,00100601,제 43 기,20180402,83113028513,-5421114014,-6291307194
1944,00100601,제 44 기,20190401,85905365198,532248075,1977523940
3923,00100601,제 45 기,20200406,42549621578,-17150531429,-33460764640
2004,00100939,제 67 기,20190401,,-1028785211,
117,00100939,제 66 기,20181231,,,16654666449
...,...,...,...,...,...,...
4905,01391033,제 1 기,20200228,,-1694707813,-1671751947
4881,01395279,제 1 기,20200330,,-64574620,-43125389
5741,01412725,제 1 기,20200330,,,
5313,01412822,제 1 기,20200330,,,15330997672


In [383]:
icm_stmt_data.to_csv('손익계산서.csv', encoding='utf-8-sig')

### 현금흐름표

In [373]:

for org_dict in total_finance_all:
    finc_list = org_dict["list"]
    cash_flow_dict["기업코드"] = (finc_list[0])["corp_code"]
    cash_flow_dict["회차"] = (finc_list[0])["thstrm_nm"]
    cash_flow_dict["등록일"] = ((finc_list[0])["rcept_no"])[0:8]
    for finc_dict in finc_list:
        if(finc_dict["sj_nm"] == '현금흐름표'):
            if(finc_dict["account_nm"] == '영업활동현금흐름') or (finc_dict["account_nm"] == '투자활동현금흐름') or (finc_dict["account_nm"] == '재무활동현금흐름'):  
                column = finc_dict["account_nm"]
                cash_flow_dict[column] = finc_dict["thstrm_amount"]
    cash_flow_list.append(cash_flow_dict) # 한 회사의 손익계산서 딕셔너리 완성 후 리스트에 넣기 
    cash_flow_dict = {} # 딕셔너리 초기화 

In [375]:
cash_flow_data = pd.DataFrame(cash_flow_list)
cash_flow_data.head(10)

Unnamed: 0,기업코드,회차,등록일,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름
0,956028,제 16 기,20180420,1161698.0,-15785668.0,830508.0
1,1165739,제 3 기,20180430,-4598219.0,-13011920.0,5795985.0
2,171636,제 53 기,20180402,9117278973.0,17226706791.0,-20594094048.0
3,147772,제 49 기,20180330,,,
4,273110,제 29 기,20180402,-7277233468.0,-6512408018.0,-11193520.0
5,159500,제 55 기,20180402,-11091184217.0,-562731217.0,6905000000.0
6,105466,제 29 기,20180402,102568543327.0,60271820095.0,-50033249894.0
7,347716,제 19 기,20180402,172079738.0,-793571120.0,-3417278080.0
8,112165,제 42 기,20180402,37716905103.0,-94174826177.0,55604513647.0
9,103510,제 40 기,20180402,,,


In [389]:
cash_flow_data.sort_values('기업코드')

Unnamed: 0,기업코드,회차,등록일,영업활동현금흐름,투자활동현금흐름,재무활동현금흐름
58,00100601,제 43 기,20180402,-4605588268,484043205,4943754181
1944,00100601,제 44 기,20190401,-10047711148,-2019807782,17827827469
3923,00100601,제 45 기,20200406,7013797609,-14691821920,-8116984868
2004,00100939,제 67 기,20190401,,,
117,00100939,제 66 기,20181231,,,
...,...,...,...,...,...,...
4905,01391033,제 1 기,20200228,-1054550728,-88500000000,91715654000
4881,01395279,제 1 기,20200330,-62789181,-8000000000,9028840000
5741,01412725,제 1 기,20200330,121737503688,-22831955360,407440864
5313,01412822,제 1 기,20200330,,,


In [384]:
cash_flow_data.to_csv('현금흐름표.csv', encoding='utf-8-sig')

### 재무상태표

In [376]:


for org_dict in total_finance_all:
    finc_list = org_dict["list"]
    fs_status_dict["기업코드"] = (finc_list[0])["corp_code"]
    fs_status_dict["회차"] = (finc_list[0])["thstrm_nm"]
    fs_status_dict["등록일"] = ((finc_list[0])["rcept_no"])[0:8]
    for finc_dict in finc_list:
        if(finc_dict["sj_nm"] == '재무상태표'):
            if(finc_dict["account_nm"] == '유동자산') or (finc_dict["account_nm"] == '비유동자산') or (finc_dict["account_nm"] == '자산총계') or (finc_dict["account_nm"] == '유동부채') or (finc_dict["account_nm"] == '비유동부채') or (finc_dict["account_nm"] == '부채총계') or (finc_dict["account_nm"] == '자본금') or (finc_dict["account_nm"] == '이익잉여금(결손금)') or (finc_dict["account_nm"] == '자본총계'):
                column = finc_dict["account_nm"]
                fs_status_dict[column] = finc_dict["thstrm_amount"]
    fs_status_list.append(fs_status_dict) # 한 회사의 손익계산서 딕셔너리 완성 후 리스트에 넣기 
    fs_status_dict = {} # 딕셔너리 초기화 

In [379]:
fs_status_data = pd.DataFrame(fs_status_list)
fs_status_data.head(10)

Unnamed: 0,기업코드,회차,등록일,유동자산,비유동자산,자산총계,유동부채,비유동부채,부채총계,자본금,이익잉여금(결손금),자본총계
0,956028,제 16 기,20180420,23053799.0,55270950.0,78324749,15314213.0,11512077.0,26826290,1366450.0,17919915.0,51498459
1,1165739,제 3 기,20180430,39187249.0,27230058.0,66417307,11385513.0,0.0,11385513,4966967.0,-13005260.0,55031794
2,171636,제 53 기,20180402,8656683896.0,452754909587.0,461411593483,9105276838.0,22038461788.0,31143738626,231799355000.0,81399817430.0,430267854857
3,147772,제 49 기,20180330,,,62899736059,,,28140205074,,,34759530985
4,273110,제 29 기,20180402,11484849985.0,24192533734.0,35677383719,2063068823.0,5250465188.0,7313534011,13303870000.0,-10775638709.0,28363849708
5,159500,제 55 기,20180402,93977947500.0,136820743192.0,230798690692,76077411069.0,40337889907.0,116415300976,5475000000.0,,114383389716
6,105466,제 29 기,20180402,682207183358.0,259475957580.0,941683140938,434557205516.0,168853599677.0,603410805193,107000000000.0,,338272335745
7,347716,제 19 기,20180402,13130043454.0,11248989425.0,24379032879,9500585037.0,1409592117.0,10910177154,10493313500.0,-4623660041.0,13468855725
8,112165,제 42 기,20180402,189557406829.0,349216102055.0,538773508884,294703583409.0,97564190543.0,392267773952,11233705000.0,70911252555.0,146505734932
9,103510,제 40 기,20180402,114185760792.0,196632294458.0,310818055250,138650202421.0,24074894232.0,162725096653,7580064000.0,,148092958597


In [141]:
len(finance_list_7)

327

In [385]:
fs_status_data.to_csv('재무상태표.csv', encoding='utf-8-sig')

In [387]:
fs_status_data.sort_values('기업코드').head(20)

Unnamed: 0,기업코드,회차,등록일,유동자산,비유동자산,자산총계,유동부채,비유동부채,부채총계,자본금,이익잉여금(결손금),자본총계
58,100601,제 43 기,20180402,66557787965,21223628476,87781416441,36681992542,3982403996,40664396538,7626515000.0,23551833834.0,47117019903
1944,100601,제 44 기,20190401,70097813693,19521936702,89619750395,40299771673,33624445,40333396118,7683448000.0,26310724594.0,49286354277
3923,100601,제 45 기,20200406,30346448966,24759582846,55106031812,27565064738,4636933544,32201998282,8721837000.0,-7611775894.0,22904033530
2004,100939,제 67 기,20190401,143360831465,258091231946,401452063411,48445522755,9701443840,58146966595,,,343305096816
117,100939,제 66 기,20181231,194534019874,212098304072,406632323946,55319514631,8855556418,64175071049,,,342457252897
3983,100939,제 68 기,20200330,129428124035,267164931544,396593055579,47662141406,9987893012,57650034418,,,338943021161
253,101044,제 59 기,20180911,63258757054,98164837818,161423594872,31534275686,45301743760,76836019446,42314464000.0,-19814399224.0,84587575426
4123,101044,제 61 기,20200327,157807887088,126620076361,284427963449,33842453248,3656633241,37499086489,120829164000.0,-40835558690.0,246928876960
2143,101044,제 60 기,20190626,82559424648,128678072487,211237497135,60079502045,3019504196,63099006241,53941097000.0,-34660849002.0,148138490894
744,101220,제 64 기,20180402,83344061903,226633768676,309977830579,110708137833,9087534736,119795672569,64175290000.0,106342753131.0,190182158010


# --------------------------------------------------------

# 기업 개황 데이터 불러와 정제

In [1]:
import pandas as pd

In [6]:
corpData = pd.read_excel('/Users/linakim/Desktop/최종프로젝트/기업개황.xlsx', '정제후')

In [7]:
corpData.head(3)

Unnamed: 0.1,Unnamed: 0,corp_code,corp_name,corp_name_eng,ceo_nm,corp_cls,jurir_no,bizr_no,adres,hm_url,ir_url,phn_no,fax_no,induty_code,est_dt
0,0,434003,(주)다코,Daco corporation,김상규,E,1615110021778,3128134722,충청남도 천안시 청당동 419-12,없음,,041-565-1800,041-563-6808,25931,19970611.0
1,1,434456,일산약품(주),"ILSAN PHARMACEUTICAL CO.,LTD.",이광선,E,1412110004641,2248105027,강원도 원주시 원동 303,,,033-763-7535,033-763-6433,21101,19910615.0
2,2,430964,굿앤엘에스주식회사,"Good & LS Co.,Ltd.",정진형,E,1101112672875,1048177488,서울특별시 중구 태평로2가 120,,,02-6263-8185,,64999,20021213.0
