<a href="https://colab.research.google.com/github/BlackJack2021/Zenn_EdinetAPI/blob/main/Zenn_EdinetAPI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [10]:
import requests

END_POINT = 'https://disclosure.edinet-fsa.go.jp/api/v1'
submission_info_endpoint = f'{END_POINT}/documents.json'
submission_request_parameters = {
    'date': '2022-01-18',
    'type': 2
}
submission_info_response = requests.get(
    submission_info_endpoint, submission_request_parameters
)
submission_info_json = submission_info_response.json()

In [11]:
import pandas as pd

raw_submission_info_df = pd.DataFrame(submission_info_json['results'])
raw_submission_info_df.columns

Index(['seqNumber', 'docID', 'edinetCode', 'secCode', 'JCN', 'filerName',
       'fundCode', 'ordinanceCode', 'formCode', 'docTypeCode', 'periodStart',
       'periodEnd', 'submitDateTime', 'docDescription', 'issuerEdinetCode',
       'subjectEdinetCode', 'subsidiaryEdinetCode', 'currentReportReason',
       'parentDocID', 'opeDateTime', 'withdrawalStatus', 'docInfoEditStatus',
       'disclosureStatus', 'xbrlFlag', 'pdfFlag', 'attachDocFlag',
       'englishDocFlag', 'csvFlag', 'legalStatus'],
      dtype='object')

In [12]:
# 重要なカラムに絞る
submission_info_df = raw_submission_info_df[['docID', 'edinetCode', 'secCode', 'filerName', 'docDescription']]
submission_info_df.head()

Unnamed: 0,docID,edinetCode,secCode,filerName,docDescription
0,S100N8K1,E27669,,ザ・ホンコン・アンド・シャンハイ・バンキング・コーポレイション・リミテッド,発行登録追補書類
1,S100N5TR,E11518,,三菱ＵＦＪ国際投信株式会社,半期報告書（内国投資信託受益証券）－第39期(令和3年4月20日－令和4年4月18日)
2,S100MXAV,E12444,,三井住友トラスト・アセットマネジメント株式会社,有価証券報告書（内国投資信託受益証券）－第8期(令和2年10月17日－令和3年10月18日)
3,S100N8O7,E26446,60610.0,株式会社ユニバーサル園芸社,臨時報告書
4,S100MQ7D,E13591,,新生インベストメント・マネジメント株式会社,有価証券報告書（内国投資信託受益証券）－第8期(令和3年4月17日－令和3年10月18日)


In [13]:
# 有価証券報告書の情報を抽出する。
securities_report_infos = []
for i, row in submission_info_df.iterrows():
    doc_desc = row['docDescription']
    
    if doc_desc is None:
        continue
    
    if ('有価証券報告書' in doc_desc) and ('受益証券' not in doc_desc):
        row_to_dataframe = pd.DataFrame([row])
        securities_report_infos.append(row_to_dataframe)

if len(securities_report_infos) == 0:
    print('有価証券報告書の提出情報がありません。')
else:
    print(f'{len(securities_report_infos)} 件の有価証券報告書が抽出されました。')
    securities_report_info_df = pd.concat(securities_report_infos)

4 件の有価証券報告書が抽出されました。


In [14]:
securities_report_info_df

Unnamed: 0,docID,edinetCode,secCode,filerName,docDescription
111,S100N8SX,E33390,39940,株式会社マネーフォワード,訂正有価証券報告書－第8期(平成30年12月1日－令和1年11月30日)
115,S100N8ST,E33390,39940,株式会社マネーフォワード,訂正有価証券報告書－第9期(令和1年12月1日－令和2年11月30日)
121,S100N8OL,E00471,29010,石垣食品株式会社,訂正有価証券報告書－第63期(平成31年4月1日－令和2年3月31日)
158,S100N8L9,E31019,39000,株式会社クラウドワークス,訂正有価証券報告書－第10期(令和2年10月1日－令和3年9月30日)


In [15]:
# 今回はマネーフォーワードの第9期決算情報を対象とする。
docID = 'S100N8ST'
document_endpoint = f'{END_POINT}/documents/{docID}'
document_request_parameters = {
    'type': 1
}
document_response = requests.get(document_endpoint, document_request_parameters)

In [16]:
# まず、帰ってきたデータを zip 形式で保存する。
zip_file_full_path = f'/content/{docID}.zip'
with open(zip_file_full_path, 'wb') as f:
    for chunk in document_response.iter_content(chunk_size=1024):
        f.write(chunk)

In [17]:
# zip ファイルを解凍する
import zipfile
import os
os.makedirs(f'/content/{docID}', exist_ok=True)
with zipfile.ZipFile(zip_file_full_path) as zip_f:
    zip_f.extractall(f'/content/{docID}')

In [18]:
# xbrl ファイルを発見する
from glob import glob
# PublicDoc 内に格納されている xbrl ファイルが分析対象となるファイルである。
xbrl_expression = f'/content/{docID}/**/PublicDoc/**/*.xbrl'
xbrl_paths = glob(xbrl_expression, recursive=True)
xbrl_paths

['/content/S100N8ST/XBRL/PublicDoc/jpcrp030000-asr-001_E33390-000_2020-11-30_02_2022-01-18.xbrl']

In [19]:
!pip install edinet_xbrl

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting edinet_xbrl
  Downloading edinet_xbrl-0.2.0.tar.gz (9.8 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting python-xbrl
  Downloading python-xbrl-1.1.1.tar.gz (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pep8
  Downloading pep8-1.7.1-py2.py3-none-any.whl (41 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.5/41.5 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting marshmallow
  Downloading marshmallow-3.19.0-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1/49.1 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
Collecting ordereddict
  Downloading ordereddict-1.1.tar.gz (2.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: edinet_xbrl, python-xbrl, ordereddict
  Building wheel for edinet_xbrl (setup.py) ... [?25l[?

In [21]:
from edinet_xbrl.edinet_xbrl_parser import EdinetXbrlParser
parser = EdinetXbrlParser()
# Step2で特定した XBRL ファイルのパスを選択
xbrl_path = xbrl_paths[0]
parsed_xbrl = parser.parse_file(xbrl_path)

In [22]:
# この決算情報がいつのものか確かめる。
key = "jpdei_cor:CurrentFiscalYearEndDateDEI"
context_ref = "FilingDateInstant"
report_end_date_info = parsed_xbrl.get_data_by_context_ref(key, context_ref)
report_end_date = report_end_date_info.get_value()
report_end_date

'2020-11-30'

In [None]:
# 「事業の内容」という事業の概要について記述された情報を取得する。
key = "jpcrp_cor:DescriptionOfBusinessTextBlock"
context_ref = "FilingDateInstant"
summary_of_business_info = parsed_xbrl.get_data_by_context_ref(key, context_ref)
summary_of_business = summary_of_business_info.get_value()

In [None]:
# 結果の出力
from IPython.display import HTML
HTML(summary_of_business)

In [None]:
# 売上情報の取得
key = 'jpcrp_cor:NetSalesSummaryOfBusinessResults'
context_ref = 'CurrentYearDuration'
extracted_data = parsed_xbrl.get_data_by_context_ref(key, context_ref)
net_sales = extracted_data.get_value()
net_sales

'11318217000'

In [None]:
# 有価証券報告書には基本5年分の情報があるため、5年分の情報をとってくる。
from typing import Dict, List
from datetime import datetime
from dateutil.relativedelta import relativedelta

durations = [
    'CurrentYearDuration',
    'Prior1YearDuration',
    'Prior2YearDuration',
    'Prior3YearDuration',
    'Prior4YearDuration'
]

def translate_period(report_end_date: str, duration: str) -> str:
    '''duration を対応する日付情報に変換'''
    report_end_date_datetime = datetime.strptime(report_end_date, '%Y-%m-%d')
    if duration == 'CurrentYearDuration':
        return report_end_date_datetime.strftime("%Y-%m-%d")
    else:
        n_year = int(duration[5])
        n_year_previous_date = report_end_date_datetime - relativedelta(years=n_year)
        return n_year_previous_date.strftime("%Y-%m-%d")

def get_all_periods_value(
    xbrl: EdinetXbrlParser,
    report_end_date: str,
    key: str, 
    context_refs: List[str]
) -> Dict[str, str]:
    '''キーで指定した項目の各期間の情報を一括取得'''
    results: Dict[str, str] = {}
    for context_ref in context_refs:
        extracted_data = xbrl.get_data_by_context_ref(key, context_ref)
        _date = translate_period(report_end_date, context_ref)
        results[_date] = extracted_data.get_value()
    return results

In [None]:
# 直近5年分の売上をまとめて取得する
net_sales = get_all_periods_value(
    xbrl=parsed_xbrl,
    key='jpcrp_cor:NetSalesSummaryOfBusinessResults',
    report_end_date=report_end_date,
    context_refs=durations
)
net_sales

{'2020-11-30': '11318217000',
 '2019-11-30': '7156784000',
 '2018-11-30': '4594789000',
 '2017-11-30': '2899548000',
 '2016-11-30': None}

In [None]:
# 直近5年分の利益をまとめて取得する
net_profits = get_all_periods_value(
    xbrl=parsed_xbrl,
    key='jpcrp_cor:ProfitLossAttributableToOwnersOfParentSummaryOfBusinessResults',
    report_end_date=report_end_date,
    context_refs=durations
)
net_profits

{'2020-11-30': '-2423282000',
 '2019-11-30': '-2572050000',
 '2018-11-30': '-815445000',
 '2017-11-30': '-842814000',
 '2016-11-30': None}