scraping

環境ファイルの設定

.env
DIRCTORY_PATH = #apiでダウンロードした情報格納ディレクトリpath
DIRCTORY_ZIP_PATH = zip解凍先path
#FORMAT:YYYY-MM-DD
START_DATE = '2021-05-01'
END_DATE = '2022-05-01'

必要ライブラリインストール

python -m venv venv
source venv/bin/activate
pip install -r requiremnt.txt

実行ファイル

create_db.py #sqlite テーブル作成
docid_download_from_edinet.py #edinetからzipダウンロード
zip2xbrl.py　#zipを解凍
shareholderComposition.py #【所有者別状況】の表の情報をDBに登録
shareholderComposition_2.py #【所有者別状況】の表の情報をDBに登録取得できなかったできなかった約100社を追加取得

sqlite操作　csvに書き出しなど

sqlite3 EDINET.db #dbにアクセス

.headers on
.mode csv
.once　export.csv

select company.company_name,
company_composition.docID, 
company_composition.Government_and_local_governments, 
company_composition.financial_institution, 
company_composition.Financia_Instruments_Business_Operator, 
company_composition.Other_legal_entities, 
company_composition.Non_individual, 
company_composition.individual, 
company_composition.Individual_Other, 
company_composition.total
from company
left outer join company_composition on company.docID = company_composition.docID
order by total desc;

課題

shareholderComposition.py を実行しても取得したいデータの1割は欠損が生じる
edinetに公開しているファイルのうちformatに従っていない会社がある
テーブルに年度を保存するcolumnを追加かつpkにも追加した方が良い

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
old		old
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
ediNetApiCsv.py		ediNetApiCsv.py
html2sql.py		html2sql.py
requiremnt.txt		requiremnt.txt
shareholderComposition.py		shareholderComposition.py
zip2xbrl.py		zip2xbrl.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

scraping

環境ファイルの設定

必要ライブラリインストール

実行ファイル

sqlite操作　csvに書き出しなど

課題

About

Releases

Packages

Languages

shiki0428/scraping

Folders and files

Latest commit

History

Repository files navigation

scraping

環境ファイルの設定

必要ライブラリインストール

実行ファイル

sqlite操作 csvに書き出しなど

課題

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

sqlite操作　csvに書き出しなど

Packages