TSV dataset of illegal companies from Ministry of Health, Labour and Welfare, Japan
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
history add 2018-Sep files Oct 4, 2018
180928.pdf
README.md update readme Aug 16, 2017
company_list_20170901_to_20180831.tsv

README.md

これは何?

日本 厚生労働省が毎月公開しているブラック企業の一覧を、TSVファイルにしたものです。

このTSVデータのライセンス

CC0 1.0

ファイルの解説とディレクトリ構造

company_list_yyyymmdd_to_yyyymmdd.tsv:

  • TOPに配置されているTSVファイルが、現在作業が完了している最新版です。
  • yyyymmddは、オリジナルのPDF内に示されている、公開対象になっている期間を代入しています。
  • テキストはタブ区切りのTSVファイルになっています。違反法条のカラム内は複数の情報が含まれており、カンマで区切られています。

170510-01.pdf:

  • オリジナルのPDFファイルです。同じディレクトリ内に配置されているTSVはこのファイルから作成されています。

00n-yyyymmdd_to_yyyymmddディレクトリ:

  • 過去分のTSVおよびその時点のオリジナルとなったPDFファイルを格納しています。

どうやって作っているの?

PDFからコピペしたテキストを、改行1つ1つ、丹精を込めて手作りで整形していま----した。

現在は @frogcat氏の作成したスクリプトにより、PDFから半自動化して情報を抜き出しています。Thank you!

作成手順

  1. オリジナルのPDFをWord2016で開き、htmlで保存する
  2. 保存したhtmlをgistにアップロード
  3. frogcat氏の変換用gistスクリプトをForkし、index.html内に含まれる対象gistのURLを、適切なgist(のRAWのURL)に変更
  4. bl.ocks.org経由で、変換用gistのアドレスを表示させる
  5. できあがったCSVに含まれる改行などを適度に処理する

リクエストなどなど

Issueまでお寄せください

利活用事例

出典表記

労働基準関係法令違反に係る公表事案(厚生労働省) (http://www.mhlw.go.jp/kinkyu/dl/170510-01.pdf) を加工して作成