Skip to content
master
Go to file
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 

README.md

これは何?

日本 厚生労働省が毎月公開しているブラック企業の一覧を、TSVファイルにしたものです。

このTSVデータのライセンス

CC0 1.0

ファイルの解説とディレクトリ構造

company_list_yyyymmdd_to_yyyymmdd.tsv:

  • TOPに配置されているTSVファイルが、現在作業が完了している最新版です。
  • yyyymmddは、オリジナルのPDF内に示されている、公開対象になっている期間を代入しています。
  • テキストはタブ区切りのTSVファイルになっています。違反法条のカラム内は複数の情報が含まれており、カンマで区切られています。

170510-01.pdf:

  • オリジナルのPDFファイルです。同じディレクトリ内に配置されているTSVはこのファイルから作成されています。

00n-yyyymmdd_to_yyyymmddディレクトリ:

  • 過去分のTSVおよびその時点のオリジナルとなったPDFファイルを格納しています。

どうやって作っているの?

PDFからコピペしたテキストを、改行1つ1つ、丹精を込めて手作りで整形していま----した。

現在は @frogcat氏の作成したスクリプトにより、PDFから半自動化して情報を抜き出しています。Thank you!

作成手順

  1. オリジナルのPDFをWord2016で開き、htmlで保存する
  2. 保存したhtmlをgistにアップロード
  3. frogcat氏の変換用gistスクリプトをForkし、index.html内に含まれる対象gistのURLを、適切なgist(のRAWのURL)に変更
  4. bl.ocks.org経由で、変換用gistのアドレスを表示させる
  5. できあがったCSVに含まれる改行などを適度に処理する

リクエストなどなど

Issueまでお寄せください

利活用事例

出典表記

労働基準関係法令違反に係る公表事案(厚生労働省) (http://www.mhlw.go.jp/kinkyu/dl/170510-01.pdf) を加工して作成

About

TSV dataset of illegal companies from Ministry of Health, Labour and Welfare, Japan

Resources

Releases

No releases published

Packages

No packages published
You can’t perform that action at this time.