In [1]:
# 標準ライブラリ
from functools import lru_cache
from pprint import pprint
import re
from xml.etree import ElementTree
# pip install requests
import requests

In [2]:
@lru_cache
def get_law_dict(category=1):
    # APIから各法令種別に含まれる法令リストを取得
    url = f"https://elaws.e-gov.go.jp/api/1/lawlists/{category}"
    r = requests.get(url)
    # XMLデータの解析
    root = ElementTree.fromstring(r.content.decode(encoding="utf-8"))
    # 辞書{名称: 法令番号}の作成
    names = [e.text for e in root.iter() if e.tag == "LawName"]
    numbers = [e.text for e in root.iter() if e.tag == "LawNo"]
    return {name: num for (name, num) in zip(names, numbers)}


In [3]:
def get_law_number(keyword, category=1):
    """
    Return the law number.
    This will be retrieved from e-Gov (https://www.e-gov.go.jp/)

    Args:
        keyword (str): keyword of the law name
        category (int): category number, like 1 (all), 2 (法令), 3 (政令), 4 (省令)

    Returns:
        dict(str, str): dictionary of law name (key) and law number (value)
    """
    law_dict = get_law_dict(category=category)
    return {k: v for (k, v) in law_dict.items() if keyword in k}


In [14]:
pprint(get_law_number("個人情報", category=1))

{'人事院規則二―一五（人事院の職員に対する個人情報の取扱いに係る権限又は事務の委任）': '令和四年人事院規則二―一五',
 '会計検査院の保有する個人情報の保護に関する権限又は事務の委任に関する規則': '平成十七年会計検査院規則第五号',
 '会計検査院情報公開・個人情報保護審査会規則': '平成十三年会計検査院規則第三号',
 '個人情報の保護に関する法律': '平成十五年法律第五十七号',
 '個人情報の保護に関する法律及び行政手続における特定の個人を識別するための番号の利用等に関する法律の一部を改正する法律の施行に伴う関係政令の整備及び経過措置に関する政令': '平成二十八年政令第三百二十四号',
 '個人情報の保護に関する法律及び行政手続における特定の個人を識別するための番号の利用等に関する法律の各規定に基づく立入検査をする職員の携帯する身分を示す証明書の様式を定める規則': '平成二十七年特定個人情報保護委員会規則第二号',
 '個人情報の保護に関する法律施行令': '平成十五年政令第五百七号',
 '個人情報の保護に関する法律施行令第二十六条第三項第一号及び第二十九条第三項第一号に掲げる行政機関等が保有する保有個人情報に係る開示請求及び行政機関等匿名加工情報の利用の手続に関する省令': '平成二十五年経済産業省令第十四号',
 '個人情報の保護に関する法律施行規則': '平成二十八年個人情報保護委員会規則第三号',
 '個人情報保護委員会の所管する法令に係る情報通信技術を活用した行政の推進等に関する法律施行規則': '平成二十六年特定個人情報保護委員会規則第二号',
 '個人情報保護委員会事務局組織令': '平成二十七年政令第四百三十四号',
 '個人情報保護委員会事務局組織規則': '平成二十七年内閣府令第七十五号',
 '国家公安委員会個人情報管理規則': '平成十七年国家公安委員会規則第五号',
 '情報公開・個人情報保護審査会事務局組織規則': '平成十七年内閣府令第二十七号',
 '情報公開・個人情報保護審査会設置法': '平成十五年法律第六十号',
 '情報公開・個人情報保護審査会設置法施行令': '平成十五年政令第五百五十号',
 '特定個人情報の取扱いの状況に係る地方公共団体等による定期的な報告に関する規則': '平成二十八年個人情

In [15]:
@lru_cache
def get_raw(number):
    """
    Retrieve contents of the law specified with law number from e-Gov API.

    Args:
        number (str): Number of the law, like '平成九年厚生省令第二十八号'

    Returns:
        raw (list[str]): raw contents of J-GCP
    """
    url = f"https://elaws.e-gov.go.jp/api/1/lawdata/{number}"
    r = requests.get(url)
    root = ElementTree.fromstring(r.content.decode(encoding="utf-8"))
    contents = [e.text.strip() for e in root.iter() if e.text]
    return [t for t in contents if t]


In [16]:
gcp_raw = get_raw("平成九年厚生省令第二十八号")
pprint(gcp_raw, compact=False)

['0',
 '平成九年厚生省令第二十八号',
 '平成九年厚生省令第二十八号',
 '医薬品の臨床試験の実施の基準に関する省令',
 '薬事法（昭和三十五年法律第百四十五号）第十四条第三項（同条第六項、同法第十九条の二第四項及び第二十三条において準用する場合を含む。）、第十四条の四第四項並びに第十四条の五第四項（これらの規定を同法第十九条の四及び第二十三条において準用する場合を含む。）、第八十条の二第一項、第四項及び第五項並びに第八十二条の規定に基づき、医薬品の臨床試験の実施の基準に関する省令を次のように定める。',
 '目次',
 '第一章\u3000総則',
 '（第一条―第三条）',
 '第二章\u3000治験の準備に関する基準',
 '第一節\u3000治験の依頼をしようとする者による治験の準備に関する基準',
 '（第四条―第十五条）',
 '第二節\u3000自ら治験を実施しようとする者による治験の準備に関する基準',
 '（第十五条の二―第十五条の九）',
 '第三章\u3000治験の管理に関する基準',
 '第一節\u3000治験依頼者による治験の管理に関する基準',
 '（第十六条―第二十六条）',
 '第二節\u3000自ら治験を実施する者による治験の管理に関する基準',
 '（第二十六条の二―第二十六条の十二）',
 '第四章\u3000治験を行う基準',
 '（第二十七条―第五十五条）',
 '第一節\u3000治験審査委員会',
 '（第二十七条―第三十四条）',
 '第二節\u3000実施医療機関',
 '（第三十五条―第四十一条）',
 '第三節\u3000治験責任医師',
 '（第四十二条―第四十九条）',
 '第四節\u3000被験者の同意',
 '（第五十条―第五十五条）',
 '第五章\u3000再審査等の資料の基準',
 '（第五十六条）',
 '第六章\u3000治験の依頼等の基準',
 '（第五十七条―第五十九条）',
 '附則',
 '第一章\u3000総則',
 '（趣旨）',
 '第一条',
 'この省令は、被験者の人権の保護、安全の保持及び福祉の向上を図り、治験の科学的な質及び成績の信頼性を確保するため、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律（昭和三十五年法律第百四十五号。以下「法」という

In [18]:
def preprocess_gcp(raw):
    """
    Perform pre-processing on raw contents of J-GCP.

    Args:
        raw (list[str]): raw contents of J-GCP

    Returns:
        str: pre-processed string of J-GCP

    Notes:
        - Article 56 will be removed.
        - Strings enclosed with （ and ） will be removed.
        - 「 and 」 will be removed.
    """
    # contents = raw[:]
    # Remove article 56
    contents = raw[: raw.index("第五十六条")]
    # Select sentenses
    contents = [s for s in contents if s.endswith("。")]
    # Join the sentenses
    gcp = "".join(contents)
    # 「 and 」 will be removed
    gcp = gcp.translate(str.maketrans({"「": "", "」": ""}))
    # Strings enclosed with （ and ） will be removed
    return re.sub("（[^（|^）]*）", "", gcp)

In [19]:
gcp = preprocess_gcp(gcp_raw)
print(gcp)

薬事法第十四条第三項、第十四条の四第四項並びに第十四条の五第四項、第八十条の二第一項、第四項及び第五項並びに第八十二条の規定に基づき、医薬品の臨床試験の実施の基準に関する省令を次のように定める。この省令は、被験者の人権の保護、安全の保持及び福祉の向上を図り、治験の科学的な質及び成績の信頼性を確保するため、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律第十四条第三項及び第十二項（同条第十五項及び法第十九条の二第五項において準用する場合並びに法第十四条の二の二第五項において読み替えて適用する場合を含む。以下同じ。）並びに法第十四条の四第五項及び第十四条の六第四項の厚生労働省令で定める基準のうち医薬品の臨床試験の実施に係るもの並びに法第八十条の二第一項、第四項及び第五項に規定する厚生労働省令で定める基準を定めるものとする。この省令において製造販売後臨床試験とは、医薬品の製造販売後の調査及び試験の実施の基準に関する省令第二条第一項第三号に規定する製造販売後臨床試験をいう。この省令において実施医療機関とは、治験又は製造販売後臨床試験を行う医療機関をいう。この省令において治験責任医師とは、実施医療機関において治験に係る業務を統括する医師又は歯科医師をいう。この省令において製造販売後臨床試験責任医師とは、実施医療機関において製造販売後臨床試験に係る業務を統括する医師又は歯科医師をいう。この省令において被験薬とは、治験の対象とされる薬物又は製造販売後臨床試験の対象とされる医薬品をいう。この省令において対照薬とは、治験又は製造販売後臨床試験において被験薬と比較する目的で用いられる薬物をいう。この省令において治験薬とは、被験薬及び対照薬をいう。この省令において製造販売後臨床試験薬とは、被験薬及び対照薬をいう。この省令において治験使用薬とは、被験薬並びに被験薬の有効性及び安全性の評価のために使用する薬物をいう。この省令において治験使用薬等とは、治験使用薬又は治験使用薬と成分が同一性を有すると認められる薬物をいう。この省令において製造販売後臨床試験使用薬とは、被験薬並びに被験薬の有効性及び安全性の評価のために使用する薬物をいう。この省令において製造販売後臨床試験使用薬等とは、製造販売後臨床試験使用薬又は製造販売後臨床試験使用薬と成分が同一性を有すると認められる薬物をいう。こ

In [None]:
class LawLoader(object):
    """
    Prepare law data with e-Gov (https://www.e-gov.go.jp/) site.

    Args:
        category (int): category number, like 1 (all), 2 (法令), 3 (政令), 4 (省令)

    Ref:
        - https://qiita.com/Lisphilar/items/39ad23ac7ade21313911
    """

    def __init__(self, category=1):
        self.law_dict = self._get_law_dict(category=category)
        self.content_dict = {}

    @staticmethod
    def _get_xml(url):
        """
        Get XML data from e-Gov API.

        Args:
            url (str): key of the API

        Returns:
            xml.ElementTree: element tree of the XML data
        """
        r = requests.get(url)
        return ElementTree.fromstring(r.content.decode(encoding="utf-8"))

    def _get_law_dict(self, category):
        """
        Return dictionary of law names and numbers.

        Args:
            category (int): category number, like 1 (all), 2 (法令), 3 (政令), 4 (省令)

        Returns:
            dict(str, str): dictionary of law names (keys) and numbers (values)
        """
        url = f"https://elaws.e-gov.go.jp/api/1/lawlists/{category}"
        root = self._get_xml(url)
        names = [e.text for e in root.iter() if e.tag == "LawName"]
        numbers = [e.text for e in root.iter() if e.tag == "LawNo"]
        return {name: num for (name, num) in zip(names, numbers)}

    def get_law_number(self, keyword, category=1):
        """
        Return the law number.
        This will be retrieved from e-Gov (https://www.e-gov.go.jp/)

        Args:
            keyword (str): keyword of the law name
            category (int): category number, like 1 (all), 2 (法令), 3 (政令), 4 (省令)

        Returns:
            dict(str, str): dictionary of law name (key) and law number (value)
        """
        return {k: v for (k, v) in self.law_dict.items() if keyword in k}

    def get_raw(self, number):
        """
        Args:
            number (str): Number of the law, like '平成九年厚生省令第二十八号'

        Returns:
            raw (list[str]): raw contents of J-GCP
        """
        if number in self.content_dict:
            return self.content_dict[number]
        url = f"https://elaws.e-gov.go.jp/api/1/lawdata/{number}"
        root = self._get_xml(url)
        contents = [e.text.strip() for e in root.iter() if e.text]
        raw = [t for t in contents if t]
        self.content_dict = {number: raw}
        return raw

    @staticmethod
    def pre_process(raw):
        """
        Perform pre-processing on raw contents.

        Args:
            raw (list[str]): raw contents

        Returns:
            str: pre-processed string

        Notes:
            - Strings enclosed with （ and ） will be removed.
            - 「 and 」 will be removed.
        """
        contents = [s for s in raw if s.endswith("。")]
        string = "".join(contents)
        string = string.translate(str.maketrans({"「": "", "」": ""}))
        return re.sub("（[^（|^）]*）", "", string)

    def gcp(self):
        """
        Perform pre-processing on raw contents of J-GCP.

        Args:
            raw (list[str]): raw contents of J-GCP

        Returns:
            str: pre-processed string of J-GCP

        Notes:
            - Article 56 will be removed.
            - Strings enclosed with （ and ） will be removed.
            - 「 and 」 will be removed.
        """
        number_dict = self.get_law_number("医薬品の臨床試験")
        number = number_dict["医薬品の臨床試験の実施の基準に関する省令"]
        raw = self.get_raw(number)
        raw_without56 = raw[: raw.index("第五十六条")]
        return self.pre_process(raw_without56)


In [21]:
# The Constitution of Japan
loader2 = LawLoader(category=2)
consti_number = loader2.get_law_number("日本国憲法")
print(consti_number)  # -> '昭和二十一年憲法'
consti_raw = loader2.get_raw("昭和二十一年憲法")
consti = loader2.pre_process(consti_raw)
# J-GCP：データ整形を含めてメソッドとして登録済
loader4 = LawLoader(category=4)
gcp = loader4.gcp()


{'日本国憲法': '昭和二十一年憲法', '昭和二十二年法律第七十二号（日本国憲法施行の際現に効力を有する命令の規定の効力等に関する法律）': '昭和二十二年法律第七十二号', '日本国憲法の改正手続に関する法律': '平成十九年法律第五十一号'}


In [24]:
loader = LawLoader()
law_number = loader.get_law_number("個人情報")
print(law_number)
law_raw = loader.get_raw("平成十五年法律第五十七号")
law = loader.pre_process(law_raw)
# print(law)
# Output Law to a file
with open("output/law.txt", "w") as f:
    f.write(law)

{'個人情報の保護に関する法律': '平成十五年法律第五十七号', '情報公開・個人情報保護審査会設置法': '平成十五年法律第六十号', '個人情報の保護に関する法律施行令': '平成十五年政令第五百七号', '情報公開・個人情報保護審査会設置法施行令': '平成十五年政令第五百五十号', '個人情報保護委員会事務局組織令': '平成二十七年政令第四百三十四号', '個人情報の保護に関する法律及び行政手続における特定の個人を識別するための番号の利用等に関する法律の一部を改正する法律の施行に伴う関係政令の整備及び経過措置に関する政令': '平成二十八年政令第三百二十四号', '情報公開・個人情報保護審査会事務局組織規則': '平成十七年内閣府令第二十七号', '個人情報の保護に関する法律施行令第二十六条第三項第一号及び第二十九条第三項第一号に掲げる行政機関等が保有する保有個人情報に係る開示請求及び行政機関等匿名加工情報の利用の手続に関する省令': '平成二十五年経済産業省令第十四号', '行政手続における特定の個人を識別するための番号の利用等に関する法律に規定する個人番号、個人番号カード、特定個人情報の提供等に関する命令': '平成二十六年総務省令第八十五号', '個人情報保護委員会事務局組織規則': '平成二十七年内閣府令第七十五号', '行政手続における特定の個人を識別するための番号の利用等に関する法律第十九条第八号に基づく利用特定個人情報の提供に関する命令': '令和六年デジタル庁・総務省令第九号', '会計検査院情報公開・個人情報保護審査会規則': '平成十三年会計検査院規則第三号', '国家公安委員会個人情報管理規則': '平成十七年国家公安委員会規則第五号', '会計検査院の保有する個人情報の保護に関する権限又は事務の委任に関する規則': '平成十七年会計検査院規則第五号', '特定個人情報保護評価に関する規則': '平成二十六年特定個人情報保護委員会規則第一号', '個人情報保護委員会の所管する法令に係る情報通信技術を活用した行政の推進等に関する法律施行規則': '平成二十六年特定個人情報保護委員会規則第二号', '行政手続における特定の個人を識別するための番号の利用等に関する法律第十九条第十七号に基づき同条第十五号に準ずるものとして定める特定個人情報