<a href="https://colab.research.google.com/github/Takumi173/2023Test/blob/main/Coding_1_Preprocess.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 前準備

## 必要なライブラリのインストール

In [1]:
!pip install mecab-python3 fugashi
!pip install jaconv neologdn

Collecting mecab-python3
  Downloading mecab_python3-1.0.8-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (581 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m581.7/581.7 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fugashi
  Downloading fugashi-1.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (600 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m600.9/600.9 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: mecab-python3, fugashi
Successfully installed fugashi-1.3.0 mecab-python3-1.0.8
Collecting jaconv
  Downloading jaconv-0.3.4.tar.gz (16 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting neologdn
  Downloading neologdn-0.5.2.tar.gz (86 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.2/86.2 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packa

## データロードと環境構築

In [2]:
# MeCabとNEologdの設定
!apt install mecab libmecab-dev mecab-ipadic-utf8 file
#!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
#!mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -a -y

# 環境変数でmecabrcの場所を指定
import os
os.environ['MECABRC'] = "/etc/mecabrc"

# NEologdの展開場所を取得
#import subprocess
#cmd = 'echo `mecab-config --dicdir`"/mecab-ipadic-neologd"'
#neologd_dic_dir_path = subprocess.check_output(cmd, shell=True).decode('utf-8').strip()

# 万病辞書のダウンロードと設定
!wget http://sociocom.jp/~data/2018-manbyo/data/MANBYO_201907_Dic-utf8.dic
manbyo_dic_path = 'MANBYO_201907_Dic-utf8.dic'

#Note: 展開されたneologdをダウンロードする場合は↓を有効化。再展開する場合は↑のコメントアウトを有効化
!wget https://github.com/Takumi173/2023Test/releases/download/20231108/mecab-ipadic-neologd.zip
!unzip mecab-ipadic-neologd.zip -d mecab-ipadic-neologd
neologd_dic_dir_path = '/content/mecab-ipadic-neologd'

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
file is already the newest version (1:5.41-3ubuntu0.1).
The following additional packages will be installed:
  libmecab2 mecab-ipadic mecab-utils
The following NEW packages will be installed:
  libmecab-dev libmecab2 mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils
0 upgraded, 6 newly installed, 0 to remove and 19 not upgraded.
Need to get 7,367 kB of archives.
After this operation, 59.3 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/main amd64 libmecab2 amd64 0.996-14build9 [199 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy/main amd64 libmecab-dev amd64 0.996-14build9 [306 kB]
Get:3 http://archive.ubuntu.com/ubuntu jammy/main amd64 mecab-utils amd64 0.996-14build9 [4,850 B]
Get:4 http://archive.ubuntu.com/ubuntu jammy/main amd64 mecab-ipadic all 2.7.0-20070801+main-3 [6,718 kB]
Get:5 http://archive.ubuntu.com/ubuntu jammy/universe amd64 mecab amd6

# テキストの前処理

## 関数定義

In [3]:
import jaconv
import unicodedata
import neologdn
import re

import MeCab

# MeCab辞書にNEologdと万病辞書を指定
tagger = MeCab.Tagger("-d " + neologd_dic_dir_path + " -u " + manbyo_dic_path)

# MeCabによる分かち書き＆原形変換関数を定義
def genkei(text):
  words = []
  for c in tagger.parse(text).splitlines()[:-1]:
    # surfaceに単語、featureに解析結果を格納
    # 対象が存在しない場合は無視して次へ
    try:
        surface, feature = c.split('\t')
    except:
        continue

    # 解析結果から品詞と原形を取得
    hinshi = feature.split(',')[0]
    genkei = feature.split(',')[6]

    # 原形が定義されている場合は単語を原形に置き換え
    if feature.split(',')[-1].isdigit() == False and genkei != '*':
      surface = genkei

    # 残す品詞を定義
    #if hinshi in ['名詞','形容詞','助動詞', '動詞'] and surface != '*':
    if hinshi != '記号' and surface != '*': # 品詞を絞り込まない場合
      words.append(surface)
    else:
      continue

  return ' '.join(words)

# 文字の正規化後に上記関数を実行する事前処理関数を定義
def preprocess(text):
  text = jaconv.normalize(text, "NFKC")
  text = unicodedata.normalize("NFKC", text)
  text = neologdn.normalize(text)

  text = re.sub(r'。$', '', text)   # 文末の。を削除
  #text = re.sub(r'\d+', '0', text)  # 連続する数値を0に置換

  text = genkei(text)
  return text

## 前処理の実行

分かち書き＆正規化後に記号のみ削除する。

hinshi in ['名詞','形容詞','助動詞', '動詞']に絞り込むと学習対象のデータはおよそ半分になる。精度はわずかに落ちるものの、誤差レベル。（xxx_wakati.tsvとして出力）


In [5]:
!wget https://github.com/Takumi173/2023Test/releases/download/20231108/combined_training_data.tsv
!wget https://github.com/Takumi173/2023Test/releases/download/20231108/Test_Data.tsv

--2023-11-07 23:03:50--  https://github.com/Takumi173/2023Test/releases/download/20231108/combined_training_data.tsv
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/693141619/5e5b7a75-ef60-4beb-9d40-8527f514795f?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20231107%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20231107T230350Z&X-Amz-Expires=300&X-Amz-Signature=037e05941e1593683fc7c6f053aa110fd99dd926db7b790962164046c540e271&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=693141619&response-content-disposition=attachment%3B%20filename%3Dcombined_training_data.tsv&response-content-type=application%2Foctet-stream [following]
--2023-11-07 23:03:50--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/693141619/5e5b7a75-ef60-4beb-

In [6]:
import pandas as pd

# 処理対象データをDataFrameに格納
Texts = pd.read_table('combined_training_data.tsv')


# 対象のラベルと事前処理を実行したカラムを追加
Texts['ICD10_Term_WAKATI'] = Texts['ICD10_Term'].apply(preprocess)

Texts.to_csv('combined_training_data_watati_all.tsv', sep='\t', index=False)

# 処理結果の確認
Texts

Unnamed: 0,ICD10_CATEGORY,ICD10_CATEGORY_TERM,ICD10_Code,ICD10_Term,FOR_USAGE,ICD10_Term_WAKATI
0,A00,コレラ,A00.0,コレラ菌によるコレラ,train,コレラ 菌 による コレラ
1,A00,コレラ,A00.1,エルトールコレラ菌によるコレラ,train,エルトールコレラ 菌 による コレラ
2,A00,コレラ,A00.9,コレラ，詳細不明,train,コレラ 詳細不明
3,A01,腸チフス及びパラチフス,A01.0,腸チフス,train,腸チフス
4,A01,腸チフス及びパラチフス,A01.1,パラチフスA,train,パラチフス A
...,...,...,...,...,...,...
136872,X99,鋭利な物体による加害にもとづく傷害及び死亡,X99.X5,施設サービス及び商業；死亡及び傷害もとづくに加害よるに物体な鋭利,train,施設 サービス 及び 商業 死亡 及び 傷害 もとづく に 加害 よる に 物体 な 鋭利
136873,X99,鋭利な物体による加害にもとづく傷害及び死亡,X99.X6,現場建築及び地域用工業；死亡及び傷害もとづくに加害よるに物体な鋭利,train,現場 建築 及び 地域 用 工業 死亡 及び 傷害 もとづく に 加害 よる に 物体 な 鋭利
136874,X99,鋭利な物体による加害にもとづく傷害及び死亡,X99.X7,農場；死亡及び傷害もとづくに加害よるに物体な鋭利,train,農場 死亡 及び 傷害 もとづく に 加害 よる に 物体 な 鋭利
136875,X99,鋭利な物体による加害にもとづく傷害及び死亡,X99.X8,場所たれさ明示の他その；死亡及び傷害もとづくに加害よるに物体な鋭利,train,場所 たれる さ 明示 の 他 その 死亡 及び 傷害 もとづく に 加害 よる に 物体 ...


In [7]:
# 処理対象データをDataFrameに格納
Texts = pd.read_table('Test_Data.tsv')

# 対象のラベルと事前処理を実行したカラムを追加
Texts['ICD10_Term_WAKATI'] = Texts['TEST_DATA'].apply(preprocess)

Texts.to_csv('Test_Data_Wakati_all.tsv', sep='\t', index=False)

# 処理結果の確認
Texts

Unnamed: 0,ICD10_CATEGORY,ICD-10 Code,ICD-10 Term,TEST_DATA,INITIAL,ICD10_Term_WAKATI
0,H00,H00.1,さん＜霰＞粒腫,さん粒腫,SN,さん 粒 腫
1,H00,H00.1,さん＜霰＞粒腫,霰粒腫,SN,霰粒腫
2,H01,H01.0,眼瞼炎,眼瞼皮膚炎,SN,眼瞼皮膚炎
3,H01,H01.0,眼瞼炎,眼瞼縁炎,SN,眼瞼縁炎
4,H01,H01.1,眼瞼の非感染性皮膚症,眼瞼の皮膚症（非感染性）,SN,眼瞼 の 皮膚症 非感染性
...,...,...,...,...,...,...
1086,T47,T47.6,止しゃ薬,下痢止め,DH,下痢止め
1087,T47,T47.7,催吐薬,吐き気止め,DH,吐き気 止め
1088,T48,T48.1,骨格筋し＜弛＞緩薬［神経筋遮断薬］,骨格筋弛緩薬,DH,骨格 筋弛緩 薬
1089,T48,T48.3,鎮咳薬,せき止め,DH,せき 止め
