<a href="https://colab.research.google.com/github/dfukagaw28/ColabNotebooks/blob/main/%E9%9D%92%E7%A9%BA%E6%96%87%E5%BA%AB%E3%81%AE%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E5%89%8D%E5%87%A6%E7%90%86%E3%81%99%E3%82%8B_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 青空文庫のテキストデータを前処理する (1)

*   試しに『吾輩は猫である』を使って前処理の練習をおこなう
*   元データ
    *   青空文庫
        *   https://www.aozora.gr.jp/cards/000148/card789.html 図書カード
        *   https://github.com/aozorabunko/aozorabunko/blob/master/cards/000148/files/789_ruby_5639.zip テキストファイル（zip）
*   前処理済みテキストデータ
    *   https://nlp100.github.io/data/neko.txt
*   参考
    *   [青空文庫作業マニュアル【入力編】](https://www.aozora.gr.jp/aozora-manual/index-input.html)


*   「iconv で文字コード変換をする際は， `CP932` より `SHIFT_JISX0213` の方が良い」という説もあるが，それは必ずしも正しくない

## テキストデータをダウンロードする

In [None]:
# 青空文庫のテキストデータをダウンロードする（neko1.txt）
!curl -RLO https://github.com/aozorabunko/aozorabunko/raw/refs/heads/master/cards/000148/files/789_ruby_5639.zip
!unzip -o 789_ruby_5639.zip wagahaiwa_nekodearu.txt
!mv wagahaiwa_nekodearu.txt neko1.txt
!rm -f 789_ruby_5639.zip

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100  336k  100  336k    0     0   484k      0 --:--:-- --:--:-- --:--:--  484k
Archive:  789_ruby_5639.zip
Made with MacWinZipper (http://tidajapan.com/macwinzipper)
  inflating: wagahaiwa_nekodearu.txt  


In [None]:
# 前処理済みテキストデータをダウンロードする（neko2.txt）
!curl -RLO https://nlp100.github.io/data/neko.txt
!mv neko.txt neko2.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  952k  100  952k    0     0  2516k      0 --:--:-- --:--:-- --:--:-- 2514k


## ２つのテキストデータを比較する

In [None]:
!iconv -f SHIFT_JISX0213 -t utf8 neko1.txt | head -n 30

吾輩は猫である
夏目漱石

-------------------------------------------------------
【テキスト中に現れる記号について】

《》：ルビ
（例）吾輩《わがはい》

｜：ルビの付く文字列の始まりを特定する記号
（例）一番｜獰悪《どうあく》

［＃］：入力者注　主に外字の説明や、傍点の位置の指定
　　　（数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数）
（例）※［＃「言＋墟のつくり」、第4水準2-88-74］

〔〕：アクセント分解された欧文をかこむ
（例）〔Quid aliud est mulier nisi amicitiae& inimica〕
アクセント分解についての詳細は下記URLを参照してください
http://www.aozora.gr.jp/accent_separation.html
-------------------------------------------------------

［＃８字下げ］一［＃「一」は中見出し］

　吾輩《わがはい》は猫である。名前はまだ無い。
　どこで生れたかとんと見当《けんとう》がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番｜獰悪《どうあく》な種族であったそうだ。この書生というのは時々我々を捕《つかま》えて煮《に》て食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌《てのひら》に載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。掌の上で少し落ちついて書生の顔を見たのがいわゆる人間というものの見始《みはじめ》であろう。この時妙なものだと思った感じが今でも残っている。第一毛をもって装飾されべきはずの顔がつるつるしてまるで薬缶《やかん》だ。その後《ご》猫にもだいぶ逢《あ》ったがこんな片輪《かたわ》には一度も出会《でく》わした事がない。のみならず顔の真中があまりに突起している。そうしてその穴の中から時々ぷうぷうと煙《けむり》を吹く。どうも咽《む》せぽくて実に弱った。これが人間の飲む煙草《たば

In [None]:
!head -n 10 neko2.txt

一

　吾輩は猫である。
名前はまだ無い。

　どこで生れたかとんと見当がつかぬ。
何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。
吾輩はここで始めて人間というものを見た。
しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
この書生というのは時々我々を捕えて煮て食うという話である。


## ２つのテキストデータを読み込む

In [None]:
text1 = open('neko1.txt', encoding='cp932').read()
text2 = open('neko2.txt').read()

## 冒頭の記載事項（タイトル・著者名等）を検出して除去する

In [None]:
try:
  pos = text1.index('\n\n')
  display(text1[:pos])
  text1 = text1[pos+2:]
except:
  pass

'吾輩は猫である\n夏目漱石'

## 【テキスト中に現れる記号について】を検出して除去する

In [None]:
try:
  pos = text1.index('\n')
  display(text1[:pos])
except:
  pass

'-------------------------------------------------------'

In [None]:
try:
  pos = text1.index('\n\n')
  display(text1[:pos])
except:
  pass

'-------------------------------------------------------\n【テキスト中に現れる記号について】'

In [None]:
try:
  # 最初の行が「--------」で始まることを確認する
  assert text1.startswith('--------')

  # 最初の行を読み飛ばす
  pos = text1.index('\n')
  text1 = text1[pos+1:]

  # 次に「--------」で始まる行を探す
  pos = text1.index('--------')

  # 「--------」で始まる行によって囲まれた部分を表示する
  display(text1[:pos])

  # 2つ目の「--------」で始まる行の末尾を探す
  pos = text1.index('\n', pos)

  # 2つ目の「--------」で始まる行の次の行は空行
  assert text1[pos+1] == '\n'

  # 2つ目の「--------」で始まる行と，次の行（空行）までを読み飛ばす
  text1 = text1[pos+2:]
except:
  pass

'【テキスト中に現れる記号について】\n\n《》：ルビ\n（例）吾輩《わがはい》\n\n｜：ルビの付く文字列の始まりを特定する記号\n（例）一番｜獰悪《どうあく》\n\n［＃］：入力者注\u3000主に外字の説明や、傍点の位置の指定\n\u3000\u3000\u3000（数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数）\n（例）※［＃「言＋墟のつくり」、第4水準2-88-74］\n\n〔〕：アクセント分解された欧文をかこむ\n（例）〔Quid aliud est mulier nisi amicitiae& inimica〕\nアクセント分解についての詳細は下記URLを参照してください\nhttp://www.aozora.gr.jp/accent_separation.html\n'

In [None]:
text1[:100]

'［＃８字下げ］一［＃「一」は中見出し］\n\n\u3000吾輩《わがはい》は猫である。名前はまだ無い。\n\u3000どこで生れたかとんと見当《けんとう》がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶'

## 本文の末尾の情報（底本，入力・校正にかんする情報等）を検出して除去する

In [None]:
text1[-600:]

'しいのだかありがたいのだか見当がつかない。水の中にいるのだか、座敷の上にいるのだか、判然しない。どこにどうしていても差支《さしつか》えはない。ただ楽である。否《いな》楽そのものすらも感じ得ない。日月《じつげつ》を切り落し、天地を粉韲《ふんせい》して不可思議の太平に入る。吾輩は死ぬ。死んでこの太平を得る。太平は死ななければ得られぬ。南無阿弥陀仏《なむあみだぶつ》南無阿弥陀仏。ありがたいありがたい。\n\n\n\n底本：「夏目漱石全集1」ちくま文庫、筑摩書房\n\u3000\u3000\u30001987（昭和62）年9月29日第1刷発行\n底本の親本：「筑摩全集類聚版\u3000夏目漱石全集\u30001」筑摩書房\n\u3000\u3000\u30001971（昭和46）年4月5日初版\n初出：「ホトトギス」\n\u3000\u3000\u30001905（明治38）年1月、2月、4月、6月、7月、10月\n\u3000\u3000\u30001906（明治39）年1月、3月、4月、8月\n※誤植を疑った箇所を、底本の親本の表記にそって、あらためました。\n入力：柴田卓治\n校正：渡部峰子（一）、おのしげひこ（二、五）、田尻幹二（三）、高橋真也（四、七、八、十、十一）、しず（六）、瀬戸さえ子（九）\n1999年9月17日公開\n2018年2月5日修正\n青空文庫作成ファイル：\nこのファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。\n'

In [None]:
print(text1[-600:])

しいのだかありがたいのだか見当がつかない。水の中にいるのだか、座敷の上にいるのだか、判然しない。どこにどうしていても差支《さしつか》えはない。ただ楽である。否《いな》楽そのものすらも感じ得ない。日月《じつげつ》を切り落し、天地を粉韲《ふんせい》して不可思議の太平に入る。吾輩は死ぬ。死んでこの太平を得る。太平は死ななければ得られぬ。南無阿弥陀仏《なむあみだぶつ》南無阿弥陀仏。ありがたいありがたい。



底本：「夏目漱石全集1」ちくま文庫、筑摩書房
　　　1987（昭和62）年9月29日第1刷発行
底本の親本：「筑摩全集類聚版　夏目漱石全集　1」筑摩書房
　　　1971（昭和46）年4月5日初版
初出：「ホトトギス」
　　　1905（明治38）年1月、2月、4月、6月、7月、10月
　　　1906（明治39）年1月、3月、4月、8月
※誤植を疑った箇所を、底本の親本の表記にそって、あらためました。
入力：柴田卓治
校正：渡部峰子（一）、おのしげひこ（二、五）、田尻幹二（三）、高橋真也（四、七、八、十、十一）、しず（六）、瀬戸さえ子（九）
1999年9月17日公開
2018年2月5日修正
青空文庫作成ファイル：
このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



In [None]:
try:
  pos = text1.index('\n\n\n\n')
  print(text1[pos:])
  text1 = text1[:pos]
except:
  pass





底本：「夏目漱石全集1」ちくま文庫、筑摩書房
　　　1987（昭和62）年9月29日第1刷発行
底本の親本：「筑摩全集類聚版　夏目漱石全集　1」筑摩書房
　　　1971（昭和46）年4月5日初版
初出：「ホトトギス」
　　　1905（明治38）年1月、2月、4月、6月、7月、10月
　　　1906（明治39）年1月、3月、4月、8月
※誤植を疑った箇所を、底本の親本の表記にそって、あらためました。
入力：柴田卓治
校正：渡部峰子（一）、おのしげひこ（二、五）、田尻幹二（三）、高橋真也（四、七、八、十、十一）、しず（六）、瀬戸さえ子（九）
1999年9月17日公開
2018年2月5日修正
青空文庫作成ファイル：
このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。



## ルビに関する記述を削除する

In [None]:
import re

text1 = re.sub('《.+?》', '', text1)
text1 = re.sub('｜', '', text1)

## 注記情報（レイアウト情報，入力者注等）を検出して削除する

In [None]:
text1 = re.sub(r'［＃.*?］', '', text1)

## 文ごとに改行する

*   文を検出するのは大変なので，「。」「？」の直後に改行する

In [None]:
text1 = re.sub('(。|？)', '\\1\n', text1)

## HORIZONTAL BAR (U+2015) を EM DASH (U+2014) に変換する

*   いわゆる全角ダッシュ
    *   [Wikipedia 全角ダッシュのマッピング問題](https://ja.wikipedia.org/wiki/%E3%83%80%E3%83%83%E3%82%B7%E3%83%A5_(%E8%A8%98%E5%8F%B7)#%E5%85%A8%E8%A7%92%E3%83%80%E3%83%83%E3%82%B7%E3%83%A5%E3%81%AE%E3%83%9E%E3%83%83%E3%83%94%E3%83%B3%E3%82%B0%E5%95%8F%E9%A1%8C)
    *   [文字コードについて (1)](https://github.com/dfukagaw28/ColabNotebooks/blob/main/%E6%96%87%E5%AD%97%E3%82%B3%E3%83%BC%E3%83%89%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6_1.ipynb)
*   青空文庫の Shift-JIS テキストデータには `81 5C` が含まれる。iconv 2.35 の cp932 ではこれを正しく変換できない。
    *   かつて cp932 の文字コード表に誤りがあり，まだ修正が反映されていない
    *   文字コードとして IBM932 や	SHIFTJISX0213 を指定すると正しく EM DASH (U+2014) に変換されるが，他の文字の変換ができない
    *   iconv でなく nkf 2.1.5 だと，正しく EM DASH (U+2014) にマッピングされるが，やはり他の文字の変換で失敗する
*   Python の encode/decode でも iconv と同様の問題がある
*   そのようなわけで，泥臭く手作業で変換する

*   テキストデータに `81 5c` が含まれることを確認する

In [None]:
!head -n 31 neko1.txt | tail -n 1 | tail -c 264 | head -c 80 | iconv -f cp932 -t utf8

は――ことに小さい方が質《たち》がわるい――猫が来た猫が来たといって夜中でも何で

In [None]:
!head -n 31 neko1.txt | tail -n 1 | tail -c 264 | head -c 80| hexdump -C | head

00000000  82 cd 81 5c 81 5c 82 b1  82 c6 82 c9 8f ac 82 b3  |...\.\..........|
00000010  82 a2 95 fb 82 aa 8e bf  81 73 82 bd 82 bf 81 74  |.........s.....t|
00000020  82 aa 82 ed 82 e9 82 a2  81 5c 81 5c 94 4c 82 aa  |.........\.\.L..|
00000030  97 88 82 bd 94 4c 82 aa  97 88 82 bd 82 c6 82 a2  |.....L..........|
00000040  82 c1 82 c4 96 e9 92 86  82 c5 82 e0 89 bd 82 c5  |................|
00000050


*   U+2015 を U+2014 に変換する

In [None]:
text1 = text1.replace('\u2015', '\u2014')

## 以上の前処理を一気におこなう

In [None]:
import re


def aozora_preprocess(text):
  # 冒頭の記載事項（タイトル・著者名等）を検出して除去する
  try:
    pos = text.index('\n\n')
    text = text[pos+2:]
  except:
    pass

  # 【テキスト中に現れる記号について】を検出して除去する
  try:
    # 最初の行が「--------」で始まることを確認する
    assert text.startswith('--------')

    # ２つ目の「--------」で始まる行と，その次の空行を除去する
    pos = text.index('\n') + 1
    pos = text.index('--------', pos)
    pos = text.index('\n\n', pos) + 2
    text = text[pos:]
  except:
    pass

  # 本文の末尾の情報（底本，入力・校正にかんする情報等）を検出して除去する
  try:
    pos = text.index('\n\n\n\n')
    text = text[:pos]
  except:
    pass

  # ルビに関する記述を削除する
  text = re.sub('《.+?》', '', text)
  text = re.sub('｜', '', text)

  # 注記情報（レイアウト情報，入力者注等）を検出して削除する
  text = re.sub(r'［＃.*?］', '', text)

  # 文ごとに改行する
  text = re.sub('(。|？)', '\\1\n', text)

  # HORIZONTAL BAR (U+2015) を EM DASH (U+2014) に変換する
  text = text.replace('\u2015', '\u2014')

  return text

In [None]:
text1 = open('neko1.txt', encoding='cp932').read()
text1 = aozora_preprocess(text1)

text1[:100]

'一\n\n\u3000吾輩は猫である。\n名前はまだ無い。\n\n\u3000どこで生れたかとんと見当がつかぬ。\n何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。\n吾輩はここで始めて人間というものを見た。\n'

In [None]:
text2 = open('neko2.txt').read()

text2[:100]

'一\n\n\u3000吾輩は猫である。\n名前はまだ無い。\n\n\u3000どこで生れたかとんと見当がつかぬ。\n何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。\n吾輩はここで始めて人間というものを見た。\n'

## ２つのテキストデータを比較する

In [None]:
print(text1, file=open('text1.txt', 'w'))
print(text2, file=open('text2.txt', 'w'))
!diff -u text1.txt text2.txt

--- text1.txt	2024-10-20 22:10:55.693997705 +0000
+++ text2.txt	2024-10-20 22:10:55.701998414 +0000
@@ -738,7 +738,7 @@
 二絃琴の御師匠さんよ」「それは吾輩も知っていますがね。
 その御身分は何なんです。
 いずれ昔しは立派な方なんでしょうな」「ええ」
-君を待つ間の姫小松……………
+　　君を待つ間の姫小松……………
 　障子の内で御師匠さんが二絃琴を弾き出す。
 「宜い声でしょう」と三毛子は自慢する。
 「宜いようだが、吾輩にはよくわからん。
@@ -3842,7 +3842,7 @@
 「実に丈夫な帽子です事ねえ、どうしたんでしょう」と細君がいよいよ感心すると「なにどうもしたんじゃありません、元からこう云う帽子なんです」と迷亭は帽子を被ったまま細君に返事をしている。
 
 「あなたも、あんな帽子を御買になったら、いいでしょう」としばらくして細君は主人に勧めかけた。
-「だって苦沙弥君は立派な麦藁の奴を持ってるじゃありませんか」「ところがあなた、せんだって小供があれを踏み潰してしまいまして」「おやおやそりゃ措しい事をしましたね」「だから今度はあなたのような丈夫で奇麗なのを買ったら善かろうと思いますんで」と細君はパナマの価段を知らないものだから「これになさいよ、ねえ、あなた」としきりに主人に勧告している。
+「だって苦沙弥君は立派な麦藁の奴を持ってるじゃありませんか」「ところがあなた、せんだって小供があれを踏み潰してしまいまして」「おやおやそりゃ惜しい事をしましたね」「だから今度はあなたのような丈夫で奇麗なのを買ったら善かろうと思いますんで」と細君はパナマの価段を知らないものだから「これになさいよ、ねえ、あなた」としきりに主人に勧告している。
 
 　迷亭君は今度は右の袂の中から赤いケース入りの鋏を取り出して細君に見せる。
 「奥さん、帽子はそのくらいにしてこの鋏を御覧なさい。
@@ -8832,7 +8832,7 @@
 「どれ」
 「この二行さ」
 「何だって？
-　〔Quid aliud est mulier nisi amicitiae& inimica〕……こりゃ君羅甸語じゃないか」
+　……こりゃ君羅甸語じゃないか」
 「羅甸語は分っ

##   「措 (U+63AA)」と「惜 (U+60DC)」

*   文字化けではなく，漢字の誤用の修正らしい
    *   青空文庫版は原文ママ
    *   自然言語処理100本ノック版は修正済み

In [None]:
!head -c $(printf "%d" 0x4f6e1) neko1.txt | tail -c 48 | iconv -f cp932
!echo
!head -c $(printf "%d" 0x4f6e1) neko1.txt | tail -c 48 | hexdump -C

そりゃ措しい［＃「措しい」はママ］事をしましたね
00000000  82 bb 82 e8 82 e1 91 5b  82 b5 82 a2 81 6d 81 94  |.......[.....m..|
00000010  81 75 91 5b 82 b5 82 a2  81 76 82 cd 83 7d 83 7d  |.u.[.....v...}.}|
00000020  81 6e 8e 96 82 f0 82 b5  82 dc 82 b5 82 bd 82 cb  |.n..............|
00000030


In [None]:
!head -c $(printf "%d" 0x76031) neko1.txt | tail -c 48 | iconv -f cp932
!echo
!head -c $(printf "%d" 0x76031) neko1.txt | tail -c 48 | hexdump -C

ではわからずやの窮措大《きゅうそだい》の家に養な
00000000  82 c5 82 cd 82 ed 82 a9  82 e7 82 b8 82 e2 82 cc  |................|
00000010  8b 87 91 5b 91 e5 81 73  82 ab 82 e3 82 a4 82 bb  |...[...s........|
00000020  82 be 82 a2 81 74 82 cc  89 c6 82 c9 97 7b 82 c8  |.....t.......{..|
00000030
