<a href="https://colab.research.google.com/github/dddoGitHub/Test/blob/master/a200727_horizontal_lines_j.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 日本語のテキストのハイフンやマイナスなど紛らわしい横線を区別する関数を定義。

2020.07.09 dddo
2020.07.26 dddo 修正(def h_line_jから生のPythonの対話モードでエラーとなる空行を削除、Rename)

# 関数定義

In [None]:
def h_line_j(sr, so=False):
    """Identify the horizontal lines in Japanese.
    
    日本語のテキストのハイフンやマイナスなど紛らわしい横線を区別する関数を定義。
    引数の
        srはチェック対象の入力文字列。
        soは結果の後に入力文字列を表示するか否か(デフォルト・省略時はoff)
    """
    
    # 辞書型 (dictionary)のオブジェクトにキー=記号、値=名称で登録
    
    cdic = {
    '－':'全角ハイフンマイナス',
    '-':'半角ハイフンマイナス',
    '‐':'全角ハイフン',
    '−':'全角マイナス',
    '‒':'フィギュアダッシュ',
    '—':'全角ダッシュ',
    '–':'二分ダッシュ',
    '―':'ホリゾンタルバー',
    'ー':'全角長音',
    'ｰ':'半角長音',
    '─':'罫線',
    '━':'罫線',
    '一':'いち'
    }
    l = 0              # 行数カウンタ
    c = 0              # 文字桁数カウンタ
    for char in sr:
        if char in cdic:    # 対象文字が辞書にあれば、行・桁・名称・記号を表示
            print('Line:', l+1,
                  'Chr:', c+1,
                  'is', cdic[char],
                  char
                 )
        c = c + 1            # 桁数を増やす
        if char == '\n':    # 対象の文字が改行なら
            l = l + 1            # 行数カウンタを増やし
            c = 0                # 桁数カウンタを0に
    if so:                   # 入力文字列を表示するか否か
        print()
        print(sr)

## いろは唄に13種の横棒を追加した文字列を作成

In [None]:
sr = """\
いろーはにほへ━と　ちりぬ—るを
わ‒かよｰたれそ　つねなら–む
うゐのおく-やま　け‐ふこえ一て
あさき―ゆめみ−し　ゑひ－も─せす
"""

In [None]:
len(sr)    # 変数 SR の文字数を確認

68

In [None]:
h_line_j(sr, True)    # 第2引数がTrueなら最後に元の文字列を出力

Line: 1 Chr: 3 is 全角長音 ー
Line: 1 Chr: 8 is 罫線 ━
Line: 1 Chr: 14 is 全角ダッシュ —
Line: 2 Chr: 2 is フィギュアダッシュ ‒
Line: 2 Chr: 5 is 半角長音 ｰ
Line: 2 Chr: 14 is 二分ダッシュ –
Line: 3 Chr: 6 is 半角ハイフンマイナス -
Line: 3 Chr: 11 is 全角ハイフン ‐
Line: 3 Chr: 15 is いち 一
Line: 4 Chr: 4 is ホリゾンタルバー ―
Line: 4 Chr: 8 is 全角マイナス −
Line: 4 Chr: 13 is 全角ハイフンマイナス －
Line: 4 Chr: 15 is 罫線 ─

いろーはにほへ━と　ちりぬ—るを
わ‒かよｰたれそ　つねなら–む
うゐのおく-やま　け‐ふこえ一て
あさき―ゆめみ−し　ゑひ－も─せす



## 13種の横棒が混入した100文字改行なしの文字列を作成
(行末の『\』は改行なし)

In [None]:
s = """\
あいうえおかーくけこさしすせ━たちつてとなに—ねのはひふへほま‒むめもやｰゆえよわ–うえをんが-ぐげ\
あい‐えおかきくけ一さしすせそたち―てとなにぬね−はひふへほまみ－めもやいゆえ─わいうえをんがぎぐげ\
"""

In [None]:
h_line_j(s)

Line: 1 Chr: 7 is 全角長音 ー
Line: 1 Chr: 15 is 罫線 ━
Line: 1 Chr: 23 is 全角ダッシュ —
Line: 1 Chr: 32 is フィギュアダッシュ ‒
Line: 1 Chr: 37 is 半角長音 ｰ
Line: 1 Chr: 42 is 二分ダッシュ –
Line: 1 Chr: 48 is 半角ハイフンマイナス -
Line: 1 Chr: 53 is 全角ハイフン ‐
Line: 1 Chr: 60 is いち 一
Line: 1 Chr: 68 is ホリゾンタルバー ―
Line: 1 Chr: 75 is 全角マイナス −
Line: 1 Chr: 83 is 全角ハイフンマイナス －
Line: 1 Chr: 90 is 罫線 ─


## 上記文字列から2の16乗=65536文字以上改行なしの文字列を作成
(長い段落=改行なしでも大丈夫)

In [None]:
sm = s*656

In [None]:
len(sm)

65600

In [None]:
h_line_j(sr) # 実際にはsmを。大量に出力されるのでここではsrを。

Line: 1 Chr: 3 is 全角長音 ー
Line: 1 Chr: 8 is 罫線 ━
Line: 1 Chr: 14 is 全角ダッシュ —
Line: 2 Chr: 2 is フィギュアダッシュ ‒
Line: 2 Chr: 5 is 半角長音 ｰ
Line: 2 Chr: 14 is 二分ダッシュ –
Line: 3 Chr: 6 is 半角ハイフンマイナス -
Line: 3 Chr: 11 is 全角ハイフン ‐
Line: 3 Chr: 15 is いち 一
Line: 4 Chr: 4 is ホリゾンタルバー ―
Line: 4 Chr: 8 is 全角マイナス −
Line: 4 Chr: 13 is 全角ハイフンマイナス －
Line: 4 Chr: 15 is 罫線 ─
