# マイナス記号の統一

数値を扱う上で負の数値にはマイナス記号が付きますが，文字としてマイナス記号に似た記号が複数存在します．
コンピュータ上で負の数値が入力されている場合，マイナス記号の代わりに間違った記号が用いられるケースがあります．

ここでは，そのような記号を正しいマイナス記号に置き換える正規表現プログラムを作成します．

## マイナス記号に似た文字


|記号|名称|ユニコード|補足説明|
|:---:|:---:|:---:|:---|
| &#x2D; | ハイフンマイナス | U+002D |キーボードからの英字入力ではハイフンとマイナス記号は統一したコードとなる|
| &#xFF0D; | 全角ハイフンマイナス | U+FF0D |ハイフンマイナスを全角にしたもの|
| &minus;  | 負符号，減算記号 | U+2212 |ユニコード上で独立したマイナス記号|
| &#x2010; | 半角ハイフン | U+2010 |ユニコード上で独立したハイフン記号|
| &#x2012; |フィギュアダッシュ| U+2012 |数字と同じ幅になるダッシュ記号|
| &ndash;  | nダッシュ    | U+2013 |半角のダッシュ記号|
| &mdash;  | mダッシュ    | U+2014 |全角のダッシュ記号
| &#x2015; | 水平線       | U+2015 |レイアウトなどに使われる横線|
| &#x30FC; | 長音記号     | U+30FC |カタカナの長音記号|
| &#xFF70; | 半角長音記号 | U+FF70 |半角カタカナの調音記号|

これらの記号のうち，ハイフンマイナス（U+002D）以外の記号がついた数値をint()関数で型変換しようとすると以下に示すようにエラーになります．

```Python
for x in ['-99', '－1', '−2', '‐3', '‒4', '–5', '—6', '―7', 'ー8', 'ｰ9']:
    try:
        print(x,'の数値化：',int(x))
    except:
        print(x,'の数値化はエラー')
```

In [1]:
for x in ['-99', '－1', '−2', '‐3', '‒4', '–5', '—6', '―7', 'ー8', 'ｰ9']:
    try:
        print(x,'の数値化：',int(x))
    except:
        print(x,'の数値化はエラー')

-99 の数値化： -99
－1 の数値化はエラー
−2 の数値化はエラー
‐3 の数値化はエラー
‒4 の数値化はエラー
–5 の数値化はエラー
—6 の数値化はエラー
―7 の数値化はエラー
ー8 の数値化はエラー
ｰ9 の数値化はエラー


そこで，これらマイナス記号に似た記号を全て<font color='blue'>ハイフンマイナス記号</font>に変換することを考えます．

*****
まずは，reライブラリーを搬入します．

```Python
import re
```

In [2]:
import re

表示される文字列を正確に入手するために，それぞれの記号をユニコードで記載して表示します．

```Python
'\uff0d\u2212\u2010\u2012\u2013\u2014\u2015\u30fc\uff70'
```

In [3]:
'\uff0d\u2212\u2010\u2012\u2013\u2014\u2015\u30fc\uff70'

'－−‐‒–—―ーｰ'

ここで得られらマイナス記号に似た記号の文字列を使ってマッチング対象の文字のパターンを作成します．  
パターンは，角括弧でこれらの記号を囲うことによって，そのどれかとの一致を評価するものにします．

```Python
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
```

In [4]:
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')

テスト用の文字列として，マイナス記号に似た記号を付けた数字を列記したものを用意します．

```Python
string = '－1, −2, ‐3, ‒4, –5, —6, ―7, ー8, ｰ9.'
string
```

In [5]:
string = '－1, −2, ‐3, ‒4, –5, —6, ―7, ー8, ｰ9.'
string

'－1, −2, ‐3, ‒4, –5, —6, ―7, ー8, ｰ9.'

コンパイルした正規表現パターンを使用して，テスト用文字列のマイナス記号に似た記号を全てハイフンマイナス記号に変更します．

```Python
minusSign.sub('-',string)
```

In [6]:
minusSign.sub('-',string)

'-1, -2, -3, -4, -5, -6, -7, -8, -9.'

このように，マイナス記号を統一することに成功しました．

ただし，この置換も闇雲に実施するのではなく，負の数値だと判断できるものに限定することを忘れないようにしましょう．

*****
## 正規表現を使わない方法

このマイナス記号に似た記号を統一する方法として，
<font color=green>str.translate()</font>メソッドを使用する方法があります．
ここでは，簡単に紹介します．

まず準備として，変換表を<font color=green>str.maketrans()</font>関数を使って用意します．
ここで与えるデータは辞書配列で，変換前の文字をインデックスとし，値をハイフンマイナス記号にします．

```Python
transMinus = str.maketrans({'－':'-', '−':'-', '‐':'-', '‒':'-', '–':'-', '—':'-', '―':'-', 'ー':'-', 'ｰ':'-'})
```

In [7]:
transMinus = str.maketrans({'－':'-', '−':'-', '‐':'-', '‒':'-', '–':'-', '—':'-', '―':'-', 'ー':'-', 'ｰ':'-'})

対象となる文字列で translate()メソッドを実行します．

```Python
string.translate(transMinus)
```

In [8]:
string.translate(transMinus)

'-1, -2, -3, -4, -5, -6, -7, -8, -9.'

このように正規表現を使わずともマイナス記号を統一することができます．
正規表現による方法と比較すると，translateの方が実行コードとしてコンパクトになりますが，準備データが複雑になります．

*****