# 浮動小数点数のクレンジング

浮動小数点数について，文字列で記載されているデータを数値化するためのクレンジングについて学習します．
ただし，指数部付きの浮動小数点数ではなく単純な小数点付数を扱うものとします．

負の数も考慮して，小数点付数の例として温度データをクレンジングします．
ただし，温度に単位（℃）は付けないものとします．

## 練習用データ

クレンジングの練習用データとして，温度を記載したリスト配列を用意します．
これらのデータは小数点付数が記載されているつもりですが，全角になっていたり，前後に空白文字が入っている可能性があります．
これらの文字データを綺麗にして，最終的には<font color=green>float</font>関数によって，数値に変換します．

```Python
temperData = ['23.8','-1.5',' 30 ','0','12.5','',' 　','ー８','　‐５．５　','1.2.3','20']
```

In [1]:
temperData = ['23.8','-1.5',' 30 ','0','12.5','',' 　','ー８','　‐５．５　','1.2.3','20']

まずは，データ件数を確認します．

````Python
len(temperData)
```

In [2]:
len(temperData)

11

### 全角から半角への変換

データの値が全角文字になっている場合に備えて，全角の数字を半角に変換します．
そのために<font color=green>unicodedata</font>ライブラリーを利用します．
まず，ライブラリーを搬入します．

```Python
import unicodedata
```

In [3]:
import unicodedata

文字列内の全角文字を半角文字に変換するには，<font color=green>unicodedata.normalize()</font>関数を使用します．
ここでは，サンプルとして全角文字列を与えて，その半角文字を求めてみます．

```Python
sampleData = '１２３．０　ＡＢＣ,－‐―ー＋'
unicodedata.normalize('NFKC',sampleData)
```

In [4]:
sampleData = '１２３．０　ＡＢＣ,－‐―ー＋'
unicodedata.normalize('NFKC',sampleData)

'123.0 ABC,-‐―ー+'

このように，ほぼ全角文字を半角に変換できました．
これを温度データに適用します．
リスト内包表記にっよって対応します．

```Python
[unicodedata.normalize('NFKC',value) for value in temperData]
```

In [5]:
[unicodedata.normalize('NFKC',value) for value in temperData]

['23.8', '-1.5', ' 30 ', '0', '12.5', '', '  ', 'ー8', ' ‐5.5 ', '1.2.3', '20']

### マイナス記号に似た記号

全角のマイナス記号ですが似たような記号があり，上記の例でも分かるようにハイフンなどの全角文字はマイナス記号ではないので，半角のマイナス記号にはなりません．
しかし，全角でマイナス記号を記載する場合，それらの文字にしてしまう過ちが多くあります．
そこで，それらも半角のマイナス記号に変換することにします．

- －：全角のマイナス記号
- ー：カタカナの伸ばし記号
- ―：ハイフン

このような数値を表現するときに使用されるであろう文字と記号について，<font color=green>str.translate()</font>関数を使用して変換します．
そのための手続きとして，変換表を<font color=green>str.maketrans()</font>関数を使って用意します．

```Python
doubleToSingle = str.maketrans({'‐':'-','―':'-','ー':'-'})
[unicodedata.normalize('NFKC',value).translate(doubleToSingle) for value in temperData]
```

In [6]:
doubleToSingle = str.maketrans({'‐':'-','―':'-','ー':'-'})
[unicodedata.normalize('NFKC',value).translate(doubleToSingle) for value in temperData]

['23.8', '-1.5', ' 30 ', '0', '12.5', '', '  ', '-8', ' -5.5 ', '1.2.3', '20']

### 空白文字の削除

さらに，数字の前後にある空白文字を<font color=green>strip()</font>メソッドを使って削除します．
これらの処理をリスト内包表記で実行した結果を新しい変数に代入します．

```Python
sTemperData = [value.translate(doubleToSingle).strip() for value in temperData]
sTemperData
```

In [7]:
sTemperData = [unicodedata.normalize('NFKC',value).translate(doubleToSingle).strip() for value in temperData]
sTemperData

['23.8', '-1.5', '30', '0', '12.5', '', '', '-8', '-5.5', '1.2.3', '20']

このデータの10番目の値が'1.2.3'となっていることに注意してください．
このデータは数字と小数点から出来ていますが，小数点が2か所にあり小数点付数とは言えません．
このようなデータをfloat()関数で数値に変換しようとするとエラーになってしまいます．

そこで，数値化可能についての判断を行う必要があります．
整数の場合は isdecimal()メソッドで判断できましたが，小数点付数の場合は別な方法が求められます．

### 正規表現による小数点付数の判断



この判断を正規表現を使って実現します．
正規表現とは，データのパターンマッチングや置き換えを専門に行うツールです．
Pythonでは，正規表現はreライブラリーによって実現します．
そこで，reライブラリーをインポートします．

```Python
import re
```

In [8]:
import re

正規表現において，小数点付数と完全一致するパターンは次のようになります．

> <font face='courier new' color=blue>^&yen;s\*([+-]?(&yen;d+&yen;.?&yen;d\*|&yen;.&yen;d+))&yen;s\*&#036;</font>

このパターンを<font color=green>re.compile</font>関数によって実行モジュールに変換します．

```Python
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
```

In [9]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')

ここで生成した変数floatCheck は，パターンマッチングを行うモジュールです．
メンバーとして，<font color=green>fullmatch()</font>という完全一致のメソッドがあります．
このメソッドの引数に文字列を与えるとマッチング結果を返します．

```Python
floatCheck.fullmatch('-2.71')
```

In [10]:
floatCheck.fullmatch('-2.71')

<_sre.SRE_Match object; span=(0, 5), match='-2.71'>

また，小数点数付数ではないと判断された場合は，返り値は何もありません．

```Python
floatCheck.fullmatch('1.2.3')
```

In [11]:
floatCheck.fullmatch('1.2.3')

したがって，この関数の結果をif文にかければ小数点数付数であるか否かの判定ができます．
半角文字に変換した温度データのリスト配列の各要素についてfloatCheck()を行い，
小数点数付数ならば，<font color=green>float()</font>関数によって数値化し，
そうでなければ値を<font color=green>None</font>に置き換えます．

```Python
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]
```

In [12]:
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]

[23.8, -1.5, 30.0, 0.0, 12.5, None, None, -8.0, -5.5, None, 20.0]

### クレンジングプログラムのまとめ

小数点数付数のリスト配列に対するクレンジングをまとめると次のようになります．

```Python
import unicodedata
import re
doubleToSingle = str.maketrans({'‐':'-','―':'-','ー':'-'})
sTemperData = [unicodedata.normalize('NFKC',value).translate(doubleToSingle).strip() for value in temperData]
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]
```

In [13]:
# 事前に import unicodedata は実施していることとします
# 事前に import re は実施していることとします
# マイナス記号に似た全角文字の変換ルール
doubleToSingle = str.maketrans({'‐':'-','―':'-','ー':'-'})
# 全角を半角に変換し，前後の空白文字を削除する
sTemperData = [unicodedata.normalize('NFKC',value).translate(doubleToSingle).strip() for value in temperData]
# 正規表現によって小数点数付数か否かの確認を行い，数値化する
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]

[23.8, -1.5, 30.0, 0.0, 12.5, None, None, -8.0, -5.5, None, 20.0]

このクレンジング結果として，数値化できる値はfloat型に変換し，そうでない値はNoneに置き換えたリスト配列を生成することが出来ました．

*****