# 小数点付数のクレンジング

小数点付数について，文字列で記載されているデータを数値化するためのクレンジングについて学習します．
ただし，指数部付きの浮動小数点数ではなく単純な小数点付数を扱うものとします．

負の数も考慮して，小数点付数の例として温度データをクレンジングします．
ただし，温度に単位（℃）は付けないものとします．

## ライブラリーの搬入

ここでは，unicodedataライブラリーとreライブラリーを使用するので，それらを搬入します．
なお，unicodedataライブラリーによってユニコードに関する関数が利用できます．

```Python
import unicodedata
import re
```

In [1]:
import unicodedata
import re

## 練習用データ

クレンジングの練習用データとして，温度を記載したリスト配列を用意します．
これらのデータは小数点付数が記載されているつもりですが，全角になっていたり，前後に空白文字が入っている可能性があります．
これらの文字データを綺麗にして，最終的には<font color=green>float</font>関数によって，数値に変換します．

```Python
temperData = ['23.8','-1.5',' 30 ','0','12.5','',' 　','ー８','　‐５．５　','1.2.3','20']
```

In [2]:
temperData = ['23.8','-1.5',' 30 ','0','12.5','',' 　','ー８','　‐５．５　','1.2.3','20']

### 全角から半角への変換

文字列内の全角文字を半角文字に変換するには，<font color=green>unicodedata.normalize()</font>関数を使用します．
ここでは，サンプルとして全角文字列を与えて，その半角文字を求めてみます．

```Python
sampleData = '１２３．０　ＡＢＣ,－‐―ー＋'
unicodedata.normalize('NFKC',sampleData)
```

In [3]:
sampleData = '１２３．０　ＡＢＣ,－‐―ー＋'
unicodedata.normalize('NFKC',sampleData)

'123.0 ABC,-‐―ー+'

このように，数字とアルファベットの全角文字を半角に変換できました．
ただし，マイナス記号に似た記号については半角化されていません．

この全角半角変換を温度データに適用します．
リスト内包表記にっよって対応します．

```Python
[unicodedata.normalize('NFKC',value) for value in temperData]
```

In [4]:
[unicodedata.normalize('NFKC',value) for value in temperData]

['23.8', '-1.5', ' 30 ', '0', '12.5', '', '  ', 'ー8', ' ‐5.5 ', '1.2.3', '20']

### マイナス記号に似た記号

マイナス記号に似た記号をハイフンマイナス記号に統一します．
それらの記号について，<font color=green>re.sub()</font>関数を使用して変換します．  
そのための準備として，マイナス記号に似た記号を特定する正規表現を<font color='green'>re.compile()</font>関数でコンパイルします．

```Python
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
[minusSign.sub('-',unicodedata.normalize('NFKC',value)) for value in temperData]
```

In [5]:
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
[minusSign.sub('-',unicodedata.normalize('NFKC',value)) for value in temperData]

['23.8', '-1.5', ' 30 ', '0', '12.5', '', '  ', '-8', ' -5.5 ', '1.2.3', '20']

### 空白文字の削除

さらに，数字の前後にある空白文字を<font color=green>strip()</font>メソッドを使って削除します．
これらの処理をリスト内包表記で実行した結果を新しい変数に代入します．

```Python
sTemperData = [minusSign.sub('-',unicodedata.normalize('NFKC',value)).strip() for value in temperData]
sTemperData
```

In [6]:
sTemperData = [minusSign.sub('-',unicodedata.normalize('NFKC',value)).strip() for value in temperData]
sTemperData

['23.8', '-1.5', '30', '0', '12.5', '', '', '-8', '-5.5', '1.2.3', '20']

このデータの10番目の値が'1.2.3'となっていることに注意してください．
このデータは数字と小数点から出来ていますが，小数点が2か所にあり小数点付数とは言えません．
このようなデータをfloat()関数で数値に変換しようとするとエラーになってしまいます．

そこで，数値化可能についての判断を行う必要があります．
整数の場合は isdecimal()メソッドで判断できましたが，小数点付数の場合は別な方法が求められます．

### 正規表現による小数点付数の判断

正規表現において，小数点付数と完全一致するパターンは次のようになります．

> <font face='courier new' color=blue>^&yen;s\*([+-]?(&yen;d+&yen;.?&yen;d\*|&yen;.&yen;d+))&yen;s\*&#036;</font>

このパターンを<font color=green>re.compile()</font>関数によって実行モジュールに変換します．

```Python
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
```

In [7]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')

ここで生成した変数floatCheck は，パターンマッチングを行うモジュールです．
メンバーとして，<font color=green>fullmatch()</font>という完全一致のメソッドがあります．
このメソッドの引数に文字列を与えるとマッチング結果を返します．

```Python
floatCheck.fullmatch('-2.71')
```

In [8]:
floatCheck.fullmatch('-2.71')

<re.Match object; span=(0, 5), match='-2.71'>

また，小数点数付数ではないと判断された場合は，返り値は何もありません．

```Python
floatCheck.fullmatch('1.2.3')
```

In [9]:
floatCheck.fullmatch('1.2.3')

したがって，この関数の結果をif文にかければ小数点数付数であるか否かの判定ができます．
半角文字に変換した温度データのリスト配列の各要素についてfloatCheck()を行い，
小数点数付数ならば，<font color=green>float()</font>関数によって数値化し，
そうでなければ値を<font color=green>None</font>に置き換えます．

```Python
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]
```

In [10]:
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]

[23.8, -1.5, 30.0, 0.0, 12.5, None, None, -8.0, -5.5, None, 20.0]

ここで確認のために小数点付数として数値化できなかったデータを列記します．

```Python
[value for value in sTemperData if not floatCheck.fullmatch(value)]
```

In [11]:
[value for value in sTemperData if not floatCheck.fullmatch(value)]

['', '', '1.2.3']

このように数値化できないデータは，空白と'1.2.3'であることが分かります．

### クレンジングプログラムのまとめ

小数点数付数のリスト配列に対するクレンジングをまとめると次のようになります．

```Python
import unicodedata
import re
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
sTemperData = [minusSign.sub('-',unicodedata.normalize('NFKC',value)).strip() for value in temperData]
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]
```

In [12]:
# import unicodedata
# import re
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
sTemperData = [minusSign.sub('-',unicodedata.normalize('NFKC',value)).strip() for value in temperData]
[float(value) if floatCheck.fullmatch(value) else None for value in sTemperData]

[23.8, -1.5, 30.0, 0.0, 12.5, None, None, -8.0, -5.5, None, 20.0]

このクレンジング結果として，数値化できる値はfloat型に変換し，そうでない値はNoneに置き換えたリスト配列を生成することが出来ました．

*****