# クレンジングの準備

これから各変数のクレンジングを行うための準備を行います．
まず，次の操作については事前に説明してありますので，まとめて実行します．

- ライブラリーの搬入
- CSVからのデータを取り込んでデータフレーム生成


In [1]:
import re
import unicodedata
import pandas as pd

In [2]:
df = pd.read_csv('original_body_data.csv')
df.set_index('person',inplace=True)

*****
ここでは，クレンジングを実施するために次のデータを準備します．

- 全角を半角に変換するための対応表
- マイナス記号に似た記号の特定
- 小数点付数を判別するための正規表現の実行モジュール


## 全角から半角への変換ツール

文字列の中の文字を変換するために<font color=green>unicodedata.normalize()</font>関数を利用します．
したがって，unicodedataライブラリーを搬入したことによって，準備は完了しています．

確認のために，全角の文字列に対して全角から半角への変換を行ってみます．

```Python
unicodedata.normalize('NFKC','ａｂｃｄＸＹＺ１２．３　＋７')
```

In [3]:
unicodedata.normalize('NFKC','ａｂｃｄＸＹＺ１２．３　＋７')

'abcdXYZ12.3 +7'

## マイナス記号の特定

マイナス記号に似た記号の統一については，正規表現の<font color=green>re.sub()</font>関数によって対応します．
その前提として，マイナス記号に似た記号を特定する正規表現パターンを<font color=green>re.compile()</font>関数によって生成します．

```Python
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')
```

In [4]:
minusSign = re.compile(r'[－−‐‒–—―ーｰ]')

動作確認のために簡単な文字列でテストします．

```Python
minusSign.sub('-','Minus numbers:－1,−2,‐3,‒4,–5,—6,―7,ー8,ｰ9.')
```

In [5]:
minusSign.sub('-','Minus numbers:－1,−2,‐3,‒4,–5,—6,―7,ー8,ｰ9.')

'Minus numbers:-1,-2,-3,-4,-5,-6,-7,-8,-9.'

## 小数点付数を判別する正規表現

文字列を小数点数に変換する前に判定のために使用する正規表現の実行ツールを用意します．

```Python
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')
```

In [6]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')

これも動作確認のためにテストを行います．
まず数値化可能な文字列の場合です．

```Python
floatCheck.match(' -3.14 ')
```

In [7]:
floatCheck.match(' -3.14 ')

<re.Match object; span=(0, 7), match=' -3.14 '>

数値化できる場合は，マッチオブジェクトが返ってきます．
このオブジェクトをif文に渡すとTrueとして扱われます．

そして，数値化できない場合のテストです．

```Python
floatCheck.match('.0.0.1')
```

In [8]:
floatCheck.match('.0.0.1')

このように数値化できない場合は返り値がありません．
この結果をif文にかけるとFalseと判定します．

以上でクレンジング前の用意が整いました．

*****