# 整数データのクレンジング

整数値データを綺麗にするクレンジングについて学習します．
電子化されたオリジナルデータのデータ型が数値型になっている場合は，その時点である程度クリーンなデータであると言えます．
オリジナルデータが文字列型の場合，数値化することを前提にクレンジングを行う必要があります．
具体的な整数データの例として，年齢データについてクレンジングを行っていきます．

年齢のデータは正の整数と考えて良いでしょう．
最小値が0歳で最大値は100歳前後になるでしょう．
前提として数字は洋数字とし，漢数字での記載は無効とします．
漢数字の洋数字への変換は複雑で込み入っていますので，洋数字だけに限定します．

## 練習用データ

クレンジングの練習用に年齢を記載した簡単なデータをPythonのリスト配列で用意します．
これらのデータの内容としては，年齢を文字で記載することを想定しています．

年齢の場合，'17歳'や'17才'のように数字の後に漢字を付けて書くことがありますで，これも考慮することにします．

```Python
ageData = ['27','18','33','42','55歳','167','５０',' 22 ','６　','２９才','二十五','秘密','08']
```

In [1]:
ageData = ['27','18','33','42','55歳','167','５０',' 22 ','６　','２９才','二十五','秘密','08']

まず，データの件数を確認します．
これは<font color=green>len()</font>関数で求まります．

```Python
len(ageData)
```

In [2]:
len(ageData)

13

## 文字列から整数への変換

Pythonには，文字列から整数へ変換する関数として<font color=green>int()</font>があります．
この変換を行う前に，数値変換の可能性を確認する必要があります．
漢数字は除外する前提なので，数値化の可能性をチェックするには文字列の<font color=green>isdecimal()</font>メソッドを使用します．
この文字列が数値化かのうならばTrueが返ってきて，ダメならばFalseが返ってきます．
まず例として，変数fooに文字列で'10'が代入されている場合を確認します．

```Python
foo = '10'
foo.isdecimal()
```

In [3]:
foo = '10'
foo.isdecimal()

True

このようにisdecimal()メソッドの結果としてTrueが返ってきましたので，この変数を数値化することができます．
対象は整数ですのでint()関数で変換します．

```Python
int(foo)
```

In [4]:
int(foo)

10

### 全角の洋数字

さて，同じ洋数字でも半角と全角の両方の可能性があります．
今度は，値が'１０'と全角で記載されている場合について確認します．

```Python
foo = '２５'
foo.isdecimal()
```

In [5]:
foo = '２５'
foo.isdecimal()

True

ただし，全角の数字の後に空白文字がある場合は，Falseとなり数値と見なされません．

In [6]:
foo = '２５ '
foo.isdecimal()

False

したがって，isdecimal()による判定のためには空白文字を削除する必要があります．
しかし，int()関数では全角の空白文字があっても適切に変換を行ってくれます．
このような，仕様の差異には要注意です．

In [7]:
int(foo)

25

### 前後の空白文字

数字の前後に空白文字が入っている場合の影響について確認します．
次の例は半角の数字の前後に半角のブランクが入っているケースです．
この変数に対して，そのままint()関数で変化を行います．

```Python
foo = ' 7 '
int(foo)
```

In [8]:
foo = ' 7 '
int(foo)

7

このように，前後の空白についてはint()関数が削除して変換を行ってくれます．
さらに，空白文字が全角であっても同様に処理してくれます．

しかし，整数への変換を行う前に文字列が数値であるかの判定が必要で，そこでisdecimal()メソッドの返り値がFalseとなってしまいます．
よって，前後の空白の削除処理はisdecimal()メソッドより前に必要となります．

```Python
foo ='　８　'
foo.strip()
int(foo)
```

In [9]:
foo ='　８　'
foo.strip()
int(foo)

8

### 単位（歳，才）の削除

さて，年齢の値として'４２歳'のように単位が付いている場合，この'歳'や'才'を削除する必要があります．
次の例では，数字の後に'歳'あるいは'才'が付いていたら，これをブランクに置き換えます．
この処理は，文字列における<font color=green>replace()</font>メソッドを２回使用することで実現します．

```Python
foo = '４２歳　'
foo.replace('歳','').replace('才','')
```

In [10]:
foo = '４２歳　'
foo.replace('歳','').replace('才','')

'４２\u3000'

### 空白文字の対応

空白文字を代入した変数について数値化の確認を行うと，次に示すようにFalseになります．

```Python
foo = ''
foo.isdecimal()
```

In [14]:
foo = ''
foo.isdecimal()

False

そこで空白文字をどのように処理するかを決めなければなりません．

元々のデータを入力するシステムが数値化まで行ってくれる場合にも，ブランクについては注意が必要です．
すなわち，ブランクに対してデフォルト設定されていることがあります．
よくあるデフォルトとしては，次の例があります．
- 0
- -1
- 9999のような大きな数値

このようにデフォルトが決まっている場合は，その値が入力値であるかデフォルト値であるかの見極めが必要です．

このデータについては，空白文字をPythonの<font color=green>None</font>値に置き換えます．
None値にする理由は，その後の統計処理で便利なことがあるからです．
ただし，データフレームにおける対応では別なNaNという値にすることもあります．

### クレンジング処理プログラムのまとめ

それでは，リスト配列のageDataに対して，これまで決めた処理を適用します．  
プログラムは，リスト内包表記で対応しますが，空白と'歳','才'を除去したところで一旦中間データとして，ageTempに保管します．  
その後，ageTempの各要素について，isdecimal()メソッドで数値化の判断をして，数値化できるものについてはint()関数で整数に変換し，そうでないものについてはNoneを割り当てます．

```Pyython
ageTemp = [value.strip().replace('歳','').replace('才','') for value in ageData]
[int(value) if value.isdecimal() else None for value in ageTemp]
```

In [11]:
ageTemp = [value.strip().replace('歳','').replace('才','') for value in ageData]
[int(value) if value.isdecimal() else None for value in ageTemp]

[27, 18, 33, 42, 55, 167, 50, 22, 6, 29, None, None, 8]

確認のために，数値化できなかった文字列を確認します．
この例題では件数が少ないので問題ありませんが，<font color=green>set()</font>関数で重複を除いたリストにします．

```Python
set([value for value in ageTemp if not value.isdecimal()])
```

In [15]:
set([value for value in ageTemp if not value.isdecimal()])

{'二十五', '秘密'}

漢数字の'二十五'については'25'と変換したいところですが処理が複雑になるため，ここではその他のデータとして扱います．
*****