# カテゴリーデータのクレンジング

カテゴリーデータを綺麗にするクレンジングについて学習します．
初期データが文字列データで電子化されていることを前提とします．
具体的なデータを使ったクレンジングの例として，血液型データについて実施します．
まず，血液型データとして許される値を定義します．
まず，電子化データとして採用する値を次のように定めます

> {'A', 'B', 'O', 'AB', ''}

まず，全ての正しい値を半角のアルファベットとします．
正式な血液型をA型，B型，O型，AB型の4種類として，それぞれアルファベットのA,B,O,AB で表します．

もし，入力システムが制限なしに文字列の記入を可能としていたら，半角アルファベットのA,B,O,AB だけであることは期待できません．
そこで，血液型として認識できる文字列を半角アルファベットのA,B,O,AB に変換します．
また，未記入あるいは空白文字だけの場合はブランクとします．
そして，それ以外の文字列については後で検討するという前提でそのまま残します．
その他のデータを保持するため，Pythonにおける最終的なデータ型はstr型のままとし，列挙型にはしません．

それでは具体的な例で血液型のクレンジングを行っていきます．

### 練習用データ

血液型データのクレンジングのための簡単なデータを用意します．
このデータは練習用なのでデータ量が少なく，全ての値を目視で確認することができます．
しかし，一般的にはデータ量が膨大にな事が多く，全ての値を目視で確認することは困難となります．
そこで，データ量が多いという前提でデータクレンジングの方法を説明します．

ここでは次のデータを用意します．

```Python
bloodData =['A','O','B','AB','Z','AA','AO','Ｂ',' B ','　ＡＢ　','Ｏ型','不明','',' ','a','o','b','ab']
```

In [1]:
bloodData =['A','O','B','AB','Z','AA','AO','Ｂ',' B ','　ＡＢ　','Ｏ型','不明','',' ','a','o','b','ab']

このデータは文字列のリスト配列になっています．
ここでは，これを初期状態としてクレンジングを進めます．  
このデータの内容は一目瞭然ですが，通常はデータ量が多くて全てを眺めることが出来ないことが想定されます．

まず，最初にデータの件数を調べます．
これは<font color=green>len()</font>関数で求まります．

```Python
len(bloodData)
```

In [2]:
len(bloodData)

18

データの中身を少しでも目視で確認することは，データに対する洞察として重要です．
そこで，この血液型データの中身を覗いてみます．

このデータはPythonの標準的なリスト配列になっています．
リスト配列の参照方法ですが，変数名の後ろに角括弧でインデックスの番号を記載します．
そして，配列の最初のインデックスはゼロから始まります．
したがって，最初の値を見るには次のようにします．

```Python
bloodData[0]
```

In [3]:
bloodData[0]

'A'

また，配列の最後尾の要素を参照する場合は，インデックスに-1を指定します．

```Python
bloodData[-1]
```

In [4]:
bloodData[-1]

'ab'

一つの値だけではなく，連続する幾つもの値を参照する場合は，変数名の後に角括弧の中に最初のインデックスと最後のインデックスの次の値をコロンを挟んで記載します．
例えば，先頭から3個目までの配列の値は次のようにします．

```Python
bloodData[0:3]
```

また，このインデックスの記載において，先頭のゼロを省略することができます．
次のように記述しても同じ結果を得ることができます．

```Python
bloodData[:3]
```

In [5]:
bloodData[:3]

['A', 'O', 'B']

また，データの最後尾から数個の要素を参照する場合は，負のインデックスを記載します．
最後の3個の要素を参照する場合は，bloodData[-3:-1] としますが，この記述において-1を省略することができます．

```Python
bloodData[-3:]
```

In [6]:
bloodData[-3:]

['o', 'b', 'ab']

### 記載されている値の集合

オリジナルの血液型データに記載されている値の集合は<font color=green>set()</font>関数によって一覧のリスト配列にすることができます．

```Python
set(bloodData)
```

In [7]:
set(bloodData)

{'',
 ' ',
 ' B ',
 'A',
 'AA',
 'AB',
 'AO',
 'B',
 'O',
 'Z',
 'a',
 'ab',
 'b',
 'o',
 '\u3000ＡＢ\u3000',
 '不明',
 'Ｂ',
 'Ｏ型'}

血液型データが理想的な表現になっているならば，それらの重複を除いた値は，{'A', 'B', 'O', 'AB', '' } の5種類になるはずです．
set()関数の実行結果から，値の重複を除いた個数が想定以上になっています．
したがって，これらの値を適正に修正する必要が認められます．

### 小文字から大文字への統一

この血液型データの値を見ると，大文字のA,B,O,AB の他に小文字のa,b,o,ab も存在しているようです．
そこで，それらを全て大文字に統一します．
文字データを小文字から大文字に変換するには<font color=green>upper()</font>メソッドを使用します．
次の命令文では，小文字の english を大文字の ENGLISH に変換します．

```Python
foo = 'english'
foo.upper()
```

In [8]:
foo = 'english'
foo.upper()

'ENGLISH'

この大文字への変換をリスト配列の全ての要素に適用するには，次のようにリスト内包表記で処理を行います．

```Python
[value.upper() for value in bloodData]
```

In [9]:
[value.upper() for value in bloodData]

['A',
 'O',
 'B',
 'AB',
 'Z',
 'AA',
 'AO',
 'Ｂ',
 ' B ',
 '\u3000ＡＢ\u3000',
 'Ｏ型',
 '不明',
 '',
 ' ',
 'A',
 'O',
 'B',
 'AB']

### 空白文字の削除

血液型データの前後に余計な空白文字が付いている可能性があります．
これらの空白文字はトラブルの原因にもなりますので，削除します．
文字列の前後に付く空白文字を削除するには<font color=green>strip()</font>メソッドを使用します．
次の例ではABの前後に付いている複数の空白文字を消しています．

```Python
foo = ' AB '
foo.strip()
```

In [10]:
foo = ' AB '
foo.strip()

'AB'

なお，strip()メソッドは全角の空白文字にも対応しています．

リスト配列に対して，前後の空白文字を削除するには次のようにリスト内包表現で処理を行います．

```Python

```

In [11]:
[value.strip() for value in bloodData]

['A',
 'O',
 'B',
 'AB',
 'Z',
 'AA',
 'AO',
 'Ｂ',
 'B',
 'ＡＢ',
 'Ｏ型',
 '不明',
 '',
 '',
 'a',
 'o',
 'b',
 'ab']

### 全角を半角に統一

血液型データの値を全角文字で記載されている場合，この値を半角文字に直す必要があります．
例えば，'Ａ'は'A'に矯正します．
この処理を実施する方法は色々ありますが，ここでは分かりやすい方法を紹介します．

この対応は<font color=green>unicodedata</font>ライブラリーの<font color=green>unicodedata.normalize()</font>関数を利用する方法が明快です．
そのためにunicodedataライブラリーを搬入します．

```Python
import unicodedata
```

In [12]:
import unicodedata

まず，normalize()関数の使い方を確認します．
この関数は２つの引数を持っています．２番目の引数に変換したい文字列を代入します．
第１引数は，変換の規格を指定するもので，私たちは固定で 'NFKC' と記載します．
それでは，全角文字の「ＡＢＣＤ０１２３」を半角に変換します．

```Python
unicodedata.normalize('NFKC','ＡＢＣＤ０１２３')
```

In [13]:
unicodedata.normalize('NFKC','ＡＢＣＤ０１２３')

'ABCD0123'

血液型データについて，リスト内包表記を用いて，その中でunicodedata.normalize()関数を適用します．

```Python
[unicodedata.normalize('NFKC',value) for value in bloodData]
```

In [14]:
[unicodedata.normalize('NFKC',value) for value in bloodData]

['A',
 'O',
 'B',
 'AB',
 'Z',
 'AA',
 'AO',
 'B',
 ' B ',
 ' AB ',
 'O型',
 '不明',
 '',
 ' ',
 'a',
 'o',
 'b',
 'ab']

### 全角半角変換，空白文字削除，小文字大文字変換の一括化

ここまで3種類のクレンジングについて学習しましたが，これらの処理を個別に行うのではなく一括で実施すれば効率化が図れます．
それそれに処理が，リスト内包表記になっているので，これを一つにまとめます．

```Python
spellCorrectedBloodData = [unicodedata.normalize('NFKC',value).strip().upper() for value in bloodData]
```

In [15]:
spellCorrectedBloodData = [unicodedata.normalize('NFKC',value).strip().upper() for value in bloodData]

この結果として，これらのスペル修正を施した結果を変数 spellCorrectedBloodData に保存しました．
このデータでクレンジングが十分なのか確認します．

### 想定外値の確認

血液型データとして，A,B,O,ABおよび空白文字以外の想定外の値の存在について確認します．

```Python
[value for value in spellCorrectedBloodData if value not in ['A','B','O','AB','']]
```

In [16]:
[value for value in spellCorrectedBloodData if value not in ['A','B','O','AB','']]

['Z', 'AA', 'AO', 'O型', '不明']

このように想定外の値が5個ありました．
それぞれの値について評価します．

#### AA，AO，BB，BO
想定外の値にある'AA'および'AO'に注目します．
これらはA型の詳細です．したがって，これらをA型と見なすのが自然です．
ここには出現しませんでしたが，同様に'BB','BO'はB型と見なすことにします．

#### A型，B型，O型，AB型
想定外の値にある'O型'についても，O型そのものを指しています．
このような'A型'，'B型'，'O型'，'AB型'も正しい値として認識するようにします．

### 血液型の表記の統一

以上の検査で判明した'AO'や'A型'を統一して'A'と表すようにデータを変更します．
そのためには，辞書型データを活用して，値のマッピングを行います．
このとき，想定外の値にあった'Z'と'不明'についてはそのまま残すこととします．

```Python
bloodType = {'A型':'A','B型':'B','O型':'O','AB型':'AB','AA':'A','AO':'A','BB':'B','BO':'B'}
cleansedBloodData = [bloodType[value] if (value in bloodType.keys()) else value for value in spellCorrectedBloodData]
```

In [17]:
bloodType = {'A型':'A','B型':'B','O型':'O','AB型':'AB','AA':'A','AO':'A','BB':'B','BO':'B'}
cleansedBloodData = [bloodType[value] if (value in bloodType.keys()) else value for value in spellCorrectedBloodData]

これでクレンジング処理が完了し，その結果を変数cleansedBloodDataに代入しました．
念のために，想定外の値を表示してみます．
ここでは，血液型の表記統一のための辞書型データのキーを利用します．

```Python
[value for value in cleansedBloodData if value not in bloodType.keys()]
```

In [18]:
[value for value in cleansedBloodData if value not in ['A','B','O','AB','']]

['Z', '不明']

最後に，クレンジング済みのデータがどのような値で構成されているかを確認しましょう．
取りうる値が限定されているので，データの値の重複を除いて要素を列記すれば確認できます．
これは<font color=green>set()</font>関数によって実現できます．

```Python
set(cleansedBloodData)
```

In [19]:
set(cleansedBloodData)

{'', 'A', 'AB', 'B', 'O', 'Z', '不明'}

### クレンジング処理プログラムのまとめ

これまで，一歩一歩進めてきたクレンジング処理をまとめると，次のプログラムとなります．

```Python
import unicodedata
spellCorrectedBloodData = [unicodedata.normalize('NFKC',value).strip().upper() for value in bloodData]
bloodType = {'A型':'A','B型':'B','O型':'O','AB型':'AB','AA':'A','AO':'A','BB':'B','BO':'B'}
cleansedBloodData = [bloodType[value] if (value in bloodType.keys()) else value for value in spellCorrectedBloodData]
set(cleansedBloodData)
```

In [20]:
# 事前に import unicodedata は実施していることとします
# 全角を半角に変換し，前後の空白文字を削除し，小文字を大文字に変換
spellCorrectedBloodData = [unicodedata.normalize('NFKC',value).strip().upper() for value in bloodData]
# 血液型の表記を統一する対応表の定義
bloodType = {'A型':'A','B型':'B','O型':'O','AB型':'AB','AA':'A','AO':'A','BB':'B','BO':'B'}
# 血液型の表記の統一
cleansedBloodData = [bloodType[value] if (value in bloodType.keys()) else value for value in spellCorrectedBloodData]
# 出現する値の重複を除いた集合の表示
set(cleansedBloodData)

{'', 'A', 'AB', 'B', 'O', 'Z', '不明'}

最後のset()関数によって，この血液型データには，想定範囲内のデータである {'', 'A', 'AB', 'B', 'O'} および想定外のデータ {'Z', '不明'} が存在する事が分かります．
この想定外のデータについて一旦はこのまま残しますが，後々の分析では'invalid'などの値に統一したり，あるいは空白文字と一緒にするなどの変更も考えられます．

*****