# 変量weightのクレンジング

変量weightについてクレンジングを実施します．
これは変量heightの場合と殆ど同じ処理となります．

先ず，前提として次のプログラムを実施します．

- ライブラリーの搬入
- CSVファイルを読み込んでデータフレームを生成
- 全角半角変換ツールの準備
- 小数点付数を判別する正規表現のコンパイル


In [1]:
import re
import unicodedata
import pandas as pd

In [2]:
df = pd.read_csv('original_body_data.csv')
df.set_index('person',inplace=True)

In [3]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')

*****
## データフレームの基礎情報

まずはデータフレームの行数を確認します．
そして，データフレームの一部を表示します．

```Python
len(df)
df.head(5)
```

In [4]:
len(df)

200

In [5]:
df.head(5)

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p001,157.7,56.8,20.0,Male,B
p002,169.7,58.1,53.0,Female,A
p003,160.6,96.8,22.0,Male,O
p004,'155.8',,,Female,O
p005,115.5,22.5,7.0,Male,


*****
## 変量weightの概要

変量の概要は<font color=green>describe()</font>メソッドを発行することによって得ることができます．

```Python
df.weight.describe()
```

In [6]:
df.weight.describe()

count     199
unique    175
top        77
freq        3
Name: weight, dtype: object

describe()メソッドの出力の最後の行に注目します．

> 
```
Name: weight, dtype: object
```

これは，df.weightの各データのデータ型がobject型であることを示しています．
各要素のデータ型を調べるために，リスト内包表記とtype()関数を組み合わせます．そして，その結果をset()関数で重複を除いたデータ型の取得します．

```Python
set([type(x) for x in df.weight])
```

In [7]:
set([type(x) for x in df.weight])

{str, float}

df.weightの各要素はstr型とfloat型が混在する事が分かりました．

## float型のデータは何か

文字型は数値への変換が必要なのでクレンジングを行ってから数値化しますが，
元々float型になっているデータについては変換は不要となります．

しかし元々float型のデータについては，その値を確認しておく必要があります．
そこで元々float型のデータだけをリスト内包表記を用いてい抜き出します．

```Python
[x for x in df.weight if type(x)==float]
```

In [8]:
[x for x in df.weight if type(x)==float]

[nan]

nanは欠損値です．
すなわち，このデータでfloat型のデータは欠損値nanだったことが分かりました．

この後のクレンジング処理では欠損値は何もせずに残すこととします．

## 数値化の可能性の確認

df.weightの各要素である文字列が小数点付数として数値化可能であるかを確認する必要があります．

もし確認なしで数値への変換を<font color=green>float()</font>関数で実施したらどうなるかテストします．
まずは，df.weightの最初のデータだけを数値化してみます

```Python
float(df.weight[0])
```

In [9]:
float(df.weight[0])

56.8

このように数値化が成功しました．
そこで，リスト内包表記を使って，df.weightのデータ全ての数値化を試みます．
エラーが起こることを想定して実施するので，この処理を<font color=green>try:</font>ブロックで実施してエラーが発生した場合は例外処理でエラー内容を表示します．

```Python
try:
    [float(x) for x in df.weight if type(x)==str]
except ValueError as err:
    print(err)
```

In [10]:
try:
    [float(x) for x in df.weight if type(x)==str]
except ValueError as err:
    print(err)

could not convert string to float: 


途中で数値化できない文字列がありエラーが発生しました．
ここで発生したエラーは，数値化できない空白文字をfloat()関数に渡したために起こったものです．
プログラムの処理はここで中断して例外処理になり，エラーメッセージを出力しました．

他にも数値化できないデータがあるかもしれませんので，<font color=green>floatCheck.match()</font>関数によって，数値化できないデータをリストアップします．

```Python
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(x)]
```

In [11]:
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(x)]

[' ', "' 67.7 '", "'７４．８'"]

この結果で，クレンジング対象となるデータが判明しました．
これらのデータを綺麗にするように処理を進めていきます．
この数値化できないデータを観察すると，次の事が課題であると思われます．

- 値が空白文字だけ
- 文字列がシングルクォーテーション「'」で囲われている
- 数字の前後に空白文字がある
- 全角で小数点付数が記載されている

これらを解消するようにクレンジングを実施していきます．

## シングルクォーテーションの削除

文字列がシングルクォーテーションで囲われているので，これを<font color=green>strip()</font>メソッドで削除します．
この操作をdf.weightの全てのデータについて適用します．
その結果として，数値化できないデータを表示します．

```Python
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(x.strip("'"))]
```

In [12]:
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(x.strip("'"))]

[' ', "'７４．８'"]

シングルクォーテーションを除去した後でも数値化できないデータは「' ', "'７４．８'"」となりました．

## 全角から半角への変換

データ「'７４．８'」について，シングルクォーテーションを除去した後に全角文字を半角に変換します．

```Python
"'７４．８'".strip("'").translate(doubleToSingle)
```

In [13]:
unicodedata.normalize('NFKC',"'７４．８'".strip("'"))

'74.8'

この操作をdf.weightの全データに適用し，その結果として数値化できないデータを表示します．

```Python
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(x.strip("'").translate(doubleToSingle))]
```

In [14]:
[x for x in df.weight if type(x)==str and not floatCheck.fullmatch(unicodedata.normalize('NFKC',x.strip("'"))) ]

[' ']

これで，df.weightの値で空白文字以外は全て数値化可能になります．
df.weight[3]を例にとって，この値に対してクレンジングして数値化するプロセスを単純なコードで書くと次のようになります．
このdf.weight[3]の値は空白文字になっています．

```Python
cleansedValue = unicodedata.normalize('NFKC',df.weight[3].strip("'"))
if floatCheck.fullmatch(cleansedValue):
    floatValue = float(cleansedValue)
else:
    floatValue = None
print(floatValue)
```

In [15]:
cleansedValue = unicodedata.normalize('NFKC',df.weight[3].strip("'"))
if floatCheck.fullmatch(cleansedValue):
    floatValue = float(cleansedValue)
else:
    floatValue = None
print(floatValue)

None


これは処理を分かりやすく書いたものです．
実際は，もっとスマートなプログラムになります．

## データフレームでの処理

ここまでdf.weightを取り出してリスト配列としてクレンジング処理を行ってきましたが，実際にはデータフレームの更新作業となります．
よって，データフレーム内でのクレンジングを行うプログラムを作成します．
この処理は次のステップで行います．

- シングルクォーテーションを除去し全角文字を半角に変換したデータを新たにcleansedWeightという列に格納する．
- cleansedWeightの値を数値化したデータを新たにweight2という列に格納する．
- 列cleansedWeightを削除する．

この処理では文字列を綺麗にした中間データを作成することによって，プログラムが複雑になることを避けています．

### 文字列の整形

まず，df.weightの値を文字列として綺麗な形に整えます．
その結果は新しい列cleansedWeightとしてデータフレームに追加します．

```Python
df['cleansedWeight'] = [unicodedata.normalize('NFKC',x.strip("'")) if type(x)==str else x for x in df.weight]
```

In [16]:
df['cleansedWeight'] = [unicodedata.normalize('NFKC',x.strip("'")) if type(x)==str else x for x in df.weight]

### 文字列の数値化

次にdf.cleansedWeightの値を数値化します．
ただし，数値化できない値については<font color=green>None</font>で置き換えます．

```Python
df['weight2'] = [float(x) if type(x)==str and floatCheck.fullmatch(x) else None for x in df.cleansedWeight]
```

In [17]:
df['weight2'] = [float(x) if type(x)==str and floatCheck.fullmatch(x) else None for x in df.cleansedWeight]

### 不要な中間データの削除

使用済みとなったdf.cleansedWeight列を削除します．
列の削除には，drop()メソッドとdel命令の2通りの方法があります．
ここでは<font color=green>drop()</font>メソッドによる方法で実施します．

```Python
df.drop('cleansedWeight',axis=1,inplace=True)
```

In [18]:
df.drop('cleansedWeight',axis=1,inplace=True)

### クレンジング済み変量height2の確認

これで体重データについてのクレンジングが終了したので，その結果を<font color=green>describe()</font>メソッドで確認します．

```Python
df.weight2.describe()
```

In [19]:
df.weight2.describe()

count    198.000000
mean      67.364646
std       17.181526
min        9.900000
25%       55.650000
50%       66.800000
75%       77.650000
max      106.500000
Name: weight2, dtype: float64

この出力により，198個の全てのデータが小数点付数になっていることが分かります．
行数は200行でしたので，残り2つのデータは数値として値が入っていない欠損値になっています．

念のためにデータフレームの先頭の数行を表示します．
新たにweight2という列が追加されていることが確認できます．
そして，df.weight2['p004']の値がNaNになっています．
このNaNは，Not a Numberの略で数値が入っていないことを明示しています．

In [20]:
df.head(5)

Unnamed: 0_level_0,height,weight,age,gender,blood,weight2
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
p001,157.7,56.8,20.0,Male,B,56.8
p002,169.7,58.1,53.0,Female,A,58.1
p003,160.6,96.8,22.0,Male,O,96.8
p004,'155.8',,,Female,O,
p005,115.5,22.5,7.0,Male,,22.5


df.weight2に数値が入っていないデータは2件です．
これらを抽出するには isnull()メソッドを利用します．

```Python
df[df.weight2.isnull()]
```

In [21]:
df[df.weight2.isnull()]

Unnamed: 0_level_0,height,weight,age,gender,blood,weight2
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
p004,'155.8',,,Female,O,
p108,162.4,,,Female,AB,


これで，体重のデータについてのクレンジングは完了です．

*****