# クレンジングの統合

これまでは各変量のクレンジングを行ってきましたが，ここではそれらを統合したプロセスにします．

先ずは，事前準備です．

- ライブラリーの搬入
- CSVファイルからデータフレームの生成
- 正規表現パターンの準備

In [1]:
import re
import unicodedata
import pandas as pd

In [2]:
df = pd.read_csv('original_body_data.csv')
df.set_index('person',inplace=True)

In [3]:
floatCheck = re.compile(r'^\s*([+-]?(\d+\.?\d*|\.\d+))\s*$')

*****
## データフレームの概要確認

- <font face='courier new'>df.shape      #</font> 大きさの確認
- <font face='courier new'>df.index      #</font> インデックスの確認
- <font face='courier new'>df.columns    #</font> カラム名の確認
- <font face='courier new'>df.describe() #</font> 各変量の基本統計
- <font face='courier new'>df.head()     #</font> 先頭行の表示

In [4]:
df.shape

(200, 5)

In [5]:
df.index

Index(['p001', 'p002', 'p003', 'p004', 'p005', 'p006', 'p007', 'p008', 'p009',
       'p010',
       ...
       'p191', 'p192', 'p193', 'p194', 'p195', 'p196', 'p197', 'p198', 'p199',
       'p200'],
      dtype='object', name='person', length=200)

In [6]:
df.columns

Index(['height', 'weight', 'age', 'gender', 'blood'], dtype='object')

In [7]:
df.describe()

Unnamed: 0,height,weight,age,gender,blood
count,200.0,199,197,199,190
unique,160.0,175,68,7,13
top,157.3,77,23,Female,A
freq,4.0,3,7,101,67


In [8]:
df.head()

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p001,157.7,56.8,20.0,Male,B
p002,169.7,58.1,53.0,Female,A
p003,160.6,96.8,22.0,Male,O
p004,'155.8',,,Female,O
p005,115.5,22.5,7.0,Male,


*****
## 変量のクレンジング

変量のクレンジングについては，処理の可読性とメンテナンスの容易性を重視して各変量ごとにクレンジングを実施します．

しかし，変量の個数が多い場合は行のループを1回にして，その中で全ての変量についてクレンジングを行うようなプロセスに変更した方が効率的になります．
ただし，バグが発生するリスクも高くなるので注意が必要です．

また，これまでの変量のクレンジング例と異なる点として，クレンジング済みデータによってオリジナルデータを上書きしています．
ただし，オリジナルデータは検証のためにそのまま保持しますので，この結果は別のファイルとして保管します．

### height のクレンジング


In [9]:
df['cleansedHeight'] = [unicodedata.normalize('NFKC',x.strip("'")) for x in df.height]
df['height'] = [float(x) if floatCheck.fullmatch(x) else None for x in df.cleansedHeight]
df.drop('cleansedHeight',axis=1,inplace=True)

### weight のクレンジング


In [10]:
df['cleansedWeight'] = [unicodedata.normalize('NFKC',x.strip("'")) if type(x)==str else x for x in df.weight]
df['weight'] = [float(x) if type(x)==str and floatCheck.fullmatch(x) else None for x in df.cleansedWeight]
df.drop('cleansedWeight',axis=1,inplace=True)

### age のクレンジング


In [11]:
df['cleansedAge'] = [unicodedata.normalize('NFKC',x).strip("'").strip() if type(x)==str else x for x in df.age]
df['age'] = [int(x) if type(x)==str and x.isdecimal() else None for x in df.cleansedAge]
df.drop('cleansedAge',axis=1,inplace=True)

### gender のクレンジング


In [12]:
df['gender'] = [unicodedata.normalize('NFKC',x).strip().capitalize() if type(x)==str else x for x in df.gender]

### blood のクレンジング


In [13]:
df['blood'] = [unicodedata.normalize('NFKC',x).strip().upper() if type(x)==str else x for x in df.blood]

*****
## クレンジング結果の確認

クレンジング済みのデータは，まずカラム名を確認して，その全ての変量の概要を確認します．

- <font face='courier new'>df.columns</font>
- <font face='courier new'>df.describe()</font>



In [14]:
df.columns

Index(['height', 'weight', 'age', 'gender', 'blood'], dtype='object')

In [15]:
df.describe()

Unnamed: 0,height,weight,age
count,200.0,198.0,196.0
mean,169.1075,67.364646,40.066327
std,103.481227,17.181526,16.338744
min,77.3,9.9,1.0
25%,155.25,55.65,29.0
50%,162.35,66.8,39.5
75%,170.75,77.65,52.25
max,1609.0,106.5,79.0


この結果には変量 height, weight, age だけが表示されて，変量 gender, blood が表示されていません．
その理由は，前者が数値なのに対して後者がカテゴリー値のために表示項目が異なるためです．

よって，変量 gender, blood については個別に describe()メソッドを発行して情報を取得します．
さらに，カテゴリー値として出現している値を確認するために set()メソッドを発行します．

- <font face='courier new'>df.gender.describe()</font>
- <font face='courier new'>set(df.gender)</font>
- <font face='courier new'>df.blood.describe()</font>
- <font face='courier new'>set(df.blood)</font>

In [16]:
df.gender.describe()

count        199
unique         2
top       Female
freq         103
Name: gender, dtype: object

In [17]:
set(df.gender)

{'Female', 'Male', nan}

In [18]:
df.blood.describe()

count     190
unique      4
top         A
freq       71
Name: blood, dtype: object

In [19]:
set(df.blood)

{'A', 'AB', 'B', 'O', nan}

確認のために最後にデータフレームの最後尾を表示します．

In [20]:
df.tail()

Unnamed: 0_level_0,height,weight,age,gender,blood
person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
p196,169.4,81.9,71.0,Male,A
p197,174.9,73.5,72.0,Male,A
p198,165.0,58.7,40.0,Female,O
p199,184.5,92.8,37.0,Male,B
p200,173.9,97.7,55.0,Male,O


## クレンジング済みデータのCSVファイルへの保管

最後にクレンジング済みのデータを <font color='green'>to_csv()</font>メソッドによって，CSVファイルに保管します．

```Python
df.to_csv('./cleansed_body_data.csv')
```

In [21]:
df.to_csv('./cleansed_body_data.csv')

この後のデータ分析では，このファイルを読み込むことによってクレンジング済みのデータを分析することができます．
*****