# データの電子化

データ分析のために入手したデータについて，最初に実施する処理は分析システムの入力として使用するための電子化です．
この操作はオリジナルデータが紙の場合はもちろんですが，システム出力である電子データについても必要な作業となります．



## 身体調査データ

健康管理のために，10名に身体調査データを記載したサンプルデータがあります．
この表は，各個人が別々に記入した紙の内容を転記したものです．

|対象者番号|身長(cm)|体重(kg)|年齢|性別|血液型|
|:---:| :---: | :---:|:---:|:---:| :---:|
| p01 | 162.3 | 55.6 | 23  | 男  | A    |
| p02 | 173.1 | 62.0 | 35  | 男  | AB   |
| p03 | 158.8 | 68.5 | 47  | 男  | B    |
| p04 | 120.8 | 24.3 |  8  | 女  |      |
| p05 | 145.7 | 37.8 | 11  | 女  |      |
| p06 | 159.2 | 44.5 | 13  | 男  | O    |
| p07 | 157.5 | 49.0 | 18  | 女  | B    |
| p08 | 158.9 |      |     | 女  | A    |
| p09 | 160.4 | 48.5 | 30  |     | A    |
| p10 | 170.0 | 77.7 | 51  | 男  | O    |

このデータを使って，電子化の作法について学習していきます．

## 変量

このデータを見ると，縦に同じ種類のデータが並んでいます．
この縦の各列を変量と言います．
個々では次の変量が定義されています．

- 対象者番号
- 身長
- 体重
- 年齢
- 性別
- 血液型

そして，横向きの1行がそれぞれ一人一人の属性になっています．
この各1行を個々の標本と言います．  
それぞれの変量について，特徴を確認します．

#### 対象者番号
この<font color=green>対象者番号</font>は個々の標本に付ける識別子です．
すなわち，各々が標本全体を通してユニークな値になっています．
この対象者番号を指定することによって，1つの標本を特定することができます．

#### 身長

<font color=green>身長</font>は対象者の身長をセンチメートルで0.1cm刻みで記録してあります．
データ型としては浮動小数点付数になります．
とり得る範囲としては，正の実数です．
実際には，身長が1cmとか900㎝の人はいないので，そのような値があれば，異常値でないか吟味する必要があります．
また実際の値を見ると，有効数字が小数点以下1桁になっています．

#### 体重

<font color=green>体重</font>も対象者の体重をキログラムで0.1kg刻みで記録してあります．
データ型としては浮動小数点付数になります．
とり得る範囲としては，正の実数です．
やはり，体重も上下限がある程度予想できるので，異常値の確認が必要となります．

このデータでは，対象者p08の体重が未記入となっています．
この未記入の数値についての取扱いには注意が必要です．
なぜならば，利用するデータ分析システムで数値を扱うときに数値以外は受け付けない仕様になっているシステムもあります．
欠損値を許すシステムならば，そのまま欠損値としてデータを生成しますが，欠損値を許さない場合はデフォルト値がセットされることになります．
数値のデフォルト値をゼロにするシステムが多いですが，9999などの値をデフォルトにするシステムもあります．

入手したデータに欠損値がある場合，その理由を考えることはその後の分析の役に立ちます．
まず，何らかのトラブルで欠損になったかを確認しなければなりません．
トラブルでないとすると，なぜ欠損になったのでしょうか．
この対象者p08の場合，体重を知られたくないという意図かもしれません．
その真偽は定かではありませんが，情報を出したくないとか，情報を正しく教えたくない，というようなバイアスが情報所有者にあるということを念頭に置いて分析に臨みます．

#### 年齢

<font color=green>年齢</font>は対象者の年齢を自然数で表しています．
とり得る範囲についても当然上限を想定します．

また年齢についても対象者p08が欠損値になっています．
デフォルトがゼロになるシステムでは，電子化した段階でこの方の年齢が0歳となってしまう可能性がありますので要注意です．


#### 性別

一般的に<font color=green>性別</font>は男女の2値としますが，LGBTへの配慮で「その他」という選択肢も用意します．
そのような選択肢があっても，そもそも性別を明示したくないという意向もあり，記載無しもあります．
データを電子化する段階で，この記載なしは「その他」と一緒にしてはいけません．


#### 血液型

<font color=green>血液型</font>は，{A,B,O,AB}の4種類の値をとる文字列です．
血液型には他のカテゴリーもありますが，ここでは日本で標準的に用いられているABO型とします．

対象者p04,p05の2人について血液型の記載が無いですが，年齢的に未だ血液型検査をしていない可能性があります．
このような場合は，データを電子化した段階で「不明」という解釈になります．


*****
## データフレーム

この身体調査データを電子化してデータフレームを構成します．
<font color=blue>データフレームとは2次元の表形式</font>の電子データで，行が個々の標本を示し，列が各変量を示します．
値の無い部分については，いったん None に統一します．
「未記入」や「不明」への書き換えは各変量の分布確認の時点で行います．

| index |height |weight| age |gender|blood|
| :---: | :---: | :---:|:---:|:---:| :---:|
| 'p01' | 162.3 | 55.6 | 23  | 'M' | 'A'  |
| 'p02' | 173.1 | 62.0 | 35  | 'M' | 'AB' |
| 'p03' | 158.8 | 68.5 | 47  | 'M' | 'B'  |
| 'p04' | 120.8 | 24.3 |  8  | 'F' | None |
| 'p05' | 145.7 | 37.8 | 11  | 'F' | None |
| 'p06' | 159.2 | 44.5 | 13  | 'M' | 'O'  |
| 'p07' | 157.5 | 49.0 | 18  | 'F' | 'B'  |
| 'p08' | 158.9 | None |None | 'F' | 'A'  |
| 'p09' | 160.4 | 48.5 | 30  |None | 'A'  |
| 'p10' | 170.0 | 77.7 | 51  | 'M' | 'O'  |


### 変数名

データを電子化したときに各変量に分かりやすい名前を付けますが，変数名については次のような命名規則を設けることをお薦めします．

- 変数名は英字始まりの英数字とする．特殊文字やブランク，全角文字は使用しない．
- 変数名に複数の単語を使う場合はキャメルケースにする．例：苗字を familyName とする．
- 変数名は英語の意味が通じるようにする．

## オリジナルデータの保管

オリジナルデータは入手したデータそのものです．
そこにはデータの間違いも含まれています．
この後，オリジナルデータに対してデータクレンジングを行うことになりますが，修正を施したデータでオリジナルデータを上書きしてはいけません．
なぜならば，その修正にミスがあった場合，元の状態に戻すことが出来ないからです．
したがって，オリジナルデータは必ず保管します．

さらに，データクレンジングや数値データのカテゴリー化など変更を加えたデータは，適切なタイミングで保管していきます．
そして，その変更を全てプログラムで実施すればデータの変更過程も記録されることになり，後々の検証することが可能となります．

## データ加工プロセスのプログラム化

オリジナルデータがクリーンであることは稀です．
そこでクレンジング作業が発生します．
クレンジングには次のようなことが想定されます．

- 半角全角を揃える
- 余分な空白文字を取り除く
- 和暦を西暦に統一する
- 電話番号などのフォーマットを揃える
- 未入力，空白文字の整合的な値の変更

このような事象に対して変更を加える処理ですが，基本的にはプログラムで対応すべきです．
これは，データ加工でミスが発生しないためのルールです．
もし手作業で実施すると，再現性も保証できなくなります．

## カテゴリー値のコード化とマスター表

性別のように取りうる値が有限個の決まった値の場合，それらの値をコード化して，そのコードをマスター表で対応付けることもあります．
性別と血液型についてコード化してみます．


#### 性別のマスター表

| genderCode | gender |
|:---:|:---:|
| 1 | None |
| 2 | 'M' |
| 3 | 'F' |
| 4 | 'other' |

#### 血液型のマスター表

| bloodCode | blood |
|:---:|:---:|
| 1 | None |
| 2 | 'A' |
| 3 | 'B' |
| 4 | 'O' |
| 5 | 'AB' |

### カテゴリー値をコード化したデータフレーム

上記の性別および血液型のマスター表を使用すると，データフレームは次のようになります．

| index |height |weight| age |genderCode|bloodCode|
| :---: | :---: | :---:|:---:|:---:| :---:|
| 'p01' | 162.3 | 55.6 | 23  | 2 | 2 |
| 'p02' | 173.1 | 62.0 | 35  | 2 | 5 |
| 'p03' | 158.8 | 68.5 | 47  | 2 | 3 |
| 'p04' | 120.8 | 24.3 |  8  | 3 | 1 |
| 'p05' | 145.7 | 37.8 | 11  | 3 | 1 |
| 'p06' | 159.2 | 44.5 | 13  | 2 | 4 |
| 'p07' | 157.5 | 49.0 | 18  | 3 | 3 |
| 'p08' | 158.9 | None |None | 3 | 2 |
| 'p09' | 160.4 | 48.5 | 30  | 1 | 2 |
| 'p10' | 170.0 | 77.7 | 51  | 2 | 4 |


#### コード化のメリット
コード化のメリットは，その変量の値が画一化されていることと，データのサイズを小さくできることです．
例えばアンケート調査の解答項目が「大いに不満，不満，どちらともいえない，満足，大いに満足」としたとき，これらを文字列で持っているよりも，コード化して「1,2,3,4,5」とした方がメモリーの省力化となります．

変量のコード化では初歩的なデータクレンジングを行うことができます．
例えば血液型の値として，' A 'や'Ａ'があったとします．
' A 'は前後にスペース文字が付いています．'Ａ'は全角文字で記載されています．
これらは両方とも'A'と同じと見なすべきです．
この処理をコード化と共に行うことができます．

#### コード化のデメリット
デメリットとしては，値を見ただけでは何を示しているか分からないので，コードの付け間違いなどの大きなエラーを見逃してしまう危険があります．

さらに注意すべきことはマスター表が変更されるとコードと値の対応付けが変わってしまうので，マスター表管理を厳格に行う必要がります．

In [1]:
import pandas as pd

In [2]:
originalDF = pd.DataFrame(
    {
    'height':[162.3,173.1,158.8,120.8,145.7,159.2,157.5,158.9,160.4,170.0],
    'weight':[55.6,62.0,68.5,24.3,37.8,44.5,49.0,None,48.5,77.7],
    'age':[23,35,47,8,11,13,18,None,30,51],
    'gender':['M','M','M','F','F','M','F','F',None,'M'],
    'blood':['A','AB','B',None,None,'O','B','A','A','O'] 
    }, 
    columns=['height','weight','age','gender','blood'] ,
    index=['p01','p02','p03','p04','p05','p06','p07','p08','p09','p10'],
    dtype='object'
)

In [3]:
originalDF.describe()

Unnamed: 0,height,weight,age,gender,blood
count,10.0,9.0,9,9,8
unique,10.0,9.0,9,2,4
top,159.2,62.0,47,M,A
freq,1.0,1.0,1,5,3


In [4]:
originalDF.head(3)

Unnamed: 0,height,weight,age,gender,blood
p01,162.3,55.6,23,M,A
p02,173.1,62.0,35,M,AB
p03,158.8,68.5,47,M,B


In [5]:
originalDF.tail(3)

Unnamed: 0,height,weight,age,gender,blood
p08,158.9,,,F,A
p09,160.4,48.5,30.0,,A
p10,170.0,77.7,51.0,M,O


In [9]:
originalDF.weight.sum()

467.9

In [10]:
originalDF.weight.mean()

51.988888888888887