# データの電子化

データ分析のために入手したデータについて，最初に実施する処理は分析システムの入力として使用するための電子化です．
この操作はオリジナルデータが紙の場合はもちろんですが，システム出力である電子データについても必要な作業となります．

データを電子化するときにデータ型を決める必要があります．
この講座で扱うデータは数値と文字列ですので，それぞれに対応するデータ型を割り当てます．

数値に関しては，<font color='blue'>整数型</font>と<font color='blue'>浮動小数点型</font>が割り当てられます．

文字列については，文字通り<font color='blue'>文字列型</font>になりますが，フリーテキストでない場合は，決まった値のどれかになる<font color='blue'>列記型</font>になります．

データ型が決まったら，欠損値の取扱いについてルールを定めます．
数値の場合，集計などの計算において，欠損値の扱い方によって統計値が異なりますので，明示的なルールを決めておきます．

## 身体調査データ

健康管理のために，10名に身体調査データを記載したデータの例があります．
この表は，各個人が別々に記入した紙の内容を転記したものです．

|person|height|weight|age|gender|blood |
| :---: | :---: | :---:|:---:|:---:| :---:|
| p01 | 162.3 | 55.6 | 23  | Male   | A  |
| p02 | 173.1 | 62.0 | 35  | Male   | AB |
| p03 | 158.8 | 68.5 | 47  | Male   | B  |
| p04 | 120.8 | 24.3 |  8  | Female |    |  
| p05 | 145.7 | 37.8 | 11  | Female |    |
| p06 | 159.2 | 44.5 | 13  | Male   | O  |
| p07 | 157.5 | 49.0 | 18  | Female | B  |
| p08 | 158.9 |      |     |        | A  |
| p09 | 160.4 | 48.5 | 30  |        | A  |
| p10 | 170.0 | 77.7 | 51  | Male   | O  |

このデータを使って，電子化の作法について学習していきます．

## 変量

このデータを見ると，縦に同じ種類のデータが並んでいます．
この縦の各列を変量と言います．
個々では次の変量が定義されています．

|変量|変量名|データ型|コメント|
|:---:|:---:|:---:|:---:|
|対象者番号|person|文字列      |対象を識別するために重複なし|
|身長      |height|浮動小数点数|単位はメートル|
|体重      |weight|浮動小数点数|単位はキログラム|
|年齢      |age   |整数        |欠損値がある場合は浮動小数点数になる|
|性別      |gender|文字列      |Male,Female,欠損値|
|血液型    |blood |文字列      |A,B,O,AB,欠損値|

そして，横向きの1行がそれぞれ一人一人の属性になっています．
この各1行を個々の標本と言います．  
それぞれの変量について，特徴を確認します．

#### 対象者番号
この<font color=green>対象者番号</font>は個々の標本に付ける識別子です．
すなわち，各々が標本全体を通してユニークな値になっています．
この対象者番号を指定することによって，1つの標本を特定することができます．

#### 身長

<font color=green>身長</font>は対象者の身長をセンチメートルで0.1cm刻みで記録してあります．
データ型としては浮動小数点付数になります．
とり得る範囲としては，正の実数です．
実際には，身長が1cmとか900㎝の人はいないので，そのような値があれば，異常値でないか吟味する必要があります．
また実際の値を見ると，有効数字が小数点以下1桁になっています．

#### 体重

<font color=green>体重</font>も対象者の体重をキログラムで0.1kg刻みで記録してあります．
データ型としては浮動小数点付数になります．
とり得る範囲としては，正の実数です．
やはり，体重も上下限がある程度予想できるので，異常値の確認が必要となります．

このデータでは，対象者p08の体重が未記入となっています．
この未記入の数値についての取扱いには注意が必要です．
なぜならば，利用するデータ分析システムで数値を扱うときに数値以外は受け付けない仕様になっているシステムもあります．
欠損値を許すシステムならば，そのまま欠損値としてデータを生成しますが，欠損値を許さない場合はデフォルト値がセットされることになります．
数値のデフォルト値をゼロにするシステムが多いですが，9999などの値をデフォルトにするシステムもあります．

入手したデータに欠損値がある場合，その理由を考えることはその後の分析の役に立ちます．
まず，何らかのトラブルで欠損になったかを確認しなければなりません．
トラブルでないとすると，なぜ欠損になったのでしょうか．
この対象者p08の場合，体重を知られたくないという意図かもしれません．
その真偽は定かではありませんが，情報を出したくないとか，情報を正しく教えたくない，というようなバイアスが情報所有者にあるということを念頭に置いて分析に臨みます．

#### 年齢

<font color=green>年齢</font>は対象者の年齢を自然数で表しています．
とり得る範囲についても当然上限を想定します．

また年齢についても対象者p08が欠損値になっています．
デフォルトがゼロになるシステムでは，電子化した段階でこの方の年齢が0歳となってしまう可能性がありますので要注意です．


#### 性別

一般的に<font color=green>性別</font>は男女の2値としますが，LGBTへの配慮で「その他」という選択肢も用意します．
そのような選択肢があっても，そもそも性別を明示したくないという意向もあり，記載無しもあります．
データを電子化する段階で，この記載なしと「その他」を区別するように配慮しています．


#### 血液型

<font color=green>血液型</font>は，{A,B,O,AB}の4種類の値をとる文字列です．
血液型には他のカテゴリーもありますが，ここでは日本で標準的に用いられているABO型とします．

対象者p04,p05の2人について血液型の記載が無いですが，年齢的に未だ血液型検査をしていない可能性があります．
このような場合は，データを電子化した段階で「不明」という解釈になります．


*****
## データフレーム

この身体調査データを電子化してデータフレームを構成します．
<font color=blue>データフレームとは2次元の表形式</font>の電子データで，行が個々の標本を示し，列が各変量を示します．
未記載の値や空白文字については，変量ごとに統一した解釈を与えて処理を行います．

|person|height|weight|age|gender|blood |
| :---: | :---: | :---:|:---:|:---:| :---:|
| p01 | 162.3 | 55.6 | 23.0 | Male   | A  |
| p02 | 173.1 | 62.0 | 35.0 | Male   | AB |
| p03 | 158.8 | 68.5 | 47.0 | Male   | B  |
| p04 | 120.8 | 24.3 |  8.0 | Female |NaN |  
| p05 | 145.7 | 37.8 | 11.0 | Female |NaN |
| p06 | 159.2 | 44.5 | 13.0 | Male   | O  |
| p07 | 157.5 | 49.0 | 18.0 | Female | B  |
| p08 | 158.9 | NaN  | NaN  | NaN    | A  |
| p09 | 160.4 | 48.5 | 30.0 | NaN    | A  |
| p10 | 170.0 | 77.7 | 51.0 | Male   | O  |


## 変数名の規則

データを電子化したときに各変量に分かりやすい名前を付けますが，変数名については次のような命名規則を設けることをお薦めします．

- 変数名は英字始まりの英数字とする．特殊文字やブランク，全角文字は使用しない．
- 変数名に複数の単語を使う場合はキャメルケースにする．例：苗字を familyName とする．
- 変数名は英語で意味が通じるようにする．

## 欠損値の扱い

後々の統計処理を想定すると，欠損値を慎重に処理しなければなりません．
調査対象者が自分でシステムに入力する場合を想定すると，
欠損値には幾つかの状況があります．

- <font color='blue'>分からない</font>：例えば，血液型について子供なので未だ検査していない．
- <font color='blue'>答えたくない</font>：例えば，年齢について言いたくない．
- <font color='blue'>記入漏れ</font>

仮に入力システムが自由入力だとすると，欠損値については入力の発生が想定されます．

- 全く何も記入されていない
- 「空白文字」が記入されている
- 「分かりません」などの説明が記入されている

何も記入されていない場合は，「分からない」，「答えたくない」，「記入漏れ」の何れも考えられます．
空白文字が記入されている場合は，少なくとも「記入漏れ」ではないことが分かります．
説明が書かれている場合は，その表現や理由など内容は一意的とは言えません．

このような状況を打開するために，これらの値を明示的に値を入れるならば，分からない場合は「unknown」にすることが考えられます．
答えたくない場合については「refuse」を選択できるようにすることも考えられますが，答えること自体を拒否する可能性があります．
記入漏れは本当のミスなので，システムでケアするならば未記入をエラーとして再入力を促す対応も考えられます．
ただし，未記入を許さないと全体の入力を断念されることも懸念されます．

## データ加工の原則

- オリジナルデータの上書きはしない
- データの修正はプログラムで実施する
- データ修正の履歴管理

## オリジナルデータの保管

オリジナルデータは入手したデータそのものです．
そこにはデータの間違いも含まれています．
この後，オリジナルデータに対してデータクレンジングを行うことになりますが，修正を施したデータでオリジナルデータを上書きしてはいけません．
なぜならば，その修正にミスがあった場合，元の状態に戻すことが出来ないからです．
したがって，オリジナルデータは必ず保管します．

さらに，データクレンジングや数値データのカテゴリー化など変更を加えたデータは，適切なタイミングで保管していきます．

## データ加工プロセスのプログラム化

オリジナルデータがクリーンであることは稀です．
そこでクレンジング作業が発生します．
クレンジングには次のようなことが想定されます．

- 半角全角を揃える
- 余分な空白文字を取り除く
- 和暦を西暦に統一する
- 電話番号などのフォーマットを揃える
- 未入力，空白文字の整合的な値の変更

このような事象に対して変更を加える処理ですが，基本的にはプログラムで対応すべきです．
これは，データ加工でミスを発生させないためのルールです．
もし手作業で実施すると，再現性も保証できなくなります．

また，どうしても手作業で変更を加えることをパッチと言います．
パッチは緊急措置なので，出来る限り避けるようにしましょう．

## カテゴリー値のコード化とマスター表

性別のように取りうる値が有限個の決まった値の場合，それらの値をコード化して，そのコードをマスター表で対応付けることもあります．
性別と血液型についてコード化してみます．


#### 性別のマスター表

| genderCode | gender |
|:---:|:---:|
| 1 | 欠損値 |
| 2 | Male   |
| 3 | Female |
| 4 | other  |

#### 血液型のマスター表

| bloodCode | blood |
|:---:|:---:|
| 1 | 欠損値 |
| 2 | A |
| 3 | B |
| 4 | O |
| 5 | AB |

### カテゴリー値をコード化したデータフレーム

上記の性別および血液型のマスター表を使用すると，データフレームは次のようになります．

|person|height|weight|age|genderCode|bloodCode|
| :---: | :---: | :---:|:---:|:---:| :---:|
| p01 | 162.3 | 55.6 | 23.0  | 2 | 2 |
| p02 | 173.1 | 62.0 | 35.0  | 2 | 5 |
| p03 | 158.8 | 68.5 | 47.0  | 2 | 3 |
| p04 | 120.8 | 24.3 |  8.0  | 3 | 1 |  
| p05 | 145.7 | 37.8 | 11.0  | 3 | 1 |
| p06 | 159.2 | 44.5 | 13.0  | 2 | 4 |
| p07 | 157.5 | 49.0 | 18.0  | 3 | 3 |
| p08 | 158.9 | NaM  | NaN   | 1 | 2 |
| p09 | 160.4 | 48.5 | 30.0  | 1 | 2 |
| p10 | 170.0 | 77.7 | 51.0  | 2 | 4 |

#### コード化のメリット
コード化のメリットは，その変量の値が画一化されていることと，データのサイズを小さくできることです．
例えばアンケート調査の解答項目が「大いに不満，不満，どちらともいえない，満足，大いに満足」としたとき，これらを文字列で持っているよりも，コード化して「1,2,3,4,5」とした方がメモリーの省力化となります．

変量のコード化では初歩的なデータクレンジングを行うことができます．
例えば血液型の値として，' A 'や'Ａ'があったとします．
' A 'は前後にスペース文字が付いています．'Ａ'は全角文字で記載されています．
これらは両方とも'A'と同じと見なすべきです．
この処理をコード化と共に行うことができます．

#### コード化のデメリット
デメリットとしては，値を見ただけでは何を示しているか分からないので，コードの付け間違いなどの大きなエラーを見逃してしまう危険があります．

さらに注意すべきことはマスター表が変更されるとコードと値の対応付けが変わってしまうので，マスター表管理を厳格に行う必要がります．

本格的なデータベースでは必ずコード化を行いますが，この講座では直感的な目視性を考慮してコード化は行いません．

*****