# データクレンジング

取得済みのデータのプロファイルができたら，次の行うことはデータのクレンジングです．
データクレンジングとは，データに潜む間違いやトラブルの元を探し出して，適切な値に直したり削除したりします．

データは複数の変量からなっていますが，まずは個々の変量についてクレンジングを行っていきます．

## データクレンジングの手順

ここでは，元データがテキスト文書の場合を想定したデータクレンジングの手順を確認します．

1. 各変量の最終的なデータ型を決めます．
- 文字列から数値への変換を前提として，文字列を整形します．
- 各変量のとり得る範囲を明確にして，想定外の値の取扱い方法を決めます．
- 欠損値の取扱いを決めます．
- 各変量のデータ型の変換を行います．
- データフレームとして保管します．

## プログラムによるクレンジング

クレンジング作業として重要なことは，これらの編集作業を手作業で行ってはならないという事です．
手作業で行った場合に次のことが問題となります．

- 変更のミスが発生する可能性があり，そのミスを見逃す危険性がある．
- 何をどのように変更したかの履歴が残らない．

したがって，データの編集は，プログラムを作成して実行することで実施します．
プログラムを残せば，クレンジング手順を再現することができ，編集の間違いがあればプログラムを修正して再度クレンジングを行うことが可能となります．

## 変量のデータ型

最初に確認することは変量のデータ型です．
その変量がどのようなデータ型なのかを確認します．
この講座の学習範囲では，画像や音声などは取扱わず，数値および文字列によるデータを取り扱います．

具体的に身体調査データの変量で確認します．

まず，身長や体重は有理数で表されます．
実際に記録されている値を見ると，小数点以下１桁までの数値なので，有理数よりも荒い集合になっています．
これを，電子化されたデータとして取り扱う場合は，浮動小数点付数となります．
Pythonでは<font color=green>float型</font>です．他のプログラミング言語でも同様のデータ型に分類されます．

年齢も数値ですが，数学的には正の整数となっています．
Pythonのデータにした場合，<font color=green>int型</font>が最適となります．
ただし，データフレームの仕様として欠損値がある場合はfloat型に強制的に変換されます．

性別と血液型は文字列です．
ただし，文字列と云っても何でも許されるフリーテキストではありません．
データ分析の立場では，これらのデータをカテゴリー型と言います．
性別だと{'男性','女性'}，血液型だと{'A型','B型','O型','AB型'}が想定されます．

このような有限集合を表すデータ型をプログラミング言語では列挙型として定義することが多いです．
Pythonではenumライブラリーをインポートすることによって列挙型を利用することができます．
列挙型のメリットは，明確な値に限定できることと，そのデータの取扱いが限定されるのでプログラムエラーの防止効果があることです．
デメリットとしては，限定された値以外を受け付けないということです．
私たちはが取り扱うデータの分析では例外値も認めて考えますので，性別と血液型は列挙型にはせず文字型として運用します．
Pythonにおいて文字は<font color=green>str型</font>になります．

## 文字列の整形

電子データの入手において，オリジナルデータが文字列である場合があります．
文字列は自由度が大きく，想定外の文字があると数値化するときにトラブルの原因となります．

例えば数字の場合，一般的には半角文字ですが全角文字でも同じ数字を表すことができます．
全角の「３」は半角数字の「3」と同じ値と解釈できます．
そして，漢数字の「三」も数字の「3」と見なすこともできます．
さらに漢字の「参」はどうなのか，と考えさせられます．
どこまで許すか基準が必要になります．
電子データとして最終的には数値変換できなけれがなりません．

変量の取りうる値が文字列の場合でも同様の課題があります．
例えば取りうる値として「A」があったとして全角の「Ａ」や前後に空白文字が入った「 A 」などについてのクレンジングが必要です．
これらの値もクレンジング後は同じ半角大文字の「A」に揃えます．

## 文字列で保管された数値

データ収集時に数値データが文字列として保管されることがあります．
この文字列を後から数値のデータ型に変換しますが，このとき元の値が数値型の要件を満たしていないとエラーになります．

そこで，型変換の前に数値としての要件を満たすように補正を行います．

**全角半角変換**：数字が全角で記載されている場合，これを半角に変換します．

> 例：「３．１４」→「3.14」

**空白文字の除去**：一般に<font color='blue'>トリム</font>と言われる操作で，数字の前後にある空白文字を削除します．

> 例：「 123 」→「123」

**区切りカンマの削除**：3桁ごとに区切ってあるカンマを除去します．

> 例：「123,456.7」→「123456.7」

## 値の想定範囲

各変量については，その変量のとり得る範囲が自ずと決まってきます．
想定される範囲外の値を外れ値と言います．

年齢の場合，その値は0以上120以下が値の想定範囲と言えるでしょう．
上限についての120は暫定的な値で，この値が130であっても構いません．
この上下限の値は，データ分析者が検討して設定します．

身長については，0以上240以下ぐらいを目安に想定範囲とします．
体重についても，0以上240以下ぐらいを目安とします．
このような変量の範囲については常識が基準となります．

一般的に数値データの場合，想定範囲を平均値±標準偏差の3倍以内のように決めます．
この範囲を何倍にするかはデータ分析者の裁量です．

カテゴリーデータの場合，想定される値は列挙することで示せます．

性別は，男性と女性の他にLGBTを考慮して，{'Male','Female','Other'}を想定します．
しかし，性別を表明したくないという方への対応として無記入も可能にすべきです．

血液型については，未だ検査をしていない人が選ぶ不明の選択肢が必要となります．
したがって，{'A','B','O','AB','Unknown'}が想定範囲と考えられます．

## 想定外の値の取扱い

想定外の値をどのように扱うかは難しい課題です．
カテゴリーデータと数値データでは想定外の値に対する検討内容も異なります．

数値データの場合，想定外の値は外れ値ですが，現象的には異常値の可能性があります．
異常値が何らかのミスによるものか，あるいは，根本的な理由があるのか，調査する必要があります．
データの信頼性が問われる可能性も否定できません．

カテゴリーデータで想定外の値の種類が多すぎる場合，それらの値を'others'のような値にまとめてしまう事があります．
このようにまとめてしまう事は，それらの値をノイズとして扱うことになります．
最終的には，そのような対応が賢明ですが，最初からまとめてしまうことは避けるべきです．
なぜならば，想定外の値の中に重要な事実がある可能性があるからです．
一旦，それらの値について精査した後にまとめるようにしましょう．

## 欠損値の解釈

欠損値とは，値が無いことを言います．
欠損値の発生には様々な理由があります．
性別の例だと，性別を表明したくないのでどの選択肢も選ばなかった場合です．
その他の例として，子供の年齢という項目については，子供がいなければ書きようがありません．

欠損値の発生理由としては，次のことが考えられます．
- 情報提供の拒否
- 前提条件が成立しない
- 測定できなかった
- カテゴリーデータで適切な選択肢が無い
- 記入漏れ

欠損値になった理由が何であるかを検討することは重要で，その理由によって分析の方針が変わることもあります．

欠損値のコンピュータでの扱いは，使用するソフトウェアに依存します．
この先，Pythonに於けるクレンジングにおいても，<font color=green>None</font>と<font color=green>numpy.nan</font>という2種類のオブジェクトが出てきます．

## データフレームとして整備

最終的にクレンジング済みのデータは，データ分析用としてPythonのデータフレームにします．

*****