# データ準備

[元のノートブックの出典: *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame`の情報を探索する

> **学習目標:** このセクションの終わりまでに、pandasのDataFrameに保存されたデータの一般的な情報を見つけることに慣れることができます。

データをpandasに読み込むと、ほとんどの場合、それは`DataFrame`の形式になります。しかし、もしその`DataFrame`に60,000行と400列のデータが含まれていたら、どのようにして扱うデータの概要を把握すればよいのでしょうか？幸いなことに、pandasは`DataFrame`の全体的な情報を素早く確認するための便利なツールを提供しており、最初の数行や最後の数行も簡単に確認できます。

この機能を探索するために、Pythonのscikit-learnライブラリをインポートし、データサイエンティストなら誰もが何度も目にしたことのある象徴的なデータセットを使用します。それは、英国の生物学者ロナルド・フィッシャーが1936年の論文「分類学的問題における複数の測定値の使用」で使用した*アイリス*データセットです。


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
変数 `iris_df` に Iris データセットを読み込みました。データを詳しく調べる前に、データポイントの数やデータセット全体のサイズを把握することは重要です。扱っているデータの量を確認するのは有益です。


In [2]:
iris_df.shape

(150, 4)

つまり、150行4列のデータを扱っています。各行は1つのデータポイントを表し、各列はデータフレームに関連する1つの特徴を表します。要するに、150のデータポイントがあり、それぞれに4つの特徴が含まれています。

`shape`はデータフレームの属性であり、関数ではないため、括弧で終わらないのです。


### `DataFrame.columns`
では、データの4つの列について詳しく見ていきましょう。それぞれの列が具体的に何を表しているのかを確認します。`columns`属性を使用すると、データフレーム内の列名を取得できます。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

私たちが見るように、4つの列があります。`columns`属性は列の名前を教えてくれるだけで、基本的にそれ以外の情報はありません。この属性は、データセットが含む特徴を特定したいときに重要性を持ちます。


### `DataFrame.info`
データの量（`shape`属性で示される）や特徴や列の名前（`columns`属性で示される）は、データセットについて何かを教えてくれます。さて、データセットをさらに深く掘り下げたいと思います。その際に、`DataFrame.info()`関数は非常に役立ちます。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


ここから、いくつかの観察ができます：
1. 各列のデータ型：このデータセットでは、すべてのデータが64ビット浮動小数点数として保存されています。
2. 非NULL値の数：NULL値を処理することは、データ準備において重要なステップです。この処理は後でノートブック内で行います。


### DataFrame.describe()
データセットに数値データが多く含まれているとします。平均値、中央値、四分位数などの一変量統計計算は、各列ごとに個別に行うことができます。`DataFrame.describe()` 関数は、データセットの数値列に関する統計的な概要を提供します。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上記の出力は、各列のデータポイントの総数、平均、標準偏差、最小値、下位四分位数(25%)、中央値(50%)、上位四分位数(75%)、最大値を示しています。


### `DataFrame.head`
これまでに紹介した関数や属性を使って、データセットの概要を把握しました。データポイントの数、特徴量の数、各特徴量のデータ型、そして各特徴量の非null値の数が分かりました。

次は、実際のデータを確認する段階です。`DataFrame`の最初の数行（最初のいくつかのデータポイント）がどのようになっているか見てみましょう:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


出力を見ると、データセットの5つのエントリが表示されています。左側のインデックスを見ると、これらが最初の5行であることがわかります。


### 演習:

上記の例から明らかなように、デフォルトでは `DataFrame.head` は `DataFrame` の最初の5行を返します。以下のコードセルで、5行以上を表示する方法を考えられますか？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
データを見るもう一つの方法は、始まりではなく終わりから見ることです。`DataFrame.head`の反対にあたるのが`DataFrame.tail`で、これは`DataFrame`の最後の5行を返します:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


実際には、特に順序付けられたデータセットで外れ値を探している場合、`DataFrame`の最初の数行や最後の数行を簡単に確認できることが便利です。

コード例を使って示したすべての関数や属性は、データの概要や感触を得るのに役立ちます。

> **ポイント:** `DataFrame`内の情報に関するメタデータや、最初と最後の数値を確認するだけでも、扱っているデータのサイズ、形状、内容について即座に把握することができます。


### 欠損データ
欠損データについて詳しく見ていきましょう。欠損データとは、いくつかの列に値が保存されていない場合に発生します。

例を挙げてみましょう。例えば、ある人が自分の体重を気にしていて、アンケートの体重欄を記入しないとします。この場合、その人の体重の値は欠損となります。

現実世界のデータセットでは、欠損値が発生することがほとんどです。

**Pandasによる欠損データの処理方法**

Pandasは欠損値を2つの方法で処理します。1つ目は、以前のセクションで見たことがある`NaN`（Not a Number）です。これは実際にはIEEE浮動小数点仕様の一部であり、欠損した浮動小数点値を示すためだけに使用される特別な値です。

浮動小数点以外の欠損値については、PandasはPythonの`None`オブジェクトを使用します。2種類の値が本質的に同じことを示しているのに遭遇するのは混乱するかもしれませんが、この設計選択には合理的なプログラム上の理由があります。実際、この方法を採用することで、Pandasは大多数のケースにおいて良い妥協点を提供することができます。それにもかかわらず、`None`と`NaN`の両方には、それらの使用方法に関して注意すべき制約があることを覚えておく必要があります。


### `None`: 非浮動小数点型の欠損データ
`None`はPythonから来ているため、データ型が`'object'`でないNumPyやpandasの配列では使用できません。NumPy配列（およびpandasのデータ構造）は、1種類のデータ型しか含むことができません。これが、大規模なデータ処理や計算作業における強力な性能を提供する理由ですが、同時に柔軟性を制限する要因にもなります。このような配列は「最小公分母」に型をアップキャストする必要があり、配列内のすべてを包含するデータ型に変換されます。配列に`None`が含まれる場合、それはPythonオブジェクトを扱っていることを意味します。

これを実際に確認するために、以下の例の配列を考えてみましょう（その`dtype`に注目してください）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

アップキャストされたデータ型の現実には、2つの副作用が伴います。まず、操作がコンパイルされたNumPyコードではなく、解釈されたPythonコードのレベルで実行されるようになります。つまり、`None`を含む`Series`や`DataFrame`を操作する場合、処理速度が遅くなるということです。このパフォーマンス低下はおそらく気づかない程度かもしれませんが、大規模なデータセットでは問題になる可能性があります。

2つ目の副作用は、1つ目から派生しています。`None`が本質的に`Series`や`DataFrame`を通常のPythonの世界に引き戻してしまうため、`sum()`や`min()`のようなNumPy/pandasの集計関数を`None`を含む配列に対して使用すると、一般的にエラーが発生します。


In [10]:
example1.sum()

TypeError: ignored

**重要なポイント**: 整数と`None`値の間の加算（およびその他の演算）は未定義であり、それらを含むデータセットでできることを制限する可能性があります。


### `NaN`: 欠損した浮動小数点値

`None`とは異なり、NumPy（そしてpandas）は高速でベクトル化された操作やufuncのために`NaN`をサポートしています。悪いニュースとしては、`NaN`に対して行われる算術演算は常に`NaN`を返すという点です。例えば:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

良いニュース: `NaN` を含む配列で集計を実行してもエラーは発生しません。悪いニュース: 結果は一様に有用ではありません。


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 運動:


In [11]:
# What happens if you add np.nan and None together?


覚えておいてください: `NaN` は欠損している浮動小数点値のためだけのものであり、整数、文字列、またはブール値には `NaN` に相当するものはありません。


### `NaN` と `None`: pandas における null 値

`NaN` と `None` は多少異なる動作をすることがありますが、pandas はそれらを同じように扱えるように設計されています。これを確認するために、整数の `Series` を考えてみましょう:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 運動:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


データ型をアップキャストして`Series`や`DataFrame`内でデータの均一性を確保する過程で、pandasは欠損値を`None`と`NaN`の間で自由に切り替えます。この設計上の特徴から、pandasでは`None`と`NaN`を「null」の2つの異なる形態として考えると便利です。実際、pandasで欠損値を扱うための主要なメソッドの名前には、この考え方が反映されています。

- `isnull()`: 欠損値を示すブールマスクを生成します
- `notnull()`: `isnull()`の逆の動作をします
- `dropna()`: 欠損値を除去したデータのフィルタリング版を返します
- `fillna()`: 欠損値を埋めるか補完したデータのコピーを返します

これらのメソッドは非常に重要で、使いこなせるようになることが求められます。それでは、それぞれのメソッドについて詳しく見ていきましょう。


### 欠損値の検出

欠損値の重要性を理解したところで、それらを処理する前にデータセット内で検出する必要があります。  
`isnull()` と `notnull()` の両方が欠損データを検出するための主要なメソッドです。これらはどちらもデータに対してブールマスクを返します。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

出力をよく見てください。何か驚くことはありますか？`0`は算術的には「null」ですが、それでも完全に有効な整数であり、pandasはそれをそのように扱います。一方、`''`は少し微妙です。セクション1で空の文字列値を表すために使用しましたが、それでも文字列オブジェクトであり、pandasにとっては「null」を表すものではありません。

さて、これを逆にして、実際に使用する方法に近い形でこれらのメソッドを使ってみましょう。Booleanマスクを直接``Series``や``DataFrame``のインデックスとして使用することができ、欠損値（または存在する値）を個別に操作する際に便利です。

欠損値の総数を知りたい場合は、`isnull()`メソッドによって生成されたマスクに対して単純に合計を取るだけで済みます。


In [19]:
example3.isnull().sum()

2

### 運動:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**重要なポイント**: `isnull()` と `notnull()` メソッドは、DataFrameで使用すると似たような結果を生成します。それらは結果とそのインデックスを表示し、データを扱う際に非常に役立ちます。


### 欠損データの処理

> **学習目標:** このセクションの終わりまでに、DataFrameから欠損値を置き換えるべきか、または削除するべきかを判断できるようになります。

機械学習モデルは欠損データをそのまま扱うことができません。そのため、データをモデルに渡す前に、これらの欠損値を処理する必要があります。

欠損データの処理方法には微妙なトレードオフが伴い、最終的な分析結果や現実世界での成果に影響を与える可能性があります。

欠損データを処理する方法は主に以下の2つです：

1. 欠損値を含む行を削除する  
2. 欠損値を他の値で置き換える  

これらの方法について、それぞれの利点と欠点を詳しく説明していきます。


### 欠損値の削除

モデルに渡すデータ量は、その性能に直接影響を与えます。欠損値を削除するということは、データポイントの数を減らし、データセットのサイズを縮小することを意味します。そのため、データセットが非常に大きい場合には、欠損値を含む行を削除することが推奨されます。

また、特定の行や列に欠損値が多く含まれている場合もあります。その場合、それらを削除することが考えられます。なぜなら、その行や列のほとんどのデータが欠損しているため、分析にあまり価値を加えない可能性があるからです。

欠損値を特定するだけでなく、pandasは`Series`や`DataFrame`から欠損値を削除する便利な方法を提供しています。これを実際に試してみるために、`example3`に戻りましょう。`DataFrame.dropna()`関数は、欠損値を含む行を削除するのに役立ちます。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

`example3[example3.notnull()]` の出力と似ていることに注意してください。ここでの違いは、マスクされた値に基づいてインデックスを付けるだけではなく、`dropna` が `Series` `example3` から欠損値を削除した点です。

DataFrame は2次元であるため、データを削除する際により多くのオプションが利用可能です。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（pandasが`NaN`を処理するために2つの列を浮動小数点型にアップキャストしたことに気づきましたか？）

`DataFrame`から単一の値を削除することはできないため、行または列全体を削除する必要があります。作業内容によって、どちらかを選ぶ必要があり、pandasはその両方のオプションを提供しています。データサイエンスでは、列が一般的に変数を表し、行が観測値を表すため、データの行を削除することが多いです。`dropna()`のデフォルト設定では、null値を含むすべての行を削除します。


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


必要に応じて、列からNA値を削除できます。これを行うには、`axis=1`を使用してください。


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


これにより、特に小規模なデータセットでは、保持したいデータが多く失われる可能性があることに注意してください。では、いくつか、またはすべての値がnullである行や列だけを削除したい場合はどうすればよいでしょうか？その設定は、`dropna`の`how`および`thresh`パラメータで指定します。

デフォルトでは、`how='any'`です（自分で確認したり、メソッドに他にどのようなパラメータがあるかを確認したい場合は、コードセルで`example4.dropna?`を実行してください）。代わりに`how='all'`を指定することで、すべての値がnullである行や列だけを削除することもできます。次の演習で、この動作を確認するために例の`DataFrame`を拡張してみましょう。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 主なポイント:
1. データセットが十分に大きい場合に限り、欠損値を削除するのが良い選択です。
2. データの大部分が欠損している場合は、行や列全体を削除することができます。
3. `DataFrame.dropna(axis=)` メソッドは欠損値を削除する際に役立ちます。`axis` 引数は、行を削除するか列を削除するかを指定します。
4. `how` 引数も使用可能です。デフォルトでは `any` に設定されており、欠損値を含む行や列のみを削除します。`all` に設定すると、すべての値が欠損している行や列のみを削除することを指定できます。


### 運動:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` パラメーターは、より細かい制御を提供します: 行または列を保持するために必要な *非ヌル* 値の数を設定します。


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


ここでは、最初と最後の行が削除されています。これらの行には非NULL値が2つしか含まれていないためです。


### 欠損値の補完

欠損値を有効な値で補完することが理にかなう場合があります。欠損値を補完するためのいくつかの手法があります。最初の方法は、ドメイン知識（データセットが基づいている対象分野の知識）を活用して欠損値をある程度推定することです。

`isnull`を使って欠損値を補完することもできますが、多くの値を補完する必要がある場合は手間がかかることがあります。このような作業はデータサイエンスでは非常に一般的なため、pandasは`fillna`を提供しています。これを使うと、欠損値を指定した値で置き換えた`Series`や`DataFrame`のコピーを返します。実際にどのように動作するかを確認するために、別の例として`Series`を作成してみましょう。


### カテゴリカルデータ（非数値）
まずは非数値データについて考えてみましょう。データセットには、カテゴリカルデータを含む列があります。例えば、性別やTrue/Falseなどです。

これらの場合の多くでは、欠損値をその列の`最頻値（mode）`で置き換えます。例えば、100件のデータポイントがあり、90件がTrue、8件がFalse、2件が未記入だったとします。この場合、列全体を考慮して、未記入の2件をTrueで埋めることができます。

さらに、ここではドメイン知識を活用することもできます。最頻値で埋める例を考えてみましょう。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


まず、`None`の値をモードで埋める前に、モードを見つけましょう。


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

それでは、NoneをTrueに置き換えます。


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


ご覧の通り、null値は置き換えられました。言うまでもなく、`'True'`の代わりに何でも書くことができ、それが置き換えられたでしょう。


### 数値データ
次に、数値データについて説明します。ここでは、欠損値を置き換える一般的な方法が2つあります：

1. 行の中央値で置き換える  
2. 行の平均値で置き換える  

外れ値を含む偏ったデータの場合は、中央値で置き換えます。これは、中央値が外れ値に対して頑健だからです。

データが正規化されている場合は平均値を使用できます。この場合、平均値と中央値はほぼ同じになるからです。

まず、正規分布している列を取り上げ、その列の平均値で欠損値を埋めてみましょう。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


列の平均は


In [33]:
np.mean(fill_with_mean[0])

0.0

平均値で埋める


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


欠損値が平均値で置き換えられたことがわかります。


次に別のデータフレームを試してみましょう。今回はNone値を列の中央値で置き換えます。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第2列の中央値は


In [36]:
fill_with_median[1].median()

4.0

中央値で埋める


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


NaN値が列の中央値に置き換えられたことがわかります。


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

すべての空のエントリを`0`などの単一の値で埋めることができます。


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 主なポイント:
1. 欠損値の補完は、データが少ない場合や欠損値を補完するための戦略がある場合に行うべきです。
2. ドメイン知識を活用して、欠損値を推定して補完することができます。
3. カテゴリカルデータの場合、多くの場合、欠損値はその列の最頻値で置き換えられます。
4. 数値データの場合、欠損値は通常、平均値（正規化されたデータセットの場合）または列の中央値で補完されます。


### 運動:


In [40]:
# What happens if you try to fill null values with a string, like ''?


null値を**前方埋め**することができます。これは、最後の有効な値を使用してnullを埋めることです。


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

次の有効な値を後方に伝播させてヌルを埋めるために**バックフィル**することもできます。


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

データフレームでも同様に機能しますが、null値を埋める軸を指定することもできます。


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


前の値が前方埋めに利用できない場合、欠損値はそのまま残ることに注意してください。


### 運動:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


あなたは `fillna` の使い方について創造的になることができます。例えば、もう一度 `example4` を見てみましょう。ただし、今回は欠損値を `DataFrame` 内のすべての値の平均値で埋めてみます。


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


列3がまだ値がないことに注意してください。デフォルトの方向は行ごとに値を埋めることです。

> **ポイント:** データセット内の欠損値を処理する方法は複数あります。使用する具体的な戦略（削除、置換、またはどのように置換するか）は、そのデータの特性によって決まるべきです。データセットを扱い、操作する経験を積むことで、欠損値の処理方法についてより良い感覚を身につけることができます。


### カテゴリカルデータのエンコード

機械学習モデルは数値データのみを扱います。モデルは「Yes」と「No」の違いを理解することはできませんが、「0」と「1」の違いは区別できます。そのため、欠損値を埋めた後、モデルが理解できるようにカテゴリカルデータを数値形式にエンコードする必要があります。

エンコードには2つの方法があります。次にそれらについて説明します。


**ラベルエンコーディング**

ラベルエンコーディングとは、各カテゴリを数字に変換することを指します。例えば、航空会社の乗客に関するデータセットがあり、列に以下のクラスが含まれているとします：['business class', 'economy class', 'first class']。これにラベルエンコーディングを適用すると、[0,1,2]に変換されます。コードを使った例を見てみましょう。今後のノートブックで`scikit-learn`を学ぶ予定なので、ここでは使用しません。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1列目でラベルエンコーディングを行うには、各クラスを数値に対応付けるマッピングをまず記述し、その後置き換える必要があります。


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


ご覧の通り、出力は予想通りの結果となっています。では、ラベルエンコーディングはいつ使用するのでしょうか？ラベルエンコーディングは以下のいずれか、または両方の場合に使用されます：
1. カテゴリーの数が多い場合
2. カテゴリーに順序がある場合


**ワンホットエンコーディング**

ワンホットエンコーディングは、別の種類のエンコーディング方法です。この方法では、列の各カテゴリが個別の列として追加され、各データポイントはそのカテゴリを含むかどうかに基づいて0または1を取得します。つまり、異なるカテゴリがn個ある場合、データフレームにn個の列が追加されます。

例えば、同じ飛行機のクラスの例を考えてみましょう。カテゴリは次の通りでした: ['business class', 'economy class', 'first class']。ワンホットエンコーディングを実行すると、次の3つの列がデータセットに追加されます: ['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1列目に対してワンホットエンコーディングを実行しましょう。


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


各ワンホットエンコードされた列には0または1が含まれており、そのデータポイントにそのカテゴリが存在するかどうかを指定します。


ワンホットエンコーディングは、以下のいずれかまたは両方の場合に使用されます：

1. カテゴリーの数とデータセットのサイズが小さい場合。
2. カテゴリーに特定の順序がない場合。


> 主なポイント:
1. エンコーディングは、非数値データを数値データに変換するために行われます。
2. エンコーディングにはラベルエンコーディングとワンホットエンコーディングの2種類があり、データセットの要件に応じて実行できます。


## 重複データの削除

> **学習目標:** このセクションの終わりまでに、DataFrameから重複した値を特定し削除する方法に慣れることができます。

欠損データに加えて、現実世界のデータセットでは重複したデータに遭遇することがよくあります。幸いなことに、pandasは重複したエントリを検出し削除する簡単な方法を提供しています。


### 重複を特定する: `duplicated`

pandasの`duplicated`メソッドを使えば、重複した値を簡単に見つけることができます。このメソッドは、`DataFrame`内のエントリが以前のものと重複しているかどうかを示すブールマスクを返します。これを実際に試すために、別の例の`DataFrame`を作成してみましょう。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 重複を削除する: `drop_duplicates`
`drop_duplicates` は、`duplicated` の値がすべて `False` であるデータのコピーを返すだけです:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` と `drop_duplicates` はデフォルトで全ての列を考慮しますが、`DataFrame` 内の列のサブセットのみを調べるように指定することもできます。


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **重要なポイント:** 重複データを削除することは、ほぼすべてのデータサイエンスプロジェクトにおいて重要な部分です。重複データは分析結果を変え、不正確な結果をもたらす可能性があります！


## 実世界のデータ品質チェック

> **学習目標:** このセクションを終える頃には、実世界のデータ品質問題を検出し修正する方法に慣れ、例えば不一致のあるカテゴリ値、異常な数値（外れ値）、そしてバリエーションのある重複エンティティなどに対応できるようになります。

欠損値や完全な重複は一般的な問題ですが、実世界のデータセットにはより微妙な問題が含まれることがよくあります。

1. **不一致のあるカテゴリ値**: 同じカテゴリが異なる綴りで表記されている場合（例: "USA", "U.S.A", "United States"）
2. **異常な数値**: データ入力ミスを示す極端な外れ値（例: 年齢 = 999）
3. **ほぼ重複した行**: わずかな違いで同じエンティティを表すレコード

これらの問題を検出し対処するための手法を見ていきましょう。


### サンプルの「汚れた」データセットを作成する

まず、現実世界のデータでよく遭遇する問題を含むサンプルデータセットを作成しましょう。


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. 一貫性のないカテゴリ値の検出

`country`列には、同じ国に対して複数の表記が存在しています。この不一致を特定してみましょう。


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### カテゴリ値の標準化

これらの値を標準化するためにマッピングを作成することができます。簡単な方法として、小文字に変換してマッピング辞書を作成する方法があります:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**代替案: ファジーマッチングの使用**

より複雑なケースでは、`rapidfuzz`ライブラリを使用してファジー文字列マッチングを行い、類似した文字列を自動的に検出することができます:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. 異常な数値（外れ値）の検出

`age`列を見てみると、199や-5のような怪しい値があります。統計的手法を使ってこれらの外れ値を検出してみましょう。


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR（四分位範囲）法の使用

IQR法は、極端な値に対して感度が低い、外れ値検出のための堅牢な統計手法です:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Zスコア法の使用

Zスコア法は、平均からの標準偏差に基づいて外れ値を特定します:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### 外れ値の処理

外れ値を検出した後は、以下の方法で処理することができます：
1. **削除**: 外れ値を含む行を削除する（それが誤りの場合）
2. **上限設定**: 境界値で置き換える
3. **NaNに置き換える**: 欠損値として扱い、補完技術を使用する
4. **保持**: 正当な極端値である場合はそのまま保持する


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. 近似重複行の検出

データセットには「John Smith」に関する複数のエントリがあり、値が少し異なっていることに気づきました。名前の類似性に基づいて潜在的な重複を特定してみましょう。


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### ファジーマッチングによる類似データの検出

より高度な重複検出を行うために、ファジーマッチングを使用して似た名前を見つけることができます:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### 重複の処理

重複を特定したら、どのように処理するかを決める必要があります:
1. **最初の出現を保持**: `drop_duplicates(keep='first')` を使用
2. **最後の出現を保持**: `drop_duplicates(keep='last')` を使用
3. **情報を集約**: 重複した行の情報を統合
4. **手動で確認**: 人によるレビューのためにフラグを立てる


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### 要約: 完全なデータクリーニングパイプライン

すべてをまとめて、包括的なクリーニングパイプラインを作成しましょう:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 チャレンジ演習

さあ、あなたの番です！以下に品質上の問題が複数ある新しいデータ行があります。次のことができますか？

1. この行のすべての問題を特定する
2. 各問題を修正するコードを書く
3. 修正した行をデータセットに追加する

こちらが問題のあるデータです:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### 重要なポイント

1. **カテゴリの不一致**は現実世界のデータでよく見られます。ユニークな値を確認し、マッピングやあいまい一致を使って標準化することが重要です。

2. **外れ値**は分析に大きな影響を与える可能性があります。統計的手法（IQRやZスコア）とドメイン知識を組み合わせて検出しましょう。

3. **類似重複**は完全な重複よりも検出が難しいです。あいまい一致を使用したり、データを正規化（小文字化や空白の削除）して特定することを検討してください。

4. **データクリーニングは反復的なプロセス**です。複数の手法を適用し、結果を確認しながら最終的なクリーンデータセットを作成する必要があります。

5. **決定を記録する**ことが重要です。どのクリーニング手順を適用したか、そしてその理由を記録しておくことで、再現性と透明性を確保できます。

> **ベストプラクティス:** 元の「汚れた」データのコピーを必ず保存してください。元のデータファイルを上書きせず、`data_cleaned.csv`のような明確な命名規則でクリーンバージョンを作成しましょう。



---

**免責事項**:  
この文書は、AI翻訳サービス[Co-op Translator](https://github.com/Azure/co-op-translator)を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された文書を正式な情報源としてお考えください。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当社は一切の責任を負いません。
