# Pandas 入門

Pandas はデータ操作に特化したパッケージであり、データの読み込みや条件を指定しての一部データの抽出など、機械学習手法で取り扱うデータを事前に整理したり、まとめたりするのに便利です。

今回は Pandas の以下の代表的な機能の使い方を説明します。

- CSV ファイルの読み書き
- 統計量の算出
- 並び替え
- データの抽出
- 条件を指定した抽出
- 条件を指定した置換
- 欠損値の除去 / 補間
- NumPy と pandas を相互に変換
- グラフの描画

まず Pandas パッケージを読み込みましょう。
`pandas` は `pd` と短縮することが一般的です。

In [1]:
import pandas as pd

## CSV ファイルの読み書き

データセットは Google Colaboratory で用意されているサンプルデータを使用します。
以下のセルを実行して、データセットをダウンロードしてきましょう。
コードセル内で `!` に続く部分はシェルスクリプトとして解釈されます。

In [8]:
!wget https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv

--2019-04-08 02:38:41--  https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv
Resolving download.mlcc.google.com (download.mlcc.google.com)... 2404:6800:4004:81b::2003, 172.217.24.131
Connecting to download.mlcc.google.com (download.mlcc.google.com)|2404:6800:4004:81b::2003|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv [following]
--2019-04-08 02:38:41--  https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv
Resolving dl.google.com (dl.google.com)... 2404:6800:4004:80c::200e, 172.217.161.206
Connecting to dl.google.com (dl.google.com)|2404:6800:4004:80c::200e|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1706430 (1.6M) [text/csv]
Saving to: `california_housing_train.csv'


2019-04-08 02:38:42 (14.2 MB/s) - `california_housing_train.csv' saved [1706430/1706430]



`pd.read_csv()` という関数を用いると、CSV ファイルを簡単に読み込むことができます。

In [9]:
# データセットの読み込み
df = pd.read_csv('california_housing_train.csv')

`df` という変数名は、DataFrame という Pandas で中心的に用いられる**データ構造 (data structure)** クラスから来ています。
`pd.read_csv()` 関数は、CSV ファイルをこの DataFrame オブジェクトに読み込みます。

In [10]:
# 型の確認
type(df)

pandas.core.frame.DataFrame

## DataFrame の表示

`df` に読み込まれたデータの中身の確認してみましょう。
Jupyter Notebook 上では、大きな DataFrame を表示しようとすると自動的に一部が省略されることがあります。

In [11]:
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.40,19.0,7650.0,1901.0,1129.0,463.0,1.8200,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.9250,65500.0
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0
7,-114.59,34.83,41.0,812.0,168.0,375.0,158.0,1.7083,48500.0
8,-114.59,33.61,34.0,4789.0,1175.0,3134.0,1056.0,2.1782,58400.0
9,-114.60,34.83,46.0,1497.0,309.0,787.0,271.0,2.1908,48100.0


## 先頭の数件だけを表示

データの構造など確認するだけであれば `head()`を使用します。
`head()` はデフォルトで 5 件表示されますが、`head(3)` のように引数として表示したい件数を指定することができます。`head()` を実行してみます。

In [20]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0


In [21]:
df.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0


各列にアクセスしたい場合には、辞書のように列の名前をキーとしてしているするとアクセスすることができます。

In [22]:
df['longitude'].head(3)

0   -114.31
1   -114.47
2   -114.56
Name: longitude, dtype: float64

## CSV ファイルの保存

Pandas ではCSVファイルの読み込みだけでなく、書き込みを簡単に行う `to_csv()` が用意されています。

In [23]:
df.to_csv('sample.csv')

In [24]:
%%bash
ls sample.csv

01_Welcome_to_Chainer_Tutorial_ja.ipynb
02_Basics_of_Python_ja.ipynb
03_Basic_Math_for_Machine_Learning_ja.ipynb
04_Basics_of_Differential_ja.ipynb
05_Basics_of_Linear_Algebra_ja.ipynb
06_Basics_of_Probability_Statistics_ja.ipynb
07_Regression_Analysis_ja.ipynb
08_Introduction_to_NumPy_ja.ipynb
09_Introduction_to_Scikit-learn_ja.ipynb
10_CuPy_Pandas_Matplotlib_ja.ipynb
11_Basics_of_Neural_Networks_ja.ipynb
12_Basics_of_Chainer_ja.ipynb
13_Advanced_Usage_of_Chainer_ja.ipynb
14_Trainer_and_Extension_ja.ipynb
15_Visualization_with_ChainerUI_ja.ipynb
16_Image_Processing_and_Convolutional_Neural_Networks_ja.ipynb
17_Regression_with_Neural_Networks_ja.ipynb
18_Classification_with_Convolutional_Neural_Networks_ja.ipynb
19_Train_Convolutional_Neural_Networks_with_your_own_dataset_ja.ipynb
20_Data_Augmentation_ja.ipynb
21_Transfer_Learning_and_Fine_Tuning_ja.ipynb
22_ONNX_and_Menoh_for_Inference_ja.ipynb
california_housing_train.csv
california_housing_train.csv.1
california_housing_train.csv.2


## 統計量の算出

`pandas.DataFrame` は `numpy.ndarray`と同じような機能を持っており、統計量やデータ構造に関する情報が簡単に取得できます。

In [12]:
# 形の確認
df.shape

(17000, 9)

In [26]:
# 平均
df.mean()

longitude               -119.562108
latitude                  35.625225
housing_median_age        28.589353
total_rooms             2643.664412
total_bedrooms           539.410824
population              1429.573941
households               501.221941
median_income              3.883578
median_house_value    207300.912353
dtype: float64

In [27]:
# レコードの数（欠損値を見つけるために使えます）
df.count()

longitude             17000
latitude              17000
housing_median_age    17000
total_rooms           17000
total_bedrooms        17000
population            17000
households            17000
median_income         17000
median_house_value    17000
dtype: int64

また、データの特徴をおおまかに理解するためにとても便利な機能として、概要を算出できる `describe()` 関数も用意されています。

In [28]:
# データの概要
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0
mean,-119.562108,35.625225,28.589353,2643.664412,539.410824,1429.573941,501.221941,3.883578,207300.912353
std,2.005166,2.13734,12.586937,2179.947071,421.499452,1147.852959,384.520841,1.908157,115983.764387
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.79,33.93,18.0,1462.0,297.0,790.0,282.0,2.566375,119400.0
50%,-118.49,34.25,29.0,2127.0,434.0,1167.0,409.0,3.5446,180400.0
75%,-118.0,37.72,37.0,3151.25,648.25,1721.0,605.25,4.767,265000.0
max,-114.31,41.95,52.0,37937.0,6445.0,35682.0,6082.0,15.0001,500001.0


また、もうひとつ便利な関数として相関係数を算出する `corr` があります。
入力変数間や入出力間の相関を事前に手軽に確認することができます。

In [29]:
# 相関係数の算出
df.corr()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,1.0,-0.925208,-0.11425,0.04701,0.071802,0.101674,0.059628,-0.015485,-0.044982
latitude,-0.925208,1.0,0.016454,-0.038773,-0.069373,-0.111261,-0.074902,-0.080303,-0.144917
housing_median_age,-0.11425,0.016454,1.0,-0.360984,-0.320434,-0.29589,-0.302754,-0.115932,0.106758
total_rooms,0.04701,-0.038773,-0.360984,1.0,0.928403,0.86017,0.919018,0.195383,0.130991
total_bedrooms,0.071802,-0.069373,-0.320434,0.928403,1.0,0.881169,0.98092,-0.013495,0.045783
population,0.101674,-0.111261,-0.29589,0.86017,0.881169,1.0,0.909247,-0.000638,-0.02785
households,0.059628,-0.074902,-0.302754,0.919018,0.98092,0.909247,1.0,0.007644,0.061031
median_income,-0.015485,-0.080303,-0.115932,0.195383,-0.013495,-0.000638,0.007644,1.0,0.691871
median_house_value,-0.044982,-0.144917,0.106758,0.130991,0.045783,-0.02785,0.061031,0.691871,1.0


## 並び替え

昇順 (ascending) や降順 (descending) にある列を対象として `sort_values()` を用いて並び替えを行えます。
なお、関数を実行した際に、`df` のデータに対して並べ替えした結果が上書きされるわけではないため、別の変数を用意します。

In [30]:
# total_rooms の列を基準に昇順に並び替え
df_as = df.sort_values(by='total_rooms')

In [31]:
df_as.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2990,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.375,137500.0
16309,-122.5,37.79,52.0,8.0,1.0,13.0,1.0,15.0001,500001.0
8188,-118.44,34.28,46.0,11.0,11.0,24.0,13.0,2.875,162500.0
15369,-122.29,37.81,46.0,12.0,4.0,18.0,7.0,0.4999,67500.0
15656,-122.37,37.6,26.0,15.0,3.0,11.0,3.0,5.048,350000.0


この結果から分かる通り、デフォルトの設定では、小さいものから順番に並べられた昇順となっています。
降順に並べ替える場合は、関数の引数を確認（Google Colablatoryの場合は tab を 2 回押す）するとわかりますが、`ascending=True` とデフォルトの設定となっているところを `ascending=False` のように変更します。

In [32]:
# total_roomsの列を基準に降順に並び替え
df_de = df.sort_values(by='total_rooms', ascending=False)

In [33]:
df_de.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2871,-117.74,33.89,4.0,37937.0,5471.0,16122.0,5189.0,7.4947,366300.0
12772,-121.79,36.64,11.0,32627.0,6445.0,28566.0,6082.0,2.3087,118800.0
2969,-117.78,34.03,8.0,32054.0,5290.0,15507.0,5050.0,6.0191,253900.0
8881,-118.78,34.16,9.0,30405.0,4093.0,12873.0,3931.0,8.0137,399200.0
1116,-117.12,33.52,4.0,30401.0,4957.0,13251.0,4339.0,4.5841,212300.0


## データの抽出

必要な要素や行、列を抽出することも簡単にできます。
前章の scikit-learn の使い方で学んだ通り、入力変数 `x` と目標値 `t` を用意する必要があります。このようなとき、入力変数に対応する列と目標値に対応する列だけをそれぞれ抽出するということができます。

今回は右端の列である `median_house_value` が目標値でそれ以外が入力変数だとした場合に、それぞれのデータの抽出を行います。
列や行の選択を行う方法にはいくつかありますが、その中でもよく使われる `iloc` を今回は紹介します。

In [34]:
# データの確認
df.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0


In [35]:
# df.iloc[行, 列]
# 0番目のlongitude
df.iloc[0, 0]

-114.31

In [36]:
# 1番目のlatitude
df.iloc[1, 1]

34.4

`iloc` はリストのスライス機能と同じであり、複数行や複数列は `:` をうまく使いましょう。
また、`-1` は最後の要素を意味するため、これもうまく使いましょう。

In [37]:
# すべて (:) の行で、最後 (-1) の列
t = df.iloc[:, -1]

In [38]:
# 先頭3件の表示
t.head(3)

0    66900.0
1    80100.0
2    85700.0
Name: median_house_value, dtype: float64

In [39]:
# 型の確認
type(t)

pandas.core.series.Series

1列だけ抽出した際には、`pandas.Series` になります。
`pandas.DataFrame` のようにテーブルが綺麗に表示されなくなりますが、平均の算出などは同様に行うことができます。

In [40]:
# すべて (:) の行で、最初 (0) から最後 (-1) の列のひとつ手前まで
x = df.iloc[:, 0:-1]

最初の 0 は省略できるため、一般的に以下のように書きます。

In [41]:
# すべて (:) の行で、最初 (省略) から最後 (-1) の列のひとつ手前まで
x = df.iloc[:, :-1]

In [42]:
# 先頭の3件の表示
x.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509


In [43]:
# 型の確認
type(x)

pandas.core.frame.DataFrame

## 条件を指定したデータの抽出

次に条件を指定したデータの抽出を紹介します。

対象とする列の名前を `col` とすると、`df[col] > 300` や `df[col] == 10` のように比較演算子を使って条件を指定し、比較演算子の結果を使って指定したデータを抽出します。

In [44]:
# 対象とする列名が長いため、あらかじめ代入
col = 'median_house_value'

In [45]:
# データの確認
df[col].head()

0    66900.0
1    80100.0
2    85700.0
3    73400.0
4    65500.0
Name: median_house_value, dtype: float64

In [46]:
index = df[col] > 70000

In [47]:
index.head()

0    False
1     True
2     True
3     True
4    False
Name: median_house_value, dtype: bool

この結果からわかる通り、比較演算子を実行したあとに得られる結果は各行に対する True / False です。
この結果が True の行のみを抽出したい場合は `df[index]` のように記述します。

In [48]:
# df[index]
df[index].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0


この処理のように、`index` に True / False を入れて、その True の部分のみを抽出する処理は NumPy や Pandas でよく用いられます。

複数条件の場合は `()` が必要となります。
論理和は `|`、論理積は `&` を用います。

In [49]:
df[col].head()

0    66900.0
1    80100.0
2    85700.0
3    73400.0
4    65500.0
Name: median_house_value, dtype: float64

In [50]:
# 70000よりも小さい（もしくは）80000よりも大きい
index = (df[col] < 70000) | (df[col] > 80000)

In [51]:
index.head()

0     True
1     True
2     True
3    False
4     True
Name: median_house_value, dtype: bool

In [52]:
df[index].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0
6,-114.58,33.61,25.0,2907.0,680.0,1841.0,633.0,2.6768,82400.0


In [53]:
# 70000より大きく（かつ）80000より小さい
index = (df[col] > 70000) & (df[col] < 80000)

In [54]:
index.head()

0    False
1    False
2    False
3     True
4    False
Name: median_house_value, dtype: bool

In [55]:
df[index].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
13,-114.61,34.83,31.0,2478.0,464.0,1346.0,479.0,3.212,70400.0
23,-114.98,33.82,15.0,644.0,129.0,137.0,52.0,3.2097,71300.0
26,-115.37,32.82,30.0,1602.0,322.0,1130.0,335.0,3.5735,71100.0


少し複雑な記述に見えてしまいますが、条件の定義から抽出まで1行でまとめて書くこともできます。

In [56]:
df[(df[col] > 70000) & (df[col] < 80000)].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0
5,-114.58,33.63,29.0,1387.0,236.0,671.0,239.0,3.3438,74000.0
13,-114.61,34.83,31.0,2478.0,464.0,1346.0,479.0,3.212,70400.0
23,-114.98,33.82,15.0,644.0,129.0,137.0,52.0,3.2097,71300.0
26,-115.37,32.82,30.0,1602.0,322.0,1130.0,335.0,3.5735,71100.0


## 条件を指定した置換

抽出だけでなく、条件を指定した置換も行うことができます。
例えば、`median_house_value` に対して、以下のような条件のときに数字を割り当てた `target` という列を `df` に追加したいとします。

- 60000より小さい場合は 0
- 60000以上70000未満は 1
- 70000以上80000未満は 2
- 80000以上は 3

これは以下のようにして `df` に追加することができます。

In [57]:
# あらかじめ新しい列 target を None で初期化
df['target'] = None

In [58]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,target
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0,


In [59]:
index1 = df[col] < 60000
index2 = (df[col] >= 60000) & (df[col] < 70000)
index3 = (df[col] >= 70000) & (df[col] < 80000)
index4 = df[col] >= 80000

行や列を数値で指定する場合は`iloc` を使用しましたが、列の名前を使用する場合には `loc` を用います。

In [60]:
df.loc[index1, 'target'] = 0
df.loc[index2, 'target'] = 1
df.loc[index3, 'target'] = 2
df.loc[index4, 'target'] = 3

In [61]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,target
0,-114.31,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,1
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,3
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,3
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,2
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0,1


この結果のように、条件の指定の置換を駆使することで、目的の列を追加できました。

## 欠損値の除去 / 補間

実データでは値が入っていない欠損値を含んでいることがしばしばあります。
この欠損値への対策としては、欠損値を含む行、または列を除去するか、欠損値を特定の値で補間することが考えられます。

サンプル数が多く、欠損値が多くない場合には、訓練やテストに用いるサンプル数への影響も少ないため、除去してしまうことが一番簡単な対策です。
それに対し、サンプル数が少なかったり、欠損値が多い場合には、訓練やテストに用いるサンプル数への影響を考慮し、補間することが一般的です。

In [62]:
# 欠損値を人為的に作成
df.iloc[0, 0] = None

In [63]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,target
0,,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,1
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,3
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,3
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,2
4,-114.57,33.57,20.0,1454.0,326.0,624.0,262.0,1.925,65500.0,1


In [64]:
# 欠損値のあるレコードを削除
# df.dropna()
df.dropna().head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,target
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,3
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,3
3,-114.57,33.64,14.0,1501.0,337.0,515.0,226.0,3.1917,73400.0,2


この結果より、0 番目の行が除去されていることがわかります。

次に、平均を使って補間を行っていきます。

In [65]:
mean = df.mean()
mean

longitude               -119.562417
latitude                  35.625225
housing_median_age        28.589353
total_rooms             2643.664412
total_bedrooms           539.410824
population              1429.573941
households               501.221941
median_income              3.883578
median_house_value    207300.912353
target                     2.808412
dtype: float64

In [66]:
# df.fillna(mean)
df.fillna(mean).head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,target
0,-119.562417,34.19,15.0,5612.0,1283.0,1015.0,472.0,1.4936,66900.0,1
1,-114.47,34.4,19.0,7650.0,1901.0,1129.0,463.0,1.82,80100.0,3
2,-114.56,33.69,17.0,720.0,174.0,333.0,117.0,1.6509,85700.0,3


0 番目の `latitude` に平均として算出されていた `-119.562417` が補間されていることがわかります。
今回は 1 箇所だけが対象でしたが、`dropna` や `fillna` を使用することで、対象の箇所に対してすべて適用することができます。

## NumPy と Pandas を相互に変換

scikit-learn では `pandas.Series` や `pandas.DataFrame` を扱うことができます。
しかし、Chainer を含めた他のライブラリやフレームワークでは `numpy.ndarray` のみへの対応となっていることがしばしばあります。
`numpy.ndarray` への変換は `values` を使います。

In [67]:
type(df)

pandas.core.frame.DataFrame

In [68]:
type(df.values)

numpy.ndarray

In [69]:
# pandas.DataFrame のように表が綺麗に表示されることはない
df.values

array([[        nan,  3.4190e+01,  1.5000e+01, ...,  1.4936e+00,
         6.6900e+04,  1.0000e+00],
       [-1.1447e+02,  3.4400e+01,  1.9000e+01, ...,  1.8200e+00,
         8.0100e+04,  3.0000e+00],
       [-1.1456e+02,  3.3690e+01,  1.7000e+01, ...,  1.6509e+00,
         8.5700e+04,  3.0000e+00],
       ...,
       [-1.2430e+02,  4.1840e+01,  1.7000e+01, ...,  3.0313e+00,
         1.0360e+05,  3.0000e+00],
       [-1.2430e+02,  4.1800e+01,  1.9000e+01, ...,  1.9797e+00,
         8.5800e+04,  3.0000e+00],
       [-1.2435e+02,  4.0540e+01,  5.2000e+01, ...,  3.0147e+00,
         9.4600e+04,  3.0000e+00]])

In [70]:
type(df['longitude'])

pandas.core.series.Series

In [71]:
type(df['longitude'].values)

numpy.ndarray

逆に、リストや `numpy.ndarray` から `pandas.Series` や `pandas.DataFrame` への変換を行うこともできます。
NumPy と CuPy の章で使用していた計測時間を格納した `times_cpu` と `times_gpu` を使用します。

In [72]:
# リスト -> pandas.DataFrame
df = pd.DataFrame({
    'cpu': times_cpu,
    'gpu': times_gpu
})

In [73]:
df

Unnamed: 0,cpu,gpu
0,0.000202,0.000468
1,0.028337,0.001327
2,0.269047,0.014628
3,2.817729,0.170913


NumPy の `ndarray` の場合も、リストと同様の処理となります。

In [74]:
# numpy.ndarray -> pandas.DataFrame
times_cpu = np.array(times_cpu)
times_gpu = np.array(times_gpu)
df = pd.DataFrame({
    'cpu': times_cpu,
    'gpu': times_gpu
})

In [75]:
df

Unnamed: 0,cpu,gpu
0,0.000202,0.000468
1,0.028337,0.001327
2,0.269047,0.014628
3,2.817729,0.170913


## グラフの描画

Pandas の `DataFrame` では、次の節で紹介する Matplotlib をバックエンドで利用して、簡単な描画を行うことができます。
詳細なグラフの設定が必要な場合は、Matplotlib で設定することをお勧めします。

In [76]:
# グラフの描画
df.plot()

<matplotlib.axes._subplots.AxesSubplot at 0x7f27908bfba8>