# 課題1: データ前処理の実習

ここではデータの前処理について理解いただくための課題を用意しました。この課題ではkaggleのcompetitionで使用されたデータを用いてデータの前処理方法を確認します。

各列の詳細は下記サイトをご参照ください。
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

各セルに入っているコメントの下に、実行するコードを記入してください。わからない場合は、ここまでのレッスン内容や各種ライブラリの公式ドキュメントを参照しましょう。

## 1. 必要なモジュールの読み込み

In [None]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# グラフをノートブックで表示するための設定
%matplotlib inline

## 2. データの読み込み

CSVファイル"kaggle_housing_price.csv"を読み込み、内容を確認します。

In [None]:
# データを変数datasetに読み込む


In [None]:
# データの最初の5行を表示


DataFrameの`shape` プロパティで全データの行数と列数を取得できます。

参照：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.shape.html

In [None]:
# データの行数、列数を表示


## 3. 要約統計量を出力する

データ数、平均や中央値、標準偏差などの統計量を確認し、データへの理解を深めます。

なお、DataFrameの `describe()` を使うと、様々な統計量の情報を要約として表示してくれます。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.describe.html

In [None]:
# 要約統計量を表示


## 4. 基本的なデータの操作

データの抽出・列の分割について学びます。

### インデックスを用いた行の指定

In [None]:
# インデックス番号0から10行分抽出


In [None]:
# 「SalePrice」と「LotArea」の列を抽出し、最初の10行だけ表示


### カラム間の演算

PandasのDataFrameでは、列同士の四則演算、ならびに新しい列を追加することができます。

たとえば、`df` というDataFrameの変数があり、中に `a`,`b` というカラムが存在するとき、`df['c'] = df['a'] + df['b']` と記述することで、a列とb列の加算結果を c という新しい列として df に追加してくれます。

In [None]:
# 「1stFlrSF」と「2ndFlrSF」を合計した「FlrSF_total」を新たな列としてdatasetに加える


In [None]:
# datasetからloc関数を使用して「1stFlrSF」と「2ndFlrSF」、「FlrSF_total」を先頭から5行分表示し、正しく追加されていることを確認する


 ### ダミー変数の作成
 
列 `SaleType` は `WD`, `New`, `COD` などで構成されたカテゴリーデータです。 `get_dummies()` 関数を使用してダミー変数に変換しましょう。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.get_dummies.html

In [None]:
# 列'SaleType'をダミー変数に展開したものを変数 dataset に上書きします。


In [None]:
# ダミー変数が作成されていることを確認します　(datasetの最初の5行だけ出力)


### フィルタリング

DataFrameの `query()` を使いフィルタリングを行いましょう

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.query.html

In [None]:
# 'YearBuilt'が2000以降の物件のみを抽出し、最初の5件のみ表示


`dataset.query('LotArea >= 15000 and MSSubClass >= 50')` のように複数の条件を指定することも可能です。

In [None]:
# 'YearBuilt'が2000以降、'GarageCars'が2以上の物件を抽出


## 5. データの可視化

データを理解するには要約統計量や抽出したデータを確認するだけでは不十分であり、可視化が必要です。

### ヒストグラム

連続変数の分布を確認する際に有効です。DataFrameの `hist()` が使えます。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.hist.html

In [None]:
# datasetの'SalePrice'をヒストグラムで表示


### 散布図

2つの変数の関係性を確認する際に有効です。DataFrameの `plot()` が使えます。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.html

In [None]:
# datasetの'LotArea'と'SalePrice'を散布図で表示


### 棒グラフ

大小や増減を比較する際に有効です。DataFrameの `plot.bar()` が使えます。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.bar.html

In [None]:
#'SalePrice'のSaleCondition毎の平均を変数　price_by_conditionに格納


# price_by_conditionが持つ、棒グラフを表示する命令を実行


### 箱ヒゲ図 (Boxplot) 

複数の変数の分布を比較する際に有効です。 （棒グラフでは平均の比較はできますが、分布全体の比較はできません)

DataFrameの `boxplot()` が使えます。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.boxplot.html

In [None]:
# datasetの'SaleCondition'ごとに'SalePrice'をboxplotで表示


## 6. 欠損値の確認

ある列が欠損値を持っているかどうかは Pandas の `isnull()` でもわかります。カリキュラムにて学習した DataFrame の`isnull()`と同様に、`pd.isnull(dataset['LotFrontage'])`　のように記述します。また、`.sum()` をつなげることで、その列で欠損値を持つ行数がわかります。

参考：http://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.isnull.html

In [None]:
# 列ごとに欠損値の有無を確認
