# 事前環境設定

・分析に利用するライブラリをインストールする

In [None]:
# ライブラリの読み込み
import os
import scipy as sp
import numpy as np
import sklearn
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# グラフをインラインで表示させる
%matplotlib inline

# 入出力

## 分析用データの読込

### Pandasはデータの入出力や加工のライブラリ。データフレームという考え方で、Excelのピボットテーブルのように集計や、より複雑な加工が出来ます。

・Pythonのカレントディレクトリを確認し、分析利用データ（train.csv）をコピーします。

In [None]:
os.getcwd()

・分析利用データ（train.csv）を読込ます。read_csv()でデータ読込。 必要に応じ、delimiterで区切り文字を指定する。デフォルトでは","。<br>
・df_train = pd.read_csv('カレントディレクトリ/ファイル名', delimiter=",") ）

In [None]:
df_train = pd.read_csv('./train.csv',delimiter=",")

### 読み込んだデータをチェックします。<br>
チェックのポイント<br>
 ①データを俯瞰（先頭/末尾）<br>
 ②データの行数・列数は正しいか？<br>
 ③データの項目が正しいか？<br>
 ④データ型は適切か？<br>

In [None]:
# ①データを俯瞰（先頭）
df_train.head(10)  

In [None]:
# ①データを俯瞰（末尾）
df_train.tail()  

In [None]:
#②データの行数・列数は正しいか？
df_train.shape

In [None]:
#③データの項目が正しいか？
df_train.columns

In [None]:
#④データ型は適切か？
df_train["SalePrice"].dtypes

# データの抽出・加工

基本的なデータ型とデータ構造と制御構造については、以下URLを参照ください。 <br>
http://www.geocities.jp/m_hiroi/light/python01.html

データの抽出、加工の詳細については、以下URLを参照ください。<br>
Pandas でデータフレームを扱う<br>
http://pythondatascience.plavox.info/pandas

# データの集計

・データの現状を把握すべく、各変数の平均や標準偏差などの代表値（基本統計量）を算出したり、可視化（グラフ）します。<br>

・まずは予測したい対象（目的変数）であるSalePriceを見てみましょう。（変数を指定しない場合、データフレーム全体を結果として戻します。）<br>
※各種統計量の算出方法は以下を参照（P12）<br>
https://www.slideshare.net/DataScientist_JP/01-python

In [None]:
#平均
df_train.SalePrice.mean() 

In [None]:
#標準偏差
df_train.SalePrice.std() 

In [None]:
#基本統計量をまとめて算出（件数、平均、標準偏差、最小、四分位、最大）
df_train.SalePrice.describe()

In [None]:
#家のコンディション評価別の平均SalePrice
df_train.groupby("OverallCond").SalePrice.mean() 

In [None]:
#家のコンディション評価別のデータ件数
df_train.groupby("OverallCond").SalePrice.count() 

# データの可視化

・データの現状を把握すべく、各変数の平均や標準偏差などの代表値（基本統計量）を算出したり、可視化（グラフ）します。<br>
※各種グラフは以下を参照<br>
http://pythondatascience.plavox.info/matplotlib

※他にSeabornという上級者向けのグラフライブラリもあります。
http://pythondatascience.plavox.info/seaborn

In [None]:
#ヒストグラム：SalePrice
var='SalePrice'
plt.figure(figsize=(16,8)) #figsize調整
plt.hist( df_train[var],bins=50,rwidth=0.8)

In [None]:
#棒グラフ：YearBuilt
var='YearBuilt'
plt.figure(figsize=(16,8))
plt.hist( df_train[var],bins=100,rwidth=0.8)

In [None]:
#クロス集計：OverallCond × SaleCondition
pd.crosstab(df_train.OverallCond, df_train.SaleCondition)

In [None]:
#散布図：GrLivArea×SalePrice
data = pd.concat([df_train['SalePrice'], df_train['GrLivArea']], axis=1)
data.plot.scatter(x='GrLivArea', y='SalePrice', ylim=(0,800000),figsize=(12,9))

# 演習問題

In [None]:
#演習①　基本統計量：GrLivArea


In [None]:
#演習②　ヒストグラム：GrLivArea


In [None]:
#演習③　棒グラフ：YrSold、MoSold


In [None]:
#演習④　クロス集計：OverallCond × YrSold


In [None]:
#演習⑤　散布図：GrLivArea×TotalBsmtSF
