# データの読み出し

In [2]:
# 公開データセット（ボストンの住宅価格）を読み込む
import pandas as pd
from sklearn.datasets import load_boston
boston = load_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this case special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows:

        from sklearn.datasets import fetch_californi

In [3]:
# データの形状を表示
boston.data.shape

(506, 13)

In [4]:
# ターゲット（住宅価格）の形状を表示
boston.target.shape

(506,)

In [5]:
# データの最初だけ表示（pandas利用）
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


# 正規化
scikit-learnという機械学習用のライブラリを用いて正規化（各特徴値を-1から1の範囲に合わせる）

標準化に比べると異常値の値に影響を受けやすい

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

MinMaxScalerのAPIドキュメント。既存の関数を使ったプログラミングでは、APIドキュメントがその関数の仕様書になります。引数や関数の意味を理解するのに重要です。参考にしてください。やりたい事を実現する際や、既存のコードを理解する際の助けになります。

In [6]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler([-1,1])
scaler.fit(boston.data)
boston.data = scaler.transform(boston.data)

In [7]:
# 正規化後を表示
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,-1.0,-0.64,-0.86437,-1.0,-0.37037,0.155011,0.283213,-0.461594,-1.0,-0.583969,-0.425532,1.0,-0.82064
1,-0.999528,-1.0,-0.515396,-1.0,-0.654321,0.095995,0.565396,-0.302076,-0.913043,-0.790076,0.106383,1.0,-0.59106
2,-0.999529,-1.0,-0.515396,-1.0,-0.654321,0.388772,0.198764,-0.302076,-0.913043,-0.790076,0.106383,0.979475,-0.873068
3,-0.999414,-1.0,-0.8739,-1.0,-0.699588,0.317111,-0.116375,-0.102911,-0.826087,-0.866412,0.297872,0.988552,-0.933223
4,-0.99859,-1.0,-0.8739,-1.0,-0.699588,0.37421,0.056643,-0.102911,-0.826087,-0.866412,0.297872,1.0,-0.801325


# 距離計算

特徴のベクトル間の距離を計算する関数を実装してみよう

参考
https://docs.python.org/ja/3/library/math.html

In [8]:
def CalcEuclideanDistance(vec1, vec2):
  # ユークリッド距離の計算を実装してみよう
  return 0 #計算した距離を返すよう実装

# データのインデックスを渡すと距離を計算してくれる関数（デフォルトでユークリッド距離を使う）
def CalcDist(data, idx1, idx2, f_distance=CalcEuclideanDistance): 
  vec1 = data[idx1, :]
  vec2 = data[idx2, :]
  return f_distance(vec1, vec2)

CalcDist(boston.data, 0, 1)

0

# 動作確認

In [9]:
vec1 = np.array([1, 1])
vec2 = np.array([1, 2])
CalcEuclideanDistance(vec1, vec2) #距離は1になるはず

NameError: name 'np' is not defined

In [None]:
vec1 = np.array([3, 2])
vec2 = np.array([1, 6])
CalcEuclideanDistance(vec1, vec2) #手計算と同じになるか確認してみよう

色々な家間で距離を計算してみて、距離と価格を表示してみよう。

完成したら実行して、このページをPDFにプリントして、CLEから提出

In [None]:
# 家の情報表示する関数
def print_house_info(data, target, idx):
  print('インデックス：', idx)
  print('属性：', data[idx,:])
  print('価格：', target[idx])

In [None]:
idx1 = 100
idx2 = 200
# 距離を計算してみる
# 家の属性情報を表示してみる

# やってみよう
scikit-learnには正規化以外にも標準化を行う機能も用意されている。Bostonデータを標準化してみよう。まだ、距離計算も実行してみよう。

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [None]:
# ボストンデータを再度読み出す必要あり（上で既に正規化をしてしまったため）
