<a href="https://colab.research.google.com/github/tomonari-masada/course2021-sml/blob/main/04_nearest_neighbors_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4. k近傍法
* 直感的には、「どんな友人と付き合っているかを見ればその人が分かる」という考え方にもとづく分類および回帰の手法。
* 新しいデータ点について、対応する目的変数の値を予測する場合、そのデータ点のk個の近傍のクラスを元に予測する。
 * クラスを予測する（分類）の場合、予測は多数決で行われる。
 * 数値を予測する（回帰）の場合、近傍の目的変数の値の平均を予測値とする。（他の方法もありうる。）

## 4.1 準備

### 4.1.1 必要なパッケージのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

### 4.1.2 データファイルのアップロード
* 説明変数は国民一人当たりのGDP。
* 目的変数は生活満足度。
* 国民一人当たりのGDPを使って、生活満足度を予測する。

* `lifesat.csv`というファイルをColabにアップロードする。

In [None]:
from google.colab import files
files.upload()

### 4.1.3 データファイルの内容を確認

In [None]:
country_stats = pd.read_csv('lifesat.csv')

In [None]:
country_stats

In [None]:
country_stats.info()

In [None]:
country_stats.describe()

* 国民一人当たりのGDPを使って生活満足度を予測するという問題設定が、そもそも妥当な問題設定かどうか、確認する。
 * 説明変数と目的変数とのあいだに、ある程度の関連性がないと、解けない問題を解こうとしていることになる。

In [None]:
country_stats.plot(kind='scatter', x='GDP per capita', y='Life satisfaction')

## 4.2 1近傍法の実装（k=1の場合のk近傍法）
* 例題として、日本の生活満足度の予測を考える。
* そこで、最も日本に近い国の生活満足度でもって、日本の生活満足度の予測値とする手法を、実装してみる。

### 4.2.1 説明変数と目的変数の用意

* 国名をインデックスに設定してデータフレームを作り直す。

In [None]:
df = country_stats.set_index('Country')

In [None]:
df

* 説明変数である一人当たりのGDPと、目的変数である生活満足度とを、別々に保存する。

In [None]:
x = df['GDP per capita']
y = df['Life satisfaction']

* 日本の生活満足度を予測したい。
* そのために、日本の近傍となる国を求める必要がある。
* 近傍を求める時には、説明変数を使う。

In [None]:
x['Japan']

* なお、以下のようにすれば、インデックスを枚挙できる。

In [None]:
for country in df.index:
  print(country)

* 以下のようにすれば、各国の一人あたりのGDPを枚挙できる。

In [None]:
for country in df.index:
  print(x[country])

### 4.2.2 演習

* 演習問題4-1：日本の説明変数の値に、最も近い説明変数の値を持つ国を求めてみよう。

* 演習問題4-2：日本に最も近い国の生活満足度を、日本の生活満足度の予測値とした場合、予測誤差はいくらになるか。

## 4.3 k近傍法の実装

### 4.3.1 演習

* 演習問題4-3：日本以外の全ての国について、説明変数を使って計算される日本との距離を、求めてみよう。

* 演習問題4-4：日本の説明変数の値に近い順に、他の全ての国を並べ替えて、表示させてみよう。

* 演習問題4-5：変数kに、求めるべき近傍の個数がセットされているとする。日本のk個の近傍の国名を、日本に近い順に表示させてみよう。

In [None]:
k = 5


* 演習問題4-6：上で求めたk個の国について、それらの国の生活満足度の平均値を求めてみよう。

* 演習問題4-7：上の平均値を、日本の生活満足度の予測値とした場合、予測誤差はいくらになるか。