## QUESTIONS

1. For each model:

## What happens inside the fit function?
`.fit() メソッド`は、教師あり学習アルゴリズムで使用され、モデルを訓練データに「適合」させるために使われます。このメソッドを使うことで、モデルは与えられた訓練データ（特徴量とターゲットの値）からパターンを学習し、それを使って予測を行うことができるようになります。
- モデルを訓練データに「適合」させるとは、モデルが訓練データの構造を理解し、それを一般化するためのパラメータを見つける過程のことです。このプロセスを通じて、モデルは新しいデータに対する予測を行う能力を身につけます。
    - モデルとは、現実の問題や現象を数学的に表現したものです。
    - 特に機械学習においては、データからパターンを学習するためのアルゴリズムや方程式の構造を指します。
          
### 線形回帰モデルの場合、`.fit()` メソッドは以下のように動作します：
- 特徴量の行列（通常 X と表記されます）とターゲットのベクトル（y）を引数として受け取ります。
- モデルは、特徴量とターゲットの関係を最もよく表す直線（線形回帰の場合）を見つけるために、最小二乗法や他の最適化手法を用いて計算を行います。
- この計算により、各特徴量に対する重み（係数）とバイアス（切片）が求められます。
- このプロセスを「学習」または「訓練」と呼びます。モデルが訓練されると、新しいデータに対して予測を行うことができるようになります。
- .fit() メソッドを使用すると、モデルは内部的に重みを調整し、データに最適なパラメーターを見つけます。
    - これにより、モデルは与えられた訓練データに対して、できるだけ誤差の少ない予測を行うようになります。

## What happens in the predict function?
機械学習モデルの文脈における`predict関数`は、学習されたモデルのパラメータを使用して、入力特徴に基づく予測を生成するために使用されます。
- `.fit()`でモデルがデータセット上で学習された後、新しい入力データを受け取り、そのデータに対する出力を予測することができます。

### 回帰モデルの場合

- **出力**: 連続値で、モデルが推定する依存変数の値を示します。

### 分類モデルの場合

- **出力**: クラスラベルで、各入力データがどのクラスに分類されるかを示します。

## How is the chosen performance score computed?
分類モデルのパフォーマンス評価には、主に正確さ（Accuracy）が使用されます。これはモデルの `.score()` メソッドによって計算され、与えられたテストデータとラベルに対する平均的な正確さを表します。

### ガウスのナイーブベイズ分類器
- `.score()`メソッドは，与えられたテストデータちラベルに対する平均的な正確さを返す
- 訓練データに対する正確さ（`train_accuracy`）は、訓練データとその正解ラベルを使用して計算されます。
- テストデータに対する正確さ（`test_accuracy`）は、テストデータとその正解ラベルを使用して計算されます。
- `gnbClassifier.score()`では，予測されたラベルと真のラベルを比較し，正しい予測の割合を算出

## [K近傍法（K-Nearest Neighbors, KNN）分類器](https://qiita.com/kwi0303/items/98d5455db06e82bc7a6d)

K近傍法は、分類問題を解くためのシンプルでありながら強力な機械学習アルゴリズムです。新しいデータポイントが与えられたとき、KNNアルゴリズムはそのポイントに最も近い `k` 個の訓練データポイントを見つけ、それらの最も一般的なクラスを新しいデータポイントのクラスとして予測します。

### 特徴

- **非パラメトリック**: モデルに固定されたパラメータがなく、データから直接学習します。
- **怠惰学習アルゴリズム**: 学習フェーズがなく、全ての計算は予測時に実行されます。
- **距離測定**: 通常はユークリッド距離が使用されますが、他の距離測定法も適用可能です。

## What criteria is being optimized?
最適化されている基準はK近傍法（K-Nearest Neighbors, KNN）分類器の**正確さ（Accuracy)** です。ここでの正確さは、正しい予測の数を入力サンプルの総数で割った比率として定義されます。これは分類器が訓練データセットとテストデータセットの両方でどれだけうまく機能しているかを測る尺度です。

## 1. For the linear regression example and keeping the size of the test set fixed,
(ja) 線形回帰の例について、テストセットのサイズを固定した状態で、

- What is the effect on the (test) performance when we progressively increase the amount of training data? Try with a single feature at a time. Plot the score vs the number of training points and discuss.
- (ja) 訓練データの量を徐々に増やすと、テストパフォーマンスにどのような影響があるか？一度に1つの特徴を使って試み、訓練ポイントの数に対するスコアをプロットし、議論してください。

### `naice_split_data()` を使用した場合

| 訓練データ数 | 平均二乗誤差 (MSE) | 決定係数 (R²スコア) |
|:------------:|:-------------------:|:-------------------:|
| 398 (44)     | 3222.53             | 0.43                |
| 408 (34)     | 3269.85             | 0.33                |
| 418 (24)     | 2477.82             | 0.47                |
| 428 (14)     | 2696.69             | 0.53                |
| 434 (8)      | 2441.55             | 0.34                |
| 438 (4)      | 690.47              | 0.80                |

### `split_data()` を使用した場合

| 訓練データ数 | 平均二乗誤差 (MSE) | 決定係数 (R²スコア) |
|:------------:|:-------------------:|:-------------------:|
| 354          | 4083.66             | 0.39                |
| 398          | 2803.32             | 0.44                |
| 409          | 3962.31             | 0.33                |
| 414          | 3739.55             | 0.41                |
| 420          | 3717.34             | 0.39                |
| 431          | 4577.51             | 0.43                |


- What is the effect of using other variables other than the 'bmi' during training?, try training and testing on other single features. Is it using more information always better? Progressively add new features to the data matrix. Plot the score vs the number of features