# プロジェクト: 線形回帰

レジーはマッドサイエンティストで、地元のファーストフード店に雇われ、遊び場に最新のボールピットを建設しました。 そのため、ピットを最適化するために、さまざまなボールの弾みの研究に取り組んでいます。 彼はさまざまなサイズの弾むボールを弾ませる実験を行っており、記録したデータ ポイントに線を当てはめています。 彼は線形回帰について聞いたことがありますが、線形回帰のバージョンを Python で実装するにはあなたの助けが必要です。

_Linear Regression_ は、グラフ上に点のグループがあり、その点のグループにほぼ似た線を見つけた場合です。 優れた線形回帰アルゴリズムは、_error_、つまり各点から線までの距離を最小化します。 誤差が最小の線は、データに最もよく適合する線です。 これを _best fit_ のラインと呼びます。

ループ、リスト、算術演算を使用して、データ セットが与えられたときに最適な行を見つける関数を作成します。


## パート 1: 計算エラー

最終的な行には、次のような式が含まれます。
```
y = m*x + b
```
「m」は線の傾き、「b」は線が y 軸と交差する切片です。

`m`、`b`、および `x` を受け取り、その行の `x` の `y` 値が何であるかを返す `get_y()` という関数を作成してください!


In [3]:
def get_y(m, b, x):
  y = m*x + b
  return y

get_y(1, 0, 7) == 7
get_y(5, 10, 3) == 25


True


Reggie は、一連の異なる `m` 値と `b` 値を試して、どの行が最小のエラーを生成するかを確認したいと考えています。 点と線の間の誤差を計算するには、「calculate_error()」という関数が必要です。この関数は、「m」、「b」、および「point」と呼ばれる [x, y] ポイントを受け取り、間の距離を返します。 線と点。

距離を見つけるには:
1. ポイントから x 値を取得し、それを「x_point」という変数に格納します
2. ポイントから y 値を取得し、それを「y_point」という変数に格納します
3. `get_y()` を使用して、`x_point` が線上にある y 値を取得します
4. `get_y` と `y_point` の y の違いを見つける
5. 距離の絶対値を返す (これには組み込み関数 `abs()` を使用できます)

距離は、線 `y = m*x + b` と指定された `point` の間の誤差を表します。


In [11]:
def calculate_error(m, b, point):
  x_point, y_point = point
  y = m*x_point + b
  distance = abs(y - y_point)
  return distance


この機能をテストしてみましょう。

In [12]:
#this is a line that looks like y = x, so (3, 3) should lie on it. thus, error should be 0:
print(calculate_error(1, 0, (3, 3)))
#the point (3, 4) should be 1 unit away from the line y = x:
print(calculate_error(1, 0, (3, 4)))
#the point (3, 3) should be 1 unit away from the line y = x - 1:
print(calculate_error(1, -1, (3, 3)))
#the point (3, 3) should be 5 units away from the line y = -x + 1:
print(calculate_error(-1, 1, (3, 3)))

0
1
1
5


すごい！ Reggie のデータセットは点のセットになります。 たとえば、弾むボールの幅と弾む高さを比較する実験を行いました。

In [13]:
datapoints = [(1, 2), (2, 0), (3, 4), (4, 4), (5, 3)]

最初のデータポイント `(1, 2)` は、彼の 1cm の弾むボールが 2 メートル跳ね返ったことを意味します。 4cmの弾むボールが4m跳ねた。

線をこのデータに当てはめようとすると、線を記述する「m」と「b」、および上記の例のようなデータのセットである「points」を受け取る「calculate_all_error」という関数が必要になります。

`calculate_all_error` は、`points` 内の各 `point` を繰り返し処理し、その点からラインまでの誤差を計算する必要があります (`calculate_error` を使用)。 エラーの現在の合計を保持し、ループの後にその合計を返す必要があります。

In [14]:
def calculate_all_error(m, b, datapoints):
    total_error = 0
    for point in datapoints:
        point_error = calculate_error(m, b, point)
        total_error += point_error
    return total_error

この機能をテストしてみましょう。

In [15]:
#every point in this dataset lies upon y=x, so the total error should be zero:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, 0, datapoints))

#every point in this dataset is 1 unit away from y = x + 1, so the total error should be 4:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, 1, datapoints))

#every point in this dataset is 1 unit away from y = x - 1, so the total error should be 4:
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(1, -1, datapoints))


#the points in this dataset are 1, 5, 9, and 3 units away from y = -x + 1, respectively, so total error should be
# 1 + 5 + 9 + 3 = 18
datapoints = [(1, 1), (3, 3), (5, 5), (-1, -1)]
print(calculate_all_error(-1, 1, datapoints))

0
4
4
18


すごい！ これで、行と Reggie のデータを取り込んで、その行をデータに適合させようとしたときにその行が生成するエラーの量を返すことができる関数ができたようです。

次のステップは、このエラーを最小化し、データに最も適合する `m` と `b` を見つけることです!


## パート 2: たくさんのスロープとインターセプトを試してみましょう!

# Reggie が最適なラインを見つけようとする方法は、試行錯誤によるものです。 彼は、さまざまな勾配 (`m` 値) とさまざまな切片 (`b` 値) を試して、どれがデータセットの最小のエラー値を生成するかを確認したいと考えています。

リスト内包表記を使用して、可能な `m` 値のリストを作成してみましょう。 0.1 刻みで -10 から 10 までのリスト `possible_ms` を作成します。

ヒント (ヒントを表示するには、このセルをダブルクリックして非表示のテキストを表示します):
<span style="visibility: hidden;">
   範囲（-100、101）の値を調べて、それぞれに0.1を掛けることができます
</span>


In [16]:
possible_ms = [m * 0.1 for m in range(-100, 101)]

それでは、0.1 刻みで -20 から 20 までの値を確認するための `possible_bs` のリストを作成しましょう。

In [17]:
possible_bs = [b * 0.1 for b in range(-200, 201)]

最小のエラーを見つけます。まず、考えられるすべての `m` と考えられるすべての `b` をペアにして、考えられるすべての `y = m*x + b` の行を作成します。次に、どの「y = m*x + b」行が、「datapoint」に格納されたデータ セットで最小の合計誤差を生成するかを確認します。

まず、最適化する変数を作成します。
* `smallest_error` &mdash;これは無限大 (`float("inf")`) から開始する必要があるため、最初に発生するエラーはすべて `smallest_error` の値よりも小さくなります。
* `best_m` &mdash;これを「0」から開始できます
* `best_b` &mdash;これを「0」から開始できます

私たちはしたい:
* `possible_ms` の各要素 `m` を繰り返す
* すべての `m` 値について、`possible_bs` のすべての `b` 値を取得します
* この `m` 値、この `b` 値、および `datapoints` に対する `calculate_all_error` から返された値が、現在の `smallest_error` より小さい場合、
* `best_m` と `best_b` をこれらの値に設定し、`smallest_error` をこのエラーに設定します。

これらの入れ子になったループの終わりまでに、「smallest_error」には見つかった最小のエラーが保持され、「best_m」と「best_b」はその最小のエラー値を生成した値になります。

ループ後に「best_m」、「best_b」、「smallest_error」を出力します。


In [19]:
datapoints = [(1, 2), (2, 0), (3, 4), (4, 4), (5, 3)]
smallest_error = float("inf")
best_m = 0
best_b = 0

for m in possible_ms:
    for b in possible_bs:
   	 error = calculate_all_error(m, b, datapoints)
   	 if error < smallest_error:
   		 best_m = m
   		 best_b = b
   		 smallest_error = error
       	 
print(best_m, best_b, smallest_error)


0.30000000000000004 1.7000000000000002 4.999999999999999


## パート 3: モデルは何を予測するか?

ここで、弾むボールに関するこの一連の観測について、データに最もよく適合する線は、「m」が 0.3 で「b」が 1.7 であることがわかりました。

```
y = 0.3x + 1.7
```

この行は合計 5 のエラーを生成しました。

この `m` とこの `b` を使用して、幅 6 のボールの跳ね返りの高さを線で予測しますか?
つまり、次のように呼び出したときの `get_y()` の出力は何ですか。
* m = 0.3
* b = 1.7
* × = 6

In [20]:
get_y(0.3, 1.7, 6)

3.5

私たちのモデルは、6cm のボールが 3.5m 跳ね返ると予測しています。

これで、Reggie はこのモデルを使用して、ボール ピットに含めることを選択したあらゆる種類のサイズのボールの跳ね返りを予測できるようになりました。