# Initialization

## Packages Loading

In [1]:
from typing import *
import math

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Model Initialization
model:
$$ \log{\frac{P(1|a1)}{P(0|a1)}} = w_1a_1 + w_0a_0 \space;\space a_0 = 1 $$ \\

so $P(1|a1)$ is:
$$ Pr(1|a_1) = \frac{1}{1 + e^{-(w_1a_1+w_0)}} $$

In [2]:
class LogisticRegressionModel:
  def __init__(self, w1, w0):
    self.w1 = w1
    self.w0 = w0

  def get_predict_result(self, a1: np.ndarray) -> np.ndarray:
    pred = []
    for inp in a1:
      prob = 1 / (1 + math.exp(-(self.w1*inp + self.w0)))
      pred.append(prob)

    return np.array(pred)

# Data Loading

In [3]:
D = np.array([[-3, 0], [-1, 0], [1, 1], [3, 1]])

# Q6
* 使用 [desmos](https://www.desmos.com/) 繪製下面的方程式圖形
$$ Pr(1|a_1) = \frac{1}{1 + e^{-(w_1a_1+w_0)}} $$
其中 $w_1 = 0.9$ $w_0 = 0$ \\
所以方程式為：
$$ Pr(1|a_1) = \frac{1}{1 + e^{-(0.9a_1)}} $$

* 結果：
<img width=1000px src="https://lh3.google.com/u/0/d/1VIwBHSN62gzXX5nVnTYRxxqJDlfhJAf5=w2992-h1654-iv2"></img>

# Q7

In [4]:
model = LogisticRegressionModel(0.9, 0)

In [5]:
prob_output = model.get_predict_result(D[:, 0])
print(f"利用這個模型，以我們的資料，預測他們為 '1' 的機率如下：")
print(prob_output)

利用這個模型，以我們的資料，預測他們為 '1' 的機率如下：
[0.06297336 0.2890505  0.7109495  0.93702664]


# Q8
log-likelihood定義：
$$
LogLikelihood = \sum_{i=1}^{n}{e_i}
$$

$$
e_i = (1-y^{(i)})\log{(1-Pr(1|x_1^{(i)}, x_2^{(i)}, \ldots, x_k^{(i)}))} + y^{(i)}\log{(Pr(1|x_1^{(i)}, x_2^{(i)}, \ldots, x_k^{(i)}))}
$$ \\

其中 $y$ 為 ground truth，$x_j^i$ 為 feature $j$ 的第 $i$ 筆資料 \\
 \\
其實上面的式子就是下面這個定義
 \\
 \\
$$
e_i =
\begin{cases}
    \log{(Pr(0|x_1^{(i)}, x_2^{(i)}, \ldots, x_k^{(i)})} \space ; \space if \space y^{(i))} = 0 \\
     \\
    \log{(Pr(1|x_1^{(i)}, x_2^{(i)}, \ldots, x_k^{(i)}))} \space ; \space if \space y^{(i)} = 1
\end{cases}
$$


In [6]:
def log_likelihood(pred_true: np.ndarray, gt: np.ndarray):
  n = len(pred_true)
  total_e = 0
  for i in range(n):
    e_i = (1-gt[i])* math.log(1 - pred_true[i]) + gt[i]*math.log(pred_true[i])
    total_e += e_i

  return total_e

In [7]:
llh = log_likelihood(prob_output, D[:, 1])

In [8]:
print(f"以這個模型得出的log-likelihood為：{llh}")

以這個模型得出的log-likelihood為：-0.8123948730173567


# Q9

In [9]:
model_2 = LogisticRegressionModel(0.923, 0)

In [10]:
prob_output_2 = model_2.get_predict_result(D[:, 0])
print(f"利用這個模型2，以我們的資料，預測他們為 '1' 的機率如下：")
print(prob_output_2)

利用這個模型2，以我們的資料，預測他們為 '1' 的機率如下：
[0.05902253 0.28434702 0.71565298 0.94097747]


# Q10

In [11]:
llh_2 = log_likelihood(prob_output_2, D[:, 1])

In [12]:
print(f"以這個模型2得出的log-likelihood為：{llh_2}")

以這個模型2得出的log-likelihood為：-0.7907919435393235


# Q11
* 以log-likelihood來說，數值越大代表模型效果越好
  * 當ground truth為0，希望模型預測出來0的機率也要越大
  * 當ground truth為1，希望模型預測出來1的機率也要越大
  * 總合起來，如果log-likelihood越大代表模型預測結果越接近ground truth
* 所以以上面兩個模型的log-likelihood來說，是第二個模型的效果比較好

# Q12

In [13]:
table = {
    "model1": prob_output,
    "model2": prob_output_2,
    "ground_truth": D[:,1]
}

df = pd.DataFrame(table)

In [14]:
df

Unnamed: 0,model1,model2,ground_truth
0,0.062973,0.059023,0
1,0.28905,0.284347,0
2,0.71095,0.715653,1
3,0.937027,0.940977,1


In [15]:
print("""
由上面的數據表可知，
在每一個ground truth的接近度上面，
model2都表現得比model1還要好 (GT為0的話，判斷為1機率較低；GT為1的話，判斷為1的機率較高)
      
但要注意的是，如果只是判斷0與1，那麼兩個model的表現都是一樣的。因為兩者的w0都一樣為0
所以在x>0時，兩者的判斷結果都是1，而x<0時，兩者的判斷結果都是0。
""")


由上面的數據表可知，
在每一個ground truth的接近度上面，
model2都表現得比model1還要好 (GT為0的話，判斷為1機率較低；GT為1的話，判斷為1的機率較高)

