In [2]:
import numpy as np
import matplotlib.pyplot as plt

# Python 的變數不須宣告, 可能是文字, 數值, 陣列, 甚至是物件, 對初學者來說這往往是最難接受的地方
# 主要是 Python 在大多數情況下, 可以由運算"猜"出你想要的型態, 我們由下列語法看看發生了什麼事吧
# w, b 是數值
w = 3
b = 0.5

# np.linspace 是 numpy.linspace 的意思
# np.linspace(0, 100, 101)是指 0~100 劃分成 101 個刻度(含頭尾), 所也就是 0, 1, 2,...,100 這 101 個數
# 這時候, x_lin 因為要記錄不只一個數, 因為 np.linspace() 傳回的是一個 Array, 所以 x_lin 就變成 Array 了
x_lin = np.linspace(0, 100, 101)

# np.random.randn() 就是 numpy.random.randn(), 會隨機傳回標準常態分布的取樣值
# np.random.randn(101) 表示取樣了101次, 型態是 Array, 所以其他 + 與 * 的部分都是 Array 的加與乘, 一行就計算了101筆資料
# 所以最後的結果 y, 也是一個長度 101 的 Array
y = (x_lin + np.random.randn(101) * 5) * w + b

# 這邊就是將 x_lin 以及剛剛算完的 y, 當作座標值, 將101個點在平面上畫出來
# b. : b 就是 blue, 點(.) 就是最小單位的形狀, 詳細可以查 matplotlib 的官方說明
# plt.plot(x_lin, y, 'r.', label='data points')
# plt.title("Assume we have data points")
# plt.legend(loc=4)
# plt.show()

# 這邊的 y_hat, 就沒有隨機的部分了, 也就是下圖中的紅色實線部分
y_hat = x_lin * w + b

# plt.plot(x_lin, y, 'b.', label = 'data')
# 上面的 'b.' 是藍色點狀, 下面的 'r-' 是紅色線狀, label 是圖示上的名稱
# plt.plot(x_lin, y_hat, 'r-', label = 'prediction')
# plt.title("Assume we have data points (And the prediction)")
# plt.legend(loc = 2)
# plt.show()
# Python 的函數是另一個新手上手的困難點, 由def開頭, 依序是函數名稱 / 輸入值, 冒號(:)結尾
# 最難讓人習慣的是 Python 的函式與條件判斷, 前後都沒有大括弧(其他程式常見), 而是以四格空白縮排來取代
# 以本例來說, mean_absolute_error 這個函數的定義範圍到 return mae 為止, 因為中間都是縮排, 而 """ 是多行註解(井號是單行註解)
# 函數中, sum(), abs(), len() 都是 Python 原有的方法, 因此可以直接呼叫
def mean_absolute_error(y, yp):
    """
    計算 MAE
    Args:
        - y: 實際值
        - yp: 預測值
    Return:
        - mae: MAE
    """
    # MAE : 將兩個陣列相減後, 取絕對值(abs), 再將整個陣列加總成一個數字(sum), 最後除以y的長度(len), 因此稱為"平均絕對誤差"
    mae = sum(abs(y - yp)) / len(y)

    return mae


def mean_squared_error(y, yp):
    mse = sum(pow(abs(y - yp), 2))
    return mse;


# 呼叫上述函式, 傳回 y(藍點高度)與 y_hat(紅線高度) 的 MAE
MAE = mean_absolute_error(y, y_hat)
MSE = mean_squared_error(y, y_hat)
print("The Mean absolute error is %.3f" % MAE)
print("The Mean squared  error is %.3f" % MSE)

"""
作業2：申論題目可直接將答案回覆在HW檔案裡面，Jupyter notebook可直接編輯文字。

請上 Kaggle, 在 Competitions 或 Dataset 中找一組競賽或資料並寫下：

https://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews

1. 你選的這組資料為何重要
  探討女性的穿著, 藉由真實資料的回饋, 來知道這件衣服的價值

2. 資料從何而來 (tips: 譬如提供者是誰、以什麼方式蒐集)
https://www.kaggle.com/nicapotato
https://github.com/AFAgarap/ecommerce-reviews-analysis

3. 蒐集而來的資料型態為何
作者寫是真實資料, 來自於哪個網站不可考
This dataset includes 23486 rows and 10 feature variables. Each row corresponds to a customer review, and includes the variables:

Clothing ID: Integer Categorical variable that refers to the specific piece being reviewed.
Age: Positive Integer variable of the reviewers age.
Title: String variable for the title of the review.
Review Text: String variable for the review body.
Rating: Positive Ordinal Integer variable for the product score granted by the customer from 1 Worst, to 5 Best.
Recommended IND: Binary variable stating where the customer recommends the product where 1 is recommended, 0 is not recommended.
Positive Feedback Count: Positive Integer documenting the number of other customers who found this review positive.
Division Name: Categorical name of the product high level division.
Department Name: Categorical name of the product department name.
Class Name: Categorical name of the product class name. 

4. 這組資料想解決的問題如何評估
  藉由 review comment 來嘗試看是否有更好的 NLP 去解析, 並非只是 rating score


作業3：申論題目可直接將答案回覆在HW檔案裡面，Jupyter notebook可直接編輯文字。

想像你經營一個自由載客車隊，你希望能透過數據分析以提升業績，請你思考並描述你如何規劃整體的分析/解決方案：

1. 核心問題為何 (tips：如何定義 「提升業績 & 你的假設」) 
   自由載客車隊已經有 10 名司機, 目前皆工作 8 小時,  日營業額 每一個人約 15 分鐘 接到一個客人 平均價格 100 

2. 資料從何而來 (tips：哪些資料可能會對你想問的問題產生影響 & 資料如何蒐集)
   資料量 , 營業額從司機及可以提供, 停靠地點, 接送地方 假設有 APP 紀錄, 有跳錶, 所以可以知道 空車時間有多長

3. 蒐集而來的資料型態為何
   想像中應該是一堆的  log data 

4. 你要回答的問題，其如何評估 (tips：你的假設如何驗證)   
   提高載客率, 降低空車時間 可以換算出比例    


"""

The Mean absolute error is 10.641
The Mean squared  error is 16408.915


'\n作業2：申論題目可直接將答案回覆在HW檔案裡面，Jupyter notebook可直接編輯文字。\n\n請上 Kaggle, 在 Competitions 或 Dataset 中找一組競賽或資料並寫下：\n\nhttps://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews\n\n1. 你選的這組資料為何重要\n  探討女性的穿著, 藉由真實資料的回饋, 來知道這件衣服的價值\n\n2. 資料從何而來 (tips: 譬如提供者是誰、以什麼方式蒐集)\nhttps://www.kaggle.com/nicapotato\nhttps://github.com/AFAgarap/ecommerce-reviews-analysis\n\n3. 蒐集而來的資料型態為何\n作者寫是真實資料, 來自於哪個網站不可考\nThis dataset includes 23486 rows and 10 feature variables. Each row corresponds to a customer review, and includes the variables:\n\nClothing ID: Integer Categorical variable that refers to the specific piece being reviewed.\nAge: Positive Integer variable of the reviewers age.\nTitle: String variable for the title of the review.\nReview Text: String variable for the review body.\nRating: Positive Ordinal Integer variable for the product score granted by the customer from 1 Worst, to 5 Best.\nRecommended IND: Binary variable stating where the customer recommends the product where 1 is recommended