<a href="https://colab.research.google.com/github/ukkyukang/ML/blob/main/Linear_Regression_Example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1.1.1. Ordinary Least Squares

LinearRegression 모델을 사용해서 입력한 테스트 데이터를 표현하는 수식을 만들고, Residual의 분산이 최소가 되는 coefficient를 찾아낸다.

Ordinary least squares란 입력값 x1을 수식에 넣었은 결과 f(x1)에 대해, 1/n (합 ( x1-f(x1)^2)을 의미한다.


## Note:
* Mean (평균) → Deviation(편차, 값-평균) → variance(분산, 편차제곱의 합의 평균) → Standard deviation ( 분산에 루트를 씌운 값)
* Residual : Deviation와 같은 개념인데, 통계가 아니라 linearRegression 모델에서 생성한 수식에서 예측한 결과 값과 실제 결과 값의 차이. 이 차이가 가장 작은 수식을 만드는 것이 목표

## Link
* Ordinary_least_squares (OLS) : https://en.wikipedia.org/wiki/
* Meas square error (MSE) : https://en.wikipedia.org/wiki/Mean_squared_error
regression 함수에서 예측한 값과 실제 값의 차이의 제곱의 평균 (분산같은 개념)
* Non-negative least squares : https://en.wikipedia.org/wiki/Non-negative_least_squares




---

**Mean Squared Error (MSE)**와 **Ordinary Least Squares (OLS)**는 둘 다 회귀 분석에서 사용되는 개념이지만, 그들의 목적과 사용 방식에는 중요한 차이점이 있습니다12345.

Mean Squared Error (MSE): MSE는 회귀 모델의 성능을 평가하는 데 사용되는 지표입니다1. MSE는 모델의 예측 값과 실제 값 사이의 차이를 제곱하여 평균을 낸 것입니다1. 이는 모델의 예측 오차를 정량화하는 데 사용되며, 값이 작을수록 모델의 성능이 좋다고 판단합니다. --> **residual/error 개념이 사용되는 것**

Ordinary Least Squares (OLS): OLS는 선형 회귀 모델의 매개변수를 추정하는 데 사용되는 방법입니다5. OLS는 모델의 예측 값과 실제 값 사이의 차이의 제곱 합, 즉 MSE를 최소화하는 매개변수를 찾는 것이 목표입니다5. 이는 모델의 매개변수를 학습하는 데 사용되며, 이를 통해 최적의 선형 회귀 모델을 구축합니다. --> **분산이 사용됨**

따라서, MSE와 OLS의 주요 차이점은 MSE가 모델의 성능을 평가하는 데 사용되는 반면, OLS는 모델의 매개변수를 학습하는 데 사용된다는 것입니다




In [60]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
reg.coef_

array([0.5, 0.5])

[Linear Regression Example](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# Load the diabetes dataset
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# Use only one feature
# 모든 행에 대해서, 새로운 column을 만들고, column은 2번 column을 사용하시오
# diabetes_X는 pandas DataFrame이 아니라 np.array( 2D array )이다. 아래의 array slicing을
# dataframe slicing과 혼동하지 말것.
diabetes_X = diabetes_X[:, np.newaxis, 2]


# Split the data into training/testing sets
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# Split the targets into training/testing sets
diabetes_y_train = diabetes_y[:-20]
diabetes_y_test = diabetes_y[-20:]

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

# Make predictions using the testing set
diabetes_y_pred = regr.predict(diabetes_X_test)

# The coefficients
print("Coefficients: \n", regr.coef_)
# The mean squared error
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# The coefficient of determination: 1 is perfect prediction
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))

# Plot outputs
plt.scatter(diabetes_X_test, diabetes_y_test, color="black")
plt.plot(diabetes_X_test, diabetes_y_pred, color="blue", linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()

## 1.1.1.1. Non-Negative Least Squares

coefficient가 음수가 되지 않도록 설정할 수 있다.

Non-Negative Least Squares (NNLS)는 회귀 계수가 음수가 되지 않도록 제한하는 최소제곱 문제의 한 유형입니다1. 이 방법은 다음과 같은 상황에서 유용합니다:

변수가 자연적으로 음수가 될 수 없는 상황: 예를 들어, 물리적 크기나 개수 등을 나타내는 변수는 음수가 될 수 없습니다. 이런 경우 NNLS를 사용하면 모델이 물리적으로 불가능한 값을 예측하는 것을 방지할 수 있습니다1.
희소성이 필요한 상황: NNLS는 회귀 계수 중 일부를 0으로 만들어 결과를 희소하게 만듭니다2. 이는 변수 선택이 필요한 상황이나 고차원 데이터에서 유용합니다2.
행렬 분해: NNLS 문제는 행렬 분해, 예를 들어 PARAFAC와 음수 미포함 행렬/텐서 인수분해 알고리즘에서 하위 문제로 나타납니다1.
따라서 NNLS는 이러한 상황에서 유용하게 사용될 수 있습니다. 하지만 NNLS는 모든 상황에 적합한 것은 아니며, 문제의 특성과 데이터에 따라 적절한 모델을 선택해야 합니다.

https://scikit-learn.org/stable/auto_examples/linear_model/plot_nnls.html#sphx-glr-auto-examples-linear-model-plot-nnls-py

In [None]:
def p(msg,v):

  print(msg)
  print(v)
  print("\n")

np.random.seed(42)

n_samples, n_features = 200,50
X = np.random.randn(n_samples, n_features) # 무작위 테스트 데이터를 만든다. n_samples : 행 개수, n_features : 열개수
p("5x4 matrix",X)

# 랜덤 값 4개가 들어있는 배열 생성
temp = np.random.randn(n_features)
p("np.random.randn(n_features):",temp)

# 위에서 생성한 랜던값에 3을 곱한 배열을 생
# true_coef = 3 * np.random.randn(n_features)
true_coef = 3*temp
p("true_coef:",true_coef)

true_coef[true_coef < 0] = 0
p("true_coef[true_coef < 0] = 0",true_coef)


# dot product (why?) - 여기서 만드는 값은 입력 X데이터에 대한 결과값 (라벨)이다.

y = np.dot(X, true_coef)
p("np.dot(X, true_coef)",y)

# Add some noise
y += 5 * np.random.normal(size=(n_samples,))
p("add noise",y)

# split the data in train set and test set
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

p("X_train",X_train)
p("X_test",X_test)
p("y_train",y_train)
p("y_test",y_test)

# 모델 트레이닝 - Non-Negative least squres (NNLS)
from sklearn.linear_model import LinearRegression

reg_nnls = LinearRegression(positive=True)
y_pred_nnls = reg_nnls.fit(X_train, y_train).predict(X_test)
r2_score_nnls = r2_score(y_test, y_pred_nnls)
print("NNLS R2 score", r2_score_nnls)

# OLS
reg_ols = LinearRegression()
y_pred_ols = reg_ols.fit(X_train, y_train).predict(X_test)
r2_score_ols = r2_score(y_test, y_pred_ols)
print("OLS R2 score", r2_score_ols)

fig, ax = plt.subplots()

# 두가지 모델에서 찾은 coef_값을 매핑해서 그리기
ax.plot(reg_ols.coef_, reg_nnls.coef_, linewidth=0, marker=".")

p("reg_ols.coef_",reg_ols.coef_)
p("reg_nnls.coef_",reg_nnls.coef_)

# 기준선 그리기 위한 전체 값의 min/max값 얻기
low_x, high_x = ax.get_xlim()
low_y, high_y = ax.get_ylim()

p("low_x,high_x",[low_x,high_x])
p("low_y,high_y",[low_y,high_y])

low = max(low_x, low_y)
high = min(high_x, high_y)

# 기준선 그리기
ax.plot([low, high], [low, high], ls="--", c=".3", alpha=0.5)
ax.set_xlabel("OLS regression coefficients", fontweight="bold")
ax.set_ylabel("NNLS regression coefficients", fontweight="bold")

## 1.1.1.2. Ordinary Least Squares Complexity


* OLS의 복잡성에 대해 말하자면, 이 방법은 X에 대한 singular value decomposition (SVD, 특이값 분해)를 계산하여 최소제곱해를 찾습니다. 만약 X가 (n, p) 크기의 행렬이라면, 이 방법의 복잡성은 : O(np^2+p^3) 입니다.
* 이는 n이 p보다 훨씬 클 때, 즉 특징의 수가 데이터 포인트의 수보다 훨씬 작을 때 효과적입니다.
* 참고로, OLS는 선형 회귀 문제를 해결하는 가장 일반적인 방법 중 하나이며, 이는 각 데이터 포인트와 회귀선 사이의 수직 거리를 최소화함으로써 최적의 선을 찾습니다.

* n은 행의 개수이고, p는 column의 개수라고 할때, column개수가 작을 수록, 효과적이다.

# 1.1.2. Ridge regression and classfication

* Ridge (산등성이)

Ridge Regression은 선형 회귀 모델에서 과적합을 방지하기 위해 사용되는 정규화 기법입니다. 이 방법은 기본적인 선형 회귀의 비용 함수에 정규화 항을 추가하여 모델의 복잡성을 제어하고, 과적합을 방지합니다12.
Ridge Regression의 비용 함수는 다음과 같습니다:
RSS+λj=1∑p​βj2​
여기서:
* RSS는 잔차 제곱합,
* λ는 정규화 파라미터,
* β는 회귀 계수

를 나타냅니다1.
* λ가 0일 때, Ridge Regression은 일반적인 최소제곱법과 동일한 결과를 제공합니다.
* 그러나 λ가 무한대에 가까워질수록, 정규화 항이 더욱 영향력을 가지게 되어 Ridge Regression의 회귀 계수 추정치는 0에 가까워집니다1

* Ridge Regression의 주요 장점은 편향-분산 트레이드오프를 통해 전체 평균 제곱 오차(MSE)를 줄이는 데 있습니다1. 즉, 약간의 편향을 도입하여 분산을 크게 줄이는 것입니다1.

* Ridge Classifier는 Ridge Regression의 아이디어를 확장하여 다중 클래스 분류 문제에 적용한 것입니다3. Ridge Classifier는 L2 정규화를 사용하여 과적합을 방지하고, 모델 복잡성과 데이터 적합 사이의 균형을 유지합니다3. 이 분류기의 특징 중 하나는 목표 변수를 -1과 1 사이의 특정 범위로 변환하여 분류 문제를 회귀 프레임워크에 적용하는 것입니다3. 이 변환은 과적합의 가능성을 줄입니다3.
Ridge Classifier는 분류와 회귀의 요소를 결합하여 복잡한 분류 문제에 대한 안정적이고 신뢰할 수 있는 해답을 제공합니다3.



---


Ridge Regression과 Lasso Regression은 둘 다 선형 회귀 모델에서 과적합을 방지하기 위한 정규화(regularization) 기법입니다. 이 두 기법의 주요 차이점은 정규화 항의 형태에 있습니다12345.

Ridge Regression: Ridge Regression은 L2 정규화를 사용하며, 비용 함수에 계수의 제곱의 합에 대한 패널티 항을 추가합니다1. 이 패널티 항은 계수의 크기를 줄이는 데 도움이 되지만, 계수를 완전히 0으로 만들지는 않습니다1. 이로 인해 Ridge Regression은 모든 특성을 유지하면서도 계수의 크기를 제어합니다1.

Lasso Regression: Lasso Regression은 L1 정규화를 사용하며, 비용 함수에 계수의 절대값의 합에 대한 패널티 항을 추가합니다1. 이 패널티 항은 계수의 크기를 줄이는 데 도움이 되며, 일부 계수를 완전히 0으로 만들 수 있습니다1. 이로 인해 Lasso Regression은 특성 선택(feature selection)을 수행하게 되며, 덜 중요한 특성의 계수를 0으로 만들어 모델의 복잡성을 줄입니다1.

따라서, Ridge Regression과 Lasso Regression의 주요 차이점은 Ridge Regression이 모든 특성을 유지하면서도 계수의 크기를 제어하는 반면, Lasso Regression은 덜 중요한 특성의 계수를 0으로 만들어 모델의 복잡성을 줄이는 데 있습니다



---
회귀 분석에서 비용 함수는 모델의 예측 값과 실제 값 사이의 차이를 측정하는 함수입니다1. 이 차이는 “오차” 또는 "비용"으로 간주되며, 비용 함수의 목표는 이 오차를 최소화하는 것입니다1.
선형 회귀에서 가장 일반적으로 사용되는 비용 함수는 평균 제곱 오차(Mean Squared Error, MSE)입니다1. MSE는 모델의 예측 값과 실제 값 사이의 차이를 제곱하여 평균을 낸 것입니다. 수식으로 표현하면 다음과 같습니다:
MSE=n1​i=1∑n​(yi​−y^​i​)2
여기서 yi​는 실제 값, y^​i​는 모델에 의한 예측 값, n은 데이터 포인트의 개수를 나타냅니다1.
비용 함수를 최소화하는 것은 모델의 매개변수(예: 선형 회귀의 기울기와 절편)를 찾는 것을 의미하며, 이 과정은 경사 하강법 등의 최적화 알고리즘을 통해 수행됩니다1.


## 1.1.2.1. Regression

선형회귀 모델에서 과적합(overfitting)은 모델이 학습 데이터에 너무 잘 맞아서 새로운 데이터에는 잘 맞지 않는 현상을 의미합니다123.

선형회귀 모델은 독립 변수와 종속 변수 사이의 선형 관계를 모델링하는 방법입니다1. 이 모델은 학습 데이터를 기반으로 독립 변수와 종속 변수 사이의 관계를 학습하며, 이 과정에서 모델이 학습 데이터에 너무 잘 맞게 학습되어 실제 데이터에 대한 예측 성능이 떨어지는 경우가 있습니다123. 이를 과적합이라고 합니다.

과적합은 모델이 학습 데이터의 노이즈까지 학습하여, 학습 데이터에만 과도하게 최적화된 상태를 말합니다123. 이런 상태의 모델은 학습 데이터에 대해서는 높은 성능을 보이지만, 새로운 데이터에 대해서는 일반화 성능이 떨어지는 경향이 있습니다123.

과적합을 방지하기 위한 방법 중 하나로 Regularization이 있습니다3. Regularization은 회귀 계수에 패널티 값을 적용하여 모델의 복잡도를 제한하고, 이를 통해 과적합을 방지하는 방법입니다3.

In [105]:
from sklearn import linear_model

reg_1 = linear_model.LinearRegression()
reg_2 = linear_model.Ridge(alpha=.5)
reg_1.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
reg_2.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2])

p("reg_1.coef_ and intercept_", [reg_1.coef_, reg_1.intercept_])
p("reg_2.coef_ and intercept_", [reg_2.coef_, reg_2.intercept_])

reg_1.coef_ and intercept_
[array([0.5, 0.5]), 1.1102230246251565e-16]


reg_2.coef_ and intercept_
[array([0.44444444, 0.44444444]), 0.11111111111111116]




## 1.1.2.2. Classification

# Coding Support

In [7]:
arr = np.arange(4)
print(arr.shape,arr)

(4,) [0 1 2 3]


In [10]:
#1D array에, 1개의 row를 추가한다
row_vec = arr[np.newaxis, :]
print(row_vec.shape,row_vec)

col_vec = arr[:,np.newaxis]
print(col_vec.shape,col_vec)

(1, 4) [[0 1 2 3]]


**Pandas indexsing basic**

In [None]:
# %%
# numpy slicing (Don't confuse with Pandas Dataframe slicing)

# 2D array
arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
print(arr)

arr_dataframe = pd.DataFrame(arr, index=[0,1],columns=["A","B","C","D","E"])
print(arr_dataframe)

# indexing : 0/1행에서 3번째 column의 값
print(arr[0:2,2])

# slicing : 모든행에 대해, 새로운 axis1(column)을 만들건데, column index는 1
print("# slicing : 모든행에 대해, 새로운 axis1(column)을 만들건데, column index는 1")
print(arr[:,np.newaxis,1])

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
   A  B  C  D   E
0  1  2  3  4   5
1  6  7  8  9  10
[3 8]
# slicing : 모든행에 대해, 새로운 axis1(column)을 만들건데, column index는 1
[[2]
 [7]]


**2D Array slicing**

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])

# %%
# df.loc
# 데이터프레임에 index가 설정되어 있을때, 그 index를 참조해서 데이터를 가져오는 것
# column 이름만 사용하면 에러가 난다. column을 가져올때에는 먼저 index를 선택해야 한다 [index,column]
# df.iloc은 loc와 같은 동작인데, 정수만 받는다.

# 행 가져오기, 반환값은 시리즈
print('df.loc["a"],"행 가져오기, 반환값은 시리즈"')
print(df.loc["a"])

# 여러행 가져오기 1 : Range
print('\n df.loc["b":"c"]','여러행 가져오기 1 : Range (or, df["b":"c"])')
print(df.loc["b":"c"])

# 여러행 가져오기-2 : 행 선택
print('\n df.loc[[]"b","c"]]','여러행 가져오기-2 : 행 선택 (df.[[]"b","c"]] -> loc를 빼면 에러')
print(df.loc["b":"c"])



df.loc["a"],"행 가져오기, 반환값은 시리즈"
A    10
B    11
C    12
D    13
Name: a, dtype: int64

 df.loc["b":"c"] 여러행 가져오기 1 : Range (or, df["b":"c"])
    A   B   C   D
b  14  15  16  17
c  18  19  20  21

 df.loc[[]"b","c"]] 여러행 가져오기-2 : 행 선택 (df.[[]"b","c"]] -> loc를 빼면 에러
    A   B   C   D
b  14  15  16  17
c  18  19  20  21


# np.rand

* Providing seed enable code return always same value
* np.random.randint(6), np.random.randint(1,20) --> 1개의 정수값 반환
* np.random.rand(6), rand(3,2) : 함수 설정 값(범위) 만큼,  0 ~1사이의 균일 분포의 난수 matrix array생성
* np.random.randn(6), randn(3,2) : 함수 설정값(범위)만큼, 가우시안 표준 정규 분포에서 난수 matrix array생성
* np.random.shuffle : 기존의 데이터의 순서 바꾸기
*np.random.choice : 기존의 데이터에서 sampling
*np.unique : 데이터에서 중복된 값을 제거하고 중복되지 않은 값의 리스트 출력
*np.bincount  : 발생하지 않은 사건에 대해서도 카운트를 해준다.

In [None]:
def p(msg,v):

  print(msg)
  print(v)
  print("\n")

np.random.seed(42)

n_samples, n_features = 5,4
X = np.random.randn(n_samples, n_features) # 무작위 테스트 데이터를 만든다. n_samples : 행 개수, n_features : 열개수
p("5x4 matrix",X)

