In [0]:
import matplotlib.pyplot as plt

In [0]:
# 회귀분석 자세히 살펴보기

# 관계성을 나타내는 함수를 학습하는 기법
# 특히 직선을 이용해서 각 변수 간의 관계를 
# 알아보는 것을 선형회귀라 함


# 예) 키와 몸무게의 관계를 회귀분석해 봄
# 키 : 170, 155, 150, 175, 165
# 몸무게 : 65, 50, 45, 70, 55


# 먼저 그래프로 시각화해 봄
h = [170, 155, 150, 175, 165]
w = [65, 50, 45, 70, 55]

plt.plot(h, w, 'ro')
plt.grid()
plt.show()


# 키와 몸무게의 관계를 직선으로 나타내기 위해
# y = ax + b 라는 방정식을 이용함
# a는 기울기, b는 절편임

# 회귀분석은 지도학습의 한 종류
# => 정답을 알고 있음
# => 따라서, 예측값과 정답을 비교해서 
#    오차를 최소화한 직선을 찾아내는 것이 중요!!!
# => 평균제곱오차 MSE, 최소제곱법 OLS, (확률적)경사하강법 SGD 



# OLS 를 이용해서 회귀계수를 알아보자!!
# 키:170, 몸무게:65 일때 
# y = ax + b 라는 선형방정식을 이용해서
# 예측값: a*170 + b
# 오차(예측값 - 실제값): (a*170 + b) - 65

# 따라서, 오차를 총합이 가장 작아지는 a, b를 구하면 됨
# 오차의 총합 : (a*170 - 65)^2 + ...

# 각 계수 a,b에 대한 식 정리
# (a*170 + b - 65)^2 = (a*170 + b - 65) * (a*170 + b - 65)
#                    = 170*170*a^2 + 170*a*b - 170*a*65 + a*170*b + 
#                      b^2 - b*65 - 65*a*170 - 65*b + 65*65

# a에 주목해서 정리(나머지는 상수취급)
# => a^2 + a + ...
# 170*170*a^2 + a(170*b - 170*65 + 170*b - 65*170) +
# b^2 - b*65 - 65*b + 65*65

# b에 주목해서 정리(나머지는 상수취급)
# b^2 + 170*a*b + a*170*b - b*65 - 65*b +
# 170*170*a^2 - 170*a*65 - 65*a*170 + 65*65

# 오차의 총합은 각각 a, b의 이차식이고 
# 계수 또한 양수이므로 그래프 포물선 형태를 띔
# 따라서, 오차가 0에 가까운 지점의 a, b를 구하는 것이 중요!!!

# 각 계수에 대한 편미분 실시
# 미분 - 주어진 식에 대한 접선의 기울기를 구하는 것
#        머신러닝은 결국 함수에서 최소나 최대인 입력을 찾는 문제(최적화 문제)
# => 즉, 모든 테스트케이스에 대해 답을 찾는 최적의 해법을 찾는 문제임

# 이차식의 일반적인 형태 : ax^2 + bx + c 일때
# 접선의 기울기를 구하는 식은 2ax + b 임
# 따라서, 최적의 매개변수는 이차식 그래프의 꼭지점을 지나는 지점의 직선을 구함
# => 그 직선의 기울기가 0인지 확인

# 필요한 수학지식 : 미분
# => x^n 의 미분 : n*x^n-1
# => ax^n 의 미분 : a*n*x^n-1
# => a 의 미분 : 0

# ==> c^3 + 2 를 미분하면? : 3x^2


# 필요한 수학지식 : 편미분
# 머신러닝에서 주로 사용하는 미분은 편미분
# 여러개의 변수를 갖는 함수의 경우 
# 이 중 하나의 변수만 주목하고 다른 변수는 
# 상수라고 간주하여 미분하는 것을 의미
# ==> x^2 + y^2 + x*y 를 편미분하면? : 2x + 1, 2y + 1

# (a * 170 + b - 65)^2를 a 에 대해 편미분해보면
# ==> 170 * 2 * (a * 170 + b - 65) 임

# 따라서, 키/몸무게 데이터를 이용해서 a에 대해 편미분 해보면
# 170 * 2 * (a * 170 + b - 65) + 
# 155 * 2 * (a * 155 + b - 50) +
# ...
# 165 * 2 * (a * 165 + b - 55) 로 됨

# 접선의 기울기는 0 이므로 (오차의 총합이 0에 가까워야 하므로)
# 식의 좌변에 0을 대입
# 즉, 오차의 총합을 a로 미분한것이 0이 되어야 함
# 0 = 170 * 2 * (a * 170 + b - 65) + 
#     155 * 2 * (a * 155 + b - 50) +
#     ...
#     165 * 2 * (a * 165 + b - 55) 로 됨

# 양변을 2로 나눠 2를 제거
# 0 = 170 * (a * 170 + b - 65) + 
#     155 * (a * 155 + b - 50) +
#     ...
#     165 * (a * 165 + b - 55) 로 됨

# a 에 대해 식을 정리해 보면
# 133275 * a + 815 * b = 46875

# 따라서, 키/몸무게 데이터를 이용해서 b에 대해 편미분 해보면
# 2 * b + 2 * (170 * a - 65) +
# 2 * b + 2 * (155 * a - 50) +
# ...
# 2 * b + 2 * (165 * a - 55) 

# 즉, 오차의 총합을 b 로 미분한 것이 0이 되어야 하므로 좌변에 0을 대입
# 0 = 2 * b + 2 * (170 * a - 65) +
#     2 * b + 2 * (155 * a - 50) +
#     ...
#     2 * b + 2 * (165 * a - 55) 

# 양변을 2로 나눠 2를 제거
# 0 = b + (170 * a - 65) +
#     b + (155 * a - 50) +
#     ...
#     b + (165 * a - 55)

# b에 대해 식을 정리해 보면
# 815 * a + 5 * b = 285

# 따라서, 연립방정식 형태로 식을 풀어보면
# 133275 * a + 815 * b = 46875
# 815 * a + 5 * b = 285 에서

# b = (285 - 815 * a) / 5 로 
# a 를 구해보면 0.9767... b 는 -102.209...가 나옴

# 따라서, 직선의 식은
# y = 0.977 * x - 102.209

# 키가 180cm 일때 예측되는 몸무게는 ?
# y = 0.977 * 180 - 102.209 => 73.65


# ex) 만일, 키 뿐만 아니라, 운동시간(통학거리, 식사양)을 포함시켜
# 몸무게를 예측하고 싶다면? => 다중회귀분석 이용
# => y = ax + bx + c
# => 따라서, 오차의 총합을 구하고 a, b, c에 대해 
#    미분하고 0을 대입해서 연립방정식으로 풀면 됨



# 반복법
# 그런데, 변수의 갯수가 많아지면 식이 
# 복잡해지고 연립방정식으로 푸는 것도 쉽지 않음

# 즉, 미지수보다 연립장정식 갯수가 작으면 해를 구하는 것은 쉽지 않음
# => 이런 경우, 일단 적당한 값을 시작으로 해서 
#    올바른 값에 가까워 지도록 조금씩 값을 갱신해 나가는 방법을 사용함

# 이차방정식의 그래프에서 기울기가 0인 지점을 찾기 위해 
# 임의의 값 a0을 바꿔가며 반복적으로 대입해서 알아냄

# a1 = a - 학습률 * a0 의 기울기
# a2 = a - 학습률 * a1 의 기울기
# ...
# an = an-1 - 학습률 * an-1 의 기울기

# 즉, 이러한 작업을 n번 반복하면 
# 기울기가 0에 가까울때의 a, b 를 구할 수 있음

# ==> 경사하강법


# 독립변수가 2개 이상인 경우
# 식 전개가 쉽지 않음 - 미분이 어려움
# 합성함수의 미분법(연쇄법칙)을 적용해서 해결
# => 어떤 미분은 2개의 미분의 곱으로 바꿔 계산할 수 있음
# dy / dx = dy / dt * dt / dx

# 필요한 수학지식 : 미분의 연쇄법칙
# 예를들어 y = (x + 1)^2를 연괘법칙으로 푸는 경우,
# 먼저 x + 1를 z 로 치환
# 따라서, y = z^2 으로 간단해 짐
# dy / dt * dt / dx = 2*z * 1 = 2*(x + 1) = 2x + 2


# ex) y = (2x + 3)^4 를 연쇄법칙으로 푸시오
# 4z^3 * 2 = 8(2x + 3)^3


# ex) y = (x^2 + 1)^5 를 연쇄법칙으로 푸시오
# 5z^4 * 2x = 10x(x^2 + 3)^4



In [11]:
# ex) 국어, 영어 점수를 이용해서 성적을 예측함
# 국어x1 = 70, 20, 80, 30, 50
# 영어x2 = 30, 60, 50, 40, 20
# 성적y  = 80, 30, 70, 40, 50


# 국어 70, 영어 30 일때 성적이 80이라 하자

# OLS 로 식을 작성해보면
# 방정식 : y = ax + bx + c
# (a * 70 + b * 30 + c - 80)^2
# 식 전개가 어려움 - 미분하기 어려움

# 오차식에 대해 a로 미분의 연쇄법칙을 이용해서 풀어보면
# (a * 70 + b * 30 + c - 80)^2 = z^2
# = 2z * 70 로 나옴
# 따라서, 2 * (a * 70 + b * 30 + c - 80) * 70

# 오차식에 대해 b로 미분의 연쇄법칙으로 풀면
# (a * 70 + b * 30 + c - 80)^2 = z^2
# = 2z * 30 = 2 * (a * 70 + b * 30 + c - 80) * 30



# 오차식에 대해 c로 미분의 연쇄법칙으로 풀면
# (a * 70 + b * 30 + c - 80)^2 = z^2
# = 2z * 1 = 2 * (a * 70 + b * 30 + c - 80)



# 반복법을 이용한 a, b, c 회귀계수 찾기

def semi_gd(x, y, z, e, n):
  a = x
  b = y
  c = z
  eta = e
  
  for i in range(n):
    _a = a - eta * (
            2 * (a * 70 + b * 30 + c - 80) * 70 +
            2 * (a * 20 + b * 60 + c - 30) * 20 +
            2 * (a * 80 + b * 50 + c - 70) * 80 +
            2 * (a * 30 + b * 40 + c - 40) * 30 +
            2 * (a * 50 + b * 20 + c - 50) * 50)

    _b = b - eta * (
            2 * (a * 70 + b * 30 + c - 80) * 30 +
            2 * (a * 20 + b * 60 + c - 30) * 60 +
            2 * (a * 80 + b * 50 + c - 70) * 50 +
            2 * (a * 30 + b * 40 + c - 40) * 40 +
            2 * (a * 50 + b * 20 + c - 50) * 20)

    _c = c - eta * (
            2 * (a * 70 + b * 30 + c - 80) +
            2 * (a * 20 + b * 60 + c - 30) +
            2 * (a * 80 + b * 50 + c - 70) +
            2 * (a * 30 + b * 40 + c - 40) +
            2 * (a * 50 + b * 20 + c - 50))
    a = _a
    b = _b
    c = _c
  
  print(a, b, c)


  
# 초매개변수를 이용해서 경사하강법으로 a, b, c 계수를 찾아봄
# a, b, c의 초기값은 0.5로 지정
# 학습률 eta 는 0.00001 로 지정

# semi_gd(0.5, 0.5, 0.5, 0.00001, 100000000)

# 연립방정식으로 풀어보면 
# a = 0.745 , b = -0.128, c = 21.872 로 나옴

# 초매개변수 수정 : 학습률 올리고 횟수 줄임
semi_gd(0.5, 0.5, 0.5, 0.0001, 1000000)   # 발산


# 초매개변수 수정 : 횟수 더 줄임
semi_gd(0.5, 0.5, 0.5, 0.0001, 100)  # 발산


# 초매개변수 수정 : 횟수 더 줄임
semi_gd(0.5, 0.5, 0.5, 0.0001, 50)   # 발산


# 초매개변수 수정 : 시작점 수정
semi_gd(0.1, 0.1, 0.1, 0.00001, 100)  # 미도달
semi_gd(0.1, 0.1, 0.1, 0.0001, 100)  # 발산

0.744680851066476 -0.12765957446320889 21.872340425186795
