In [None]:
#지도학습에서는 회귀(선형회귀, 다항회귀)도 포함되어져 있음
#실질적으로 회귀분석에 대한 예측분석과 관련된 알고리즘을 텐서플로우 라이브러리를 활용할 수 있음
#텐서플로우 -> 딥러닝에 최적화된 라이브러리임

#(선형) 회귀 분석: 둘 이상의 변수 간의 관계를 보여주는 통계적 방법 / 회귀는 돌아가겠다는 의미 
#회귀분석의 회귀는 어디로 돌아가는 것일까? 전체 데이터의 평균값으로 회귀해감
#                                          - 데이터가 많을수록 평균값으로 회귀해가는 것이 확실해지고 있음

#회귀분석은 중요한 가설 한 가지를 얘기하는 분석법이다. 여기서 가설은 인간사회에서 발생되어지는 거의 모든 데이터들이 선형성(1차 직선)을 띄는 것임
#ex) 아기가 태어나서 시간이 지남에 따라 아기의 키는 어느시점까지 선형적인 값을 가짐

#선형성을 띄는 수학에서의 함수정의는 1차함수로 정의할 수 있음. 1차함수로 y= ax + b로 표현함. 이때 a를 기울기(가중치), b를 절편, x를 정의구역
#어떤 x값이 주어졌을 때 대응되는 y값이 있고, 이 관계를 설명하는 것이 함수
#데이터들이 몰리다보면 선형성을 띈다는 가설을 둠
#회귀분석은 기울기와 절편을 찾는 것임 => 규칙성을 찾는다.

#기존에는 원하는 기능들을 직접 만들었어야 했음. 머신러닝의 경우 명령방법은 이미 프로그래밍화 되어져 있고 라이브러리로 구현이 되어져 있음

#회귀는 1차함수를 찾는 것이고, 선형이라는 의미로 해석하면 연속적인 값을 예측할 수 있는 알고리즘인 것이다.
#즉, ***선형회귀분석은 연속적인 값을 예측하는 알고리즘이다.***
#    가능한 이유는 이 지구상에 발생되어진 모든 데이터들은 선형성을 띄고 있다는 가설이 성립되기 때문이다.

#연속적인 값을 예측하는 알고리즘에서는 하나의 직선을 긋는다고 할 때, 분포도가 제각각이라면 세 가지를 관통하는 선을 그을 수 없음.
#예측값을 제대로 맞추지 못하더라도 유사하게 맞출 수 있는 알고리즘을 찾고싶다고 한다면 입력데이터와 결과데이터에 기반해서 y를 관통하는 a와 b를 찾도록 한다.

#편차(Deviation): 수학 및 통계학에서 편차는 자료값 또는 변량(변수와 동일한 개념)과 평균의 차이를 나타내는 수치
#  자료를 중심으로 얼마나 퍼져있는지를 알 수 있음 / 데이터값들이 평균보다 크면 편차의 값은 양을 가지고, 평균보다 작으면 음의 값을 가짐
#  즉, 방향성을 가지게 되는 것이다.

#분산(학생이 맞은 점수에 평균에서 뺀 값의 차이는 편차/ 대표값을 뽑아내는 방법)이 생겨난 이유 
#=> 평균값이 만들어지는 값의 분포를 파악할 수 없기 때문
#자료값이랑 평균을 뺀 값에서 평균을 내서 대표하는 값을 뽑아내도록 함.
#여기서 편차를 다 더해보니 0이 됨. 따라서 각 편차값을 절대값(부등호에 방향성을 고려해야함)으로 바꾸도록 함. 
#  또는 제곱(일반적으로 선호 - 두 가지 장점이 발생[부등호 방향성 고려할 필요 없음/ 차이값을 더 극대화해줄 수 있음]) - 제곱한 개념이 분산!!

#데이터의 퍼짐의 정도를 파악하고 싶은 것인데 제곱을 하였고 원래 목적에 맞게끔 비교를 하고 싶은 것이기 때문에 루트(표준편차)를 씌우도록 한다.
#루트를 씌우게 되면 제곱을 시키면서 커진 값의 크기를 반감시킬 수 있음

#용어 정의
#잔차: 회귀분석에서 종속변수와 적합값의 차이 -> 오차값(에러)를 생각하면 됨
#분산: 편차제곱 / 표준편차: 분산의 제곱근

#*회귀분석에서의 잔차를 무엇을 의미하는가. 
#회귀분석에서 이상적인 직선은 모든 값을 관통하는 것임. 
#직선으로 그어졌을 때의 값은 예측값, 점으로 찍힌 값은 실제값
#==> 실제 정답과 모델이 예측한 값 사이의 오차를 잔차라고 하는 것이다.

#-----------------------------------------------------------------------------------------------------------------------------------------
#예제를 통한 설명:직선이 그어졌다는 것은 W(-2), b(1)값을 잡은 것임 (핏쳐가 하나일 때 - 단일 선형 회귀 분석)

#지금은 W데이터의 기울기를 찾아가는 것을 목표로 잡고 실습에 참여
#알고리즘에 fit을 통해 학습을 시키면 랜덤하게 1차함수를 그리게 됨. y = -2x라는 직선을 그렸다고 가정
#입력으로 전달한 값을 넣게 된다면? x가 1이면 현재 모델이 예측한 값은 -2 / 2이면 -4 / 3이면 -6으로 나오게 됨
# 실질적인 정답은 1, 2, 3임 
#이렇게 값이 여러 개 있을 때 뭔가의 판단을 하기가 어려움. -> 이때 분석에서는 평균이라는 대표값을 뽑아내도록 한다.

#현재는 예측값과 정답사이에 얼마만큼의 오차가 있는지에 대한 대표값을 뽑아내고자 하는 것이다.
# -3  / -6 / -9 => 대표가 되는 하나의 값으로 뽑아내려면 계산상의 편의를 위해서 부등호를 제거하기 위해서 제곱을 해주도록 한다.
#그 다음에 제곱한 값에 평균을 내도록 한다. 그렇게 되면 하나의 값이 나올 것이다. 이와 같은 계산방식이 Cost function이다.

#내값과 평균의 차이에 평균을 낸 것이(각 편차에 대한 평균) 분산이고, 잔차를 평균을 낸 것이 Cost function(비용/손실 함수)이다.
#오차가 어떻게 되었을 때 이상적인 직선이 될까? 실제와 모델이 같을 때 즉, 0이 될 때가 이상적인 값이다.
#잔차에서 제곱한다는 것은 정사각형을 그려서 넓이를 구하는 것이 결국에는 제곱한 값이 되는 것임. => 이 값이 0이 되면 w값이 1에 도달함

#H(x_모델 예측값) - y(정답) : 잔차
#최적의 기울기값을 찾고 싶은 것 => 그 최적의 기울기가 결국은 H(x)임.
# W의 입장에서는 제곱을 하면 2차함수가 됨 (곡선) => 2차함수의 접선의 기울기를 그려갈 때 그 접선의 기울기가 0이 될 때가 최소값임 -> 우리가 목표하는 기울기임
# 일정스탭을 밟아가는 것이 러닝레잇(?)_간격 / 접선의 기울기는 미분하면 됨_ w에 대한 미분
#w - 7 * w분의 접선의 기울기 -> 마이너스 값이 들어오면 +가 됨 양의 값이 될 것임 이를 계속 반복하면서 접선의 기울기를 구함
#어느 시점에 w가 0이 되면 w가 최적의 값이 되는 것임 => 경사(접선의 기울기)하강(최소값)법 알고리즘을 활용하도록 한다.

#(1) 잔차의 평균값을 구하기 (2) H에 대한 2차함수 그리기 
#(3) 함수에 맞춰서 경사하강법 알고리즘을 적용 -> 접선의 기울기를 구하도록 함 - 현재 잡은 값에서 접선의 기울기의 러닝레잇을 구한 값을 빼주면 새로운 w가 나오고 그 만큼을 이동하여 접선의 기울기 구하기 -> 0이 될때까지 반복학습


#핏쳐가 여러 개일 때 (항이 여러 개일때는 다중 선형 회귀 분석이라고 함)
#항이 늘어날 때 w의 갯수도 동시에 펼쳐진다. (1차함수의 형태)


# 신경망 구현 순서
1. Sequential 모형 클래스 객체 생성.
2. add 메소드로 레이어 추가. (뉴런의 신경망들을 연결)
 - 입력단부터 순차적으로 추가한다.
 - 레이어는 출력 뉴런 갯수를 첫번째 인수로 받는다.
 - 최초의 레이어는 input_dim 인수로 입력 크기를 설정해야 한다.
 - activation 인수로 활성화 함수 설정.
3. compile 메소드로 모형 완성.
 - loss 인수로 비용함수 설정
 - optimizer 인수로 최적화 알고리즘 설정
 - metrics 인수로 트레이닝 단계에서 기록할 성능 기준 설정
4. fit 메소드로 트레이닝
 - epochs로 에포크(epoch) 횟수 설정

In [1]:
# tensorflow 라이브러리 설치
# conda install tensorflow(무료배포됨)

# 텐서플로우 설치 확인 - 딥러닝(신경망이라고 하여 인간이 생각하는 뇌구조를 그대로 적용하여 정의된 알고리즘)에 최적화 됨
import tensorflow as tf

print(tf.__version__)
#1점대 버전까지만 해도 체계화해서 라이브러리를 구현했지만 중구난방인 느낌, 
#모델 구성하기 까다로웠음(모델에 대해 온전하게 이해해야 알고리즘을 돌릴 수 있었음)
#케라스가 텐서플로우에 탑제되면서 2년전부터 1버전을 지원하지 않고, 2버전부터 계속 버전을 업데이트되어지고 있음

2.10.0


In [2]:
# H(x) = wx + b : w = -1, b = 1

x_train = [1, 2, 3, 4]     #훈련용 데이터 (개별적인 데이터이다!!)
y_train = [0, -1, -2, -3]  #정답 데이터

In [3]:
tf.model = tf.keras.Sequential() #핏쳐하나 정의하면서 객체를 담아주도록 함. => 신경망에 대한 객체부터 생성을 해주도록 한다.

In [4]:
#input_dim: input shape / units: output shape => 입력으로 하나 들어오면 출력으로 하나가 나가는 단편적인 신경망을 만들어준 것
tf.model.add(tf.keras.layers.Dense(input_dim=1, units=1)) #세포를 만들어주는 코드임

#눈을 통해서 정보 입력되면 두뇌 부분에 신경망들을 통해서 
#정보들이 뇌에 뉴런 뇌세포들이 신호를 보내면서 처리를 수행하게 될 것이다.
#   입력용 데이터에서 레이어층에 세포가 있어서 입력으로 전송되어진 정보를 처리할 
#   신경망을 add라는 메소드로 입력신호 갯수만큼 데이터를 전달하는 것

In [5]:
#세포를 어떻게 기계학습을 시킬 것인지의 설정을 셋팅해줘야 한다.
# SGD(Stochastic Gradient Descendent), lr(learning_rate) => 정보를 텐서플로우에게 알려주도록 해야함
sgd = tf.keras.optimizers.SGD(learning_rate=0.1) #클래스의 인스턴스만 생성해서 사용하면 됨 
#이 알고리즘의 포인트가 얼마만큼의 학습률로 이동해가면서 오차가 최소화되어지는 
#W값을 찾아가는지에 대한 스탭에 영향을 주는 계수(learning_rate)이다.
#스탭이 작다면 아주 많은 학습을 시켜야 할 것이고, w까지 찾아가지 못하고 끝나버릴 수 있음. 또한 시간이 많이 소요될 수 있음
#스탭이 크다면 최저점을 찾지 못하고 건너뛰어버릴 수 있음 -> 파라메타의 값을 바꿔가면서 시작의 포인트값을 학습시키면서 찾아가면 됨.


In [6]:
tf.model.compile(loss='mse', optimizer=sgd)
#msg(mean square error_잔차) => 오차를 제곱해서 평균을 구한 손실 함수 : 최종적인 목표는 대표값이 0이되는 것

In [7]:
tf.model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 1)                 2         
                                                                 
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________


In [8]:
tf.model.fit(x_train, y_train, epochs=200)
#epochs는 데이터를 읽어와서 학습을 시킬 때 200번 반복하면서 계속 학습을 하라는 의미.
#처음에 w값(기울기)을 랜덤하게 잡을 것이고, 그 기울기에서 200번 학습을 해가면서 손실함수의 값이 최소화될 수 있도록 함

#loss가 msg함수를 통해 추출한 오차의 대표값임

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200
Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 

<keras.callbacks.History at 0x2a868c5c730>

In [9]:
# 학습을 통해 구한 w와 b의 값
tf.model.layers[0].get_weights()
#지금 현재 w로 찾아야하는 값이 -1이고 최대한 가까운 값을 찾아간 것임.
#일직선으로 그을 때, 실수값은 오차값이 발생할 수 있기 때문에 -1로 정확하게 나오지는 않음
#***w와 b의 반환이 다른형식으로 반환해주고 있음 => w는 2차, b는 1차

[array([[-0.9991551]], dtype=float32), array([0.9975159], dtype=float32)]

In [11]:
import numpy as np

y_predict = tf.model.predict(np.array([5, 6, 7])) # 5를 예측하라고 데이터를 넣어줌 -> -4가 나와야 함
#예측을 할 때는 사이킷런의 설계와 동일 -> predict함수를 이용하여 예측
#여러 개의 예측값을 확인하고 싶다면 리스트로 여러 값을 넣으면 됨.
y_predict
#결과를 보면 거의 -4값을 제대로 예측하고 있는 것을 확인할 수 있음.



array([[-3.9982598],
       [-4.9974146],
       [-5.9965696]], dtype=float32)