<a href="https://colab.research.google.com/github/SYEON9/natural_language_3th/blob/main/HW/%5BHW10%5D_Simple_Linear_Regression_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#우리는 선형회귀(y = wx+b)에서 cost function을 최소로 하는 w와 b를 찾아야 한다. 
#cost function은 2차함수로 나타나고 2차함수의 최솟값은 미분한 값이 0일 때 성립합니다.


In [None]:
#다음 식의 최솟값을 찾아보자
import sympy
import numpy
 
from matplotlib import pyplot    
%matplotlib inline                   #ipython에서만 제공하는 rich output. 실행한 브라우저에서 바로 그림을 볼 수 있게 함.

In [None]:
sympy.init_printing()                #수식을 LaTex 스타일로 표시한다. 

In [None]:
#sympy: 기호기반 수학 라이브러리. 그러므로 변수를 기호로 먼저 선언해야 한다. 
w = sympy.Symbol('w', real=True)    #기호 선언

f = w**2 + 3*w - 5
f

In [None]:
sympy.plotting.plot(f)

In [None]:
#미분해보자.
fprime = f.diff(w)
fprime

In [None]:
#해당 식의 해를 구해보자. 
#즉, 미분한 값이 0이 되도록 하는 w를 구하자. 
sympy.solve(fprime, w)

In [None]:
#이번에는 gradient descent이다!!!
#아까처럼 바로 정답에 접근하는 것이 아니라 반복적으로 정답에 가까워지는 방법이다. 

#먼저 기울기값을 구하는 함수를 먼저 만들어보자.
#함수정의
fpnum = sympy.lambdify(w, fprime)               #sympy.lambdify(): numpy / sympy를 변환해주는 명령어
type(fpnum)

In [None]:
w = 10.0                                       #초기값 설정

#gradient descent
for i in range(1000):
    w = w - fpnum(w)*0.01                      # a - lr*cost_function

print(w)

In [None]:
#cost를 최소화하는 방법을 알았으니 이번에는 linear regression을 구현해보자. 

#실제로 linear한 관계를 가진 데이터 셋을 사용하기 위해서 데이터를 만들자!!
x_data = numpy.linspace(-5,5,100)
w_true = 2
b_true = 20

#y를 생성할 때, 노이즈를 추가하여 데이터가 선형을 띄지만 완전 직선은 아니게 만든다. 
y_data = w_true*x_data + b_true + numpy.random.normal(size = len(x_data))

pyplot.scatter(x_data, y_data);

In [None]:
x_data.shape                #feature가 1인 데이터

In [None]:
y_data.shape               #생성된 총 데이터의 수는 100개이다. 

In [None]:
#cost function을 나타내보자,
w, b, x, y = sympy.symbols('w b x y')

cost_function = (w*2 + b - y)**2
cost_function

In [None]:
#바로 해당하는 값을 구해보자.
#sympy.solve(cost_function, w, b)

In [None]:
#gradient descent로 구해보자

#1.기울기 함수 정의
grad_b = sympy.lambdify([w,b,x,y], cost_function.diff(b), 'numpy')   #b에 대해 편미분
grad_w = sympy.lambdify([w,b,x,y], cost_function.diff(w), 'numpy')   #w에 대해 편미분

In [None]:
#2. 초기값 정의
w = 0
b = 0

In [None]:
#3. gradient descent 방법 적용
lr = 0.01

for i in range(1000):
    descent_b = numpy.sum(grad_b(w,b,x_data,y_data))/len(x_data)
    descent_w = numpy.sum(grad_w(w,b,x_data,y_data))/len(x_data)
    w = w - descent_w*0.01 # with 0.01 the step size
    b = b - descent_b*0.01 


print(w)
print(b)                      #처음에 정의한 w=2, b=20과 유사한 값이 나와야하는데 왜 차이가 나지?

In [None]:
pyplot.scatter(x_data, y_data)
pyplot.plot(x_data, w*x_data + b, '-r')

In [None]:
#Earth temperature over time
#linear regression을 활용하여 시간 흐름에 따른 지구의 온도변화를 분석해보자.
#사용할 지표는 global temperature anomaly이다. 
#temperature anomaly: 기준 온도 이상이면 양수, 이하이면 음수

from IPython.display import YouTubeVideo
YouTubeVideo('gGOzHVUQCw0')                         #해당 영상을 통해 기온이 점점 상승하고 있다는 것을 알 수 있다. 

In [None]:
#실제 데이터를 사용하여 분석해보자!

In [None]:
#step1: read a data file
#데이터 다운로드
from urllib.request import urlretrieve
URL = 'http://go.gwu.edu/engcomp1data5?accessType=DOWNLOAD'
urlretrieve(URL, 'land_global_temperature_anomaly-1880-2016.csv')

In [None]:
#데이터 불러오기
fname = '/content/land_global_temperature_anomaly-1880-2016.csv'

year, temp_anomaly = numpy.loadtxt(fname, delimiter=',', skiprows = 5, unpack=True)

In [None]:
#Step2: plot the data
#데이터 시각화하기
from matplotlib import pyplot
%matplotlib inline

In [None]:
pyplot.plot(year, temp_anomaly)

In [None]:
#더 보기 좋게 만들어볼까?

#폰트 설정
pyplot.rc('font', family = 'serif', size='18')

#그래프 크기 설정
pyplot.figure(figsize = (10,5))

#plotting
pyplot.plot(year, temp_anomaly, color = '#2929a3', linestyle = '-', linewidth = 1.5)
pyplot.title('Land global temperature anomalies. \n')
pyplot.xlabel('Year')
pyplot.ylabel('Land temperature anomaly [\'C]')
pyplot.grid();               #격자무늬 설정

In [None]:
#Step3: Analytically
#먼저 직선 정의
w = numpy.sum(temp_anomaly*(year-year.mean())) / numpy.sum(year*(year - year.mean()))
b = a_0 = temp_anomaly.mean() - w*year.mean()

print(w)
print(b)

In [None]:
#시각화
reg = b + w*year

In [None]:
pyplot.figure(figsize = (10,5))

pyplot.plot(year, temp_anomaly, color = '#2929a3', linestyle = '-', linewidth = 1.5)
pyplot.plot(year, reg, 'k--', linewidth = 2, label = 'Linear regression')
pyplot.title('Land global temperature anomalies. \n')
pyplot.xlabel('Year')
pyplot.ylabel('Land temperature anomaly [\'C]')
pyplot.legend(loc = 'best', fontsize = 15)
pyplot.grid();  