#회귀분석

##회귀개념 알아보기

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# 데이터를 생성하고 반환하는 함수입니다.
def load_data():    
    X = np.array([[8.70153760], [3.90825773], [1.89362433], [3.28730045], [7.39333004], [2.98984649], [2.25757240], [9.84450732], [9.94589513], [5.48321616]])
    y = np.array([[5.64413093], [3.75876583], [3.87233310], [4.40990425], [6.43845020], [4.02827829], [2.26105955], [7.15768995], [6.29097441], [5.19692852]])
    return X, y

In [None]:
#데이터의 분포(퍼진 정도)를 시각화하는 함수입니다.
X,y=load_data()
fig=plt.figure()
plt.scatter(X,y)

In [None]:
#예측하고자 하는 값을 반환하는 함수입니다.
def prediction(beta_0, beta_1, X):
    y_pred = beta_0+beta_1*X
    return y_pred

In [None]:
#예를 들어보겠습니다.
beta_0=1
beta_1=4
X=load_data()[0]

In [None]:
#회귀식 Y=4X+1이 되고, 이 식에 X를 넣었을때 예측한 값이 출력됩니다.
pred=prediction(beta_0,beta_1,X)
print(pred)

In [None]:
#회귀직선(Y=4X+1)과 실제 데이터 분포를 시각화하겠습니다.
fig=plt.figure()
plt.scatter(X,y)
plt.plot(X,pred,c='r')
#회귀직선이 전혀 데이터 분포를 따라가지 못하는 것을 알 수 있습니다.

In [None]:
#그래프를 시각화하는 함수입니다.
#이 함수를 응용하면 회귀계수 (beta_0, beta_1)을 업데이트하면서 변화하는 회귀직선을 확인할 수 있습니다.
def plotting_graph(X,y,beta_0,beta_1):    
    y_pred = beta_0 + beta_1[0,0] * X
    fig = plt.figure()
    plt.scatter(X, y)
    plt.plot(X, y_pred,c='r')    
    plt.savefig("test.png")

In [None]:
# beta_0과 beta_1 값을 업데이트 하는 규칙을 정의하는 함수입니다.
def update_beta(X, y, y_pred, lr): 
    #lr은 learning rate로 얼만큼의 간격으로 beta_0, beta_1을 업데이트할지 결정합니다.   
    #예를 들면, lr이 낮으면 beta_0,beta_1은 조금씩 업데이트가 되고, 높으면 한번에 많이 업데이트됩니다. 
    delta_0 = -(lr * (2 / len(X)) * np.sum(y - y_pred))
    delta_1 = -(lr * (2 / len(X)) * (np.dot(X.T, (y - y_pred))))
    #beta_0과 beta_1에 delta_0과 delta_1을 빼서 beta_0과 beta_1을 업데이트 시킬 것입니다.
    return delta_0, delta_1

In [None]:
def gradient_descent(X, y, iters, lr):
    
    beta_0 = np.zeros((1,1)) #0값을 의미합니다.
    beta_1 = np.zeros((1,1)) #0값을 의미합니다.
    
    for i in range(iters): #iters만큼 반복하는 식을 의미합니다.
        
        y_pred = prediction(beta_0,beta_1,X) #회귀식으로 예측한 값이 y_pred가 됩니다.
        loss = np.mean(np.square(y - y_pred)) #RSS(잔차의 제곱합)를 구합니다. 
        
        beta0_delta, beta1_delta = update_beta(X,y,y_pred,lr) #잔차에서 비롯된 식으로, 회귀계수들(beta_0,beta_1)을 업데이트합니다.
        
        beta_0=beta_0-beta0_delta 
        beta_1=beta_1-beta1_delta 

        #회귀직선을 100번째로 생성할때마다 그래프를 보여줍니다.
        if i%100==0:
            print("학습 횟수 :",i)
            plotting_graph(X,y,beta_0,beta_1)
            print(beta_0[0],beta_1[0]) #beta_0,beta_1 역시 보여줍니다.
    return beta_0, beta_1

In [None]:
#이제 gradient_descent 함수를 구현해봅시다.
#먼저 X와 y를 정의합니다.
X=load_data()[0]
y=load_data()[1]

In [None]:
#X와 y를 출력하면 다음과 같습니다.
print(X)
print(y)

In [None]:
#lr(learning rate)와 iters(반복횟수)를 정의합니다.
lr = 1e-4
iters = 1000    

In [None]:
gradient_descent(X,y,iters,lr)

##단순선형회귀

In [None]:
#그래프를 그리는 모듈을 불러옵니다.
import matplotlib.pyplot as plt
#수식 연산을 도와주는 모듈을 불러옵니다.
import numpy as np
# 데이터를 분리하는 모듈을 불러옵니다.
from sklearn.model_selection import train_test_split
# 사이킷런에 구현되어 있는 회귀 모델을 불러옵니다.
from sklearn.linear_model import LinearRegression

In [None]:
np.random.seed(0) #random으로 X값들과 y값들을 100개씩 추출합니다.
X = 5*np.random.rand(100,1)
y = 3*X + 5*np.random.rand(100,1)

In [None]:
#X와 y를 출력해서 확인해봅시다.
print(X)
print(y)

In [None]:
#X와 y의 분포를 시각화해보겠습니다.직선 형태인 것을 알 수 있습니다.
fig = plt.figure()
plt.scatter(X, y)

In [None]:
#train 데이터와 test 데이터를 7:3 비율로 분할합니다.
train_X, test_X, train_y, test_y = train_test_split(X,y,test_size=0.3,random_state=0)

In [None]:
#train 데이터, test 데이터, 전체 데이터의 갯수를 확인해봅시다.
print('전체 데이터의 크기')
print(len(X))
print('train 데이터의 크기')
print(len(train_X))
print('test 데이터의 크기')
print(len(test_X))

In [None]:
#train 데이터와 test 데이터를 시각화해보겠습니다.(주황색이 test 데이터, 파란색이 train 데이터입니다.)
plt.scatter(train_X,train_y)
plt.scatter(test_X,test_y)

In [None]:
#회귀분석 모듈을 이용해서 회귀분석 함수를 정의합니다.
simplelinear = LinearRegression()

In [None]:
# 그래프를 시각화하는 함수입니다.
def plotting_graph(train_X, test_X, train_y, test_y, predicted):
    fig, ax = plt.subplots(1,2, figsize=(16, 7))
    
    ax[0].scatter(train_X,train_y)
    ax[1].scatter(test_X,test_y)
    ax[1].plot(test_X, predicted, color='b')
    
    ax[0].set_xlabel('train_X')
    ax[0].set_ylabel('train_y')
    ax[1].set_xlabel('test_X')
    ax[1].set_ylabel('test_y')
    
    fig.savefig("result.png")

In [None]:
simplelinear = simplelinear.fit(train_X, train_y) #모델을 학습시킵니다. (적당한 회귀직선을 찾는 과정입니다.)
predicted = simplelinear.predict(test_X) #회귀직선에 test_X를 대입해서 test_y값을 예측합니다.
model_score = simplelinear.score(test_X,test_y) #R^2를 계산합니다. (1일수록 모델의 해석력이 좋음을 의미함)

In [None]:
#회귀직선의 가중치 즉 회귀계수를 알 수 있습니다.
beta_0 = simplelinear.intercept_
beta_1 = simplelinear.coef_
    
print("> beta_0 : ",beta_0)
print("> beta_1 : ",beta_1)
    
print("> 모델 평가 점수 :", model_score)

In [None]:
# 시각화 함수 호출하기
plotting_graph(train_X, test_X, train_y, test_y, predicted)

##다중선형회귀분석

In [None]:
import matplotlib.pyplot as plt

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# boston 데이터를 위한 모듈을 불러옵니다. 
from sklearn.datasets import load_boston
import seaborn as sns
import pandas as pd
from sklearn.preprocessing import StandardScaler

In [None]:
X, y  = load_boston(return_X_y = True)
total = pd.DataFrame(load_boston().data, columns=['범죄율','비소매상업지역_면적비율','일산화질소_농도','주택당_방수','하위계층_비율','흑인_비율','학생/교사_비율','25,000평방피트_초과_거주지역_비율','찰스강_경계_위치유무','1940년_이전_건축비율','방사형_고속도로_거리','직업센터_거리','재산세율'])
total['target'] = load_boston().target #'주택가격_중앙값'

In [None]:
print("X 데이터의 변수개수 :", X.shape[1])
print(total.head)

print('데이터의 수')
print(len(total))

In [None]:
train_X, test_X, train_y, test_y = train_test_split(X,y,test_size=0.2,random_state=100)

In [None]:
# Standardization 평균 0 / 분산 1
scaler = StandardScaler()   
train_X = scaler.fit_transform(train_X)
test_X = scaler.fit_transform(test_X)

In [None]:
print('훈련데이터의 수')
print(len(train_X))

print('평가데이터의 수')
print(len(test_X))

total

In [None]:
multilinear = LinearRegression()
    
multilinear=multilinear.fit(train_X,train_y)

In [None]:
predicted = multilinear.predict(test_X)
    
model_score = multilinear.score(test_X,test_y)
    
print("\n> 모델 평가 점수 :", model_score)

In [None]:
beta_0 = multilinear.intercept_
beta_i_list = multilinear.coef_
    
print("\n> beta_0 : ",beta_0)
print("> beta_i_list")
for i,j in zip(total.columns[:-1],beta_i_list):
    print(i+':'+str(round(j,3)))

In [None]:
# 데이터 컬럼에 따른 beta, exp(beta) 체크

column_name = ['const'] + total.drop('target',axis=1).columns.tolist()
beta = [round(multilinear.intercept_,2)]
for i in multilinear.coef_.reshape(-1):
    beta.append(round(i,2))
odds = np.exp(beta).round(2)
interpret = np.where(np.array(beta) > 0, 'higher', 'lower')

beta_analysis = pd.DataFrame(np.c_[beta, odds, interpret], index=column_name,columns=['beta', 'exp(beta)', 'interpret'])
beta_analysis

독립변수

CRIM: 범죄율

INDUS: 비소매상업지역 면적 비율

NOX: 일산화질소 농도

RM: 주택당 방 수

LSTAT: 인구 중 하위 계층 비율

B: 인구 중 흑인 비율

PTRATIO: 학생/교사 비율

ZN: 25,000 평방피트를 초과 거주지역 비율

CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0

AGE: 1940년 이전에 건축된 주택의 비율

RAD: 방사형 고속도로까지의 거리

DIS: 직업센터의 거리

TAX: 재산세율

종속변수(Target)

보스턴 506개 타운의 1978년 주택 가격 중앙값 (단위 1,000 달러)

In [None]:
#상관관계 분석 이후 연관성이 높은 변수 삭제 -> 변수들의 전체적인 분포 살펴보기

In [None]:
import seaborn as sns

correlation_matrix = total.corr().round(2)
plt.figure(figsize=(20,20))
sns.heatmap(data=correlation_matrix, annot=True)
plt.show()

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import matplotlib.pyplot as plt

plt.rc('font', family='NanumBarunGothic') 

재산세율, 흑인비율과 주택 임대료간의 관계

In [None]:
plt.figure()
plt.scatter(total['재산세율'],total['target'])

In [None]:
plt.figure()
plt.scatter(total['흑인_비율'],total['target'])