In [52]:
# os 모듈을 활용해 현재 디렉토리를 확인하고 변경할 수 있다. 그래서 먼저 import os
# pandas : 가장 기본적인 데이터분석 라이브러리로, data frame를 활용한 다양한 분석이 가능
# numpy : 과학연산을 돕는 라이브러리로, 리스트, 배열 등을 빠르게 연산 가능
# statsmodels : 다양한 통계검정과 추정에 필요한 함수와 클래스를 제공하는 모듈
import os
import pandas as pd 
import numpy as np
import statsmodels.api as sm

In [53]:
# 현재경로 확인
os.getcwd()

'/Users/young/Shioame27/0_Coding/Machine_Learning/Fast_ML/Part2_머신러닝의 시작/1_Jupyter Notebook'

In [54]:
# 데이터 불러오기
boston = pd.read_csv ("./data/Boston_house.csv")
boston.head()

Unnamed: 0,AGE,B,RM,CRIM,DIS,INDUS,LSTAT,NOX,PTRATIO,RAD,ZN,TAX,CHAS,Target
0,65.2,396.9,6.575,0.00632,4.09,2.31,4.98,0.538,15.3,1,18.0,296,0,24.0
1,78.9,396.9,6.421,0.02731,4.9671,7.07,9.14,0.469,17.8,2,0.0,242,0,21.6
2,61.1,392.83,7.185,0.02729,4.9671,7.07,4.03,0.469,17.8,2,0.0,242,0,34.7
3,45.8,394.63,6.998,0.03237,6.0622,2.18,2.94,0.458,18.7,3,0.0,222,0,33.4
4,54.2,396.9,7.147,0.06905,6.0622,2.18,5.33,0.458,18.7,3,0.0,222,0,36.2


In [55]:
# target 제외한 데이터만 뽑기
# 데이터를 불러올 시에는 잘 불러졌는지 Head로 확인해주자
boston_data = boston.drop(['Target'],axis=1)

In [56]:
# data 통계 뽑아보기 
boston_data.describe()

Unnamed: 0,AGE,B,RM,CRIM,DIS,INDUS,LSTAT,NOX,PTRATIO,RAD,ZN,TAX,CHAS
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,68.574901,356.674032,6.284634,3.613524,3.795043,11.136779,12.653063,0.554695,18.455534,9.549407,11.363636,408.237154,0.06917
std,28.148861,91.294864,0.702617,8.601545,2.10571,6.860353,7.141062,0.115878,2.164946,8.707259,23.322453,168.537116,0.253994
min,2.9,0.32,3.561,0.00632,1.1296,0.46,1.73,0.385,12.6,1.0,0.0,187.0,0.0
25%,45.025,375.3775,5.8855,0.082045,2.100175,5.19,6.95,0.449,17.4,4.0,0.0,279.0,0.0
50%,77.5,391.44,6.2085,0.25651,3.20745,9.69,11.36,0.538,19.05,5.0,0.0,330.0,0.0
75%,94.075,396.225,6.6235,3.677083,5.188425,18.1,16.955,0.624,20.2,24.0,12.5,666.0,0.0
max,100.0,396.9,8.78,88.9762,12.1265,27.74,37.97,0.871,22.0,24.0,100.0,711.0,1.0


In [None]:
'''
타겟 데이터
1978 보스턴 주택 가격
506개 타운의 주택 가격 중앙값 (단위 1,000 달러)

특징 데이터
CRIM: 범죄율
INDUS: 비소매상업지역 면적 비율
NOX: 일산화질소 농도
RM: 주택당 방 수d
LSTAT: 인구 중 하위 계층 비율
B: 인구 중 흑인 비율
PTRATIO: 학생/교사 비율
ZN: 25,000 평방피트를 초과 거주지역 비율
CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0
AGE: 1940년 이전에 건축된 주택의 비율
RAD: 방사형 고속도로까지의 거리
DIS: 직업센터의 거리
TAX: 재산세율
'''

# crim/rm/lstat 세게의 변수로 각각 단순 선형 회귀 분석하기

In [61]:
## 변수 설정 target/crim/rm/lstat
target = boston[['Target']]
crim = boston[['CRIM']]
rm = boston[['RM']]
lstat = boston[['LSTAT']]
crim.head()

Unnamed: 0,CRIM
0,0.00632
1,0.02731
2,0.02729
3,0.03237
4,0.06905


## target ~ crim 선형회귀분석

In [62]:
# crim변수에 상수항추가하기 
# 왜? 수식을 간단하게 만들기 위해 다음과 같이 상수항을 독립변수에 추가한다. 이것을 augmentation이라고 부른다.
crim1 = sm.add_constant(crim, has_constant='add')
crim1.head()

  x = pd.concat(x[::order], 1)


Unnamed: 0,const,CRIM
0,1.0,0.00632
1,1.0,0.02731
2,1.0,0.02729
3,1.0,0.03237
4,1.0,0.06905


In [63]:
# sm.OLS에 넣고, 적합시키기 
# Ordinary Least Square : 가장 기본적인 결정론적 회귀방법으로, 잔차제곱합(RSS, Residual Sum of Square)를 최소화하는 가중치벡터를 행렬미분으로 구하는 방법이다.
model1 = sm.OLS(target, crim1)
fitted_model1 = model1.fit()

In [65]:
# summary함수통해 결과출력
fitted_model1.summary()
# R-squared, 결정계수 : 독립변수가 종속변수를 얼마만큼 설명해 주는지를 가리키는 지표.
#                     crim이 설명하는 y의 총 변동성은 약 15%정도. (일반적으로 20%는 넘겨야 의미가 있고, 정확한 기준치가 있는것도 아님.)
# coef : crim(x)에 해당하는 회귀계수값은 약 -0.4. x 1 -> y -0.4
# P>|t| : P-value가 작으므로 유의미한 결과라고 판단할 수 있다.

0,1,2,3
Dep. Variable:,Target,R-squared:,0.151
Model:,OLS,Adj. R-squared:,0.149
Method:,Least Squares,F-statistic:,89.49
Date:,"Mon, 27 Sep 2021",Prob (F-statistic):,1.17e-19
Time:,16:32:08,Log-Likelihood:,-1798.9
No. Observations:,506,AIC:,3602.0
Df Residuals:,504,BIC:,3610.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,24.0331,0.409,58.740,0.000,23.229,24.837
CRIM,-0.4152,0.044,-9.460,0.000,-0.501,-0.329

0,1,2,3
Omnibus:,139.832,Durbin-Watson:,0.713
Prob(Omnibus):,0.0,Jarque-Bera (JB):,295.404
Skew:,1.49,Prob(JB):,7.1400000000000005e-65
Kurtosis:,5.264,Cond. No.,10.1


In [66]:
## 회귀 계수 출력
fitted_model1.params

const    24.033106
CRIM     -0.415190
dtype: float64

### y_hat=beta0 + beta1 * X 계산해보기

In [68]:
# 회귀 계수 x 데이터(X)
# numpy.dot 함수는 두 어레이의 내적 (Dot product)을 계산합니다.
# x 값에 y축 coef 곱한것.
np.dot(crim1,fitted_model1.params)

array([ 24.03048217,  24.02176733,  24.02177563,  24.01966646,
        24.00443729,  24.02071274,  23.99644902,  23.97309042,
        23.94540138,  23.96250722,  23.93973403,  23.98433377,
        23.99416963,  23.77163594,  23.76823138,  23.77261995,
        23.59552468,  23.70751396,  23.69982879,  23.73176107,
        23.51337514,  23.67934745,  23.52139661,  23.62271965,
        23.72160552,  23.68412214,  23.75413567,  23.63627976,
        23.71216824,  23.61689868,  23.56360486,  23.4706396 ,
        23.45682622,  23.55492323,  23.36347899,  24.00646341,
        23.99265003,  23.99983283,  23.96042712,  24.02163447,
        24.01915993,  23.98019433,  23.97435675,  23.96694145,
        23.98216648,  23.96193426,  23.95490093,  23.9379155 ,
        23.92770182,  23.94185981,  23.99626634,  24.01509937,
        24.01085198,  24.01242555,  24.02745959,  24.02766303,
        24.02457401,  24.02716065,  23.96898004,  23.99022532,
        23.97110996,  23.96181385,  23.98732314,  23.98

In [69]:
## predict함수를 통해 yhat구하기 
pred1 = fitted_model1.predict(crim1)

In [70]:
## 직접구한 yhat과 predict함수를 통해 구한 yhat차이 
np.dot(crim1,fitted_model1.params) - pred1

0      0.0
1      0.0
2      0.0
3      0.0
4      0.0
      ... 
501    0.0
502    0.0
503    0.0
504    0.0
505    0.0
Length: 506, dtype: float64

## 적합시킨 직선 시각화 

In [None]:

import matplotlib.pyplot as plt
plt.yticks(fontname = "Arial") #
plt.scatter(crim,target,label="data")
plt.plot(crim,pred1,label="result")
plt.legend()
plt.show()

In [None]:
plt.scatter(target,pred1)
plt.xlabel("real_value")
plt.ylabel("pred_value")
plt.show()

In [None]:
## residual 시각화 

fitted_model1.resid.plot()
plt.xlabel("residual_number")
plt.show()

In [None]:
##잔차의 합계산해보기


## 위와 동일하게 rm변수와 lstat 변수로 각각 단순선형회귀분석 적합시켜보기 

In [None]:
# 상수항추가

In [None]:
# 회귀모델 적합

In [None]:
# rm모델 결과 출력

In [None]:
# lstat모델 결과 출력 

In [None]:
## 각각 yhat_예측하기 

In [None]:
## rm모델 시각화
import matplotlib.pyplot as plt
plt.scatter(rm,target,label="data")
plt.plot(rm,pred2,label="result")
plt.legend()
plt.show()

In [None]:
## lstat모델 직선 시각화
import matplotlib.pyplot as plt
plt.scatter(lstat,target,label="data")
plt.plot(lstat,pred3,label="result")
plt.legend()
plt.show()

In [None]:
# rm모델 reisidual 시각화 
fitted_model2.resid.plot()
plt.xlabel("residual_number")
plt.show()

In [None]:
# lstat모델 residual시각화
fitted_model3.resid.plot()
plt.xlabel("residual_number")
plt.show()

In [None]:
## 세모델의 residual비교 
fitted_model1.resid.plot(label="crim")
fitted_model2.resid.plot(label="rm")
fitted_model3.resid.plot(label="lstat")
plt.legend()