# 1. 상관분석

## 1절. SciPy를 활용한 상관분석

In [3]:
# 데이터를 호출한 후 데이터프레임으로 변환

# PKG
import pandas as pd
from sklearn.datasets import load_diabetes

# load data
diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
dtypes: float64(10)
memory usage: 34.7 KB


> 함수 사용법 : scipy.stats.pearsonr(x, y)


In [14]:
# scipy.stats.pearsonr
from scipy.stats import pearsonr
print("corr : ", pearsonr(x = data.age, y = data.bmi)[0])
print("p-value : ", pearsonr(x = data.age, y = data.bmi)[1])
print("------------------------------------------------------")
print('p-value가 0.015보다 작으므로 상관성이 유의하다고 볼 수 있다.')

corr :  0.18508466614655547
p-value :  9.076791865417418e-05
------------------------------------------------------
p-value가 0.015보다 작으므로 상관성이 유의하다고 볼 수 있다.


In [12]:
# 단순한 상관계수 산출은 데이터프레임객체 corr()로도 가능
data[['sex','bmi']].corr()

Unnamed: 0,sex,bmi
sex,1.0,0.088161
bmi,0.088161,1.0


> 함수 사용법 : scipy.stats.spearmanr(a, b)

In [15]:
# PKG
from scipy.stats import spearmanr

# spearman corr
spearmanr(data.sex, data.bmi)

SignificanceResult(statistic=0.09807947297621517, pvalue=0.03929011358104615)

In [16]:
# 단순한 상관계수의 산출은 데이터프레임객체로 corr() 가능하다.
data[['sex','bmi']].corr(method = 'spearman')

Unnamed: 0,sex,bmi
sex,1.0,0.098079
bmi,0.098079,1.0


#2. 회귀분석

## 1절. 선형 회귀분석

> 함수 사용법 : scipy.stats.linregression(x, y)

1. 선형회귀분석

In [23]:
# 'target' 칼럼 호출
target = diabetes.target

# 단순 선형회귀 모델 생성

# PKG
from scipy.stats import linregress
model = linregress(x = data.bmi, y = target)
print(model)

LinregressResult(slope=949.4352603840384, intercept=152.13348416289617, rvalue=0.5864501344746884, pvalue=3.466006445167547e-42, stderr=62.515122002852664, intercept_stderr=2.973541118790735)


In [25]:
# 독립변수에 대한 회귀계수
print(model.slope)

# 상수항에 대한 추정된 회귀계수
print(model.intercept)

949.4352603840384
152.13348416289617


In [28]:
# beta1에 대한 통계적 유의성(p-value)
print('p-value :',model.pvalue)

# 결정계수(모델의 설명력)
print('결정계수(R^2) :',model.rvalue)

p-value : 3.466006445167547e-42
결정계수(R^2) : 0.5864501344746884


2. 다중회귀분석

In [32]:
# PKG
from sklearn.linear_model import LinearRegression

colname = ['bmi', 'bp','s1','s2','s3'] # 컬럼명 리스트
X = data[colname]
y = target

# 선형회귀 객체 생성
model = LinearRegression()

# 모델 적합(fitting)
model.fit(X = X, y=y)

# 독립변수에 대한 추정 회귀 계수들
print('회귀계수 : ',model.coef_)

# 절편항에 대한 추정 절편항
print('절편항 :',model.intercept_)

회귀계수 :  [ 608.94692667  301.1268683   990.86452444 -938.97359917 -597.46181621]
절편항 : 152.13348416289614


In [35]:
# 결정계수
print('결정계수 :', model.score(X = X, y = y))

결정계수 : 0.4772123190202695


3. 정규화 선형회귀

> 가. 릿지 회귀

In [38]:
# PKG
from sklearn.linear_model import Ridge

colname = ['bmi', 'bp','s1','s2','s3'] # 컬럼명 리스트
X = data[colname]
y = target

# 릿지회귀객체 생성
model = Ridge(alpha=0.1)

# 적합
model.fit(X = X, y = y)

# 독립변수에 대한 추정 회귀 계수들
print('회귀계수 : ',model.coef_)

# 절편항에 대한 추정 절편항
print('절편항 :',model.intercept_)

회귀계수 :  [ 595.99425538  339.08790294  397.33725338 -338.99514707 -406.34548455]
절편항 : 152.1334841628961


> 나. 라쏘회귀

In [39]:
# PKG
from sklearn.linear_model import Lasso

colname = ['bmi', 'bp','s1','s2','s3'] # 컬럼명 리스트
X = data[colname]
y = target

# 라쏘회귀객체 생성
model = Lasso(alpha = 0.5)

# 적합
model.fit(X = X, y = y)

# 독립변수에 대한 추정 회귀 계수들
print('회귀계수 : ',model.coef_)

# 절편항에 대한 추정 절편항
print('절편항 :',model.intercept_)

회귀계수 :  [ 574.04562479  237.22854049    0.            0.         -165.17168117]
절편항 : 152.13348416289608


In [47]:
# PKG
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.linear_model import Lasso

# diabetes 데이터셋 호출 후 데이터프레임으로 변환
diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
target = pd.Series(diabetes.target, name = 'target')
df = pd.concat([data, target], axis = 1) # 데이프레임과 시리즈 열 결합

# 데이터 분할
colname = ['bmi', 'bp','s1','s2','s3'] # 컬럼명 리스트
# 데이터 분할
colname = ['bmi', 'bp','s1','s2','s3'] # 컬럼명 리스트
X_train = df[colname].loc[:310]
X_test = df[colname].loc[310:]
y_train = df['target'].loc[:310]

# 라쏘회귀객체 생성
model = Lasso(alpha = 0.5)
model.fit(X = X_train, y = y_train)

# X_test를 통해 새로운 'target' 변수를 예측
target = model.predict(X_test)
target = pd.Series(target)
print(target)

0      198.788357
1      166.214176
2      133.539177
3      194.702189
4      172.636544
          ...    
127    178.910743
128    131.853902
129    148.589829
130    178.546705
131     65.611052
Length: 132, dtype: float64
