### PART 03) 통계분석

## 1장. 상관분석

### 1절. SciPy를 활용한 상관분석

In [None]:
# 데이터 호출한 후 데이터프레임으로 변환
import pandas as pd
from sklearn.datasets import load_diabetes 

diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)
data.info() # 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 442 entries, 0 to 441
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     442 non-null    float64
 1   sex     442 non-null    float64
 2   bmi     442 non-null    float64
 3   bp      442 non-null    float64
 4   s1      442 non-null    float64
 5   s2      442 non-null    float64
 6   s3      442 non-null    float64
 7   s4      442 non-null    float64
 8   s5      442 non-null    float64
 9   s6      442 non-null    float64
dtypes: float64(10)
memory usage: 34.7 KB


In [None]:
# scipy.stats.pearsonr
from scipy.stats import pearsonr
pearsonr(x = data['age'], y = data['bmi'])

(0.18508466614655558, 9.076791865412659e-05)

In [None]:
# 단순한 상관계수의 산출은 데이터프레임객체.corr()로도 가능
data[['age', 'bmi']].corr()

Unnamed: 0,age,bmi
age,1.0,0.185085
bmi,0.185085,1.0


In [None]:
# scipy.stats.spearmanr
from scipy.stats import spearmanr
spearmanr(a = data['sex'], b = data['bmi'])

SpearmanrResult(correlation=0.09807947297621517, pvalue=0.03929011358104615)

In [None]:
# 단순한 상관계수의 산출은 데이터프레임객체.corr()로 가능
# corr(method = 'spearman')은 스피어만 상관계수를 산출함
data[['sex', 'bmi']].corr(method = 'spearman')

Unnamed: 0,sex,bmi
sex,1.0,0.098079
bmi,0.098079,1.0


--- 

## 2장. 회귀분석

### 1절. 선형 회귀분석

#### 1. SciPy를 활용한 단순 선형 회귀분석

In [None]:
# 'target’ 컬럼 호출
target = diabetes.target

# 단순 선형회귀 모델 생성
# scipy.stats.linregress()
from scipy.stats import linregress
model = linregress(x = data['bmi'], y = target)
print(model) # 전체 결과

LinregressResult(slope=949.4352603839491, intercept=152.1334841628967, rvalue=0.5864501344746886, pvalue=3.4660064451672995e-42, stderr=62.51512200284676, intercept_stderr=2.973541118790735)


In [None]:
# 독립변수에 대한 추정된 회귀계수(beta1)
print(model.slope)

# 상수항에 대한 추정된 회귀계수(beta0)
print(model.intercept)

# beta1에 대한 통계적 유의성(p-value)
print(model.pvalue)

949.4352603839491
152.1334841628967
3.4660064451672995e-42


In [None]:
# 결정계수(모형의 설명력)
print(model.rvalue)

0.5864501344746886


#### 2. 사이킷런을 활용한 선형 회귀분석

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
colnm = ['bmi', 'bp', 's1', 's2', 's3'] # 컬럼명 리스트
X = data[colnm]
y = target

In [None]:
# 선형회귀 객체 생성
model = LinearRegression()
# 선형회귀 적합
model.fit(X = X, y = y)

LinearRegression()

In [None]:
# 독립변수들에 대한 추정 회귀 계수들
print(model.coef_)

[ 608.9434702   301.13217977  990.86949656 -938.98139897 -597.46405077]


In [None]:
# 절편항에 대한 추정 회귀 계수 
print(model.intercept_)

152.13348416289634


In [None]:
# 결정계수
model.score(X = X, y = y)

0.47721326169685596

#### 3. 정규화 선형 회귀분석

##### 가. 릿지 회귀(Ridge Regression)

In [None]:
from sklearn.linear_model import Ridge
colnm = ['bmi', 'bp', 's1', 's2', 's3'] # 컬럼명 리스트
X = data[colnm]
y = target

# 릿지회귀객체 생성
model = Ridge(alpha = 0.1)

# 적합
model.fit(X = X, y = y)

Ridge(alpha=0.1)

In [None]:
# 독립변수들에 대한 추정 회귀 계수들
print(model.intercept_)
print(model.coef_)

152.13348416289628
[ 595.99217991  339.09043254  397.33941231 -338.99997282 -406.34685926]


##### 나. 라쏘 회귀(Lasso Regression)

In [None]:
from sklearn.linear_model import Lasso
colnm = ['bmi', 'bp', 's1', 's2', 's3'] # 컬럼명 리스트
X = data[colnm]
y = target

# 라쏘회귀객체 생성
model = Lasso(alpha = 0.5)

# 적합
model.fit(X = X, y = y)

Lasso(alpha=0.5)

In [None]:
# 독립변수들에 대한 추정 회귀 계수들
print(model.intercept_)
print(model.coef_)

152.13348416289628
[ 574.0437769   237.23009748    0.            0.         -165.17218128]


In [None]:
# 패키지 및 데이터셋, 클래스 호출
import pandas as pd
from sklearn.datasets import load_diabetes 
from sklearn.linear_model import Lasso

# diabetes 데이터셋 호출 후 데이터프레임으로 변환
diabetes = load_diabetes() 
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names) 
target = pd.Series(diabetes.target, name = 'target')
df = pd.concat([data, target], axis = 1) # 데이터프레임과 시리즈를 열 결합

# 데이터 분할
colnm = ['bmi', 'bp', 's1', 's2', 's3'] # 컬럼명 리스트
X_train = df[colnm].loc[:310] # 0~309번 행과 ‘bmi’,‘bp’,‘s1’,‘s2’,‘s3’ 컬럼
X_test = df[colnm].loc[310:] # 310~441번 행 ‘bmi’,‘bp’,‘s1’,‘s2’,‘s3’ 컬럼
y_train = df['target'].loc[:310] # 0~309번 행과 'target’ 컬럼

# 라쏘회귀객체 생성
model = Lasso(alpha = 0.5) 
model.fit(X = X_train, y = y_train) # X_train과 y_train으로 라쏘 회귀모형 적합

# X_test를 통해 새로우 'target' 변수를 예측
target = model.predict(X_test)
target = pd.Series(target, name = 'target') # array -> series
print(target)

0      198.788299
1      166.213989
2      133.539119
3      194.702166
4      172.636431
          ...    
127    178.910748
128    131.853733
129    148.587458
130    178.546607
131     65.610946
Name: target, Length: 132, dtype: float64


# (끝)