<a href="https://colab.research.google.com/github/1st-award/andong_2021_2_1/blob/main/Python/%ED%95%84%EA%B8%B0%20%EC%82%AC%EB%B3%B8/%EC%83%81%EA%B4%80%EB%B6%84%EC%84%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 상관분석

## 공분산(Convariance) 및 상관계수 (Correlation Coefficient)
- **공분산** 두 개의 확률변수 사이의 상관 정도를 나타내는 값으로 두 변수가 함께 변화하는 정도를 나타내는 지표
  - 공분산이 양수: 두 변수가 같은 방향으로 변화(하나가 증가하면 다른 하나도 증가)
  - 공분산이 음수: 두 변수가 반대 방향으로 변화(하나가 증가하면 다른 하나는 감소)
  - 공분산이 0: 두 변수가 독립. 즉, 한 변수의 변화가 다른 변수의 변화에 영향을 미치지 못함
  - 공분산의 크기는 변수 값의 단위에 따라 달라지므로 절대적 크기로 두 변수 사이의 사오간관계를 판단하기 어려움
- **상관계수**: 공분산을 -1에서 1 사이의 실수로 표준화시킨 값
  - 칼 피어스(Karl Pearson)이 개발하여, 일반적으로 상관계수라고 하면 피어슨 상관계수를 말함
  - 0.3 ~ 0.7: 뚜렷한 양적 선형 관계, 0.7 ~ 1.0: 강한 양적 선형 관계

## 당뇨병 진행도

### 필요한 라이브러리 가져오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

### 데이터 셋 읽고 확인하기

In [None]:
dataset = datasets.load_diabetes()
dataset.keys()

dict_keys(['data', 'target', 'DESCR', 'feature_names', 'data_filename', 'target_filename'])

- target: 당뇨병 수치
- feature_names: 나이(age), 성별(sex), 체질량지수(bmi), 혈압(bp), 6종류의 혈액 검사 수치(s1 ~ s6)

In [None]:
# DESCR: description, dataset에 대한 설명
print(dataset['DESCR'])

In [None]:
dataset['data'].shape

In [None]:
dataset['target'].shape

In [None]:
dataset['feature_names']

In [None]:
df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])
df.head()

In [None]:
# 데이터프레임의 마지막 컬러므올 당뇨병수치(target)를 추가
df['target'] = dataset['target']
df.head()

### 체질량지수(bmi)와 당뇨병수치(target) 사이의 상관관계 분석

#### 산점도(Scatter plot)

In [None]:
X = df['bmi'].values
Y = df['target'].values
plt.scatter(X, Y, alpha=0.5)
plt.title("Correlation between BMI and diabetes levels")
plt.xlabel("BMI")
plt.ylabel("Target")
plt.show()

**체질량지수(bmi)와 당뇨병수치(target) 사이의 공분산 계산**

In [None]:
# 공식을 이용한 공분산 계산
cov = np.mean(X*Y) - np.mean(X)*np.mean(Y)
cov

2.148043575529701

In [None]:
# numpy의 공분산 계산 함수 이용
cov = np.cov(X, Y)
cov

In [None]:
# numpy의 공분산 계산 함수 이용
cov = np.cov(X, Y)[0, 1]
cov

**체질량지수(bmi)와 당뇨병수치(target) 사이의 상관계수 계산**

In [None]:
# 공식을 이용한 상관계수 계산
corrCoef = cov / (np.sqrt(np.var(X))*np.sqrt(np.var(Y)))
corrCoef

In [None]:
# 공식을 이용한 상관계수 계산
corrCoef = cov / (np.std(X)*np.std(Y))
corrCoef

In [None]:
# numpy의 상관계수 계산 함수 이용
corrCoef = np.corrcoef(X, Y)
corrCoef

In [None]:
# numpy의 상관계수 계산 함수 이용
corrCoef = np.corrcoef(X, Y)[0, 1]
corrCoef

체질량지수(bmi)와 당뇨병수치(target) 사이의 상관계수 0.566은 뚜렷한 양적 선형관계를 이루고 있다고 볼 수 있다.

### seaborn 라이브러리로 그래프 그리기
seabron은 matplotlib을 기본으로 해서 통계분석을 목적으로 그래프를 더 쉽게 그리기 위하여 고급 인터퍼에스를 제공하는 라이브러리이다.

In [None]:
import seaborn as sns
sns.pairplot(df[["target", "bmi", "bp", "s1"]])
plt.show()


**과제: 혈압(bp)과 당뇨병 수치(target) 사이에 선형관계가 있는지 확인하기 위하여 상관계수를 계산하는 코드를 작성하시오.**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets

dataset = datasets.load_diabetes()
df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])
df['target'] = dataset['target']
X = df['bp'].values
Y = df['target'].values
corrCoef = np.corrcoef(X, Y)[0, 1]
corrCoef