# 평균(Average) 구하기

미국에서 거래되는 담배(식물)의 도매가격 데이터를 분석하여, 거래된 도매가의 평균을 구한다.

* 평균값(Mean)
* 중앙값(Median)
* 최빈값(Mode)

### 사용하는 주요 모듈

아래는 통계분석에서 기본적으로 사용되는 모듈들이다.

* pandas: 통계분석 전용 모듈
    * numpy 모듈을 바탕으로 하여 통계분석에 특화된 모듈임.
    * 마이크로소프트의 엑셀처럼 작동하는 기능을 지원함
* datetime: 날짜와 시간을 적절하게 표시하도록 도와주는 기능을 지원하는 모듈
* scipy: 수치계산, 공업수학 등을 지원하는 모듈

## 팬더스(Pandas) 소개

* pandas란?
    * 빠르고 쉬운 데이터 분석 도구를 지원하는 파이썬 모듈
    * numpy를 기본적으로 활용함.


* pandas의 기능
    * 데이터 정렬 등 다양한 연산 기능 지원
    * 강력한 색인 및 슬라이싱 기능
    * 시계열(time series) 기능 지원
    * 결측치(누락된 데이터) 처리
    * SQL과 같은 DB의 관계연산 기능 지원
    
**주의:** pandas 모듈의 기능에 대한 보다 자세한 설명은 다음 시간에 다룬다.
여기서는 pandas 모듈을 어떻게 활용하는지에 대한 감을 잡기만 하면 된다.

In [35]:
import numpy as np
import pandas as pd
from datetime import datetime as dt
from scipy import stats

## 데이터 불러오기 및 처리

오늘 사용할 데이터는 다음과 같다.

* 미국 51개 주(State)에서 재배된 담배(식물) 도매가격 및 판매일자: Weed_price.csv

아래 그림은 미국의 주별 담배(식물) 판매 데이터를 담은 Weed_Price.csv 파일를 엑셀로 읽었을 때의 일부를 보여준다.
실제 데이터량은 22899개이며, 아래 그림에는 5개의 데이터만을 보여주고 있다.
* 주의: 1번줄은 테이블의 열별 목록(column names)을 담고 있다.
* 열별 목록: State, HighQ, HighQN, MedQ, MedQN, LowQ, LowQN, date

<p>
<table cellspacing="20">
<tr>
<td>
<img src="../images/weed_price.png">
</td>
</tr>
</table>
</p>

### csv 파일 불러오기

* pandas 모듈의 read_csv 함수 활용
* read_csv 함수의 리턴값은 DataFrame 이라는 특수한 자료형임
    * 엑셀의 위 그림 모양의 스프레드시트(spreadsheet)라고 생각하면 됨.

언급한 세 개의 csv 파일을 pandas의 read_csv 함수를 이용하여 불러들이자.

**주의**: Weed_Price.csv 파일을 불러들일 때, parse_dates라는 키워드 인자가 사용되었다. 
* parse_dates 키워드 인자: 날짜를 읽어들일 때 다양한 방식을 사용하도록 하는 기능을 갖고 있다.
    * 여기서 값을 [-1]로 준 것은 소스 데이터에 있는 날짜 데이터를 변경하지 말고 그대로 불러오라는 의미이다.
    * 위 엑셀파일에서 볼 수 있듯이, 마지막 열에 포함된 날짜표시는 굳이 변경을 요하지 않는다.

In [36]:
prices_pd = pd.read_csv("../data/Weed_Price.csv", parse_dates=[-1])

read_csv 함수의 리턴값은 DataFrame 이라는 자료형이다.

In [37]:
type(prices_pd)

pandas.core.frame.DataFrame

#### DataFrame 자료형

자세한 설명은 다음 시간에 추가될 것임. 우선은 아래 사이트를 참조할 수 있다는 정도만 언급함.
(5.2절 내용까지면 충분함)

http://sinpong.tistory.com/category/Python%20for%20data%20analysis

#### DataFrame 자료형과 엑셀의 스프레드시트 비교하기

불러 들인 Weed_Price.csv 파일의 상위 다섯 줄을 확인해보면, 앞서 엑셀파일 그림에서 본 내용과 일치한다.
다만, 행과 열의 목록이 조금 다를 뿐이다.
* 엑셀에서는 열 목록이 A, B, C, ..., H로 되어 있으며, 소스 파일의 열 목록은 1번 줄로 밀려 있다.
* 엑셀에서의 행 목록은 1, 2, 3, ... 으로 되어 있다.

하지만 read_csv 파일은 좀 다르게 불러 들인다.
* 열 목록은 소스 파일의 열 목록을 그대로 사용한다.
* 행 목록은 0, 1, 2, ... 으로 되어 있다.

데이터 파일의 상위 몇 줄을 불러들이기 위해서는 DataFrame 자료형의 head 메소드를 활용한다.
인자값을 주지 않으면 상위 5줄을 보여준다.

In [38]:
prices_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
0,Alabama,339.06,1042,198.64,933,149.49,123,2014-01-01
1,Alaska,288.75,252,260.6,297,388.58,26,2014-01-01
2,Arizona,303.31,1941,209.35,1625,189.45,222,2014-01-01
3,Arkansas,361.85,576,185.62,544,125.87,112,2014-01-01
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01


인자를 주면 원하는 만큼 보여준다.

In [39]:
prices_pd.head(10)

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
0,Alabama,339.06,1042,198.64,933,149.49,123,2014-01-01
1,Alaska,288.75,252,260.6,297,388.58,26,2014-01-01
2,Arizona,303.31,1941,209.35,1625,189.45,222,2014-01-01
3,Arkansas,361.85,576,185.62,544,125.87,112,2014-01-01
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01
5,Colorado,236.31,2161,195.29,1728,213.5,128,2014-01-01
6,Connecticut,347.9,1294,273.97,1316,257.36,91,2014-01-01
7,Delaware,373.18,347,226.25,273,199.88,34,2014-01-01
8,District of Columbia,352.26,433,295.67,349,213.72,39,2014-01-01
9,Florida,306.43,6506,220.03,5237,158.26,514,2014-01-01


파일이 매우 많은 수의 데이터를 포함하고 있을 경우, 맨 뒷쪽 부분을 확인하고 싶으면
tail 메소드를 활용한다. 사용법은 head 메소드와 동일하다.

아래 명령어를 통해 Weed_Price.csv 파일에 22899개의 데이터가 저장되어 있음을 확인할 수 있다.

In [40]:
prices_pd.tail()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
22894,Virginia,364.98,3513,293.12,3079,,284,2014-12-31
22895,Washington,233.05,3337,189.92,3562,,160,2014-12-31
22896,West Virginia,359.35,551,224.03,545,,60,2014-12-31
22897,Wisconsin,350.52,2244,272.71,2221,,167,2014-12-31
22898,Wyoming,322.27,131,351.86,197,,12,2014-12-31


#### 결측치 존재 여부

위 결과를 보면 LowQ 목록에 NaN 이라는 기호가 포함되어 있다. NaN은 Not a Number, 즉, 숫자가 아니다라는 의미이며, 데이터가 애초부터 존재하지 않았거나 누락되었음을 의미한다.

#### DataFrame의 dtypes

DataFrame 자료형의 dtypes 속성을 이용하면 열별 목록에 사용된 자료형을 확인할 수 있다.

Weed_Price.csv 파일을 읽어 들인 prices_pd 변수에 저장된 DataFrame 값의 열별 목록에 사용된 자료형을 보여준다.

**주의:** 
* numpy의 array 자료형의 dtype 속성은 하나의 자료형만을 담고 있다.
* 열별 목록에는 하나의 자료형 값들만 올 수 있다.
    즉, 열 하나하나가 넘파이의 array에 해당한다고 볼 수 있다.
* State 목록에 사용된 object 라는 dtype은 문자열이 저장된 위치를 가리키는 포인터를 의미한다.
    * 문자열의 길이를 제한할 수 없기 때문에 문자열을 어딘가에 저장하고 포인터가 그 위치를 가리키며, 
        필요에 따라 포인터 정보를 이용하여 저장된 문자열을 확인한다.
* 마지막 줄에 표시된 "dtype: object"의 의미는 복잡한 데이터들의 자료형이라는 의미로 이해하면 됨.

In [41]:
prices_pd.dtypes

State             object
HighQ            float64
HighQN             int64
MedQ             float64
MedQN              int64
LowQ             float64
LowQN              int64
date      datetime64[ns]
dtype: object

### 정렬 및 결측치 채우기

#### 정렬하기
주별로, 날짜별로 데이터를 정렬한다.

In [42]:
prices_pd.sort_values(['State', 'date'], inplace=True)

#### 결측치 채우기

평균을 구하기 위해서는 결측치(누락된 데이터)가 없어야 한다.
여기서는 이전 줄의 데이터를 이용하여 채우는 방식(method='ffill')을 이용한다.

**주의:** 앞서 정렬을 먼저 한 이유는, 결측치가 있을 경우 가능하면 동일한 주(State), 
비슷한 시점에서 거래된 가격을 사용하고자 함이다.

In [43]:
prices_pd.fillna(method='ffill', inplace=True)

정렬된 데이터의 첫 부분은 아래와 같이 알라바마(Alabama) 주의 데이터만 날짜별로 순서대로 보인다.

In [44]:
prices_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
20094,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-27
20859,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-28
21573,Alabama,339.75,1036,198.26,929,149.49,123,2013-12-29
22287,Alabama,339.75,1036,198.81,930,149.49,123,2013-12-30
22797,Alabama,339.42,1040,198.68,932,149.49,123,2013-12-31


정렬된 데이터의 끝 부분은 아래와 같이 요밍(Wyoming) 주의 데이터만 날짜별로 순서대로 보인다.
이제 결측치가 더 이상 존재하지 않는다.

In [45]:
prices_pd.tail()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
4997,Wyoming,313.72,148,317.38,226,161.3,13,2015-06-07
5762,Wyoming,313.72,148,317.38,226,161.3,13,2015-06-08
6527,Wyoming,313.72,148,317.38,226,161.3,13,2015-06-09
7343,Wyoming,313.72,148,317.38,226,161.3,13,2015-06-10
8159,Wyoming,313.72,148,317.38,226,161.3,13,2015-06-11


## 데이터 분석하기: 평균(Average)

캘리포니아 주를 대상으로해서 담배(식물) 도매가의 평균(average)을 구해본다.

### 평균값(Mean)

* 평균값 = 모든 값들의 합을 값들의 개수로 나누기
    * $X$: 데이터에 포함된 값들을 대변하는 변수
    * $n$: 데이터에 포함된 값들의 개수
    * $\Sigma\, X$: 데이터에 포함된 모든 값들의 합

$$\text{평균값}(\mu) = \frac{\Sigma\, X}{n}$$

먼저 마스크 인덱스를 이용하여 캘리포니아 주의 데이터만 추출해야 한다.

In [46]:
california_pd = prices_pd[prices_pd.State == "California"].copy(True)

캘리포니아 주에서 거래된 첫 20개의 데이터를 확인해보자.

In [48]:
california_pd.head(20)

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
20098,California,248.77,12021,193.44,12724,193.88,770,2013-12-27
20863,California,248.74,12025,193.44,12728,193.88,770,2013-12-28
21577,California,248.76,12047,193.55,12760,193.6,772,2013-12-29
22291,California,248.82,12065,193.54,12779,193.8,773,2013-12-30
22801,California,248.76,12082,193.54,12792,193.8,773,2013-12-31
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01
769,California,248.67,12125,193.56,12836,192.8,779,2014-01-02
1483,California,248.67,12141,193.57,12853,192.67,782,2014-01-03
2248,California,248.65,12155,193.59,12884,192.67,782,2014-01-04
3013,California,248.68,12176,193.63,12902,192.67,782,2014-01-05


HighQ 열 목록에 있는 값들의 총합을 구해보자.

**주의:** `sum()` 메소드 활용을 기억한다.

In [14]:
ca_sum = california_pd['HighQ'].sum()
ca_sum

110173.88

HighQ 열 목록에 있는 값들의 개수를 확인해보자.

**주의:** `count()` 메소드 활용을 기억한다.

In [15]:
ca_count = california_pd['HighQ'].count()
ca_count

449

이제 캘리포니아 주에서 거래된 HighQ의 담배가격의 평균값을 구할 수 있다.

In [16]:
# 캘리포니아 주에서 거래된 상품(HighQ) 담배(식물) 도매가의 평균값
ca_mean = ca_sum / ca_count
ca_mean

245.37612472160356

### 중앙값(Median)

캘리포니아 주에서 거래된 HighQ의 담배가격의 중앙값을 구하자.

* 중앙값 = 데이터를 크기 순으로 정렬하였을 때 가장 가운데에 위치한 수
    * 데이터의 크기 n이 홀수일 때: $\frac{n+1}{2}$번 째 위치한 데이터
    * 데이터의 크기 n이 짝수일 때: $\frac{n}{2}$번 째와 $\frac{n}{2}+1$번 째에 위치한 데이터들의 평균값   

여기서는 데이터의 크기가 449로 홀수이다.

In [17]:
ca_count

449

따라서 중앙값은 $\frac{\text{ca_count}-1}{2}$번째에 위치한 값이다.

**주의:** 인덱스는 0부터 출발한다. 따라서 중앙값이 하나 앞으로 당겨진다.

In [18]:
ca_highq_pd = california_pd.sort_values(['HighQ'])
ca_highq_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
19027,California,241.84,18419,187.9,21965,188.6,1229,2015-05-26
19741,California,241.85,18450,187.9,21993,188.6,1231,2015-05-27
8011,California,241.87,18066,188.86,21561,188.6,1212,2015-05-11
8827,California,241.87,18073,188.89,21584,188.6,1213,2015-05-12
18313,California,241.88,18398,187.85,21949,188.6,1228,2015-05-25


인덱스 로케이션 함수인 `iloc` 함수를 활용한다.

**주의:** `iloc` 메소드는 인덱스 번호를 사용한다. 
위 표에서 보여주는 인덱스 번호는 Weed_Price.csv 파일을 처음 불러왔을 때 사용된 인덱스 번호이다.
하지만 ca_high_pd 에서는 참고사항으로 사용될 뿐이며, `iloc` 함수에 인자로 들어가는 인덱스는 다시 0부터 세는 것으로 시작한다.
따라서 아래 코드처럼 기존의 참고용 인덱스를 사용하면 옳은 답을 구할 수 없다.

In [19]:
# 캘리포니아에서 거래된 상품(HighQ) 담배(식물) 도매가의 중앙값
ca_median = ca_highq_pd.HighQ.iloc[int((ca_count-1)/ 2)]
ca_median

245.31

### 최빈값(Mode)

캘리포니아 주에서 거래된 HighQ의 담배가격의 최빈값을 구하자.

* 최빈값 = 가장 자주 발생한 데이터

**주의:** `value_counts()` 메소드 활용을 기억한다.

In [20]:
# 캘리포니아 주에서 가장 빈번하게 거래된 상품(HighQ) 담배(식물)의 도매가
ca_mode = ca_highq_pd.HighQ.value_counts().index[0]
ca_mode

245.05

# 모집단 분산 점추정

#### 안내사항

지난 시간에 다룬 21장 내용을 활용하고자 한다.
따라서 아래와 같이 21장 내용을 모듈로 담고 있는 파이썬 파일을 임포트 해야 한다.

**주의:** GongSu21_Statistics_Averages.py 파일이 동일한 디렉토리에 있어야 한다.

In [1]:
from GongSu21_Statistics_Averages import *

ModuleNotFoundError: No module named 'GongSu21_Statistics_Averages'

## 주요 내용

* 모집단과 표본
* 모집단 분산의 점추정

## 주요 예제

21장에서 다룬 미국의 51개 주에서 거래되는 담배(식물)의 도매가격 데이터를 보다 상세히 분석한다. 

특히, 캘리포니아 주를 예제로 하여 주(State)별로 담배(식물) 도매가 전체에 대한 거래가의 평균과 분산을 점추정(point estimation)하는 방법을 다룬다.

## 주요 모듈

* pandas: 통계분석 전용 모듈
    * numpy 모듈을 바탕으로 하여 통계분석에 특화된 모듈임.
    * 마이크로소프트의 엑셀처럼 작동하는 기능을 지원함
* datetime: 날짜와 시간을 적절하게 표시하도록 도와주는 기능을 지원하는 모듈
* scipy: 수치계산, 공업수학 등을 지원하는 모듈

**주의:** 언급된 모듈은 이미 GongSu21_Statistics_Averages.py 모듈에서 임포트 되었음.

## 오늘 사용할 데이터

* 주별 담배(식물) 도매가격 및 판매일자: Weed_Price.csv

아래 그림은 미국의 주별 담배(식물) 판매 데이터를 담은 Weed_Price.csv 파일를 엑셀로 읽었을 때의 일부를 보여준다.

<p>
<table cellspacing="20">
<tr>
<td>
<img src="img/weed_price.png" style="width:600">
</td>
</tr>
</table>
</p>

**주의:** 언급된 파일이 GongSu21_Statistics_Averages 모듈에서 prices_pd 라는 변수에 저장되었음. 
또한 주(State)별, 거래날짜별(date) 기준으로 이미 정렬되어 있음. 

따라서 아래에서 볼 수 있듯이 예를 들어, prices_pd의 첫 다섯 줄의 내용은 알파벳순으로 가장 빠른 이름을 가진 알라바마(Alabama) 주에서 거래된 데이터 중에서 가정 먼저 거래된 5개의 거래내용을 담고 있다.

In [3]:
prices_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
20094,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-27
20859,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-28
21573,Alabama,339.75,1036,198.26,929,149.49,123,2013-12-29
22287,Alabama,339.75,1036,198.81,930,149.49,123,2013-12-30
22797,Alabama,339.42,1040,198.68,932,149.49,123,2013-12-31


## 모집단과 표본

Weed_Price.csv 파일에 담긴 담배(식물) 도매가는 미국에서 거래된 모든 도매가 정보가 아니라 소수의 거래 정보만을 담고 있다.
이와같이 조사대상의 소수만을 모아 둔 데이터를 **표본(Sample)**이라 부른다.
반면에 미국에서 거래되는 모든 담배(식물) 도매가 전체는 현재 조사하고자 하는 대상들의 **모집단**이라 부른다.

여기서는 Weed_Price.csv 파일에 담긴 표본을 이용하여 모집단에 대한 분산과, 주별로 이루어진 거래 사이의 상관관계를 확인하고자 한다.

**참고:** 모집단과 표본, 점추정에 대한 보다 자세한 설명은 아래의 두 파일을 참조한다. 
* GongSu22_Statistics_Sampling_a.pdf
* GongSu22_Statistics_Sampling_b.pdf

### 모집단 평균값과 분산의 점추정

* 모집단의 평균값 점추정: 표본의 평균값을 그대로 이용한다.
$$\hat{x} = \bar x = \frac{\Sigma_{i=1}^{n} x_i}{n}$$
    * $\hat x\,\,$는 모집단 평균값의 점추정 기호
    * $\bar x$는 표본 데이터들의 평균값 기호


* 모집단의 분산 점추정: 표본 데이터를 이용해서 모집단의 분산을 추정할 수 있다.
$$\hat\sigma\,\, {}^2 = s^2 = \frac{\Sigma_{i = 1}^{n}(x_i - \bar x)^2}{n-1}$$
    * $\hat \sigma\,\, {}^2$는 모집단 분산의 점추정 기호
    

**주의:** 
* $s^2$을 계산할 때 $n$ 대신에 $n-1$로 나누는 것에 주의한다.
* 모집단의 분산은 일반적으로 표본의 분산보다 좀 더 크기 때문이다.

### 캘리포니아 주에서 거래된 HighQ 담배(식물)의 도매가 전체에 대한 분산의 점추정

먼저 prices_pd에 포함된 데이터 중에서 캘리포니아 주에서 거래된 상품(HighQ) 담배(식물)의 가격들에 대한 연산이 필요하다.
즉, 아래 공식의 분자를 계산하기 위한 준비과정이다.

$$s^2 = \frac{\Sigma_{i = 1}^{n}(x_i - \bar x)^2}{n-1}$$

**주의:** 캘리포니아 주에서 거래된 상품(HighQ) 담배(식물)의 도매가의 평균값은 `ca_mean`으로 이미 계산되었다.

In [4]:
california_pd['HighQ_dev'] = (california_pd['HighQ'] - ca_mean) ** 2
california_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date,HighQ_dev
20098,California,248.77,12021,193.44,12724,193.88,770,2013-12-27,11.518389
20863,California,248.74,12025,193.44,12728,193.88,770,2013-12-28,11.315657
21577,California,248.76,12047,193.55,12760,193.6,772,2013-12-29,11.450612
22291,California,248.82,12065,193.54,12779,193.8,773,2013-12-30,11.860277
22801,California,248.76,12082,193.54,12792,193.8,773,2013-12-31,11.450612


이제 캘리포니아 주 거래된 상품(HighQ) 담배(식물)의 거래가 전체 모집단에 대한 분산 점추정을 계산할 수 있다.

**주의:** 표본의 크기는 `ca_count`이다.

In [5]:
ca_HighQ_variance = california_pd.HighQ_dev.sum() / (ca_count - 1)
ca_HighQ_variance

2.982686287981227

**주의:** 
* DataFrame 자료형의 연산은 넘파이 어레이의 연산처럼 항목별로 실행된다.
* sum 메소드의 활용을 기억한다.

#### 표준편차의 점추정

모집단 분산의 점추정으로 얻은 값에다가 루트를 씌우면 된다.

In [6]:
# 캘리포니아에서 거래된 상품(HighQ) 담배(식물) 도매가의 표준편차
ca_HighQ_SD = np.sqrt(ca_HighQ_variance)
ca_HighQ_SD

1.7270455373212448

# 상관분석

#### 안내사항

지난 시간에 다룬 21장과 22장 내용을 활용하고자 한다.
따라서 아래와 같이 21장과 22장 내용을 모듈로 담고 있는 파이썬 파일을 임포트 해야 한다.

**주의:** 아래 두 개의 파일이 동일한 디렉토리에 위치해야 한다.
* GongSu21_Statistics_Averages.py 
* GongSu22_Statistics_Population_Variance.py 

In [2]:
from GongSu22_Statistics_Population_Variance import *

#### 주의

위 모듈을 임포트하면 아래 모듈 또한 자동으로 임포트 된다.

* GongSu21_Statistics_Averages.py

## 주요 내용

* 상관분석
* 공분산
* 상관관계와 인과관계

## 주요 예제

21장에서 다룬 미국의 51개 주에서 거래되는 담배(식물)의 도매가격 데이터를 보다 상세히 분석한다. 

특히, 캘리포니아 주에서 거래된 담배(식물) 도매가와 뉴욕 주에서 거래된 담배(식물) 도매가의 상관관계를 다룬다.

## 오늘 사용할 데이터

* 주별 담배(식물) 도매가격 및 판매일자: Weed_Price.csv

아래 그림은 미국의 주별 담배(식물) 판매 데이터를 담은 Weed_Price.csv 파일를 엑셀로 읽었을 때의 일부를 보여준다.

<p>
<table cellspacing="20">
<tr>
<td>
<img src="img/weed_price.png" style="width:600">
</td>
</tr>
</table>
</p>

**주의:** 언급된 파일이 GongSu21_Statistics_Averages 모듈에서 prices_pd 라는 변수에 저장되었음. 
또한 주(State)별, 거래날짜별(date) 기준으로 이미 정렬되어 있음. 

따라서 아래에서 볼 수 있듯이 예를 들어, prices_pd의 첫 다섯 줄의 내용은 알파벳순으로 가장 빠른 이름을 가진 알라바마(Alabama) 주에서 거래된 데이터 중에서 가정 먼저 거래된 5개의 거래내용을 담고 있다.

In [3]:
prices_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
20094,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-27
20859,Alabama,339.65,1033,198.04,926,147.15,122,2013-12-28
21573,Alabama,339.75,1036,198.26,929,149.49,123,2013-12-29
22287,Alabama,339.75,1036,198.81,930,149.49,123,2013-12-30
22797,Alabama,339.42,1040,198.68,932,149.49,123,2013-12-31


## 상관분석 설명

상관분석은 두 데이터 집단이 어떤 관계를 갖고 있는 지를 분석하는 방법이다. 
두 데이터 집단이 서로 관계가 있을 때 상관관계를 계산할 수도 있으며, 상관관계의 정도를 파악하기 위해서 대표적으로 피어슨 상관계수가 사용된다. 또한 상관계수를 계산하기 위해 공분산을 먼저 구해야 한다.

## 공분산(Covariance)

공분산은 두 종류의 데이터 집단 x와 y가 주어졌을 때 한쪽에서의 데이터의 변화와 
다른쪽에서의 데이터의 변화가 서로 어떤 관계에 있는지를 설명해주는 개념이다. 
공분산은 아래 공식에 따라 계산한다.

$$Cov(x, y) = \frac{\Sigma_{i=1}^{n} (x_i - \bar x)(y_i - \bar y)}{n-1}$$

###  캘리포니아 주와 뉴욕 주에서 거래된 상품(HighQ) 담배(식물) 도매가의 공분산

#### 준비 작업: 뉴욕 주 데이터 정리하기

먼저 뉴욕 주에서 거래된 담배(식물) 도매가의 정보를 따로 떼서 `ny_pd` 변수에 저장하자.
방식은 california_pd를 구할 때와 동일하게 마스크 인덱싱을 사용한다.

In [4]:
ny_pd = prices_pd[prices_pd['State'] == 'New York'].copy(True)
ny_pd.head(10)

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
20120,New York,351.98,5773,268.83,5786,190.31,479,2013-12-27
20885,New York,351.92,5775,268.83,5786,190.31,479,2013-12-28
21599,New York,351.99,5785,269.02,5806,190.75,480,2013-12-29
22313,New York,352.02,5791,268.98,5814,190.75,480,2013-12-30
22823,New York,351.97,5794,268.93,5818,190.75,480,2013-12-31
26,New York,351.98,5800,268.88,5824,190.38,482,2014-01-01
791,New York,351.97,5810,268.88,5834,190.49,483,2014-01-02
1505,New York,352.02,5818,268.88,5846,190.39,484,2014-01-03
2270,New York,351.92,5832,268.99,5850,190.39,484,2014-01-04
3035,New York,352.01,5842,269.1,5861,189.73,487,2014-01-05


이제 정수 인덱싱을 사용하여 상품(HighQ)에 대한 정보만을 가져오도록 하자.

In [5]:
ny_pd_HighQ = ny_pd.iloc[:, [1, 7]]

위 코드에 사용된 정수 인덱싱은 다음과 같다.

    [:, [1, 7]]
    
* ':' 부분 설명: 행 전체를 대상으로 한다.
* '[1, 7]' 부분 설명: 1번 열과 7번 열을 대상으로 한다.

결과적으로 1번 열과 7번 열 전체만을 추출하는 슬라이싱을 의미한다.

이제 각 열의 이름을 새로 지정하고자 한다. 뉴욕 주에서 거래된 상품(HighQ) 이기에 NY_HighQ라 명명한다.

In [6]:
ny_pd_HighQ.columns = ['NY_HighQ', 'date']
ny_pd_HighQ.head()

Unnamed: 0,NY_HighQ,date
20120,351.98,2013-12-27
20885,351.92,2013-12-28
21599,351.99,2013-12-29
22313,352.02,2013-12-30
22823,351.97,2013-12-31


#### 준비 작업: 캘리포니아 주 데이터 정리하기

비슷한 일을 캘리포니아 주에서 거래된 상품(HighQ) 담배(식물) 도매가에 대해서 실행한다.

In [7]:
ca_pd_HighQ = california_pd.iloc[:, [1, 7]]
ca_pd_HighQ.head()

Unnamed: 0,HighQ,date
20098,248.77,2013-12-27
20863,248.74,2013-12-28
21577,248.76,2013-12-29
22291,248.82,2013-12-30
22801,248.76,2013-12-31


#### 준비 작업: 정리된 두 데이터 합치기

이제 두 개의 테이블을 date를 축으로 하여, 즉 기준으로 삼아 합친다.

In [8]:
ca_ny_pd = pd.merge(ca_pd_HighQ, ny_pd_HighQ, on="date")
ca_ny_pd.head()

Unnamed: 0,HighQ,date,NY_HighQ
0,248.77,2013-12-27,351.98
1,248.74,2013-12-28,351.92
2,248.76,2013-12-29,351.99
3,248.82,2013-12-30,352.02
4,248.76,2013-12-31,351.97


캘리포니아 주의 HighQ 열의 이름을 CA_HighQ로 변경한다.

In [9]:
ca_ny_pd.rename(columns={"HighQ": "CA_HighQ"}, inplace=True)
ca_ny_pd.head()

Unnamed: 0,CA_HighQ,date,NY_HighQ
0,248.77,2013-12-27,351.98
1,248.74,2013-12-28,351.92
2,248.76,2013-12-29,351.99
3,248.82,2013-12-30,352.02
4,248.76,2013-12-31,351.97


#### 준비 작업: 합친 데이터를 이용하여 공분산 계산 준비하기

먼저 뉴욕 주에서 거래된 상품(HighQ) 담배(식물) 도매가의 평균값을 계산한다.

In [10]:
ny_mean = ca_ny_pd.NY_HighQ.mean()
ny_mean

346.9127616926502

이제 ca_ny_pd 테이블에 새로운 열(column)을 추가한다. 추가되는 열의 이름은 `ca_dev`와 `ny_dev`이다.

* `ca_dev`: 공분산 계산과 관련된 캘리포니아 주의 데이터 연산 중간 결과값
* `ny_dev`: 공분산 계산과 관련된 뉴욕 주의 데이터 연산 중간 결과값

즉, 아래 공식에서의 분자에 사용된 값들의 리스트를 계산하는 과정임.

$$Cov(x, y) = \frac{\Sigma_{i=1}^{n} (x_i - \bar x)(y_i - \bar y)}{n-1}$$

In [11]:
ca_ny_pd['ca_dev'] = ca_ny_pd['CA_HighQ'] - ca_mean
ca_ny_pd.head()

Unnamed: 0,CA_HighQ,date,NY_HighQ,ca_dev
0,248.77,2013-12-27,351.98,3.393875
1,248.74,2013-12-28,351.92,3.363875
2,248.76,2013-12-29,351.99,3.383875
3,248.82,2013-12-30,352.02,3.443875
4,248.76,2013-12-31,351.97,3.383875


In [12]:
ca_ny_pd['ny_dev'] = ca_ny_pd['NY_HighQ'] - ny_mean
ca_ny_pd.head()

Unnamed: 0,CA_HighQ,date,NY_HighQ,ca_dev,ny_dev
0,248.77,2013-12-27,351.98,3.393875,5.067238
1,248.74,2013-12-28,351.92,3.363875,5.007238
2,248.76,2013-12-29,351.99,3.383875,5.077238
3,248.82,2013-12-30,352.02,3.443875,5.107238
4,248.76,2013-12-31,351.97,3.383875,5.057238


#### 캘리포니아 주와 뉴욕 주에서 거래된 상품(HighQ) 담배(식물) 도매가의 공분산

이제 공분산을 쉽게 계산할 수 있다.

**주의:** 
* DataFrame 자료형의 연산은 넘파이 어레이의 연산처럼 항목별로 실행된다.
* sum 메소드의 활용을 기억한다.

In [13]:
ca_ny_cov = (ca_ny_pd['ca_dev'] * ca_ny_pd['ny_dev']).sum() / (ca_count - 1)
ca_ny_cov

5.916814967288417

## 피어슨 상관계수

피어슨 상관계수(Pearson correlation coefficient)는 두 변수간의 관련성 정도를 나타낸다. 

    두 변수 x와 y의 상관계수(r) = x와 y가 함께 변하는 정도와 x와 y가 따로 변하는 정도 사이의 비율

즉, $$r = \frac{Cov(X, Y)}{s_x\cdot s_y}$$

* 의미: 
    * r = 1: X와 Y 가 완전히 동일하다.
    * r = 0: X와 Y가 아무 연관이 없다
    * r = -1: X와 Y가 반대방향으로 완전히 동일 하다.


* 선형관계 설명에도 사용된다.    
    * -1.0 <= r < -0.7: 강한 음적 선형관계
    * -0.7 <= r < -0.3: 뚜렷한 음적 선형관계
    * -0.3 <= r < -0.1: 약한 음적 선형관계
    * -0.1 <= r <= 0.1: 거의 무시될 수 있는 관계
    * 0.1 < r <= +0.3: 약한 양적 선형관계
    * 0.3 < r <= 0.7: 뚜렷한 양적 선형관계
    * 0.7 < r <= 1.0: 강한 양적 선형관계

#### 주의

위 선형관계 설명은 일반적으로 통용되지만 예외가 존재할 수도 있다.
예를 들어, 아래 네 개의 그래프는 모두 피어슨 상관계수가 0.816이지만, 전혀 다른 상관관계를 보여주고 있다.
(출처: https://en.wikipedia.org/wiki/Correlation_and_dependence)
<p>
<table cellspacing="20">
<tr>
<td>
<img src="img/pearson_relation.png" style="width:600">
</td>
</tr>
</table>
</p>

### 캘리포니아 주와 뉴욕 주에서 거래된 상품(HighQ) 담배(식물) 도매가의 상관계수 계산하기

In [14]:
ca_highq_std = ca_ny_pd.CA_HighQ.std()
ny_highq_std = ca_ny_pd.NY_HighQ.std()

ca_ny_corr = ca_ny_cov / (ca_highq_std * ny_highq_std)
ca_ny_corr

0.9790439611064707

## 상관관계(Correlation)와 인과관계(Causation)

* 상관관계: 두 변수 사이의 상관성을 보여주는 관계. 즉, 두 변수 사이에 존재하는 모종의 관련성을 의미함.
    * 예를 들어, 캘리포니아 주의 상품 담배(식물) 도매가와 뉴육 주의 상품 담배(식물) 도매가 사이에는 모종의 관계가 있어 보임. 
        캘리포니아 주에서의 가격이 오르면 뉴욕 주에서의 가격도 비슷하게 오른다. 상관정도는 0.979 정도로 매우 강한 양적 선형관계를 보인다.


* 인과관계: 두 변수 사이에 서로 영향을 주거나 실제로 연관되어 있음을 보여주는 관계.

**주의:** 두 변수 사이에 상관관계가 있다고 해서 그것이 반드시 어느 변수가 다른 변수에 영향을 준다든지, 아니면 실제로 연관되어 있음을 뜻하지는 않는다. 

예를 들어, 캘리포니아 주의 담배(식물) 도매가와 뉴욕 주의 담배(식물) 도매가 사이에 모종의 관계가 있는 것은 사실이지만, 그렇다고 해서 한 쪽에서의 가격 변동이 다른 쪽에서의 가격변동에 영향을 준다는 근거는 정확하게 알 수 없다. 

## 연습문제

### 연습

모집단의 분산과 표준편차에 대한 점추정 값을 계산하는 기능이 이미 Pandas 모듈의 DataFrame 자료형의 메소드로 구현되어 있다.

`describe()` 메소드를 캘리포니아 주에서 거래된 담배(식물)의 도매가 표본을 담고 있는 `california_pd`에서 실행하면 아래와 같은 결과를 보여준다.

* count: 총 빈도수, 즉 표본의 크기
* mean: 평균값
* std: 모집단 표준편차 점추정 값
* min: 표본의 최소값
* 25%: 하한 사분위수 (하위 4분의 1을 구분하는 위치에 자리하는 수)
* 50%: 중앙값
* 75%: 상한 사분위수 (상위 4분의 1을 구분하는 위치에 자리하는 수)
* max: 최대값

In [15]:
california_pd.describe()

Unnamed: 0,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,HighQ_dev
count,449.0,449.0,449.0,449.0,449.0,449.0,449.0
mean,245.376125,14947.073497,191.268909,16769.821826,189.783586,976.298441,2.976043
std,1.727046,1656.133565,1.524028,2433.943191,1.598252,120.246714,3.961134
min,241.84,12021.0,187.85,12724.0,187.83,770.0,1.5e-05
25%,244.48,13610.0,190.26,14826.0,188.6,878.0,0.106357
50%,245.31,15037.0,191.57,16793.0,188.6,982.0,0.729103
75%,246.22,16090.0,192.55,18435.0,191.32,1060.0,4.435761
max,248.82,18492.0,193.63,22027.0,193.88,1232.0,12.504178


### 연습

공분산에 대한 점추정 값을 계산하는 기능이 이미 Pandas 모듈의 DataFrame 자료형의 메소드로 구현되어 있다.

cov() 메소드를 캘리포니아 주와 뉴욕 주에서 거래된 담배(식물)의 도매가 표본을 담고 있는 ca_ny_pd에서 실행하면 아래와 같은 결과를 보여준다.

In [16]:
ca_ny_pd.cov()

Unnamed: 0,CA_HighQ,NY_HighQ,ca_dev,ny_dev
CA_HighQ,2.982686,5.916815,2.982686,5.916815
NY_HighQ,5.916815,12.245147,5.916815,12.245147
ca_dev,2.982686,5.916815,2.982686,5.916815
ny_dev,5.916815,12.245147,5.916815,12.245147


위 테이블에서 CA_HighQ와 NY_HighQ가 만나는 부분의 값을 보면 앞서 계산한 공분산 값과 일치함을 확인할 수 있다.

### 연습

상관계수에 대한 점추정 값을 계산하는 기능이 이미 Pandas 모듈의 DataFrame 자료형의 메소드로 구현되어 있다.

corr() 메소드를 캘리포니아 주와 뉴욕 주에서 거래된 담배(식물)의 도매가 표본을 담고 있는 ca_ny_pd에서 실행하면 아래와 같은 결과를 보여준다.

In [17]:
ca_ny_pd.corr()

Unnamed: 0,CA_HighQ,NY_HighQ,ca_dev,ny_dev
CA_HighQ,1.0,0.979044,1.0,0.979044
NY_HighQ,0.979044,1.0,0.979044,1.0
ca_dev,1.0,0.979044,1.0,0.979044
ny_dev,0.979044,1.0,0.979044,1.0


위 테이블에서 CA_HighQ와 NY_HighQ가 만나는 부분의 값을 보면 앞서 계산한 상관계수 값과 일치함을 확인할 수 있다.