# 참조

* http://pandas.pydata.org/pandas-docs/stable/10min.html
* http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dsintro
* http://pandas.pydata.org/pandas-docs/stable/timeseries.html#partial-string-indexing
* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html
* https://pandas.pydata.org/pandas-docs/stable/timeseries.html

# 주제

평균(Average) 구하기
    * 평균값(Mean)
    * 중앙값(Median)
    * 최빈값(Mode)

## 오늘의 주요 예제

미국에서 판매되는 담배(식물)의 도매가격과 미국의 51개주별 인구분포와 월소득에 대한 데이터를 분석한다. 

## 주요 모듈

* pandas: 통계분석 전용 모듈
    * numpy 모듈을 바탕으로 하여 통계분석에 특화된 모듈임.
    * 마이크로소프트의 엑셀처럼 작동하는 기능을 지원함
* datetime: 날짜와 시간을 적절하게 표시하도록 도와주는 기능을 지원하는 모듈
* scipy: 수치계산, 공업수학 등을 지원하는 모듈

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime as dt
from scipy import stats

In [48]:
from __future__ import print_function, division

### 오늘 사용할 데이터

* 주별 담배(식물) 도매가격 및 판매일자: Weed_price.csv
* 주별 인구분포 및 월소득: Demographics_State.csv
* 주별 인구수: Population_State.csv


아래 그림은 미국의 주별 담배(식물) 판매 데이터를 담은 Weed_Price.csv 파일를 엑셀로 읽었을 때의 일부를 보여준다.
실제 데이터량은 22899개이며, 아래 그림에는 5개의 데이터만을 보여주고 있다.
* 주의: 1번줄은 테이블의 열별 목록(column names)을 담고 있다.
* 열별 목록: State, HighQ, HighQN, MedQ, MedQN, LowQ, LowQN, date

<p>
<table cellspacing="20">
<tr>
<td>
<img src="img/weed_price.png", width=600>
</td>
</tr>
</table>
</p>

### csv 파일 불러오기

* pandas 모듈의 read_csv 함수 활용
* read_csv 함수의 리턴값은 DataFrame 이라는 특수한 자료형임
    * 엑셀의 위 그림 모양의 스프레드시트(spreadsheet)라고 생각하면 됨.

언급한 세 개의 csv 파일을 pandas의 read_csv 함수를 이용하여 불러들이자.

**주의**: Weed_Price.csv 파일을 불러들일 때, parse_dates라는 키워드 인자가 사용되었다. 
* parse_dates 키워드 인자: 날짜를 읽어들일 때 다양한 방식을 사용하도록 하는 기능을 갖고 있다.
    * 여기서 값을 [-1]로 준 것은 소스 데이터에 있는 날짜 데이터를 변경하지 말고 그대로 불러오라는 의미이다.
    * 위 엑셀파일에서 볼 수 있듯이, 마지막 열에 포함된 날짜표시는 굳이 변경을 요하지 않는다.

In [4]:
prices_pd = pd.read_csv("data/Weed_Price.csv", parse_dates=[-1])
demography_pd = pd.read_csv("data/Demographics_State.csv")
population_pd = pd.read_csv("data/Population_State.csv")

read_csv 함수의 리턴값은 DataFrame 이라는 자료형이다.

In [6]:
type(prices_pd)

pandas.core.frame.DataFrame

불러 들인 Weed_Price.csv 파일의 상위 다섯 줄을 확인해보면, 앞서 엑셀파일 그림에서 본 내용과 일치한다.
다만, 행과 열의 목록이 조금 다를 뿐이다.
* 엑셀에서는 열 목록이 A, B, C, ..., H로 되어 있으며, 소스 파일의 열 목록은 1번 줄로 밀려 있다.
* 엑셀에서의 행 목록은 1, 2, 3, ... 으로 되어 있다.

하지만 read_csv 파일은 좀 다르게 불러 들인다.
* 열 목록은 소스 파일의 열 목록을 그대로 사용한다.
* 행 목록은 0, 1, 2, ... 으로 되어 있다.

데이터 파일의 상위 몇 줄을 불러들이기 위해서는 DataFrame 자료형의 head 메소드를 활용한다.
인자값을 주지 않으면 상위 5줄을 보여준다.

In [7]:
prices_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
0,Alabama,339.06,1042,198.64,933,149.49,123,2014-01-01
1,Alaska,288.75,252,260.6,297,388.58,26,2014-01-01
2,Arizona,303.31,1941,209.35,1625,189.45,222,2014-01-01
3,Arkansas,361.85,576,185.62,544,125.87,112,2014-01-01
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01


인자를 주면 원하는 만큼 보여준다.

In [8]:
prices_pd.head(10)

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
0,Alabama,339.06,1042,198.64,933,149.49,123,2014-01-01
1,Alaska,288.75,252,260.6,297,388.58,26,2014-01-01
2,Arizona,303.31,1941,209.35,1625,189.45,222,2014-01-01
3,Arkansas,361.85,576,185.62,544,125.87,112,2014-01-01
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01
5,Colorado,236.31,2161,195.29,1728,213.5,128,2014-01-01
6,Connecticut,347.9,1294,273.97,1316,257.36,91,2014-01-01
7,Delaware,373.18,347,226.25,273,199.88,34,2014-01-01
8,District of Columbia,352.26,433,295.67,349,213.72,39,2014-01-01
9,Florida,306.43,6506,220.03,5237,158.26,514,2014-01-01


파일이 매우 많은 수의 데이터를 포함하고 있을 경우, 맨 뒷쪽 부분을 확인하고 싶으면
tail 메소드를 활용한다. 사용법은 head 메소드와 동일하다.

아래 명령어를 통해 Weed_Price.csv 파일에 22898개의 데이터가 저장되어 있음을 확인할 수 있다.

In [10]:
prices_pd.tail()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
22894,Virginia,364.98,3513,293.12,3079,,284,2014-12-31
22895,Washington,233.05,3337,189.92,3562,,160,2014-12-31
22896,West Virginia,359.35,551,224.03,545,,60,2014-12-31
22897,Wisconsin,350.52,2244,272.71,2221,,167,2014-12-31
22898,Wyoming,322.27,131,351.86,197,,12,2014-12-31


미국 주별 인구분포를 담고 있는 Demographics_State.csv 파일의 상위 5개 데이터는 아래와 같다.

In [12]:
demography_pd.head()

Unnamed: 0,region,total_population,percent_white,percent_black,percent_asian,percent_hispanic,per_capita_income,median_rent,median_age
0,alabama,4799277,67,26,1,4,23680,501,38.1
1,alaska,720316,63,3,5,6,32651,978,33.6
2,arizona,6479703,57,4,3,30,25358,747,36.3
3,arkansas,2933369,74,15,1,7,22170,480,37.5
4,california,37659181,40,6,13,38,29527,1119,35.4


Demographics_State.csv 파일의 하위 5개 데이터는 아래와 같다.
미국 51개주의 내용을 담고 있음을 확인할 수 있다.

In [13]:
demography_pd.tail()

Unnamed: 0,region,total_population,percent_white,percent_black,percent_asian,percent_hispanic,per_capita_income,median_rent,median_age
46,virginia,8100653,64,19,6,8,33493,910,37.5
47,washington,6819579,72,3,7,11,30742,853,37.3
48,west virginia,1853619,93,3,1,1,22966,448,41.5
49,wisconsin,5706871,83,6,2,6,27523,636,38.7
50,wyoming,570134,85,1,1,9,28902,647,36.8


미국 주별 인구수를 담고 있는 Population_State.csv 파일의 상위 5개 데이터는 아래와 같다.

In [14]:
population_pd.head()

Unnamed: 0,region,value
0,alabama,4777326
1,alaska,711139
2,arizona,6410979
3,arkansas,2916372
4,california,37325068


Population_State.csv 파일의 하위 5개 데이터는 아래와 같다.
미국 51개주의 내용을 담고 있음을 확인할 수 있다.

In [15]:
population_pd.tail()

Unnamed: 0,region,value
46,virginia,8014955
47,washington,6738714
48,west virginia,1850481
49,wisconsin,5687219
50,wyoming,562803


DataFrame 자료형의 dtypes 속성을 이용하면 열별 목록에 사용된 자료형을 확인할 수 있다.

Weed_Price.csv 파일을 읽어 들인 prices_pd 변수에 저장된 DataFrame 값의 열별 목록에 사용된 자료형을 보여준다.

**주의:** 
* numpy의 array 자료형의 dtype 속성은 하나의 자료형만을 담고 있다.
* 열별 목록에는 하나의 자료형 값들만 올 수 있다.
    즉, 열 하나하나가 넘파이의 array에 해당한다고 볼 수 있다.
* State 목록에 사용된 object 라는 dtype은 문자열이 저장된 위치를 가리키는 포인터를 의미한다.
    * 문자열의 길이를 제한할 수 없기 때문에 문자열을 어딘가에 저장하고 포인터가 그 위치를 가리키며, 
        필요에 따라 포인터 정보를 이용하여 저장된 문자열을 확인한다.
* 마지막 줄에 표시된 "dtype: object"의 의미는 복잡한 데이터들의 자료형이라는 의미로 이해하면 됨.

In [33]:
prices_pd.dtypes

State             object
HighQ            float64
HighQN             int64
MedQ             float64
MedQN              int64
LowQ             float64
LowQN              int64
date      datetime64[ns]
dtype: object

#### Sort the data on state and date, then fill NA values

In [35]:
# prices_pd.sort(columns=['State', 'date'], inplace=True)
prices_pd.fillna(method='ffill', inplace=True)

### 평균 구하기: 평균값(mean), 중앙값(median),  최빈값(mode)

캘리포니아 주를 대상으로해서 담배(식물) 도매가의 평균(average)을 구해본다.

#### 평균값

* 평균값 = 모든 값들의 합을 값들의 개수로 나누기
    * $x$: 데이터에 포함된 값들을 대변하는 변수
    * $n$: 데이터에 포함된 값들의 개수
    * $\Sigma\, x$: 데이터에 포함된 모든 값들의 합

$$\text{평균값}(\mu) = \frac{\Sigma\, x}{n}$$

마스크 인덱스를 이용하여 캘리포니아 주의 데이터만 추출한다.

**주의:** 마스크 인덱싱을 뷰 방식을 이용한다. 따라서 여기서는 copy 메소드를 활용하여 복사해서 활용한다. 
* 복사를 하면 기존 데이터와의 관계를 완전히 끊게 된다.

In [39]:
california_pd = prices_pd[prices_pd.State == "California"].copy(True)

캘리포니아 주에서 거래된 첫 5개의 데이터를 확인해보자.

In [38]:
california_pd.head()

Unnamed: 0,State,HighQ,HighQN,MedQ,MedQN,LowQ,LowQN,date
4,California,248.78,12096,193.56,12812,192.92,778,2014-01-01
55,California,243.96,16512,189.35,19151,161.3,1096,2015-01-01
106,California,248.2,12571,192.8,13406,191.94,804,2014-02-01
157,California,243.3,16904,188.95,19764,161.3,1123,2015-02-01
208,California,247.6,12988,192.97,13906,191.4,839,2014-03-01


HighQ 열 목록에 있는 값들의 총합을 구해보자.

In [44]:
ca_sum = california_pd['HighQ'].sum()
ca_sum

110173.88000000005

HighQ 열 목록에 있는 값들의 개수를 확인해보자.

In [43]:
ca_count = california_pd['HighQ'].count()
ca_count

449

이제 캘리포니아 주에서 거래된 HighQ의 담배가격의 평균값을 구할 수 있다.

In [52]:
ca_mean = ca_sum / ca_count
print("캘리포니아 주에서 거래된 HighQ의 평균값 =", ca_mean)

캘리포니아 주에서 거래된 HighQ의 평균값 = 245.376124722


#### 연습 

캘리포니아 주에서 2013년, 2014년, 2015년에 거래된 HighQ의 담배(식물) 도매가격의 평균을 각각 구하라.

**힌트:** `california_pd.iloc[0]['date'].year`

In [127]:
len(california_pd)

449

In [136]:
sum = 0
count = 0
for i in range(len(california_pd)):
    if california_pd.iloc[i]['date'].year == 2014:
        sum += california_pd.iloc[i]['HighQ']
        count += 1
sum/count

245.89423076923089

#### Median

Denotes value or quantity lying at the midpoint of a frequency distribution of observed values or quantities, such that there is an equal probability of falling above or below it. Simply put, it is the *middle* value in the list of numbers.

In [13]:
ca_count

449

If count is odd, the median is the value at (n+1)/2,

else it is the average of n/2 and (n+1)/2

In [None]:
ca_highq_pd = california_pd.sort(columns=['HighQ'])
ca_highq_pd.head()

In [15]:
ca_median = ca_highq_pd.HighQ.iloc[(ca_count) / 2]
print "Median price of weed in CA is:", ca_median

Median price of weed in CA is: 245.31


#### Mode

It is the number which appears most often in a set of numbers. 

In [16]:
ca_mode = ca_highq_pd.HighQ.value_counts().index[0]
print "The most common price is CA, as indicated by its mode, is:", ca_mode

The most common price is CA, as indicated by its mode, is: 245.05
