### 목록
* 준비
    * [사용할 라이브러리 불러오기](#lib)
    * [엘라스틱서치 환경 설정하기](#es_setting)
    * [엘라스틱서치에서 데이터 조회하기](#es_load)
    * [조회한 데이터를 테이블 형태로 만들기](#df)
* Metric Aggregation
    * [Value Count Aggregation](#count)
    * [Avg Aggregation](#avg)
    * [Sum Aggregation](#sum)
    * [Min Aggregation](#min)
    * [Max Aggregation](#max)
    * [Extended Stats Aggregation (표준편차)](#extended)
    * [Cardinality Aggregation](#cardinal)
    * [Percentiles Aggregation](#percentiles)
    * [Percentile Ranks Aggregation](#percentile ranks)
    * [Top Hits Aggregation](#top hits)
---

### 준비

<a name='lib'></a>
#### 사용할 라이브러리 불러오기

In [1]:
import pandas as pd
from elasticsearch import Elasticsearch

<a name='es_setting'></a>
#### 엘라스틱서치 환경 설정하기

In [2]:
# 적당한 값을 넣지 않으면 오류가 납니다
es = Elasticsearch()
es_index = 'test'
es_type = 'test'

<a name='es_load'></a>
#### 엘라스틱서치에서 데이터 조회하기

In [3]:
x = es.search(
      index=es_index, 
      doc_type=es_type, 
      body={
        '_source' : ['주문시간', '상품가격', '구매사이트', '고객나이'],
        'query' : {
            'match_all' : {}
        },
        'size' : 50
      }
)

<a name='df'></a>
#### 조회한 데이터를 테이블 형태로 만들기

In [4]:
df = pd.DataFrame([x['hits']['hits'][idx]['_source'] for idx, _ in enumerate(x['hits']['hits'])])
df

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간
0,36,g마켓,6000,2017-11-04T04:39:24
1,28,옥션,16000,2017-11-07T02:27:49
2,45,11번가,13000,2017-11-01T21:10:05
3,40,쿠팡,25000,2017-11-12T11:30:19
4,40,11번가,10000,2017-11-12T18:11:58
5,38,11번가,25000,2017-11-08T22:29:44
6,45,위메프,13000,2017-11-07T01:22:52
7,20,위메프,15000,2017-11-11T06:25:42
8,34,g마켓,9000,2017-11-09T01:14:04
9,33,g마켓,5000,2017-11-02T20:24:25


### Metric Aggregation

<a name='count'></a>
#### Value Count Aggregation 
: Documents의 총 개수를 반환한다

In [5]:
len(df)

50

<a name='avg'></a>
#### Avg Aggregation
: 특정 Number Field의 평균값을 반환한다

In [6]:
# 상품가격
int(df['상품가격'].mean())

16020

<a name='sum'></a>
#### Sum Aggregation 
: 특정 Number Field의 합을 반환한다

In [7]:
# 상품가격
df['상품가격'].sum()

801000

<a name='min'></a>
#### Min Aggregation 
: 특정 Number Field의 최소값을 반환한다

In [8]:
# 상품가격
df['상품가격'].min()

5000

<a name='max'></a>
#### Max Aggregation 
: 특정 Number Field의 최대값을 반환한다

In [9]:
# 상품가격
df['상품가격'].max()

29000

<a name='extended'></a>
#### Extended Stats Aggregation 
: 특정 Number Field의 기본 통계값을 반환한다

In [10]:
# 상품가격
df['상품가격'].std()

7454.5972666645957

<a name='cardinal'></a>
#### Cardinality Aggregation 
: 특정 Number Field의 고유한 Value의 개수를 반환한다

In [11]:
# 구매사이트
number = len(df['구매사이트'].unique())
items = df['구매사이트'].unique()

print('총 {}곳에서 구매했으며 사이트는 각각 {}입니다.'.format(number, items))

총 6곳에서 구매했으며 사이트는 각각 ['g마켓' '옥션' '11번가' '쿠팡' '위메프' '티몬']입니다.


<a name='percentiles'></a>
#### Percentiles Aggregation 
: 특정 Number Field의 특정 백분위의 백분위수를 반환한

In [12]:
# 상품가격
df_percentile = df['상품가격'].quantile([.01, .05, .25, .5, .75, .95, .99])
df_percentile = pd.DataFrame({'백분위' : df_percentile.index, '백분위수' : df_percentile.values.ravel()})
df_percentile

Unnamed: 0,백분위,백분위수
0,0.01,5000.0
1,0.05,5450.0
2,0.25,9250.0
3,0.5,15000.0
4,0.75,22750.0
5,0.95,28550.0
6,0.99,29000.0


<a name='percentile ranks'></a>
#### Percentile Ranks Aggregation 
: 특정 Number Field의 특정 Value의 백분위를 반환한

In [13]:
df['백분위'] = df['상품가격'].rank(pct=True)
df_percentile_ranks = df[df['상품가격']==15000]['백분위']
df_percentile_ranks = pd.DataFrame({'상품가격' : [15000] * len(df_percentile_ranks), '백분위' : df_percentile_ranks.values.ravel()})
df_percentile_ranks[['상품가격', '백분위']].iloc[1:2, 0:2]

Unnamed: 0,상품가격,백분위
1,15000,0.51


<a name='top hits'></a>
#### Top Hits Aggregation 
: 조건을 만족하는 Document의 특정 Field의 Agg 반환

##### String
* 가장 비싼 상품 3개의
* 구매 사이트를 각각
* 보여주세요

In [14]:
# 가장 비싼 상품 3개의...
three_most_expensive = df.sort_values(by='상품가격', ascending=False)[:3]
three_most_expensive

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간,백분위
12,42,11번가,29000,2017-11-08T03:37:37,0.98
28,25,g마켓,29000,2017-11-09T15:32:17,0.98
29,45,티몬,29000,2017-11-07T10:55:29,0.98


In [15]:
# ....구매 사이트를 각각 보여주세요
df_top_hits = pd.DataFrame({'Top 3' : [three_most_expensive['구매사이트'].values.ravel()]})
df_top_hits

Unnamed: 0,Top 3
0,"[11번가, g마켓, 티몬]"


##### Number
* 나이가 가장 적은 3명의
* 상품값의
* 평균을 보여주세요 

In [16]:
# 나이가 가장 어린 3명의...
three_youngest_people = df.sort_values(by='고객나이', ascending=True)[:3]
three_youngest_people

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간,백분위
25,19,g마켓,19000,2017-11-07T05:54:52,0.63
46,19,11번가,7000,2017-11-04T16:53:23,0.17
7,20,위메프,15000,2017-11-11T06:25:42,0.51


In [17]:
# ...상품값의...
three_youngest_people[['상품가격']]

Unnamed: 0,상품가격
25,19000
46,7000
7,15000


In [18]:
# 평균을 보여주세요
three_youngest_people['상품가격'].mean()

13666.666666666666