### 목록
* 준비
    * [사용할 라이브러리 불러오기](#lib)
    * [엘라스틱서치 환경 설정하기](#es_setting)
    * [엘라스틱서치에서 데이터 조회하기](#es_load)
    * [조회한 데이터를 테이블 형태로 만들기](#df)
* Metric Aggregation
    * [Value Count Aggregation](#count)
    * [Avg Aggregation](#avg)
    * [Sum Aggregation](#sum)
    * [Min Aggregation](#min)
    * [Max Aggregation](#max)
    * [Extended Stats Aggregation (표준편차)](#extended)
    * [Cardinality Aggregation](#cardinal)
    * [Percentiles Aggregation](#percentiles)
    * [Percentile Ranks Aggregation](#percentile ranks)
    * [Top Hits Aggregation](#top hits)
---

### 준비

<a name='lib'></a>
#### 사용할 라이브러리 불러오기

In [1]:
import pandas as pd
from elasticsearch import Elasticsearch

<a name='es_setting'></a>
#### 엘라스틱서치 환경 설정하기

In [2]:
# 적당한 값을 넣지 않으면 오류가 납니다
es = Elasticsearch()
es_index = 'test_index'
es_type = 'test_type'

<a name='es_load'></a>
#### 엘라스틱서치에서 데이터 조회하기

In [3]:
x = es.search(
      index='test_index', 
      doc_type='test_type', 
      body={
        '_source' : ['주문시간', '상품가격', '구매사이트', '고객나이'],
        'query' : {
            'match_all' : {}
        },
        'size' : 50
      }
)

<a name='df'></a>
#### 조회한 데이터를 테이블 형태로 만들기

In [4]:
df = pd.DataFrame([x['hits']['hits'][idx]['_source'] for idx, _ in enumerate(x['hits']['hits'])])
df

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간
0,28,옥션,8000,2017-11-01T05:45:01
1,32,티몬,13000,2017-11-09T16:58:07
2,35,위메프,22000,2017-11-06T20:03:26
3,38,GS샵,21000,2017-11-03T18:29:35
4,28,쿠팡,21000,2017-11-09T22:37:36
5,30,티몬,13000,2017-11-05T00:41:55
6,41,옥션,15000,2017-11-06T00:27:44
7,38,쿠팡,12000,2017-11-09T00:40:16
8,39,11번가,10000,2017-11-06T10:28:26
9,39,GS샵,17000,2017-11-08T02:00:16


### Metric Aggregation

<a name='count'></a>
#### Value Count Aggregation 
: Documents의 총 개수를 반환한다

In [5]:
len(df)

50

<a name='avg'></a>
#### Avg Aggregation
: 특정 Number Field의 평균값을 반환한다

In [6]:
# 상품가격
int(df['상품가격'].mean())

16220

<a name='sum'></a>
#### Sum Aggregation 
: 특정 Number Field의 합을 반환한다

In [7]:
# 상품가격
df['상품가격'].sum()

811000

<a name='min'></a>
#### Min Aggregation 
: 특정 Number Field의 최소값을 반환한다

In [8]:
# 상품가격
df['상품가격'].min()

5000

<a name='max'></a>
#### Max Aggregation 
: 특정 Number Field의 최대값을 반환한다

In [9]:
# 상품가격
df['상품가격'].max()

28000

<a name='extended'></a>
#### Extended Stats Aggregation 
: 특정 Number Field의 기본 통계값을 반환한다

In [10]:
# 상품가격
df['상품가격'].std()

6768.1426626542689

<a name='cardinal'></a>
#### Cardinality Aggregation 
: 특정 Number Field의 고유한 Value의 개수를 반환한다

In [11]:
# 구매사이트
number = len(df['구매사이트'].unique())
items = df['구매사이트'].unique()

print('총 {}곳에서 구매했으며 사이트는 각각 {}입니다.'.format(number, items))

총 7곳에서 구매했으며 사이트는 각각 ['옥션' '티몬' '위메프' 'GS샵' '쿠팡' '11번가' 'g마켓']입니다.


<a name='percentiles'></a>
#### Percentiles Aggregation 
: 특정 Number Field의 특정 백분위의 백분위수를 반환한

In [12]:
# 상품가격
df_percentile = df['상품가격'].quantile([.01, .05, .25, .5, .75, .95, .99])
df_percentile = pd.DataFrame({'백분위' : df_percentile.index, '백분위수' : df_percentile.values.ravel()})
df_percentile

Unnamed: 0,백분위,백분위수
0,0.01,5000.0
1,0.05,5450.0
2,0.25,10250.0
3,0.5,17000.0
4,0.75,21750.0
5,0.95,27000.0
6,0.99,27510.0


<a name='percentile ranks'></a>
#### Percentile Ranks Aggregation 
: 특정 Number Field의 특정 Value의 백분위를 반환한

In [13]:
df['백분위'] = df['상품가격'].rank(pct=True)
df_percentile_ranks = df[df['상품가격']==12000]['백분위']
df_percentile_ranks = pd.DataFrame({'상품가격' : [12000] * len(df_percentile_ranks), '백분위' : df_percentile_ranks.values.ravel()})
df_percentile_ranks[['상품가격', '백분위']].iloc[1:2, 0:2]

Unnamed: 0,상품가격,백분위
1,12000,0.34


<a name='top hits'></a>
#### Top Hits Aggregation 
: 조건을 만족하는 Document의 특정 Field의 Agg 반환

##### String
* 가장 비싼 상품 3개의
* 구매 사이트를 각각
* 보여주세요

In [14]:
# 가장 비싼 상품 3개의...
three_most_expensive = df.sort_values(by='상품가격', ascending=False)[:3]
three_most_expensive

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간,백분위
15,20,티몬,28000,2017-11-03T20:15:22,1.0
49,19,11번가,27000,2017-11-08T03:43:55,0.96
32,41,옥션,27000,2017-11-10T23:15:29,0.96


In [15]:
# ....구매 사이트를 각각 보여주세요
df_top_hits = pd.DataFrame({'Top 3' : [three_most_expensive['구매사이트'].values.ravel()]})
df_top_hits

Unnamed: 0,Top 3
0,"[티몬, 11번가, 옥션]"


##### Number
* 나이가 가장 적은 3명의
* 상품값의
* 평균을 보여주세요 

In [16]:
# 나이가 가장 어린 3명의...
three_youngest_people = df.sort_values(by='고객나이', ascending=True)[:3]
three_youngest_people

Unnamed: 0,고객나이,구매사이트,상품가격,주문시간,백분위
47,17,GS샵,11000,2017-11-03T01:42:38,0.29
36,17,11번가,27000,2017-11-01T13:52:01,0.96
39,18,옥션,26000,2017-11-08T10:27:28,0.91


In [17]:
# ...상품값의...
three_youngest_people[['상품가격']]

Unnamed: 0,상품가격
47,11000
36,27000
39,26000


In [18]:
# 평균을 보여주세요
three_youngest_people['상품가격'].mean()

21333.333333333332