## [Grouping and Sorting | Kaggle](https://www.kaggle.com/residentmario/grouping-and-sorting)


* country                  : 어느 국가에서 온 와인인지
* description              : 소믈리에가 적은 와인의 맛, 향, 모습, 느낌 등
* designation              : 와이너리가 있는 포도밭의 지역
* points                   : 와인 애호가가 1~100점으로 평가한 점수(하지만 80점 이상인 와인에 대해서만 리뷰를 게시함)
* price                    : 한 병당 가격
* province                 : 와인이 온 지역이나 주
* region_1                 : 와인이 나온 지역이나 주(예. Napa)
* region_2                 : 재배 지역이 지정되어 있을 수도 있지만 비어있을 수 있다.
* taster_name              : 와인 리뷰어 이름
* taster_twitter_handle    : 트위터 계정
* title                    : 리뷰제목
* variety                  : 포도의 품종
* winery                   : 와인을 만드는 양조장

## Introduction
Maps allow us to transform data in a DataFrame or Series one value at a time for an entire column. However, often we want to group our data, and then do something specific to the group the data is in.

As you'll learn, we do this with the groupby() operation. We'll also cover some additional topics, such as more complex ways to index your DataFrames, along with how to sort your data.

맵을 사용하면 전체 열에 대해 DataFrame 또는 Series의 데이터를 한 번에 하나씩 변환 할 수 있습니다. 그러나 종종 우리는 데이터를 그룹화 한 다음 데이터가 속한 그룹에 특정한 작업을 수행합니다.

배우게 될 것처럼 groupby () 연산으로이를 수행합니다. 또한 데이터를 정렬하는 방법과 함께 DataFrame을 인덱싱하는 더 복잡한 방법과 같은 몇 가지 추가 주제를 다룰 것입니다.

## Groupwise analysis
One function we've been using heavily thus far is the value_counts() function. We can replicate what value_counts() does by doing the following:

In [1]:
import pandas as pd
reviews = pd.read_csv("data/winemag-data-130k-v2.csv", index_col=0)
pd.set_option("display.max_rows", 5)

In [2]:
reviews.shape

(129971, 13)

In [3]:
reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [4]:
reviews.groupby('points').points.count()

points
80     397
81     692
      ... 
99      33
100     19
Name: points, Length: 21, dtype: int64

groupby() created a group of reviews which allotted the same point values to the given wines. Then, for each of these groups, we grabbed the points() column and counted how many times it appeared. value_counts() is just a shortcut to this groupby() operation.

We can use any of the summary functions we've used before with this data. For example, to get the cheapest wine in each point value category, we can do the following:

groupby ()는 주어진 와인에 동일한 점수 값을 할당하는 리뷰 그룹을 만들었습니다. 그런 다음 각 그룹에 대해 points () 열을 잡고 몇 번 나타나는지 계산했습니다. value_counts ()는이 groupby () 작업의 바로 가기입니다.

이 데이터에 이전에 사용한 요약 함수를 사용할 수 있습니다. 예를 들어, 각 포인트 값 범주에서 가장 저렴한 와인을 얻으려면 다음을 수행 할 수 있습니다.

In [5]:
reviews.groupby('points').price.min()

points
80      5.0
81      5.0
       ... 
99     44.0
100    80.0
Name: price, Length: 21, dtype: float64

You can think of each group we generate as being a slice of our DataFrame containing only data with values that match. This DataFrame is accessible to us directly using the apply() method, and we can then manipulate the data in any way we see fit. For example, here's one way of selecting the name of the first wine reviewed from each winery in the dataset:

우리가 생성하는 각 그룹은 일치하는 값을 가진 데이터 만 포함하는 DataFrame의 조각으로 생각할 수 있습니다. 이 DataFrame은 apply () 메서드를 사용하여 직접 액세스 할 수 있으며, 적합하다고 판단되는 방식으로 데이터를 조작 할 수 있습니다. 예를 들어 다음은 리뷰 데이터 세트의 각 와이너리에서 첫 번째 와인의 이름을 선택하는 방법입니다.

In [6]:
reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

winery
1+1=3                          1+1=3 NV Rosé Sparkling (Cava)
10 Knots                 10 Knots 2010 Viognier (Paso Robles)
                                  ...                        
àMaurice    àMaurice 2013 Fred Estate Syrah (Walla Walla V...
Štoka                         Štoka 2009 Izbrani Teran (Kras)
Length: 16757, dtype: object

For even more fine-grained control, you can also group by more than one column. For an example, here's how we would pick out the best wine by country and province:

보다 자세한 데이터를 가져오기 위해 둘 이상의 열을 기준으로 그룹화 할 수도 있습니다. 예를 들어, 국가 및 지방별로 최고의 와인을 고르는 방법은 다음과 같습니다.

In [7]:
reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

Unnamed: 0_level_0,Unnamed: 1_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Argentina,Mendoza Province,Argentina,"If the color doesn't tell the full story, the ...",Nicasia Vineyard,97,120.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Bodega Catena Zapata 2006 Nicasia Vineyard Mal...,Malbec,Bodega Catena Zapata
Argentina,Other,Argentina,"Take note, this could be the best wine Colomé ...",Reserva,95,90.0,Other,Salta,,Michael Schachner,@wineschach,Colomé 2010 Reserva Malbec (Salta),Malbec,Colomé
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Uruguay,San Jose,Uruguay,"Baked, sweet, heavy aromas turn earthy with ti...",El Preciado Gran Reserva,87,50.0,San Jose,,,Michael Schachner,@wineschach,Castillo Viejo 2005 El Preciado Gran Reserva R...,Red Blend,Castillo Viejo
Uruguay,Uruguay,Uruguay,"Cherry and berry aromas are ripe, healthy and ...",Blend 002 Limited Edition,91,22.0,Uruguay,,,Michael Schachner,@wineschach,Narbona NV Blend 002 Limited Edition Tannat-Ca...,Tannat-Cabernet Franc,Narbona


알아둘 필요가 있는 또 다른 groupby () 메서드는 agg ()로, DataFrame에서 여러 기능을 동시에 실행할 수 있습니다. 예를 들어 다음과 같이 데이터 세트의 간단한 통계 요약을 생성 할 수 있습니다.

Another groupby() method worth mentioning is agg(), which lets you run a bunch of different functions on your DataFrame simultaneously. For example, we can generate a simple statistical summary of the dataset as follows:

In [8]:
reviews.groupby(['country']).price.agg([len, min, max])

Unnamed: 0_level_0,len,min,max
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,3800.0,4.0,230.0
Armenia,2.0,14.0,15.0
...,...,...,...
Ukraine,14.0,6.0,13.0
Uruguay,109.0,10.0,130.0


Multi-indexes
In all of the examples we've seen thus far we've been working with DataFrame or Series objects with a single-label index. groupby() is slightly different in the fact that, depending on the operation we run, it will sometimes result in what is called a multi-index.

A multi-index differs from a regular index in that it has multiple levels. For example:
    
지금까지 본 모든 예제에서 단일 레이블 인덱스가있는 DataFrame 또는 Series 객체로 작업했습니다. groupby ()는 우리가 실행하는 작업에 따라 때때로 다중 인덱스라고 불리는 결과를 낳는다는 점에서 약간 다릅니다.

다중 인덱스는 여러 수준이 있다는 점에서 일반 인덱스와 다릅니다. 예를 들면 :

In [9]:
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed

Unnamed: 0_level_0,Unnamed: 1_level_0,len
country,province,Unnamed: 2_level_1
Argentina,Mendoza Province,3264
Argentina,Other,536
...,...,...
Uruguay,San Jose,3
Uruguay,Uruguay,24


In [10]:
mi = countries_reviewed.index
type(mi)

pandas.core.indexes.multi.MultiIndex

## Multi-index 다중 인덱스
Multi-indices have several methods for dealing with their tiered structure which are absent for single-level indices. They also require two levels of labels to retrieve a value. Dealing with multi-index output is a common "gotcha" for users new to pandas.

The use cases for a multi-index are detailed alongside instructions on using them in the MultiIndex / Advanced Selection section of the pandas documentation.

However, in general the multi-index method you will use most often is the one for converting back to a regular index, the reset_index() method:


다중 인덱스에는 단일 수준 인덱스에는없는 계층 구조를 처리하는 여러 가지 방법이 있습니다. 또한 값을 검색하려면 두 가지 수준의 레이블이 필요합니다. 다중 인덱스 출력을 처리하는 것은 Pandas를 처음 사용하는 사용자에게 공통적 인 "문제점"입니다.

다중 인덱스의 사용 사례는 Pandas 문서의 MultiIndex / Advanced Selection 섹션에서 사용 지침과 함께 자세히 설명되어 있습니다.
[판다스 공식 문서의 MultiIndex](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html)


그러나 일반적으로 가장 자주 사용하는 다중 인덱스 메서드는 일반 인덱스로 다시 변환하는 방법 인 reset_index () 메서드입니다.

In [11]:
countries_reviewed.reset_index()

Unnamed: 0,country,province,len
0,Argentina,Mendoza Province,3264
1,Argentina,Other,536
...,...,...,...
423,Uruguay,San Jose,3
424,Uruguay,Uruguay,24


## Sorting 정렬하기

Looking again at countries_reviewed we can see that grouping returns data in index order, not in value order. That is to say, when outputting the result of a groupby, the order of the rows is dependent on the values in the index, not in the data.

To get data in the order want it in we can sort it ourselves. The sort_values() method is handy for this.

countries_reviewed를 다시 살펴보면 그룹화가 값 순서가 아닌 인덱스 순서로 데이터를 반환한다는 것을 알 수 있습니다. 즉, groupby의 결과를 출력 할 때 행의 순서는 데이터가 아닌 인덱스의 값에 따라 달라집니다.

원하는 순서대로 데이터를 얻으려면 직접 정렬 할 수 있습니다. 이를 위해 sort_values () 메서드가 편리합니다.

In [12]:
countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')

Unnamed: 0,country,province,len
179,Greece,Muscat of Kefallonian,1
192,Greece,Sterea Ellada,1
...,...,...,...
415,US,Washington,8639
392,US,California,36247


sort_values() defaults to an ascending sort, where the lowest values go first. However, most of the time we want a descending sort, where the higher numbers go first. That goes thusly:


sort_values () 기본값은 오름차순 정렬이며 가장 낮은 값이 먼저 표시됩니다. 그러나 대부분의 경우 내림차순 정렬을 원합니다. 여기서 높은 숫자가 먼저 표시됩니다. 따라서 다음과 같이 진행됩니다.

In [13]:
countries_reviewed.sort_values(by='len', ascending=False)

Unnamed: 0,country,province,len
392,US,California,36247
415,US,Washington,8639
...,...,...,...
63,Chile,Coelemu,1
149,Greece,Beotia,1


To sort by index values, use the companion method sort_index(). This method has the same arguments and default order:

색인 값을 기준으로 정렬하려면 동반 메소드 sort_index ()를 사용하십시오. 이 메서드는 동일한 인수와 기본 순서를 갖습니다.

In [14]:
countries_reviewed.sort_index()

Unnamed: 0,country,province,len
0,Argentina,Mendoza Province,3264
1,Argentina,Other,536
...,...,...,...
423,Uruguay,San Jose,3
424,Uruguay,Uruguay,24


Finally, know that you can sort by more than one column at a time:

마지막으로 한 번에 둘 이상의 열을 기준으로 정렬 할 수 있습니다.

In [15]:
countries_reviewed.sort_values(by=['country', 'len'])

Unnamed: 0,country,province,len
1,Argentina,Other,536
0,Argentina,Mendoza Province,3264
...,...,...,...
424,Uruguay,Uruguay,24
419,Uruguay,Canelones,43


캐글에서 연습문제 풀기 [get started here](https://www.kaggle.com/kernels/fork/598715)