**This notebook is an exercise in the [Pandas](https://www.kaggle.com/learn/pandas) course.  You can reference the tutorial at [this link](https://www.kaggle.com/residentmario/grouping-and-sorting).**

---


# Introduction

In these exercises we'll apply groupwise analysis to our dataset.

Run the code cell below to load the data before running the exercises.

In [1]:
import pandas as pd

reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
#pd.set_option("display.max_rows", 5)

from learntools.core import binder; binder.bind(globals())
from learntools.pandas.grouping_and_sorting import *
print("Setup complete.")

# Exercises

## 1.
Who are the most common wine reviewers in the dataset? Create a `Series` whose index is the `taster_twitter_handle` category from the dataset, and whose values count how many reviews each person wrote.

데이터 세트에서 가장 일반적인 와인 리뷰어는 누구입니까? 인덱스가 데이터 세트의 taster_twitter_handle 카테고리이고 값이 각 사람이 작성한 리뷰 수를 계산하는 시리즈를 만듭니다.

In [2]:
reviews.head()

In [3]:
# Your code here
reviews_written = reviews.groupby('taster_twitter_handle').points.count()

#Check your answer
q1.check()
reviews_written

**size()**: 전체 원소의 개수 반환 (2X3배열의 경우, 원소 개수 6을 반환)

points.count() = size()


In [4]:
#q1.hint()
#q1.solution()

## 2.
What is the best wine I can buy for a given amount of money? Create a `Series` whose index is wine prices and whose values is the maximum number of points a wine costing that much was given in a review. Sort the values by price, ascending (so that `4.0` dollars is at the top and `3300.0` dollars is at the bottom).

주어진 돈으로 살 수 있는 최고의 와인은 무엇입니까? 인덱스가 와인 가격이고 그 값이 리뷰에서 그 만큼의 와인 비용이 드는 최대 포인트 수인 시리즈를 만듭니다. 가격을 기준으로 값을 오름차순으로 정렬합니다(4.0달러가 맨 위에 있고 3300.0달러가 맨 아래에 오도록).

**sort_index()**: 인덱스 값을 기준으로 데이터 정렬 ('by'를 사용하여 정렬의 기분이 되는 칼럼 설정)

**sort_values()**: 데이터 값을 기준으로 정렬 (index가 기준이기에 'by' 사용할 수 없음)

.해당 열 = ['해당열']

In [5]:
best_rating_per_price = reviews.groupby('price').points.max().sort_index()
best_rating_per_price = reviews.groupby('price')['points'].max().sort_index()
# Check your answer
q2.check()
best_rating_per_price

In [6]:
#q2.hint()
#q2.solution()

## 3.
What are the minimum and maximum prices for each `variety` of wine? Create a `DataFrame` whose index is the `variety` category from the dataset and whose values are the `min` and `max` values thereof.

와인의 각 품종에 대한 최소 및 최대 가격은 얼마입니까? 인덱스가 데이터 집합의 다양성 범주이고 값이 최소 및 최대 값인 DataFrame을 만듭니다.

**agg()**: 다수의 함수를 한번에 적용 가능

이처럼 여러개의 집계함수를 적용하면 반환되는 결과는 DataFrame이 됨
(agg에서 다수의 함수를 적용할때 따옴표를 써도되고 안써도 됨)

In [7]:
#처음에 생각한 답: price_extremes = reviews.sort_values(by=['variety']).price.agg([min,max])
price_extremes = reviews.groupby('variety').price.agg(['min','max'])
price_extremes = reviews.groupby('variety').price.agg([min,max])
# Check your answer
q3.check()
price_extremes

In [8]:
q3.hint()
q3.solution()

## 4.
What are the most expensive wine varieties? Create a variable `sorted_varieties` containing a copy of the dataframe from the previous question where varieties are sorted in descending order based on minimum price, then on maximum price (to break ties).

가장 비싼 와인 품종은 무엇입니까? 품종이 최소 가격을 기준으로 내림차순으로 정렬된 다음 최대 가격(동점을 끊기 위해)을 기준으로 내림차순으로 정렬되는 이전 질문의 데이터 프레임 사본을 포함하는 변수 sorted_varieties를 만듭니다.

In [9]:
#처음에 생각한 답: sorted_varieties = reviews.sort_values(by=['variety','price'], ascending=False)
sorted_varieties = price_extremes.sort_values(by=['min','max'], ascending=False)

# Check your answer
q4.check()
sorted_varieties

In [10]:
q4.hint()
q4.solution()

## 5.
Create a `Series` whose index is reviewers and whose values is the average review score given out by that reviewer. Hint: you will need the `taster_name` and `points` columns.

인덱스가 리뷰어이고 값이 해당 리뷰어가 제공한 평균 리뷰 점수인 시리즈를 만듭니다. 힌트: 맛보기 이름과 포인트 열이 필요합니다.

In [11]:
reviewer_mean_ratings = reviews.groupby('taster_name').points.mean()
# Check your answer
q5.check()
reviewer_mean_ratings

In [12]:
q5.hint()
q5.solution()

Are there significant differences in the average scores assigned by the various reviewers? Run the cell below to use the `describe()` method to see a summary of the range of values.

다양한 리뷰어가 부여한 평균 점수에 상당한 차이가 있습니까? 아래 셀을 실행하여 describe() 메서드를 사용하여 값 범위의 요약을 확인하세요.

In [13]:
reviewer_mean_ratings.describe()  #평균점수 거기서 거기

## 6.
What combination of countries and varieties are most common? Create a `Series` whose index is a `MultiIndex`of `{country, variety}` pairs. For example, a pinot noir produced in the US should map to `{"US", "Pinot Noir"}`. Sort the values in the `Series` in descending order based on wine count.

가장 일반적인 국가와 품종의 조합은 무엇입니까? 인덱스가 MultiIndexof {국가, 다양성} 쌍인 시리즈를 만듭니다. 예를 들어, 미국에서 생산된 피노 누아는 {"US", "Pinot Noir"}에 매핑되어야 합니다. 와인 개수를 기준으로 시리즈의 값을 내림차순으로 정렬합니다.

> **size**
  
   **호출된 객체의 크기 또는 길이를 반환**

count() 함수
: NaN은 제외하고 계산, 출력할 때 dataframe 반환, 함수

size
: NaN도 포함해서 계산, 출력할 때 series 반환, 데이터프레임의 속성



In [14]:
#처음에 생각한 답: country_variety_counts = reviews.groupby(['country', 'variety']).sort_values(by='count')
country_variety_counts = reviews.groupby(['country', 'variety']).size().sort_values(ascending=False)

# Check your answer
q6.check()
country_variety_counts

In [15]:
#points열을 기준으로 해도 결과는 같지만 전체의 와인 개수를 알아본 것이기에 전체를 놓고하는 게 맞음
#그러므로 이렇게 결과가 같더라도 points열을 기준으로 개수를 알아보는 것은 오답.
country_variety_counts1 = reviews.groupby(['country', 'variety'])['points'].size().sort_values(ascending=False)
country_variety_counts1

In [16]:
q6.hint()
q6.solution()

# Keep going

Move on to the [**data types and missing data**](https://www.kaggle.com/residentmario/data-types-and-missing-values).

---




*Have questions or comments? Visit the [course discussion forum](https://www.kaggle.com/learn/pandas/discussion) to chat with other learners.*