### 요약함수(Summary Functions)와 Maps
- 대부분의 경우 불러온 데이터 파일을 가지고 다양한 작업을 거쳐서 다시 포맷해야한다
- 따라서 데이터에 적용할 수 있는 다양한 연산을 다룬다

In [1]:
import pandas as pd

reviews = pd.read_csv("./Data/winemag-data-130k-v2.csv", index_col=0)

### 요약 함수

In [2]:
# describe() : 데이터 타입에 맞게 정보를 요약해서 보여준다
# 숫자형 데이터 : 데이터의 평균, 분산, 최소값, 최대갑, 1~3분위값
# 문자열 데이터 : 개수, 고유값수, 최빈도값, 빈도수 등등

# 숫자형 데이터 예시
reviews.points.describe()

count    129971.000000
mean         88.447138
std           3.039730
min          80.000000
25%          86.000000
50%          88.000000
75%          91.000000
max         100.000000
Name: points, dtype: float64

In [3]:
# 문자열 데이터 예시
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

간단한 요약 통계 함수

In [4]:
# mean() : 숫자형 데이터의 평균값을 알려준다
reviews.points.mean()

88.44713820775404

In [5]:
# unique() : 문자열 데이터의 고유값 목록을 알려준다
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

In [6]:
# value_counts() : 문자열 데이터의 교유값과 해당 고유값의 빈도를 함께 알려준다

reviews.taster_name.value_counts()

taster_name
Roger Voss            25514
Michael Schachner     15134
Kerin O’Keefe         10776
Virginie Boone         9537
Paul Gregutt           9532
Matt Kettmann          6332
Joe Czerwinski         5147
Sean P. Sullivan       4966
Anna Lee C. Iijima     4415
Jim Gordon             4177
Anne Krebiehl MW       3685
Lauren Buzzeo          1835
Susan Kostrzewa        1085
Mike DeSimone           514
Jeff Jenssen            491
Alexander Peartree      415
Carrie Dykes            139
Fiona Adams              27
Christina Pickard         6
Name: count, dtype: int64

### Map
- 한 세트의 값을 가져와 다른 세트의 값에 "매핑"하는 함수

In [7]:
# map() : 해당 열(Series)에서 단일 값을 예상하고 해당 값의 변환된 버전을 반환한다
# 인수로 함수를 받아서 함수를 적용한 버전의 값을 반환

# reviews 데이터 프레임의 points 열의 평균값
review_points_mean = reviews.points.mean()

# points열의 평균값을 ponits 열의 각 단일값(p)에서 뺀 값을 반환
reviews.points.map(lambda p: p - review_points_mean)

# lambda p: p - review_points_mean >> 람다식으로 간단한 함수의 기능(p-review_points_mean 와 같은)을 수행한다

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

In [8]:
# apply() : DataFrame이나 Series의 각 요소에 지정된 함수를 적용한다
# DataFrame의 경우 각 열에 함수를 적용하며 행에 대해 함수를 적용하려면 axis 인수를 사용하여 지정해줘야 한다(axis = 'index')

def remean_points(row):
    row.points = row.points - review_points_mean
    return row
# 사용자 정의 메소드(함수) >> row의 points 열의 데이터 값은 (row의 points 열의 데이터 값 - review_points_mean)이다

# axis='columns' >> 각 행이 함수의 인수로 전달된다
reviews.apply(remean_points, axis='columns')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,-1.447138,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,-1.447138,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,-1.447138,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,1.552862,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,1.552862,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,1.552862,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss


주의
- 여기서 map()과 apply()를 사용해도 원본 데이터 reviews 데이터 프레임은 변화하지 않는다
- reviews = reviews.apply(remean_points, axis='columns') 이렇게 다시금 할당해줘야 원본 데이터가 변화한다

In [10]:
reviews.head(1)
# points 열에 아무런 변화없다

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia


In [11]:
# 더욱 간략하게 points 열의 값을 변환하는 코드

review_points_mean = reviews.points.mean()
reviews.points - review_points_mean
# map()이나 apply()를 사용하지 않고 '-' 연산자를 사용하여 한번에 변환

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

In [12]:
reviews['points'] - review_points_mean

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

In [15]:
# 위의 코드에서 왼쪽에 있는 많은 값(시리즈 형식)과 오른쪽에 있는 단일값(평균값) 사이에서 연산을 수행한다
# 숫자형 데이터가 아닌 문자열 데이터를 연결시켜주는 것도 간편하게 '+' 연산자를 이용할 수 있다

reviews.country + " - " + reviews.region_1

# 이러한 연산자를 통한 값 변환은 map() 또는 apply() 함수보다 빠르다
# 그러나 조건 논리를 적용하는 등의 고급 작업에는 map(), apply() 함수가 더 유용하다

0                     Italy - Etna
1                              NaN
2           US - Willamette Valley
3         US - Lake Michigan Shore
4           US - Willamette Valley
                    ...           
129966                         NaN
129967                 US - Oregon
129968             France - Alsace
129969             France - Alsace
129970             France - Alsace
Length: 129971, dtype: object