# 인트로

판다스 데이터프레임 혹은 시리즈에서 특정 값을 선택하는 작업은 거의 모든 데이터 분석에서 필수적인 단계이므로, 가장 먼저 배울 내용 중 하나는 데이터를 빠르고 효과적으로 선택하는 방법입니다.

In [1]:
import pandas as pd
reviews = pd.read_csv("../../data/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('max_rows', 5)

# 기본 접근자

파이썬 기본 객체는 데이터를 인덱싱하는 좋은 방법들을 제공합니다. 판다스 또한 이러한 방법들을 제공하기에 시작하기가 쉽습니다.

아래 데이터프레임을 보겠습니다:

In [2]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


파이썬에서는 어트리뷰트로써 객체의 속성에 접근할 수 있습니다. 예를 들어 `book` 객체는 `title`이라는 속성을 가질텐데, `book.title`을 호출함으로써 접근할 수 있습니다. 판다스 데이터프레임의 열(columns)도 같은 방식으로 작동합니다.

따라서 `reviews`의 `country` 속성에 접근할 때 다음과 같은 방법을 사용할 수 있습니다:

In [3]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

파이썬 딕셔너리의 경우, 인덱싱 (`[]`) 연산자를 사용하여 값에 접근할 수 있습니다. 데이터프레임에서는 열을 이용해 같은 일을 할 수 있습니다:

In [4]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

이들은 데이터프레임에서 특정 시리즈를 선택하는 두 가지 방법입니다. 어느 한 방법이 더 좋다고 할 수는 없지만, 인덱싱 연산자 `[]`를 사용하면 예약어가 포함된 열 이름을 사용할 수 있다는 이점이 있습니다. (e.g. `country providence`라는 열이 있다면, `reviews.country providence`는 작동하지 않을 것입니다).

판다스 시리즈가 조금 화려한 딕셔너리처럼 보이지 않나요? 실제로 그렇습니다. 따라서 특정 값 하나에 접근하기 위해서는 인덱싱 연산자 `[]`를 한 번 더 사용하면 됩니다:

In [5]:
reviews['country'][0]

'Italy'

# 판다스에서 인덱싱

인덱싱 연산자와 어트리뷰트 선택은 파이썬 생태계의 나머지 부분과 동일하게 동작하기에 괜찮은 방법입니다. 초보자에게는 이러한 장점이 사용을 쉽게 만듭니다. 그러나, 판다스에는 고유한 접근 연산자인 `loc`와 `iloc`이 있습니다. 더 발전된 연산을 하기 위해서는 이것들을 사용하는 것이 좋습니다.

### 인덱스 기반 선택

판다스 인덱싱은 두 가지 패러다임 중 하나로 작동합니다. 첫 번째는 **인덱스 기반 선택** 입니다: 데이터의 숫자 위치를 이용해 데이터를 선택하는 방식입니다. `iloc`이 이 패러다임을 따릅니다.

데이터프레임의 첫 번째 행을 선택하기 위해 다음과 같이 할 수 있습니다:

In [6]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

`loc`와 `iloc` 둘 다 행이 먼저, 열이 다음입니다. 이는 열이 먼저, 행이 다음인 네이티브 파이썬과 반대입니다.

즉, 행에 접근하는 것이 조금 쉬워지고 열에 접근하는 것이 조금 어려워진 것입니다. `iloc`을 이용해 열에 접근하려면 다음과 같이 할 수 있습니다:

In [7]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

네이티브 파이썬에서 유래한 `:` 연산자는 그 자체로 "전부"를 의미합니다. 그러나 다른 선택자와 같이 사용할 경우 값의 범위를 지정하기 위해 사용될 수 있습니다. 예를 들어, 첫 번째, 두 번째 및 세 번째 행에서 `country` 열을 선택하려면 다음과 같이 합니다:

In [8]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

두 번째 및 세 번째 열만 선택하려면 다음을 수행합니다:

In [9]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

리스트를 넘기는 것 또한 가능합니다:

In [10]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

마지막으로, 음수 값을 이용해 선택을 할 수 있다는 것은 알 가치가 있습니다. 이 방식을 이용하면 _뒤_ 에서부터 앞으로 값을 셉니다. 예를 들어 데이터셋의 마지막 다섯 요소는 다음과 같습니다.

In [11]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


### 레이블 기반 선택

어트리뷰트 선택의 두 번째 패러다임은 `loc` 연산자가 따르는 **레이블 기반 선택**입니다. 이 패러다임에서는 데이터의 위치가 아니라 인덱스 값이 중요합니다.

예를 들어, `reviews`의 첫 항목을 가져오려면 다음과 같이 합니다:

In [12]:
reviews.loc[0, 'country']

'Italy'

`iloc`은 데이터셋의 인덱스를 무시하므로 `loc`보다 컨셉적으로 간단합니다. `iloc`을 사용하는 것은 데이터셋을 위치별로 인덱싱해야 하는 하나의 큰 행렬로 보는 것입니다. 반면 `loc`은 인덱스 정보를 사용하여 작업을 합니다. 데이터셋에는 일반적으로 의미 있는 인덱스가 있으므로, `loc`을 이용하는 것이 더 쉽습니다. 예를 들어, 다음은 `loc`을 사용하는 것이 훨씬 쉬운 경우입니다:

In [13]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


### `loc`과 `iloc` 중 선택하는 방법

`loc`과 `iloc` 중 하나를 선택하거나 하나에서 하나로 전환할 때 유의하야 할 점은, 두 방법이 살짝 다른 인덱싱 체계를 사용한다는 것입니다.

`iloc`은 파이썬 stdlib 인덱싱 체계를 사용하는데, 첫 번째 요소는 포함하고 마지막 요소는 제외합니다. 따라서 `0:10`은 항목 `0,...,9`을 선택합니다. 한편 `loc`은 첫 번째와 마지막 요소 모두 포함합니다. 따라서 `0:10`은 항목 `0,...,10`을 선택합니다.

이들은 왜 다를까요? loc은 모든 stdlib 타입(예: 문자열)을 인덱싱할 수 있습니다. 인덱스 값이 `Apples, ..., Potatoes, ...`인 데이터프레임이 있고, "사전순으로 Apples부터 Potatoes까지의 모든 과일"을 선택하려 한다면, `df.loc['Apples':'Potatoes']` 꼴을 사용하는 것이 `df.loc['Apples':'Potatoet']` (`t`는 `s` 다음에 오는 알파벳) 꼴을 사용하는 것보다 편리합니다.

이는 데이터프레임의 인덱스가 `0,...,1000`와 같이 간단한 숫자 배열일 때 특히 혼동됩니다. 이 경우 `df.iloc[0:1000]`은 1000개의 항목을 반환하지만, `df.loc[0:1000]`은 1001개의 항목을 반환합니다! `loc`을 사용하면서 1000개의 항목을 가져오려면 한 단계 낮추어 `df.iloc[0:999]`를 호출해야 합니다.

이 외에 `loc`과 `iloc`을 사용하는 의미는 같습니다.

# 인덱스 조작

레이블 기반 선택은 인덱스의 레이블에서 힘을 얻습니다. 특히, 인덱스는 불변값이 아닙니다. 우리는 원하는 대로 인덱스를 조작할 수 있습니다.

이를 위해 `set_index()` 메소드를 사용할 수 있습니다. 다음은 `title`을 `set_index`했을 때의 모습입니다:

In [14]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Gewürztraminer,Domaine Schoffit


이 기능은 데이터셋의 현 인덱스보다 나은 인덱스를 생성할 수 있는 경우에 유용합니다.

# 조건부 선택

지금까지 우리는 데이터프레임 자체의 구조적 속성을 사용하여 다양한 데이터를 인덱싱했습니다. 그러나 데이터로 *흥미로운* 일들을 하기 위해서는 종종 조건에 따라 질문을 해야 합니다.

예를 들어, 우리가 이탈리아에서 생산되는 평균보다 나은 와인에 관심이 있다고 가정해 보겠습니다.

우리는 각 와인 이탈리아산인지 확인하면서 시작할 수 있습니다:

In [15]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

이 연산자는 각 기록의 `country`에 기반한 `True`/`False` 불리언(booleans)으로 이루어진 시리즈를 생성하였습니다. 이 결과는 `loc` 안에 쓰여 관련 데이터를 선택할 수 있습니다:

In [16]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


이 데이터프레임은 ~20,000개의 행을 가집니다. 원본은 ~130,000개를 가졌습니다. 이는 약 15%의 와인이 이탈리아산임을 의미입니다.

우리는 또한 어떤 와인이 평균보다 나은지 알고 싶습니다. 와인은 80점에서 100점 사이로 평가되었기 때문에, 최소 90점 이상을 받은 와인을 추려야 합니다.

앰퍼샌드 (`&`) 기호를 이용하여 두 질문을 종합할 수 있습니다:

In [17]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


우리가 이탈리아산 와인 _또는_ 평균 이상의 와인을 선택한다고 가정합시다. 이 경우 파이프 (`|`) 기호를 사용합니다:

In [18]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


판다스에는 몇 가지 조건부 선택자가 내장되어 있는데, 그 중 두 가지를 소개하겠습니다.

첫 번째는 `isin`입니다. `isin`은 리스트에 포함된 값만을 선택합니다. 예를 들어, 다음은 이탈리아산 혹은 프랑스산 와인만 선택하는 방법입니다:

In [19]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


두 번째는 `isnull`입니다 (이는 `notnull`의 반대입니다). 이 메소드들은 값이 비어 있는 (`NaN`) (혹은 그렇지 않은) 값을 선택합니다. 예를 들어, 가격표가 없는 와인을 필터링하기 위해 다음과 같이 할 수 있습니다:

In [20]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


# 데이터 할당

반대로, 데이터프레임에 값을 할당하는 것은 쉽습니다. 상수 값을 할당하거나:

In [21]:
reviews['critic'] = 'everyone'
reviews['critic']

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

반복 가능한 값을 할당할 수 있습니다:

In [22]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64