# 시작

이 챕터는 다음 데이터셋을 사용하고 있습니다. [Wine Reviews dataset](https://www.kaggle.com/zynicide/wine-reviews).

In [4]:
import pandas as pd

reviews = pd.read_csv("data/winemag-data-130k-v2.csv", index_col=0) #csv 파일을 읽어오고, 0번 col을 인덱스로 설정합니다.

pd.set_option('max_rows', 5) #기본 출력 row의 수를 5개로 설정하는 것입니다.

In [5]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,


파이썬에서는 `객체의 속성(attribute)`에 접근함으로써 `객체의 특성(property)`에 접근할 수 있다. 예를 들어, `book` 객체는 `title 속성`을 가질 수 있는데, `book.title`을 호출하는 것을 통해 접근이 가능하다. pandas DataFrame 객체의 row도 동일한 방식으로 접근이 가능하다.

따라서 `reviews`의 `country 특성(property)`에 접근하기 위해 우리는 아래와 같이 할 수 있다.

In [6]:
reviews.country

0          Italy
1       Portugal
          ...   
2604          US
2605          US
Name: country, Length: 2606, dtype: object

파이썬 딕셔너리에서 우리는 인덱싱 연산자인 `[]` 연산자를 이용해서 값(value)에 접근한다. DataFrame 객체의 열에서도 똑같이 `[]`를 이용할 수 있다.

In [7]:
reviews['country']

0          Italy
1       Portugal
          ...   
2604          US
2605          US
Name: country, Length: 2606, dtype: object

이것이 DataFrame에서 Series를 선택하는 2가지 방법이다. 

두 방법 모두 특별히 차이는 없지만, `[]`연산자는 변수를 이용해서 더 자유롭게 인덱싱을 할 수 있다는 장점이 있다.

예를 들어 `item number`라는 column이 있을 때, 첫번째 방법인 `.`은 해당 column을 접근할 수 없으나, 두번째 방법은 `review['item number']`로 접근할 수 있다.

2차원 배열을 다루듯, `[]`를 한번 더 사용하면 엔트리의 단일 값으로  접근할 수 있다.

In [8]:
reviews['country'][0]

'Italy'

# Indexing

Pandas는 2가지 indexing 방법이 있다. `iloc`과 `loc`이다. `iloc`은 index의 번호를 기반으로 한다. 쉽게 index location이라고 기억하면 된다. `loc`은 라벨 기준 접근 방법이다.

## - iloc

In [9]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

위의 셀은 0번 row에 접근한 결과이다.

파이썬과 달리, `loc`과 `iloc`은 row를 먼저 쓰고, column을 나중에 쓴다.

만약, 0번 column (country) 전체를 접근하고 싶으면 다음과 같이 하면 된다.

In [10]:
reviews.iloc[:,0]

0          Italy
1       Portugal
          ...   
2604          US
2605          US
Name: country, Length: 2606, dtype: object

`:`은 everyting을 의미한다. 즉, 모든 row의 0번 column을 접근한 것이다.

In [11]:
reviews.iloc[:3,0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

처음 row부터 3번 row 전 까지 접근하는 방법이다.

즉, `reviews.iloc[시작 row : 희망 하는 row 번호 +1 ,0]`로 접근하면 된다. 이건 파이썬의 list 접근방법과 동일하다. 단지 row와 column의 순서가 다를 뿐이다.

## - loc

`loc`를 라벨 기준 접근 방법이다.

In [15]:
reviews.loc[0, 'country']

'Italy'

0번 row의 country를 접근하였다.

In [14]:
reviews.loc[: , 'country']

0          Italy
1       Portugal
          ...   
2604          US
2605          US
Name: country, Length: 2606, dtype: object

country라는 columns를 접근하는 방법이다. 즉, 라벨을 사용한다는 점만 다른 것이다.

`그럼 loc은 언제 사용하는 것일까?`

DataFrame이 크면 번호로 인덱싱을 하는 것이 쉽지 않다. 이 때 loc을 사용하는 것이 편할 것이다.

## loc와 iloc의 차이점 및 주의점

`loc`과 `iloc` 중 하나를 고를 때 `유의할만한 사항`이 있는데, 이는 `두 방법이 약간 다른 인덱싱 방식을 사용`한다는 것이다. 

`iloc`은 `첫번째 요소가 포함되고 마지막 요소는 제외`되는 Python stdlib 인덱싱 방식을 사용한다. 

따라서 0:10은 0 ~ 9를 선택한다. 반면 `loc`은 `마지막 요소를 포함`하므로 0:10은 0 ~ 10을 선택한다.

### 왜 두 방식은 서로 다를까? 

loc은 문자열같은 stdlib 타입을 인덱싱할 수 있다. 

예를 들어 'Apple' : 'Potato'는 `'Apple'부터 'Potato'까지`를 가리키는 것이 `'Apple'부터 'Potato'이전 까지`의 인덱스 를 가리키는 것보다 더 편리하기 때문이다.

`이는 DataFrame의 인덱스가 단순한 숫자 목록일 때 혼란을 줄 수 있다.`

예를 들어, 0,...,1000 row를 접근한다고 해보자. iloc[0:1000]의 경우 1000개를 돌려준다. 반면에 loc[0:1000]은 1001개를 돌려준다! 즉, loc[0:999]라고 써야지만 1000개가 반환된다.

개인적으로 loc가 직관적이라고 생각한다. 어디부터 어디까지라고 읽어지기 때문에 loc을 좋아한다.

# Manipulating the index

Label-based selection(`loc`)은 index가 레이블일 때 매우 효과적이다.

set_index() 메서드는 인덱스를 설정할 수 있다. 아래에선 title 필드를 인덱스로 지정한다.

In [17]:
reviews.set_index("title")

Unnamed: 0_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
Maldonado 2011 Los Olivos Pinot Noir (Napa Valley),US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Pinot Noir,Maldonado
Medlock Ames 2008 Bell Mountain Vineyard Cabernet Sauvignon (Ale,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,,


위와 같이 index를 정해두면 `iloc`를 이용하여 원하는 row를 접근하기 쉽지 않다.

# 조건문을 이용한 selection

country가 Italy인 row들을 접근하고 싶다고 가정해보자.

In [18]:
reviews.country == 'Italy'

0        True
1       False
        ...  
2604    False
2605    False
Name: country, Length: 2606, dtype: bool

0번 row에서 True가 반환된 것을 확인할 수 있다.

이 True/False 값을 loc에 대입하면 원하는 row들만 얻어올수 있다.

In [19]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2591,Italy,This traditionally styled Barolo has a classic...,Bussia,90,92.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Bussia (Barolo),Nebbiolo,Barale Fratelli
2592,Italy,"This shows enticing aromas of mint, spice and ...",Castellero,90,82.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Castellero (Barolo),Nebbiolo,Barale Fratelli


In [20]:
reviews.loc[reviews['country'] == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2591,Italy,This traditionally styled Barolo has a classic...,Bussia,90,92.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Bussia (Barolo),Nebbiolo,Barale Fratelli
2592,Italy,"This shows enticing aromas of mint, spice and ...",Castellero,90,82.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Castellero (Barolo),Nebbiolo,Barale Fratelli


In [21]:
reviews.iloc[reviews['country'] == 'Italy']

NotImplementedError: iLocation based boolean indexing on an integer type is not available

위에서 확인할 수 있듯이 iloc을 사용할 시 에러가 발생한다. 그래서 loc가 좋다는 것이다. 

## &와 |

2개 이상의 조건을 적용할 때에는 `&`와 `|`를 사용하면 된다.


예를 들어, 'US' 자료 중 points가 90 이상인 데이터를 얻고 싶다면 다음과 같이 하면 된다.

In [28]:
reviews.loc[(reviews.country == 'US') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
121,US,The vineyard is one of the better Chardonnay s...,Stuhlmuller Vineyard,92,36.0,California,Alexander Valley,Sonoma,,,Matrix 2007 Stuhlmuller Vineyard Chardonnay (A...,Chardonnay,Matrix
122,US,Defines Rockpile Zinfandel in intensity of fru...,Rockpile Cemetary Vineyard,92,39.0,California,Rockpile,Sonoma,,,Mauritson 2007 Rockpile Cemetary Vineyard Zinf...,Zinfandel,Mauritson
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,


예를 들어, 'Italy'와 'US'를 불러오고 싶다면 다음과 같이하면 된다.

In [26]:
reviews.loc[(reviews.country == 'ltaly') | (reviews.country == 'US')]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,


이렇게 &를 이용할 때, 원하는 나라들이 많다면 상당히 사용하기 힘들 것이다. 그렇기 때문에 Pandas는 `isin`을 제공한다.

`isin`은 `is in the list`를 의미한다.

In [29]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2591,Italy,This traditionally styled Barolo has a classic...,Bussia,90,92.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Bussia (Barolo),Nebbiolo,Barale Fratelli
2592,Italy,"This shows enticing aromas of mint, spice and ...",Castellero,90,82.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Barale Fratelli 2009 Castellero (Barolo),Nebbiolo,Barale Fratelli


## Null 값 다루기

데이터를 분석할 때 가장 먼저 Missing value를 확인하게 된다. 이 때, 유용한 기능이 `notnull`과 `isnull`이다. 

`notnull`은 null이 아닌 것을 찾는 것이다.

아래의 예제는 Column `price`에서 Null 값이 아닌 값들만 불러오는 것이다.

In [30]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,


이번엔 Null 값들만 불러와 보자.

In [31]:
reviews.loc[reviews.price.isnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
13,Italy,This is dominated by oak and oak-driven aromas...,Rosso,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Masseria Setteporte 2012 Rosso (Etna),Nerello Mascalese,Masseria Setteporte
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2588,Austria,"This is a serious wine, despite the ripe fruit...",Steinbügel,90,,Niederösterreich,,,Roger Voss,@vossroger,Graf Hardegg 2010 Steinbügel Grüner Veltliner ...,Grüner Veltliner,Graf Hardegg
2595,Austria,"Crisp, clean, mineral wine, with hints of a mo...",Zöbing,90,,Kamptal,,,Roger Voss,@vossroger,Hirsch 2012 Zöbing Riesling (Kamptal),Riesling,Hirsch


## 데이터 입력

데이터를 입력하는 방법은 매우 쉽다.

예제로 새로운 column을 만들어 데이터를 입력해보자.

In [33]:
reviews['critic'] = 'everyone'
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado,everyone
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,,everyone


`critic`라는 column이 추가되고 모든 값이 `everyone`으로 입력되어 있다.

이번에는 반복문을 이용해서 입력해보자.

In [36]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic,index_backwards
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone,2606
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone,2605
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2604,US,"This is a rich, robust Pinot Noir, defining th...",Los Olivos,90,42.0,California,Napa Valley,Napa,,,Maldonado 2011 Los Olivos Pinot Noir (Napa Val...,Pinot Noir,Maldonado,everyone,2
2605,US,This Cab wants a few more years to let its int...,Bell Mountain Vineyard,90,52.0,California,Alexander Valley,Sonoma,,,Medlock Ames 2008 Bell Mountain Vineyard Caber...,,,everyone,1
