# Selecting Subsets of Data in Pandas: Part 1

이 노트북은 [Selecting Subsets of Data in Pandas: Part 1](https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c)의 실습용 노트북입니다.

In [0]:
import pandas as pd
from google.colab import auth

## 연습을 위한 데이터 구하기

안전하게 연습용 데이터를 가져오기 위해 빅쿼리의 공개 데이터를 사용합니다.

빅쿼리에 공개된 데이터 중 한국내 기상관측소 정보를 읽어와 사용하겠습니다.

In [0]:
auth.authenticate_user()
project_id = 'minwoo-lee'

query = """
  SELECT 
    * 
  FROM
    `bigquery-public-data.noaa_gsod.stations`
  where
    country = "KS"
"""
df = pd.io.gbq.read_gbq(query, project_id=project_id, dialect="standard")

# 보기 좋게 잘라서 저장.
df = df[:10] 
df = df.set_index('name')
df = df.drop(['state', 'call'], axis=1)
del df.index.name

우선 읽어온 데이터를 확인합니다.


In [3]:
df.head(5)

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
CHONAN KOREA,749361,99999,KS,36.816,127.25,48.0,19510131,19510204
R605,749363,99999,KS,37.15,128.25,82.0,19510324,19510404
SOKSA-RI,749359,99999,KS,37.633,128.567,681.0,19510321,19510419
SEOUL-MULLAEDONG,749365,99999,KS,37.517,126.9,12.0,19510321,19510430
SOCHEONG-DO,749358,99999,KS,37.767,124.733,0.0,19510323,19510509


## Indexing Operators
DataFrame에 적당한 데이터가 담겨 있는 것을 확인했습니다.

아래와 같은 명령을 통해 데이터를 골라볼 수 있습니다.

```
df[]
df.loc[]
df.iloc[]
```

이 명령어들을 `indexing operator` 라고 부릅니다.

`"["` 과 `"]"` 사이에 원하는만큼 검색 범위를 넣어주어야 합니다.

## [] 사용

[] indexing oprerator에 컬럼 이름을 적어주면 원하는 컬럼만 따로 뽑아낼 수 있습니다.

`컬럼이름`을 전달할 때와 `컬럼이름을 담은 배열`을 전달할 때 각각 다른 결과가 나옵니다. 

요청의 결과로 각각 Series 형식의 데이터가 반환되거나 DataFrame 형태가 반환되는 것을 확인할 수 있습니다.

In [4]:
df['lat']

CHONAN KOREA        36.816
R605                37.150
SOKSA-RI            37.633
SEOUL-MULLAEDONG    37.517
SOCHEONG-DO         37.767
JUNMUJIN            37.883
YANGYANG KOREA      38.066
P621 HELIPORT       36.200
HONGCHON KOREA      37.700
KAJU-DONG           37.800
Name: lat, dtype: float64

In [5]:
df[['lat']]

Unnamed: 0,lat
CHONAN KOREA,36.816
R605,37.15
SOKSA-RI,37.633
SEOUL-MULLAEDONG,37.517
SOCHEONG-DO,37.767
JUNMUJIN,37.883
YANGYANG KOREA,38.066
P621 HELIPORT,36.2
HONGCHON KOREA,37.7
KAJU-DONG,37.8


여러 컬럼 이름을 넣은 리스트 형식 데이터를 선택하면 DataFrame이 반환됩니다.

In [6]:
df[['lat', 'lon']]

Unnamed: 0,lat,lon
CHONAN KOREA,36.816,127.25
R605,37.15,128.25
SOKSA-RI,37.633,128.567
SEOUL-MULLAEDONG,37.517,126.9
SOCHEONG-DO,37.767,124.733
JUNMUJIN,37.883,128.817
YANGYANG KOREA,38.066,128.616
P621 HELIPORT,36.2,127.083
HONGCHON KOREA,37.7,127.866
KAJU-DONG,37.8,124.683


잘못된 컬럼 이름을 적어 넣거나 컬럼 이름을 인수로 가지는 배열 형식을 넣어주지 않으면 에러를 뱉습니다.


```
df['abcd'] # 없는 컬럼

df['name', 'country'] # 잘못된 형식, df[['name', 'country']] 이어야 합니다.

```

## .loc 사용

loc는 라벨을 사용해 데이터를 선택합니다.

우선, CHONAN KOREA 관측소의 정보 한 row를 읽어 보겠습니다.

In [7]:
df.loc['CHONAN KOREA']

usaf         749361
wban          99999
country          KS
lat          36.816
lon          127.25
elev        +0048.0
begin      19510131
end        19510204
Name: CHONAN KOREA, dtype: object

관측소 두 곳의 정보를 읽어오는 것은, 마찬가지로 배열을 만들어 조회 요청하면 됩니다.

In [8]:
df.loc[['CHONAN KOREA', 'SOCHEONG-DO']]

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
CHONAN KOREA,749361,99999,KS,36.816,127.25,48.0,19510131,19510204
SOCHEONG-DO,749358,99999,KS,37.767,124.733,0.0,19510323,19510509


CHONAN KOREA 관측소부터 SOKSA-RI 관측소까지의 row 전부를 읽고 싶다면 아래와 같이 요청하면 됩니다. 

In [9]:
df.loc['CHONAN KOREA':'SOCHEONG-DO']

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
CHONAN KOREA,749361,99999,KS,36.816,127.25,48.0,19510131,19510204
R605,749363,99999,KS,37.15,128.25,82.0,19510324,19510404
SOKSA-RI,749359,99999,KS,37.633,128.567,681.0,19510321,19510419
SEOUL-MULLAEDONG,749365,99999,KS,37.517,126.9,12.0,19510321,19510430
SOCHEONG-DO,749358,99999,KS,37.767,124.733,0.0,19510323,19510509


loc는 slice notation을 사용해 row를 `slice`할 수 있습니다.

`시작 : 종료 : 스텝` 형식의 문법을 사용합니다.

In [10]:
df.loc['CHONAN KOREA':'SOCHEONG-DO':2]

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
CHONAN KOREA,749361,99999,KS,36.816,127.25,48.0,19510131,19510204
SOKSA-RI,749359,99999,KS,37.633,128.567,681.0,19510321,19510419
SOCHEONG-DO,749358,99999,KS,37.767,124.733,0.0,19510323,19510509


`[]` indexing operator와 달리 .loc를 사용하면 row와 column 을 동시에 선택하는 것이 가능합니다. 

`,` 를 사용해 두 항목을 입력합니다. 

예를 들어 아래와 같이 생겼습니다.

```
>>> df.loc[row, column]
```

In [11]:
df.loc[['CHONAN KOREA', 'SOCHEONG-DO'], ['lat', 'lon']]

Unnamed: 0,lat,lon
CHONAN KOREA,36.816,127.25
SOCHEONG-DO,37.767,124.733


위에서 사용해온 여러 조합들을 모두 사용할 수 있습니다. 

여러 row의 한 개 column,  한 개 row의 여러 column, 여러 row의 여러 column 등등.

In [12]:
df.loc[:, ['lat', 'lon']]

Unnamed: 0,lat,lon
CHONAN KOREA,36.816,127.25
R605,37.15,128.25
SOKSA-RI,37.633,128.567
SEOUL-MULLAEDONG,37.517,126.9
SOCHEONG-DO,37.767,124.733
JUNMUJIN,37.883,128.817
YANGYANG KOREA,38.066,128.616
P621 HELIPORT,36.2,127.083
HONGCHON KOREA,37.7,127.866
KAJU-DONG,37.8,124.683


In [13]:
df.loc['SOCHEONG-DO':, 'lon':]

Unnamed: 0,lon,elev,begin,end
SOCHEONG-DO,124.733,0.0,19510323,19510509
JUNMUJIN,128.817,6.0,19510416,19510517
YANGYANG KOREA,128.616,6.0,19510602,19510606
P621 HELIPORT,127.083,6.0,19510607,19510724
HONGCHON KOREA,127.866,151.0,19510406,19510908
KAJU-DONG,124.683,203.0,19510509,19510915


## .iloc 사용

라벨을 사용했던 loc와 달리 iloc는 숫자를 사용합니다. 

숫자를 사용하는 점을 제외하면 사용법은 loc와 같습니다. 

In [14]:
df.iloc[3:5]

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
SEOUL-MULLAEDONG,749365,99999,KS,37.517,126.9,12.0,19510321,19510430
SOCHEONG-DO,749358,99999,KS,37.767,124.733,0.0,19510323,19510509


slice 도 마찬가지로 동작합니다.

In [15]:
df.iloc[3::2]

Unnamed: 0,usaf,wban,country,lat,lon,elev,begin,end
SEOUL-MULLAEDONG,749365,99999,KS,37.517,126.9,12.0,19510321,19510430
JUNMUJIN,749360,99999,KS,37.883,128.817,6.0,19510416,19510517
P621 HELIPORT,749362,99999,KS,36.2,127.083,6.0,19510607,19510724
KAJU-DONG,749356,99999,KS,37.8,124.683,203.0,19510509,19510915


여러 row와 여러 column를 동시에 읽는 것도 유사한 형태입니다. 

In [16]:
df.iloc[[2,3], [0, 4]]

Unnamed: 0,usaf,lon
SOKSA-RI,749359,128.567
SEOUL-MULLAEDONG,749365,126.9


In [17]:
df.iloc[3:, 3:]

Unnamed: 0,lat,lon,elev,begin,end
SEOUL-MULLAEDONG,37.517,126.9,12.0,19510321,19510430
SOCHEONG-DO,37.767,124.733,0.0,19510323,19510509
JUNMUJIN,37.883,128.817,6.0,19510416,19510517
YANGYANG KOREA,38.066,128.616,6.0,19510602,19510606
P621 HELIPORT,36.2,127.083,6.0,19510607,19510724
HONGCHON KOREA,37.7,127.866,151.0,19510406,19510908
KAJU-DONG,37.8,124.683,203.0,19510509,19510915


## Series에 .loc 사용

Series에서도 loc를 사용할 수 있습니다. 

In [18]:
usaf = df['usaf']

usaf.loc[['R605']]

R605    749363
Name: usaf, dtype: object

In [19]:
usaf.loc['CHONAN KOREA':'SOCHEONG-DO']

CHONAN KOREA        749361
R605                749363
SOKSA-RI            749359
SEOUL-MULLAEDONG    749365
SOCHEONG-DO         749358
Name: usaf, dtype: object

Series에 .iloc 사용

iloc도 똑같이 사용할 수 있습니다.

In [20]:
usaf.iloc[1:3]

R605        749363
SOKSA-RI    749359
Name: usaf, dtype: object