## Appendix 2. 데이터를 추출하는 다양한 방법

### 데이터 불러오기

In [None]:
from google.colab import drive

drive.mount('/content/gdrive')
path = '/content/gdrive/MyDrive/data-analytics-101/data/'

In [None]:
import pandas as pd

df_raw = pd.read_csv(path + 'exam.csv')
df_raw

In [None]:
df = df_raw.head(10)
df

### 열 추출하기

#### `[ ]` 사용하기

In [None]:
df['id']

In [None]:
df[['id']]

In [None]:
df[['id', 'nclass']]

#### pandas 함수와 함께 `[ ]` 사용하기

In [None]:
df.groupby('nclass').agg(math = ('math', 'mean'), 
                         english = ('english', 'mean'))

In [None]:
df.groupby('nclass')[['math', 'english']].mean()

In [None]:
df.groupby('nclass') \
  .agg(mean_math = ('math', 'mean'), 
       mean_english = ('english', 'mean'))

In [None]:
df.groupby('nclass') \
  [['math', 'english']] \
  .mean() \
  .rename(columns={'math' : 'mean_math', 'english' : 'mean_english'})

#### `.`  사용하기

메서드 체인을 만들듯이 데이터 프레임명 뒤에 점(`.`)을 입력하고 변수명을 입력

In [None]:
df['math']

In [None]:
df.math

In [None]:
df.math.mean()

In [None]:
df['math'].mean()

In [None]:
df.total = df.math + df.english + df.science  # UserWarning: Pandas doesn't allow columns to be created via a new attribute name
df

In [None]:
df['total'] = df.math + df.english + df.science
df

In [None]:
# df['tot'] = df.math + df.english + df.science
# df

- Series 객체로만 반환
- 여러 변수를 함께 추출할 수 없음
- 변수명에 띄어쓰기나 특수문자를 사용할 수 없음
- 변수명이 데이터 프레임의 메서드명과 동일하면 사용할 수 없음
- 파생변수를 만들 때 `df.var = 1`처럼 작성할 수 없음 `* UserWarning: Pandas doesn't allow columns to be created via a new attribute name`
- 변수를 참조하는 코드인지 메서드 호출 코드인지 가독성이 떨어짐

#### 조건을 충족하는 행에서 열 추출하기

In [None]:
df[df['nclass'] == 1]['math']

In [None]:
df[df['nclass'] == 1].math

In [None]:
df[df['nclass'] == 1][['math', 'english']]

### 조건을 충족하는 행 추출하기 

In [None]:
df['nclass'] == 1

In [None]:
df[df['nclass'] == 1]

In [None]:
df[(df['nclass'] == 1) & (df['math'] >= 50)]

In [None]:
df[(df['math'] < 50) | (df['english'] < 50)]

### `df.loc[]` 이용하여 데이터 추출하기

#### 인덱스 번호

**인덱스(index)**: 데이터의 위치를 나타내는 값. 데이터 프레임을 만들면 자동으로 행 인덱스 번호가 부여

In [None]:
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]})
df

#### 인덱스 번호 대신 인덱스 문자열 사용하기

In [None]:
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]}, 
                  index = ['kim', 'lee', 'park'])
df

#### 인덱스 문자열을 지정해 행 추출하기: `df.loc[ ]`

In [None]:
df.loc['kim']

In [None]:
df.loc[['kim', 'park']]

#### 인덱스 문자열을 지정해 열 추출하기

In [None]:
df

In [None]:
df.loc['lee', 'var1']

In [None]:
df.loc[['kim', 'lee'], 'var2']

In [None]:
df.loc[, 'var1']    # `df.loc[ ]`의 첫번째 인자는 생략할 수 없음

In [None]:
df.loc[:, 'var1']   # df['var1']

#### 인덱스 번호를 지정해 행 추출하기

In [None]:
df = df_raw.copy()
df

In [None]:
df.loc[0]   # Series 객체로 반환

In [None]:
df.loc[2]

In [None]:
df.loc[2, :]

In [None]:
df.loc[:, 2]    # `df.loc[ ]` 함수에서는 열을 숫자(스칼라)로 인덱싱할 수 없음

In [None]:
df.loc[:, 'math']   # df.math, df['math']와 같은 데이터를 참조

데이터 프레임 자료구조 유지하기

In [None]:
df.loc[[0]] # 인덱스 번호를 `[ ]`로 묶으면 DataFrame 객체로 반환

여러 행 추출하기

In [None]:
df.loc[[0, 3, 5]]

연속된 행 추출하기

In [None]:
df.loc[0:3]

`df.loc[ ]` 함수에서 `:`을 사용하여 범위를 입력하는 경우 파이썬의 리스트 자료형과 다르게 `:` 앞의 값은 '이상', `:`의 값은 `미만`을 의미함. 

In [None]:
df.loc[7:9]

In [None]:
df.loc[:3]

In [None]:
df.loc[16:]

In [None]:
df.loc[:]   # df 참조와 동일

In [None]:
df_label = pd.DataFrame({'var1' : [1, 2, 3], 
                         'var2' : [4, 5, 6]}, 
                         index = ['kim', 'lee', 'park'])
df_label

In [None]:
df_label.loc[0]

`df.loc[ ]` 함수의 경우 행 인덱스가 문자열로 정의되어 있는 경우, 인덱스 번호로 행을 참조할 수 없음.

#### 조건을 충족하는 행 추출하기

In [None]:
df.loc[df['nclass'] == 1]

In [None]:
df.loc[df['math'] >= 60]

##### 조건을 충족하는 행 추출 방법 비교

In [None]:
df.query('math > 50')

In [None]:
df[df['math'] > 50]

In [None]:
df.loc[df['math'] > 50]

#### 조건을 충족하는 행에서 열 추출하기

In [None]:
df.loc[df['nclass'] == 1, ['math', 'english']]

In [None]:
df.loc[:3, 'math']

### `df.iloc[]` 이용하여 데이터 추출하기

`df.iloc[ ]` 함수를 사용하면 인덱스 번호를 지정해 행을 추출할 수 있음.

#### 인덱스 번호를 지정해 행 추출하기

In [None]:
df

In [None]:
df.iloc[2]

In [None]:
df.iloc[[2]]

In [None]:
df.iloc[[0, 3, 5]]

**`df.iloc[ ]` 함수는 데이터 프레임의 인덱스가 문자열로만 구성되어 있어도 숫자로 행을 추출할 수 있음**

In [None]:
df_label

In [None]:
df_label.iloc[1]

#### 연속된 행 추출하기

`df.loc[ ]`와 같이 `df.iloc[ ]`도 `:`을 이용해 인덱스 번호 기반 연속된 행을 슬라이싱할 수 있음

* `df.iloc[x:y]` x행 이상, y행 미만
* `df.loc[x:y]` x행 이상, y행 이하

In [None]:
df.iloc[1:5]

In [None]:
df.loc[1:5]

In [None]:
df_label.iloc[1]

#### 인덱스 번호를 지정해 열 추출하기

In [None]:
df.iloc[:, 1]

In [None]:
df.iloc[:, [1, 3]]

In [None]:
df.iloc[2, 3]

In [None]:
df.iloc[[0, 1], [2, 3]]

#### 조건을 충족하는 행 추출하기

In [None]:
df.iloc[df['nclass'] == 1]

`df.iloc[ ]` 함수는 `df.loc[ ]` 함수와 달리 불리언 인덱싱을 지원하지 않음

### `df.loc[ ]`와 `df.iloc[ ]`의 비교

| 기능 | df.loc[] | df.iloc[] |
|-|-|-|
| 행 추출 인덱스 | 문자열, 숫자 | 숫자 |
| 열 추출 인덱스 | 문자열 | 숫자 | 
| 불리언 인덱싱을 사용한 행 추출 | 지원 | 미지원 |
| 슬라이싱 방식 | 이상:이하 | 이상:미만 |

