# DataFrame과 불린 인덱싱
- pandas에서 특정 조건에 맞는 데이터를 필터링하는 방법
- `불린 인덱싱을 사용`하여 데이터를 선택하는 방식

## 1. 특정 조건으로 필터링하기
- 칼로리가 500 미만인 상품을 필터링하는 예시로 설명합니다.
- 먼저, 특정 컬럼을 선택한 후 조건을 적용합니다.

In [1]:
import pandas as pd
burger_df = pd.read_csv('../data/burger.csv')
burger_df.head(3)

Unnamed: 0,product_name,calories,carb,protein,fat,sodium,category
0,Whopper,660,49,28,40,1.0,Burgers
1,Cheese Whopper,740,50,32,46,1.3,Burgers
2,Double Whopper,900,49,48,58,1.0,Burgers


In [2]:
# 이는 각 제품의 칼로리가 500 미만인지 여부를 
# True 또는 False 값으로 반환합니다.
burger_df['calories'] < 500


0     False
1     False
2     False
3     False
4      True
5     False
6     False
7     False
8      True
9      True
10     True
11     True
12    False
13     True
14     True
Name: calories, dtype: bool

- 필터링 적용
    - 이렇게 나온 불린 Series를 이용해 DataFrame에서 조건에 맞는 `로우`를 선택할 수 있습니다.
        - 슬라이싱은 로우

In [3]:
# 이는 칼로리가 500 미만인 제품들만 필터링하여 출력합니다.
burger_df.loc[burger_df['calories'] < 500]

Unnamed: 0,product_name,calories,carb,protein,fat,sodium,category
4,Whopper Junior,310,27,13,18,0.4,Burgers
8,Hamburger,240,26,13,10,0.4,Burgers
9,Cheeseburger,280,27,15,13,0.6,Burgers
10,Double Hamburger,350,26,21,18,0.4,Burgers
11,Double Cheeseburger,390,27,23,21,0.6,Burgers
13,Chicken Nuggets,170,11,8,11,0.3,Chicken
14,Spicy Chicken Nuggets,210,11,8,15,0.6,Chicken


## 2. 특정 컬럼만 선택하기
- 특정 조건에 맞는 데이터를 필터링한 후, 특정 컬럼만 보고 싶다면 `쉼표를 사용해 컬럼을 추가`로 선택할 수 있습니다.

In [4]:
# 단백질 컬럼만 선택
burger_df.loc[burger_df['calories'] < 500, ['protein']]

Unnamed: 0,protein
4,13
8,13
9,15
10,21
11,23
13,8
14,8


In [5]:
# 탄수화물(carbohydrate), 단백질 두 컬럼 선택
burger_df.loc[burger_df['calories'] < 500, ['carb', 'protein']]

Unnamed: 0,carb,protein
4,27,13
8,26,13
9,27,15
10,26,21
11,27,23
13,11,8
14,11,8


In [6]:
# 칼로리부터 지방까지 슬라이싱
burger_df.loc[burger_df['calories'] < 500, 'calories':'fat']

Unnamed: 0,calories,carb,protein,fat
4,310,27,13,18
8,240,26,13,10
9,280,27,15,13
10,350,26,21,18
11,390,27,23,21
13,170,11,8,11
14,210,11,8,15


## 3. loc 없이 필터링하기
- 만약 로우만 필터링하고 싶고 모든 컬럼을 보고 싶다면, loc 없이 바로 조건을 사용할 수 있습니다.
- 이 방식은 더 간결하게 쓸 수 있습니다.
- 즉, 특정 컬럼 지정시 .loc 사용하기
    - `단, 평상시 loc를 쓰는 것을 권장` - 특히, 값을 교체할 때는 쓰지 않으면 경고 문구가 발생!

In [7]:
burger_df[burger_df['calories'] < 500]

Unnamed: 0,product_name,calories,carb,protein,fat,sodium,category
4,Whopper Junior,310,27,13,18,0.4,Burgers
8,Hamburger,240,26,13,10,0.4,Burgers
9,Cheeseburger,280,27,15,13,0.6,Burgers
10,Double Hamburger,350,26,21,18,0.4,Burgers
11,Double Cheeseburger,390,27,23,21,0.6,Burgers
13,Chicken Nuggets,170,11,8,11,0.3,Chicken
14,Spicy Chicken Nuggets,210,11,8,15,0.6,Chicken


## 4. 조건을 변수에 저장하기
- 필터링 조건이 길어지면, 조건 자체를 변수에 저장해 간편하게 사용할 수 있습니다.
- 조건을 mask 변수에 저장한 후, 이를 필터링에 재사용합니다.

In [8]:
mask = burger_df['calories'] < 500
burger_df.loc[mask, 'calories':'fat']

Unnamed: 0,calories,carb,protein,fat
4,310,27,13,18
8,240,26,13,10
9,280,27,15,13
10,350,26,21,18
11,390,27,23,21
13,170,11,8,11
14,210,11,8,15


## 5. 정리
1. 불린 인덱싱을 사용해 특정 조건에 맞는 데이터를 필터링할 수 있다.
2. loc[]를 사용해 특정 조건의 로우와 특정 컬럼을 함께 선택할 수 있다.
3. 로우만 필터링할 때는 loc 없이 간결하게 사용할 수 있다.
4. 조건을 변수에 저장해 재사용하거나 가독성을 높일 수 있다.