# Part 7. 인덱싱과 조건 필터링
이 장은 값이 정리된 데이터에서 분석에 필요한 행과 컬럼만 정확히 선택하는 단계다. <br>
전처리의 후반부에서 가장 많이 실수가 발생하는 부분이기도 하다.

## 1) 인덱싱과 필터링의 역할
전처리는 전체 데이터를 예쁘게 만드는 작업이 아니다. 분석에 필요한 데이터만 남기는 작업이다. <br>
이를 위해 필요한 것이:
- 인덱싱 → 어디를 고를 것인가
- 조건 필터링 → 어떤 조건으로 고를 것인가

## 2) Row 선택과 Column 선택의 구분
인덱싱을 헷갈리게 만드는 가장 큰 원인은 행과 열을 구분하지 않고 생각하는 것이다.

- 행(Row) 선택<br>
→ 어떤 관측치(사건, 기록) 를 볼 것인가

- 열(Column) 선택<br>
→ 어떤 변수(속성) 를 볼 것인가

전처리 단계에서는 아래 두 질문을 항상 분리해서 판단해야 한다.
- "이 행이 분석 대상인가?"
- "이 컬럼이 분석에 필요한가?"

# 특정행에서 값 가져오는 내용 추가 필요!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

## 7.3) loc과 iloc의 차이
인덱싱은 "데이터를 고르는 행위"이다. <br>
loc과 iloc은 그 선택 기준을 라벨로 할지, 위치로 할지 결정하는 방법이다.

<br>
loc과 iloc의 차이는 단순한 문법 차이가 아니라 접근 기준의 차이다.
- loc<br>
→ 라벨(이름) 기준 접근<br>
→ 컬럼명, 인덱스명으로 선택

- iloc<br>
→ 위치(순서) 기준 접근<br>
→ 몇 번째 행, 몇 번째 열로 선택

이 차이를 이해하지 못하면 "분명 맞는 것 같은데 결과가 다르다"는 상황이 자주 발생한다.

전처리/분석 코드에서는 의도가 명확한 loc 사용이 더 안전한 경우가 많다.

In [36]:
import pandas as pd

df = pd.DataFrame(
    {"menu": ["Latte", "Americano", "Mocha", "Vanilla"],
    "price": [5000, 4500, 5500, 6000]},
    index=["A001", "A002", "A003", "A004"]
)
# 행의 이름(라벨): "A001", "A002", "A003", "A004"
# 행의 순서(위치): 0, 1, 2, 3

df

Unnamed: 0,menu,price
A001,Latte,5000
A002,Americano,4500
A003,Mocha,5500
A004,Vanilla,6000


### .loc : 라벨(이름) 기준 조회
```python
.loc[행 label, 열 label]
```
> df에서 행 label에 해당하는 행들 중에서 열 label에 해당하는 열만 가져와라”

언제 쓰는가?
- 인덱스나 컬럼 이름에 의미가 있을 때
- 조건 필터링과 함께 사용할 때

핵심 특징
- 행 / 열 이름으로 접근
- 문자열 라벨 사용 가능
- 조건 필터링과 궁합이 좋음
- 슬라이싱 시 끝 라벨이 포함될 수 있음

In [None]:
# 인덱스가 A002인 행을 가져와라
df.loc["A002"]

np.int64(4500)

In [30]:
# 인덱스가 A001 부터 A003 까지의 행을 가져와라
df.loc["A001":"A003"]

Unnamed: 0,menu,price
A001,Latte,5000
A002,Americano,4500
A003,Mocha,5500


In [33]:
# 인덱스가 A004인 행의 price 컬럼 값을 가져와라
df.loc["A004", "price"]

np.int64(6000)

In [32]:
# 특정 다수의 값을 부를땐 이중대괄호를 사용해야한다.
df.loc[["A001","A003", "A004"]]

Unnamed: 0,menu,price
A001,Latte,5000
A003,Mocha,5500
A004,Vanilla,6000


In [None]:
# 인덱스가 A001부터 A004까지인 행들 중에서 price와 menu 컬럼만 가져와라
df.loc["A001":"C", ["menu", "price"]]

Unnamed: 0,menu,price
A001,Latte,5000
A002,Americano,4500
A003,Mocha,5500
A004,Vanilla,6000


### .iloc : 위치(순서) 기준 조회
```python
df.iloc[행 위치, 열 위치]
```
언제 쓰는가?
- “위에서 몇 번째”가 중요할 때
- 데이터 구조를 빠르게 확인할 때

핵심 특징
- 정수 위치만 사용
- 파이썬 리스트 슬라이싱과 동일
- 슬라이싱 시 끝은 항상 미포함

In [13]:
# 순서가 1인 행을 가져와라
df.iloc[1]

menu     Americano
price         4500
Name: A002, dtype: object

In [35]:
# df의 첫 번째 행, 첫 번째 열 값을 가져와라
df.iloc[0, 0]

'Latte'

In [14]:
# 슬라이싱은 끝을 포함하지 않기 때문에 A001~A002만 나왔다.
df.iloc[0:2]

Unnamed: 0,menu,price
A001,Latte,5000
A002,Americano,4500


In [15]:
df.iloc[[0,1,3]]

Unnamed: 0,menu,price
A001,Latte,5000
A002,Americano,4500
A004,Vanilla,6000


## 4) 조건 필터링의 핵심 아이디어
조건 필터링의 본질은 이것이다.
조건식은 True / False로 이루어진 마스크를 만든다. <br>
이 마스크를 이용해 행을 선택한다.
- 조건 자체
- 조건으로 선택

을 분리해서 생각해야 한다.

<br>

예를 들어 "결제가 완료된 주문만 보고 싶다"면,
- 결제 완료 → True
- 결제 실패 → False

이렇게 만든 True/False 배열이 바로 마스크다.

In [16]:
import pandas as pd

df = pd.DataFrame({
    "order_id": [1, 2, 3, 4, 5, 6],
    "store": ["A","A","B","A","B","A"],
    "menu": ["Latte","Americano","Latte","Mocha","Latte","Latte"],
    "price": [5000, 4500, 5000, 5500, 5000, 5000],
    "paid": [True, False, True, True, False, True]
})

print("데이터프레임")
print(df)

print("\n데이터프레임.info()")
print(df.info())

데이터프레임
   order_id store       menu  price   paid
0         1     A      Latte   5000   True
1         2     A  Americano   4500  False
2         3     B      Latte   5000   True
3         4     A      Mocha   5500   True
4         5     B      Latte   5000  False
5         6     A      Latte   5000   True

데이터프레임.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   order_id  6 non-null      int64 
 1   store     6 non-null      object
 2   menu      6 non-null      object
 3   price     6 non-null      int64 
 4   paid      6 non-null      bool  
dtypes: bool(1), int64(2), object(2)
memory usage: 326.0+ bytes
None


In [17]:
mask = (df["paid"] == True)

paid_orders = df[mask]

print("=== 필터 ===")
print(mask)

print("\n=== 필터 적용 전 ===")
print(df)
print(df.shape)

print("\n=== 필터 적용 후 ===")
print(paid_orders)
print(paid_orders.shape)

=== 필터 ===
0     True
1    False
2     True
3     True
4    False
5     True
Name: paid, dtype: bool

=== 필터 적용 전 ===
   order_id store       menu  price   paid
0         1     A      Latte   5000   True
1         2     A  Americano   4500  False
2         3     B      Latte   5000   True
3         4     A      Mocha   5500   True
4         5     B      Latte   5000  False
5         6     A      Latte   5000   True
(6, 5)

=== 필터 적용 후 ===
   order_id store   menu  price  paid
0         1     A  Latte   5000  True
2         3     B  Latte   5000  True
3         4     A  Mocha   5500  True
5         6     A  Latte   5000  True
(4, 5)


## 5) 조건을 따로 만드는 이유
조건을 변수로 분리하면:
- 가독성이 좋아지고
- 디버깅이 쉬워지고
- 조건 재사용이 가능해진다

이 형태는 조회, 수정 모두에서 일관되게 사용 가능하다.

In [18]:
# 1. 조건에 맞는 행이 몇 개인지 바로 확인 가능
mask_paid = (df["paid"] == True)
print("조건에 맞는 행의 총 개수")
mask_paid.sum()   # True는 1로 계산됨 → 조건에 맞는 행 개수

조건에 맞는 행의 총 개수


np.int64(4)

In [19]:
# 2. 여러 조건을 조합할 때 디버깅이 쉬움
mask_storeA = (df["store"] == "A")
mask_latte  = (df["menu"] == "Latte")

mask_final = mask_paid & mask_storeA & mask_latte
mask_final


0     True
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [20]:
# 3. 같은 조건을 재사용하기 쉬움
df[mask_final]
df.loc[mask_final, ["order_id", "menu", "price"]]

Unnamed: 0,order_id,menu,price
0,1,Latte,5000
5,6,Latte,5000


## 6) 다중 조건을 구성할때 필수 규칙
조건이 하나일 때는 괜찮지만, 두 개 이상이 되는 순간 실수가 급증한다. <br>
그래서 아래 규칙은 "이해"보다 습관처럼 쓰는 것이 중요하다.

### 규칙 1) 각 조건은 반드시 괄호로 묶는다
&와 |는 연산자 우선순위가 낮기 때문에 괄호가 없으면 조건이 의도와 다르게 묶인다.<br>
연산자 우선순위 문제를 피하기 위해 조건 하나하나를 괄호로 감싼다.
- AND → (조건1) & (조건2)
- OR → (조건1) | (조건2)
- NOT → ~(조건)

### 규칙 2) and / or 가 아니라 & / | 를 사용한다
Pandas의 조건 필터링은 파이썬의 단일 True/False가 아니라 Series 단위의 True/False 연산이다.
- and, or <br>
→ 단일 True/False 판단용
- &, |<br>
→ 판다스의 True/False 배열(필터)용

In [21]:
# AND 조건
mask_and = (df["paid"] == True) & (df["store"] == "A") & (df["menu"] == "Latte")

# OR 조건
mask_or = (df["menu"] == "Latte") | (df["menu"] == "Mocha")

# NOT 조건
mask_not = ~(df["paid"] == True)

print("=== 필터 적용 전 ===")
print(df)

print("\n=== AND 조건 ===")
print(df.loc[mask_and])

print("\n=== OR 조건 ===")
print(df.loc[mask_or])

print("\n=== NOT 조건 ===")
print(df.loc[mask_not])

=== 필터 적용 전 ===
   order_id store       menu  price   paid
0         1     A      Latte   5000   True
1         2     A  Americano   4500  False
2         3     B      Latte   5000   True
3         4     A      Mocha   5500   True
4         5     B      Latte   5000  False
5         6     A      Latte   5000   True

=== AND 조건 ===
   order_id store   menu  price  paid
0         1     A  Latte   5000  True
5         6     A  Latte   5000  True

=== OR 조건 ===
   order_id store   menu  price   paid
0         1     A  Latte   5000   True
2         3     B  Latte   5000   True
3         4     A  Mocha   5500   True
4         5     B  Latte   5000  False
5         6     A  Latte   5000   True

=== NOT 조건 ===
   order_id store       menu  price   paid
1         2     A  Americano   4500  False
4         5     B      Latte   5000  False


## 7.7) 가장 안전한 기본 형태
조건 필터링에서 실무적으로 가장 안전하고 권장되는 형태는 다음 구조다.

```python
# 행 조건은 앞에, 컬럼 선택은 뒤에
df.loc[조건, 컬럼]
```

조건 필터링의 실무 표준 문장은 이 형태다.
- 조건 → 어떤 행을 고를지
- 컬럼 → 어떤 열만 볼지

In [22]:
# 1단계 조건 생성
condition = (df["paid"] == True)

# 2단계. 컬럼 정하기 (보여줄 열)
cols = ["menu", "price"]

# 3단계. 기본 형태로 적용: 이 한 줄로 "결제 완료인 행만 + 필요한 컬럼만" 표현 가능
result = df.loc[condition, cols]


print("=== 필터 적용 전 ===")
print(df)


print("\n=== 필터 ===")
print(condition)

print("\n=== 필터 적용 후 ===")
print(result)

=== 필터 적용 전 ===
   order_id store       menu  price   paid
0         1     A      Latte   5000   True
1         2     A  Americano   4500  False
2         3     B      Latte   5000   True
3         4     A      Mocha   5500   True
4         5     B      Latte   5000  False
5         6     A      Latte   5000   True

=== 필터 ===
0     True
1    False
2     True
3     True
4    False
5     True
Name: paid, dtype: bool

=== 필터 적용 후 ===
    menu  price
0  Latte   5000
2  Latte   5000
3  Mocha   5500
5  Latte   5000
