# Part 6. 정렬과 표 형태 유지의 중요성
이 장은 값 정제가 끝난 데이터를 점검하고, 다음 단계(선택·파생·집계)로 넘어가기 전 상태를 안정화하는 단계다. <br>
정렬과 표 형태 유지는 단순한 보기 좋음이 아니라 분석 신뢰도를 높이기 위한 작업이다.

## 1) 정렬이 왜 필요한가
정렬은 결과를 예쁘게 만드는 작업이 아니다.
데이터 상태를 확인하는 가장 쉬운 방법이다.

정렬을 하게 되면
- 값의 흐름이 자연스러운지
- 이상한 값이 섞여 있지 않은지
- 그룹별 비교가 가능한 상태인지

를 파악 할 수 있게 된다.


정렬은 단순히 보기 좋게 만드는 게 아닌, 우선순위를 표 위에 고정해서 의사결정이 가능하게 만드는 것이다.

In [3]:
import pandas as pd

df = pd.DataFrame({
    "date": ["2026-01-03", "2026-01-01", "2026-01-02", "2026-01-03", "2026-01-01"],
    "menu": ["Latte", "Americano", "Mocha", "Americano", "Latte"],
    "qty":  [2, 1, 3, 1, 1],
    "price":[5000, 4500, 5500, 4500, 5000]
})

print("원본 DataFrame")
print(df)

print("\nDataFrame 정보")
print(df.info())

원본 DataFrame
         date       menu  qty  price
0  2026-01-03      Latte    2   5000
1  2026-01-01  Americano    1   4500
2  2026-01-02      Mocha    3   5500
3  2026-01-03  Americano    1   4500
4  2026-01-01      Latte    1   5000

DataFrame 정보
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    5 non-null      object
 1   menu    5 non-null      object
 2   qty     5 non-null      int64 
 3   price   5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes
None


해당 데이터는...
- 날짜 순서가 뒤죽박죽
- 같은 메뉴가 흩어져 있음
- 패턴이 잘 안 보임

**정렬 없이 보면 (의미 파악 어려움)**
> 즉 정렬이 필요한 상태

## 2) sort_values vs sort_index 차이(감 잡기)
정렬에는 두 가지 기준이 있다.
- sort_values → "값 기준 정렬"
- sort_index  → "인덱스 기준 정렬"

### sort_values: 값 기준 정렬
- 특정 컬럼의 값 순서로 정렬한다
- 크기 비교, 순위 확인, 이상치 점검에 사용한다

```python
# 기본 구조
df.sort_values(by="컬럼명", ascending=True)

# 여러 럴럼
df.sort_values(by=["컬럼1", "컬럼2"], ascending=[False, True])
```
- 값(column 값) 기준으로 행 순서를 정렬한다
- 랭킹, 매출순, 수량순 같은 리포트용 정렬에 사용
- ascending이 True면 오름차순, False면 내림차순

In [4]:
# sort_values: 값 기준 정렬
print("=== 정렬 하기 전 ===")
print(df)

print("\n=== 정렬을 한 후 ===")
# 정렬을 price값 기준으로 정렬한다.
print(df.sort_values("price", ascending=False))

=== 정렬 하기 전 ===
         date       menu  qty  price
0  2026-01-03      Latte    2   5000
1  2026-01-01  Americano    1   4500
2  2026-01-02      Mocha    3   5500
3  2026-01-03  Americano    1   4500
4  2026-01-01      Latte    1   5000

=== 정렬을 한 후 ===
         date       menu  qty  price
2  2026-01-02      Mocha    3   5500
0  2026-01-03      Latte    2   5000
4  2026-01-01      Latte    1   5000
1  2026-01-01  Americano    1   4500
3  2026-01-03  Americano    1   4500


### sort_index: 인덱스 기준 정렬
- 행의 인덱스 순서로 정렬한다
- GroupBy, Pivot 결과를 정리할 때 자주 사용한다

```python
# 기본 구조
df.sort_index(ascending=True)
```
- 인덱스(행 라벨) 기준으로 순서를 정렬한다
- 날짜 인덱스, groupby 결과 정리에 자주 사용

In [5]:
# sort_index: 인덱스 기준 정렬
print("=== 정렬 전 ===")
print(df)

print("\n=== 정렬 후 ===")
df_date_indexed = df.set_index("date")
print(df_date_indexed.sort_index())

=== 정렬 전 ===
         date       menu  qty  price
0  2026-01-03      Latte    2   5000
1  2026-01-01  Americano    1   4500
2  2026-01-02      Mocha    3   5500
3  2026-01-03  Americano    1   4500
4  2026-01-01      Latte    1   5000

=== 정렬 후 ===
                 menu  qty  price
date                             
2026-01-01  Americano    1   4500
2026-01-01      Latte    1   5000
2026-01-02      Mocha    3   5500
2026-01-03      Latte    2   5000
2026-01-03  Americano    1   4500


In [6]:
# 나중에 배울것
# groupby 결과 인덱스 정리
orders = pd.DataFrame({
    "menu": ["Latte","Americano","Latte","Mocha","Mocha","Tea"],
    "qty":  [2, 1, 3, 1, 2, 4]
})
qty_sum = orders.groupby("menu")["qty"].sum()
qty_sum_sorted_by_index = qty_sum.sort_index()

print("=== 정렬 전 ===")
print(orders)

print("\n=== 정렬 후 ===")
print(qty_sum_sorted_by_index)

=== 정렬 전 ===
        menu  qty
0      Latte    2
1  Americano    1
2      Latte    3
3      Mocha    1
4      Mocha    2
5        Tea    4

=== 정렬 후 ===
menu
Americano    1
Latte        5
Mocha        3
Tea          4
Name: qty, dtype: int64


## 3) 정렬은 "검증의 단계"다
전처리 과정에서 정렬은 항상 중간 점검용으로 사용하자
- 문자열 → 숫자 변환이 잘 되었는지
- 결측치 처리 결과가 의도와 맞는지
- 범주값 통일이 제대로 되었는지

이 모든 것을 정렬 한 번으로 빠르게 확인할 수 있다.

## 4) 다시 한번더 보는 “표 형태(DataFrame) 유지”가 중요한 이유
전처리와 분석에서는 표 형태(DataFrame)를 유지하는 것이 매우 중요하다.

표 형태를 유지하면 다음이 가능해진다.
- 컬럼 기반 연산이 자연스럽다
- GroupBy / Merge / Pivot이 안정적이다
- 시각화 단계로 바로 이어진다

반대로 Series로 바뀌면 생기는 문제가 있다.
- 컬럼 추가가 불편해지고
- 병합이 어려워지고
- 다음 단계 코드가 복잡해진다

때문에 항상 **결과는 항상 DataFrame으로 유지한다**

In [7]:
# ---------------------------------------
#- 결과는 Series, 컬럼 이름이 없음
#- 다음 단계에서 불편해짐
# ---------------------------------------

menu_qty = df.groupby("menu")["qty"].sum()
menu_qty

menu
Americano    2
Latte        3
Mocha        3
Name: qty, dtype: int64

In [8]:
# ---------------------------------------
# DataFrame 유지, 컬럼명 존재
# 다음 연산 / 정렬 / 시각화가 쉬움
# ---------------------------------------

menu_qty_df = df.groupby("menu")[["qty"]].sum()
menu_qty_df

Unnamed: 0_level_0,qty
menu,Unnamed: 1_level_1
Americano,2
Latte,3
Mocha,3


## 5) 초보자에게 추천하는 2가지 습관
이 두 가지만 습관으로 잡아도 전처리 실수에서의 실수는 크게 줄어든다.

### 습관 1) 결과를 바로 정렬한다
- 전처리 한 번
- 정렬 한 번

은 만들자마자 의도에 맞게 정렬하자. <br>

In [9]:
# ---------------------------------------
# 요약 → 정렬까지 한 번에
# 결과 해석이 즉시 가능
# ---------------------------------------

menu_summary = (
    df.groupby("menu")[["qty", "price"]]
        .sum()
        .sort_values("qty", ascending=False)
)

menu_summary

Unnamed: 0_level_0,qty,price
menu,Unnamed: 1_level_1,Unnamed: 2_level_1
Latte,3,10000
Mocha,3,5500
Americano,2,9000


### 습관 2) DataFrame 형태를 의식적으로 유지한다
- 지금 결과가 Series인지
- DataFrame인지

항상 한 번 더 확인하자.

In [10]:
# ---------------------------------------
# 단일 컬럼 선택 (Series)
# df.groupby("menu")["price"].mean()
# 단일 컬럼 선택은 데이터 클리닝이 아니라면 자제하도록 하자
# ---------------------------------------

df.groupby("menu")[["price"]].mean()

Unnamed: 0_level_0,price
menu,Unnamed: 1_level_1
Americano,4500.0
Latte,5000.0
Mocha,5500.0
