In [3]:
# 흐름: JSON 문자열 파싱 → 중첩 딕셔너리에서 값 추출 → 필터링 → 저장
# 조건: meta.price가 1200 이상인 경우만 필터링
# 이유: 고가 주문만 별도로 분석하기 위한 목적

import pandas as pd
import json
from pathlib import Path

# 1. 경로 설정
data_dir = Path("data")  
orders_path = data_dir / "orders_with_nested_json.csv"
out_path = data_dir / "filtered_nested_orders.csv"

# 2. CSV 파일 로딩
df = pd.read_csv(orders_path)

# 3. info_json 컬럼 → 딕셔너리로 파싱 (예외 방어 포함)
def safe_parse(json_str):
    try:
        return json.loads(json_str)
    except:
        return {}

df["info"] = df["info_json"].apply(safe_parse)

# 4. price, status 컬럼 분리
df["price"] = df["info"].apply(lambda x: x.get("meta", {}).get("price"))
df["status"] = df["info"].apply(lambda x: x.get("meta", {}).get("status"))

# 5. 필터링: price가 1200 이상인 행만
filtered_df = df.loc[df["price"] >= 1200]

# 6. 검증 (assert)
assert not df.empty, "원본 CSV가 비어 있음"
assert len(filtered_df) > 0, "조건을 만족하는 행이 없음"

# 7. 저장
filtered_df.to_csv(out_path, index=False)
assert out_path.exists(), "결과 CSV 저장 실패"

# 8. 출력 확인
print(filtered_df[["order_id", "price", "status"]].head())


   order_id  price     status
1         2   1300  confirmed
3         4   1500    shipped
4         5   1250    pending


In [None]:
##직접 실습

import pandas as pd
import json
from pathlib import Path

## 경로 설정이미 되잇으므로 생략
#data_dir = Path("data")
#orders_path = data_dir / "orders_with_nested_json.csv"
#out_path = data_dir / "filtered_nested_orders.csv"

## 파일불러오기
df2 = pd.read_csv(orders_path)

## 안전하게 불러오는 함수
def safe_parse2(json_str):
    try:
        return json.loads(json_str)
    except:
        return {}
    
df2["info"] = df2["info_json"].apply(safe_parse2)

## 각 요소 분리저장 (아직 이해 미숙)
df2["price"] = df2["info"].apply(lambda x: x.get("meta", {}).get("price"))
df2["status"] = df2["info"].apply(lambda x: x.get("meta", {}).get("status"))

## 필터링

filtered_df2 = df.loc[df["price"] >= 1200]


## 검사

assert not df2.empty, "원본 CSV가 비어 있음"
assert len(filtered_df2) > 0, "조건을 만족하는 행이 없음"

## 저장
filtered_df2.to_csv(out_path,index=False)
assert out_path.exists(), "결과 CSV 저장 실패"
## 어썰트 개념 다시숙지 필요

# 출력 확인
print(filtered_df2[["order_id", "price", "status"]].head())

   order_id  price     status
1         2   1300  confirmed
3         4   1500    shipped
4         5   1250    pending
