In [6]:
import pandas as pd
from pathlib import Path

# 1) 경로 설정
RAW = Path("../data/raw")          # 원본 데이터 위치
PROCESSED = Path("../data/processed")  # 전처리된 데이터 저장 위치
PROCESSED.mkdir(parents=True, exist_ok=True)  # 폴더가 없으면 자동 생성

# 2) CSV 불러오기
df = pd.read_csv(RAW / "sales.csv")   # data/raw/sales.csv 읽기
print("원본 데이터 크기:", df.shape)
display(df.head())   # 앞부분 미리보기

# 3) 날짜 컬럼 변환 (문자열 → 날짜형식)
df["date"] = pd.to_datetime(df["date"])

# 4) 매출액(revenue) 계산: 가격(price) × 수량(quantity)
df["revenue"] = df["price"] * df["quantity"]

# 5) 제품별 매출 합계 요약
summary = df.groupby("product", as_index=False)["revenue"].sum().sort_values("revenue", ascending=False)
print("\n제품별 매출 합계")
display(summary)

# 6) 전처리된 데이터 저장
out_path = PROCESSED / "sales_clean.csv"
df.to_csv(out_path, index=False)
print("\n저장 완료:", out_path.resolve())


원본 데이터 크기: (6, 5)


Unnamed: 0,date,product,region,price,quantity
0,2025-01-01,Keyboard,Seoul,25000,3
1,2025-01-02,Mouse,Busan,12000,5
2,2025-01-03,Keyboard,Seoul,25000,2
3,2025-01-04,Monitor,Incheon,180000,1
4,2025-01-05,Mouse,Seoul,12000,7



제품별 매출 합계


Unnamed: 0,product,revenue
1,Monitor,540000
2,Mouse,144000
0,Keyboard,125000



저장 완료: C:\Users\user\Documents\da-playground\data\processed\sales_clean.csv


In [4]:
from pathlib import Path

print("현재 작업폴더:", Path.cwd())
p = Path("../data/raw")
print("찾을 폴더 존재?", p.resolve(), "=>", p.exists())
print("그 폴더 안 파일 목록:", [x.name for x in p.glob("*")])

현재 작업폴더: C:\Users\user\Documents\da-playground\notebooks
찾을 폴더 존재? C:\Users\user\Documents\da-playground\data\raw => True
그 폴더 안 파일 목록: ['.gitkeep', 'sales.csv.txt']


In [5]:
from pathlib import Path
src = Path("../data/raw/sales.csv.txt")
dst = Path("../data/raw/sales.csv")
if src.exists():
    src.rename(dst)
    print("이름 변경 완료:", dst.resolve())
else:
    print("대상 파일이 없습니다:", src.resolve())

이름 변경 완료: C:\Users\user\Documents\da-playground\data\raw\sales.csv
