In [1]:
# 1. 파이썬 코드에서 Matplotlib 폰트 설정
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import numpy as np
from datetime import timedelta
from itertools import combinations
from collections import Counter

# 폰트 설정
plt.rc('font', family='Malgun Gothic')
# 마이너스 부호 깨짐 방지
plt.rcParams['axes.unicode_minus'] = False

print("한글 폰트 설정이 완료되었습니다.")


한글 폰트 설정이 완료되었습니다.


In [6]:
# 3. 데이터 로드 및 통합 (모든 문제 풀이의 시작점)
# dataframe 확인해라!
try:
    orders_df = pd.read_csv('../data/orders.csv')
    payments_df = pd.read_csv('../data/payments.csv')
    products_df = pd.read_csv('../data/products.csv')
    shipping_df = pd.read_csv('../data/shipping.csv')
    customers_df = pd.read_csv('../data/customers.csv')

    # 모든 데이터프레임 병합
    df = pd.merge(orders_df, payments_df, on='order_id', how='left')
    df = pd.merge(df, products_df, on='product_id', how='left')
    df = pd.merge(df, customers_df, on='customer_id', how='left')
    df = pd.merge(df, shipping_df, on='order_id', how='left')

    # 데이터 전처리
    date_cols = ['order_date', 'payment_date', 'join_date', 'shipping_start_date', 'shipping_end_date']
    for col in date_cols:
        df[col] = pd.to_datetime(df[col], errors='coerce')
    df['total_sales'] = df['quantity'] * df['price']
    
    print("데이터 로드 및 통합이 완료되었습니다.")

except FileNotFoundError as e:
    print(f"파일을 찾을 수 없습니다: {e}")


데이터 로드 및 통합이 완료되었습니다.


In [None]:
# 문제 11: 상품명에 특정 키워드가 포함된 상품들의 평균 가격과 다른 상품들의 평균 가격을 비교하세요.
# - 특정 키워드 : '스포츠용품'
# 비즈니스 목적: 상품 네이밍 전략이 가격 책정에 미치는 영향을 간접적으로 분석하고, 프리미엄 라인업 등의 키워드 전략을 평가합니다.

In [7]:
# 출력 결과를 보고 코딩하세요
result = """ 
'스포츠용품' 포함 상품 평균 가격: 56,466원
그 외 상품 평균 가격: 54,679원
"""
df.columns

Index(['order_id', 'customer_id', 'product_id', 'order_date', 'quantity',
       'payment_id', 'payment_method', 'payment_status', 'payment_date',
       'product_name', 'category', 'price', 'stock', 'name', 'gender', 'age',
       'join_date', 'city', 'shipping_id', 'shipping_company',
       'shipping_status', 'shipping_start_date', 'shipping_end_date',
       'total_sales'],
      dtype='object')

In [13]:
# 상품명에 스포츠용품이 들어간 것과 아닌 상품 나누기 
# df_quest11 = df[['product_name', 'price']].copy()

# '스포츠용품' 포함 여부로 그룹 분류,
# df_quest11['is_sports'] = df_quest11['product_name'].str.contains('스포츠용품', na=False)

# 한방에 필요한 데이터 가져오기 
df_quest11 =(df[['product_name', 'price']]
          .copy()
          # is_sports 컬럼 추가 : 상품명에 '스포츠용품'이 들어 잇으면 True, 아니면 False
          .assign(is_sports=lambda x: x['product_name'].str.contains('스포츠용품', na=False))
          )
# df_quest11.head() # 검증용

# is_sport 그룹별 평균 가격 계산
avg_prices = df_quest11.groupby('is_sports')['price'].mean() # series로 리턴

# 결과 출력
print(f"'스포츠용품' 평균 가격: {avg_prices[True]:,.0f}원")
print(f"그 외 평균 가격: {avg_prices[False]:,.0f}원")

      

'스포츠용품' 평균 가격: 56,466원
그 외 평균 가격: 54,679원
