In [None]:
!pip install koreanize-matplotlib #한글폰트 라이브러리 설치
!apt-get install -y fonts-nanum #나눔 고딕 폰트 설치
!pip install -q gdown

import gdown
import matplotlib.pyplot as plt
import koreanize_matplotlib  # 한글 자동 설정됨
import pandas as pd
import seaborn as sns

from google.colab import drive
drive.mount('/content/drive')

# plt.rcParams['font.family'] = 'NanumGothic' #나눔 고딕 폰트 설정

In [None]:
# CSV 파일 불러오기

transactions_file_id = '1rzQ8Bz6hGQ7IYZPWzEkaXIJXvA6pCFkq'
output_path = 'transactions_hm.csv'
gdown.download(f'https://drive.google.com/uc?id={transactions_file_id}', output_path, quiet=False)


articles = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/articles_hm.csv')
customers = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/customer_hm.csv')
transactions = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/transactions_hm.csv')

In [None]:
# 각 테이블에 대한 열과 행 개수를 표현해주세요.
articles.shape # (105542, 25)
customers.shape # (1048575, 6)
transactions.shape # (1048575, 5)

In [None]:
# 각 테이블에 대한 컬럼타입과 통계량을 보여주세요.
articles.info()
articles.describe()
customers.info()
customers.describe()
transactions.info()
transactions.describe()

In [None]:
# NULL 값이 존재하는 경우, 대체 or 제거 모두 가능합니다.
customers.isnull().sum() # fashion_news_frequency (패션 뉴스 알람 주기) 컬럼 null 값 1개
articles.isnull().sum() # detail_desc (제품 상세 설명) 컬럼 null 값 416
transactions.isnull().sum() # null 값 0개

# NULL 값 제거/대체 필요없어 보임

In [None]:
customers.isnull().sum()

## **연령대 별 매출 현황**

In [None]:
# 연령대 컬럼 생성
def get_age_group(age):
  if age < 20:
    return '10대 이하'
  elif age < 30:
    return '20대'
  elif age < 40:
    return '30대'
  elif age < 50:
    return '40대'
  elif age < 60:
    return '50대'
  else:
    return '60대 이상'

customers['age_group'] = customers['age'].apply(get_age_group)

In [None]:
# 테이블을 결합하여, 데이터분석을 위한 하나의 데이터셋으로 만들어주세요.
# 모든 테이블을 결합하지 않아도 좋습니다.
# 테이블 결합 시 inner join 으로 진행해주세요.

# 거래 데이터에 고객 정보 병합
merged_df = pd.merge(transactions, customers, on='customer_id', how='inner')

In [None]:
merged_df.head()

In [None]:
# 연령대별 매출 집계
sales_by_age = merged_df.groupby('age_group')['price'].sum().reset_index()

sales_by_age

In [None]:
plt.figure(figsize=(8,5))
bars = plt.bar(sales_by_age['age_group'], sales_by_age['price'])

# 막대 그래프 위에 매출 숫자 표시
for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2, yval + 50,  # 숫자가 막대 위로 조금 올라가게 조정
             f'{yval:,.0f}', ha='center', va='bottom')  # 숫자 형식을 쉼표로 추가

plt.title('연령대 별 매출 현황')
plt.xlabel('연령대')
plt.ylabel('총 매출')
plt.show()

In [None]:
'''
분석 요약
1. 20대가 가장 큰 매출 비중을 차지하고 있다.
2. 그 다음은 30대, 50대, 40대가 많이 차지
3. 10대 이하는 매출 비중이 가장 낮다

'''

## **채널별 판매 비중**

In [None]:
# 연령대 컬럼 생성
def get_age_group(age):
    if age < 20:
        return '10대 이하'
    elif age < 30:
        return '20대'
    elif age < 40:
        return '30대'
    elif age < 50:
        return '40대'
    elif age < 60:
        return '50대'
    else:
        return '60대 이상'


In [None]:
customers['age_group'] = customers['age'].apply(get_age_group)

In [None]:
customers.head()

In [None]:
# 거래 데이터와 고객 데이터를 customer_id 기준으로 INNER JOIN
merged = pd.merge(transactions, customers, on='customer_id', how='inner')

In [None]:
# 전체 고객 대상 온라인/오프라인 구매 비중
total_counts = merged['sales_channel_id'].value_counts().sort_index()
total_ratio = total_counts / total_counts.sum() * 100


print("전체 고객 대상 온라인/오프라인 구매 비중 (%)")
print(total_ratio)
print(total_counts)

# 온라인 비중이 더 높다

In [None]:
# 파이 차트로 보기

ratio = total_ratio
labels = ['오프라인', '온라인']
explode = [0, 0.01]
wedgeprops={'width': 0.7, 'edgecolor': 'w', 'linewidth': 5}
plt.pie(ratio, labels=labels, autopct='%.1f%%', explode=explode, wedgeprops=wedgeprops)
plt.title('채널별 구매 비율')
plt.show()

In [None]:
# 연령대별 온라인/오프라인 구매 비중
age_channel_counts = merged.groupby(['age_group', 'sales_channel_id']).size().unstack(fill_value=0)
age_channel_ratio = age_channel_counts.div(age_channel_counts.sum(axis=1), axis=0) * 100

print("\n연령대별 온라인/오프라인 구매 비중 (%)")
print(age_channel_ratio)

In [None]:
# age_channel_ratio 재정리 (인덱스 초기화)
plot_df = age_channel_counts.reset_index()

# age_channel_counts 재정리 (인덱스 초기화)
plot_df = age_channel_counts.reset_index()

# 컬럼명 매핑 (1 → 오프라인, 2 → 온라인)
plot_df = plot_df.rename(columns={1: '오프라인', 2: '온라인'})

# Melt로 긴 형태로 변환 (seaborn barplot에 적합한 형태로 변환)
plot_df_melt = pd.melt(plot_df, id_vars='age_group', value_vars=['오프라인', '온라인'],
                       var_name='구매채널', value_name='매출')

# 시각화
plt.figure(figsize=(10,6))
ax = sns.barplot(x='age_group', y='매출', hue='구매채널', data=plot_df_melt)

# 막대 위에 매출 숫자 표시
for p in ax.patches:
    height = p.get_height()
    if height > 0:   # 막대의 높이 (매출 값)
        ax.text(p.get_x() + p.get_width() / 2, height + 1000,  # 숫자가 막대 위로 조금 올라가게 조정
            f'{height:,.0f}', ha='center', va='bottom')  # 매출 값 표시 (쉼표로 구분)

plt.title('연령대별 온라인/오프라인 매출 비교')
plt.ylabel('매출')
plt.xlabel('연령대')
plt.legend(title='구매채널')

plt.show()

In [None]:
# 비중 재정리 (인덱스 초기화)
plot_df = age_channel_ratio.reset_index()

# 컬럼명 매핑 (1 → 오프라인, 2 → 온라인)
plot_df = plot_df.rename(columns={1: '오프라인', 2: '온라인'})

# Melt로 긴 형태로 변환 (seaborn barplot에 적합한 형태로 변환)
plot_df_melt = pd.melt(plot_df, id_vars='age_group', value_vars=['오프라인', '온라인'],
                       var_name='구매채널', value_name='비중')

# 시각화
plt.figure(figsize=(10,6))
ax = sns.barplot(x='age_group', y='비중', hue='구매채널', data=plot_df_melt)

# 막대 위에 비중 숫자 표시
for p in ax.patches:
    height = p.get_height()  # 막대의 높이 (비중 값)
    if height > 0:  # 0일 때는 표시하지 않음
       ax.text(p.get_x() + p.get_width() / 2, height + 1,  # 숫자가 막대 위로 조금 올라가게 조정
            f'{height:.1f}%', ha='center', va='bottom')  # 비중 값 표시 (소수점 1자리)

plt.title('연령대별 온라인/오프라인 구매 비율(%)')
plt.ylabel('비율 (%)')
plt.xlabel('연령대')
plt.legend(title='구매채널')
plt.ylim(0, 100)  # 비중을 퍼센트로 표시하기 위해 y축 범위 설정
plt.show()

## **온라인 구매 고객은 특정 카테고리 제품군을 구매할 것이다.**
## 오프라인, 온라인 채널에서는 각각 어떤 제품들이 인기가 많을까?


In [None]:
import pandas as pd

articles = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/articles_hm.csv')
customers = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/customer_hm.csv')
transactions = pd.read_csv('/content/drive/MyDrive/h&m dataset/h&m dataset/transactions_hm.csv')


In [None]:
# 결측치 제거는 안하는 걸로

In [None]:
# 거래 데이터에 상품 정보 병합
merged_df = pd.merge(transactions, articles, on = 'article_id', how = 'inner')

In [None]:
# 채널별 카테고리 구매 비율 계산

# step 1: count 먼저
category_count = (
    merged_df.groupby(['sales_channel_id', 'product_type_name'])
    .size()
    .reset_index(name='count')
)

category_count

In [None]:
# step 2: 비율(percentage) 계산
category_count['percentage'] = (
    category_count
    .groupby('sales_channel_id')['count']
    .transform(lambda x: 100 * x / x.sum())
)

category_count

In [None]:
# 온라인 (sales_channel_id = 2) 상위 10개
top10_online = (
    category_count[category_count['sales_channel_id'] == 2]
    .sort_values(by='count', ascending=False)
    .head(10)
    .reset_index()
)
top10_online.index=top10_online.index+1
top10_online


In [None]:
# 오프라인 (sales_channel_id = 1) 상위 10개
top10_offline = (
    category_count[category_count['sales_channel_id'] == 1]
    .sort_values(by='count', ascending=False)
    .head(10)
    .reset_index()
)
top10_offline.index=top10_offline.index+1

top10_offline

In [None]:
# 공통 카테고리 기준으로 비교
top_categories = pd.concat([top10_online, top10_offline])
common_top = top_categories['product_type_name'].value_counts().index[:10]

online_data = top10_online[top10_online['product_type_name'].isin(common_top)][['product_type_name', 'count']]
offline_data = top10_offline[top10_offline['product_type_name'].isin(common_top)][['product_type_name', 'count']]

merged_counts = pd.merge(offline_data, online_data, on='product_type_name', how='outer', suffixes=('_offline', '_online')).fillna(0)
merged_counts = merged_counts.sort_values(by='product_type_name')

# 그래프
x = range(len(merged_counts))
plt.figure(figsize=(12, 6))
plt.bar([i - 0.2 for i in x], merged_counts['count_offline'], width=0.4, label='오프라인')
plt.bar([i + 0.2 for i in x], merged_counts['count_online'], width=0.4, label='온라인')
plt.xticks(x, merged_counts['product_type_name'], rotation=45, ha='right')
plt.ylabel('구매 건수')
plt.title('카테고리별 온라인 vs 오프라인 구매 건수 비교')
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

# 공통 카테고리
common_names = set(top10_online['product_type_name']) & set(top10_offline['product_type_name'])

# 색상 맵핑
all_names = pd.concat([top10_offline, top10_online])['product_type_name'].unique()
cmap = cm.get_cmap('tab20', len(all_names))

color_map = {}
used_index = 0
for name in all_names:
    if name in common_names:
        if name not in color_map:
            color_map[name] = cmap(used_index)
            used_index += 1
    else:
        color_map[name] = cmap(used_index)
        used_index += 1

# ✅ count 기준으로 정렬
top10_offline_sorted = top10_offline.sort_values(by='count', ascending=True)  # 오름차순으로 놓고 invert_yaxis()
top10_online_sorted = top10_online.sort_values(by='count', ascending=True)

# 그래프
fig, axes = plt.subplots(1, 2, figsize=(14, 6), sharey=True)

# 오프라인
axes[0].barh(top10_offline_sorted['product_type_name'], top10_offline_sorted['count'],
             color=[color_map[name] for name in top10_offline_sorted['product_type_name']])
axes[0].set_title('오프라인 Top 10')
axes[0].invert_yaxis()  # ✅ 가장 많은 게 위로 오도록 설정

# 온라인
axes[1].barh(top10_online_sorted['product_type_name'], top10_online_sorted['count'],
             color=[color_map[name] for name in top10_online_sorted['product_type_name']])
axes[1].set_title('온라인 Top 10')
axes[1].invert_yaxis()  # ✅ 역시 가장 많은 게 위

plt.suptitle('Top 10 카테고리 비교 (겹치는 항목은 같은 색)', fontsize=14)
plt.tight_layout()
plt.show()

In [None]:
import pandas as pd

# 1. 데이터 불러오기

# 2. Null 값 제거

# 3. 날짜 컬럼을 datetime 형식으로 변환
transactions['t_dat'] = pd.to_datetime(transactions['t_dat'])

# 4. 요일 정보 추출
# - weekday_num: 숫자 요일 (0=월, ..., 6=일)
# - weekday_name: 문자 요일 (Monday, ..., Sunday)
transactions['weekday_num'] = transactions['t_dat'].dt.dayofweek
transactions['weekday_name'] = transactions['t_dat'].dt.day_name()

# 5. 요일별 매출 집계 (총 매출 합계)
sales_by_weekday = (
    transactions.groupby('weekday_name')['price']
    .sum()
    .reindex(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])  # 요일 순서대로 정렬
    .reset_index()
)

# 6. 결과 출력
print("📊 요일별 총 매출")
print(sales_by_weekday)

In [None]:

# 날짜를 datetime으로 변환
transactions["t_dat"] = pd.to_datetime(transactions["t_dat"])

# 요일 컬럼 추가 (0=월 ~ 6=일 → 요일 이름으로 매핑)
weekday_names = ["월", "화", "수", "목", "금", "토", "일"]
transactions["weekday_name"] = transactions["t_dat"].dt.dayofweek.map(lambda x: weekday_names[x])

# 요일별 + 채널별 매출 집계
sales_by_weekday_named = (
    transactions
    .groupby(["weekday_name", "sales_channel_id"])["price"]
    .sum()
    .reset_index()
    .pivot(index="weekday_name", columns="sales_channel_id", values="price")
    .rename(columns={1: "오프라인", 2: "온라인"})
    .reindex(weekday_names)  # 요일 순서 유지
)

# 시각화
ax = sales_by_weekday_named.plot(kind="bar", figsize=(10, 8))
plt.title("요일별 채널별 매출 비교")
plt.xlabel("요일")
plt.ylabel("총 매출")
plt.xticks(rotation=0)
plt.legend(title="채널")
plt.tight_layout()

# 막대 위에 숫자 표시
for container in ax.containers:
    for bar in container:
        height = bar.get_height()
        if height > 0:  # 0 이상일 때만 표시
            ax.text(
                bar.get_x() + bar.get_width() / 2,
                height + (height * 0.01),  # 약간 위로
                f'{height:,.0f}',  # 천 단위 콤마, 정수로 표시
                ha='center', va='bottom', fontsize=9
            )

plt.show()

In [None]:
# 요일별 + 채널별 구매 건수 집계
purchase_count_by_weekday = (
    transactions
    .groupby(["weekday_name", "sales_channel_id"])["article_id"]
    .count()
    .reset_index()
    .pivot(index="weekday_name", columns="sales_channel_id", values="article_id")
    .rename(columns={1: "오프라인", 2: "온라인"})
    .reindex(weekday_names)
)

# 시각화
ax = purchase_count_by_weekday.plot(kind="bar", figsize=(10, 8))
plt.title("요일별 채널별 구매 건수 비교")
plt.xlabel("요일")
plt.ylabel("구매 건 수")
plt.xticks(rotation=0)
plt.legend(title="채널")
plt.tight_layout()

# 막대 위에 숫자 표시
for container in ax.containers:
    for bar in container:
        height = bar.get_height()
        if height > 0:  # 0 이상만 표시
            ax.text(
                bar.get_x() + bar.get_width() / 2,
                height + (height * 0.01),  # 높이보다 약간 위
                f'{int(height):,}',        # 정수로 천 단위 콤마 표시
                ha='center', va='bottom', fontsize=9
            )

plt.show()