# 01 EDA Cleaning

In [1]:
#导入常用包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import gzip

#配置绘图风格
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

#设置数据路径
DATA_DIR = "../data/"
OUTPUT_DIR = "../output/"
FILE_NAME = "2019-Oct.csv"

#1. 读取数据
file_path = os.path.join(DATA_DIR, FILE_NAME)

#检查文件是否存在
if not os.path.exists(file_path):
    print(f"⚠️ 文件未找到: {file_path}. 创建一个占位符文件用于测试。")
    os.makedirs(DATA_DIR, exist_ok=True)
    # 创建一个空的占位符文件
    with open(file_path, 'w') as f:
        f.write("event_time,event_type,category_code,brand,price\n")

#检测文件是否为gzip格式
try:
    with gzip.open(file_path, 'rb') as gz_file:
        gz_file.read(1)  # 尝试读取第一个字节
    is_gzip = True
except OSError:
    is_gzip = False

#根据文件格式读取数据
if is_gzip:
    df = pd.read_csv(file_path, compression='gzip')
else:
    print("⚠️ 文件不是gzip格式，按普通CSV文件读取。")
    df = pd.read_csv(file_path)

print(f"✅ 数据读取完成，大小为: {df.shape}")

#2. 查看基本信息
print("\n📑 列名：")
print(df.columns.tolist())

print("\n🔎 数据类型：")
print(df.dtypes)

print("\n👀 前5行预览：")
print(df.head())

#3. 转换时间列
df['event_time'] = pd.to_datetime(df['event_time'], errors='coerce')

#4. 检查缺失值
print("\n❓ 缺失值统计：")
print(df.isnull().sum())

#5. 事件类型分布
print("\n🛍️ 事件类型分布：")
print(df['event_type'].value_counts())

#6. 类目（category_code）Top10
print("\n📦 热门类别Top10：")
print(df['category_code'].value_counts().head(10))

#7. 品牌（brand）Top10
print("\n🏷️ 热门品牌Top10：")
print(df['brand'].value_counts().head(10))

#8. 保存一个小样本（10万条）用于快速调试
sample_df = df.sample(100000, random_state=42)

# 确保output目录存在
os.makedirs(OUTPUT_DIR, exist_ok=True)

# 保存样本
sample_file = os.path.join(OUTPUT_DIR, "cleaned_data_sample.csv")
sample_df.to_csv(sample_file, index=False)

print(f"\n✅ 样本保存成功: {sample_file}")

⚠️ 文件不是gzip格式，按普通CSV文件读取。
✅ 数据读取完成，大小为: (42448764, 9)

📑 列名：
['event_time', 'event_type', 'product_id', 'category_id', 'category_code', 'brand', 'price', 'user_id', 'user_session']

🔎 数据类型：
event_time        object
event_type        object
product_id         int64
category_id        int64
category_code     object
brand             object
price            float64
user_id            int64
user_session      object
dtype: object

👀 前5行预览：
                event_time event_type  product_id          category_id  \
0  2019-10-01 00:00:00 UTC       view    44600062  2103807459595387724   
1  2019-10-01 00:00:00 UTC       view     3900821  2053013552326770905   
2  2019-10-01 00:00:01 UTC       view    17200506  2053013559792632471   
3  2019-10-01 00:00:01 UTC       view     1307067  2053013558920217191   
4  2019-10-01 00:00:04 UTC       view     1004237  2053013555631882655   

                         category_code     brand    price    user_id  \
0                                  NaN  shis