# 数据预处理

本notebook用于合并和处理摸鱼事务所的视频数据。

In [17]:
import pandas as pd
import os

## 1. 读取数据

In [20]:
# 读取两个CSV文件
df1 = pd.read_csv("../data/raw/摸鱼事务所.csv")
df2 = pd.read_csv("../data/raw/detail.csv")

print("第一个数据集形状:", df1.shape)
print("第二个数据集形状:", df2.shape)

第一个数据集形状: (453, 4)
第二个数据集形状: (453, 11)


## 2. 数据合并

In [23]:
# 使用title列作为键合并两个数据集
merged_df = pd.merge(df1, df2, on="title", how="inner")

print("合并后的数据集形状:", merged_df.shape)

合并后的数据集形状: (455, 14)


## 3. 数据清洗

In [26]:
# 处理播放量数据
def convert_play_count(x):
    if "万" in str(x):
        return float(str(x).replace("万", "")) * 10000
    return float(x)

merged_df["play_count"] = merged_df["play_count"].apply(convert_play_count)

# 处理时长数据
def convert_duration(x):
    parts = str(x).split(":")
    if len(parts) == 2:
        return int(parts[0]) * 60 + int(parts[1])
    elif len(parts) == 3:
        return int(parts[0]) * 3600 + int(parts[1]) * 60 + int(parts[2])
    return 0

# 处理日期格式
def add_year_prefix(date_str):
    if len(str(date_str).split("-")) == 2:  # 如果日期格式是 MM-DD
        return f"2025-{date_str}"
    return date_str

merged_df["date"] = merged_df["date"].apply(add_year_prefix)

merged_df["duration_seconds"] = merged_df["duration"].apply(convert_duration)

## 4. 保存处理后的数据

In [29]:
# 确保processed目录存在
os.makedirs("../data/processed", exist_ok=True)

# 保存合并后的数据
merged_df.to_csv("../data/processed/merged_data.csv", index=False)
print("数据已保存到 ../data/processed/merged_data.csv")

数据已保存到 ../data/processed/merged_data.csv


## 5. 数据概览

In [32]:
# 显示数据基本信息
print("数据基本信息:")
print(merged_df.info())

# 显示数据统计摘要
print("数据统计摘要:")
print(merged_df.describe())

数据基本信息:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 455 entries, 0 to 454
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   title             455 non-null    object 
 1   play_count        455 non-null    float64
 2   date              455 non-null    object 
 3   duration          455 non-null    object 
 4   tname             455 non-null    object 
 5   tname_v2          455 non-null    object 
 6   view              455 non-null    int64  
 7   reply             455 non-null    int64  
 8   favorite          455 non-null    int64  
 9   coin              455 non-null    int64  
 10  share             455 non-null    int64  
 11  like              455 non-null    int64  
 12  dislike           455 non-null    int64  
 13  tags              455 non-null    object 
 14  duration_seconds  455 non-null    int64  
dtypes: float64(1), int64(8), object(6)
memory usage: 53.4+ KB
None
数据统计摘要:
         pla