# 1. 读取和写入数据 (Reading and Writing Data)

In [None]:
import pandas as pd

# 从 CSV 文件读取数据
df = pd.read_csv('your_data.csv')

# 将 DataFrame 写入 CSV 文件
df.to_csv('processed_data.csv', index=False) # index=False 避免写入索引

# 2. 查看数据概览 (Inspecting Data)

In [None]:
# 假设 df 已经加载
print("前5行数据:")
print(df.head())

print("\n数据维度 (行, 列):")
print(df.shape)

print("\n列名:")
print(df.columns)

print("\n数据类型:")
print(df.dtypes)

print("\n基本统计描述:")
print(df.describe(include='all')) # include='all' 会包含非数值列

print("\nDataFrame 信息概览 (包括非空值计数和内存使用):")
print(df.info())

# 3. 选择数据 (Data Selection - loc, iloc)

In [None]:
# 假设 df 已经加载，并且有 'feature1', 'feature2', 'target' 列
# # 选择 'feature1' 列
feature1_data = df['feature1']
print(feature1_data.head())

# # 选择多列
features_df = df[['feature1', 'feature2']]
print(features_df.head())

# # 使用 loc 选择特定行和列 (按标签)
# # 假设索引是默认的整数索引
selected_loc = df.loc[0:4, ['feature1', 'target']] # 选择前5行，'feature1'和'target'列
print("\nUsing loc:")
print(selected_loc)

# # 使用 iloc 选择特定行和列 (按整数位置)
selected_iloc = df.iloc[0:5, [0, 2]] # 选择前5行，第1列和第3列
print("\nUsing iloc:")
print(selected_iloc)

# 4. 处理缺失值 (Handling Missing Values)

In [None]:
# 假设 df 已经加载
print("每列的缺失值数量:")
print(df.isnull().sum())

# 删除所有包含缺失值的行
df_dropped_rows = df.dropna()
print(f"\n删除缺失行后的形状: {df_dropped_rows.shape}")

# # 删除所有包含缺失值的列
df_dropped_cols = df.dropna(axis=1)
print(f"\n删除缺失列后的形状: {df_dropped_cols.shape}")


# # 使用特定值填充所有缺失值 (例如，用0填充)
df_filled_zeros = df.fillna(0)
print("\n用0填充后的前5行:")
print(df_filled_zeros.head())

# 使用列的平均值填充数值列的缺失值
# 假设 'numeric_feature' 是一个有缺失值的数值列
if 'numeric_feature' in df.columns:
    mean_val = df['numeric_feature'].mean()
    df['numeric_feature_filled'] = df['numeric_feature'].fillna(mean_val)
    print("\n用均值填充 'numeric_feature' 后的缺失值统计:")
    print(df[['numeric_feature', 'numeric_feature_filled']].isnull().sum())

# 5. 数据类型转换 (Data Type Conversion)

In [None]:
# 假设 df 已经加载
# 假设 'age_str' 列是字符串类型，但表示年龄
if 'age_str' in df.columns:
    df['age_int'] = df['age_str'].astype(int)
    print("\n'age_str' 转换为 'age_int' 后的数据类型:")
    print(df[['age_str', 'age_int']].dtypes)

# 假设 'date_str' 列是字符串类型，表示日期
if 'date_str' in df.columns:
    df['date_datetime'] = pd.to_datetime(df['date_str'])
    print("\n'date_str' 转换为 'date_datetime' 后的数据类型:")
    print(df[['date_str', 'date_datetime']].dtypes)

# 6. 数据筛选与过滤 (Filtering Data)

In [None]:
# 假设 df 已经加载，并且有 'age' 和 'category' 列
# 选择 'age' 大于 30 的所有行
older_than_30 = df[df['age'] > 30]
print("\n年龄大于30的数据:")
print(older_than_30.head())

# 选择 'category' 为 'A' 且 'age' 小于 40 的所有行
filtered_data = df[(df['category'] == 'A') & (df['age'] < 40)]
print("\nCategory 'A' 且年龄小于40的数据:")
print(filtered_data.head())

# 7. 分组与聚合 (Grouping and Aggregation)

In [None]:
# 假设 df 已经加载，并且有 'category' 和 'sales' 列
# 按 'category' 分组，并计算每组 'sales' 的平均值和总和
grouped_data = df.groupby('category')['sales'].agg(['mean', 'sum'])
print("\n按 'category' 分组计算 'sales' 的均值和总和:")
print(grouped_data)

# 按多个列分组
grouped_multi = df.groupby(['category', 'region'])['sales'].mean()
print("\n按 'category' 和 'region' 分组计算 'sales' 的均值:")
print(grouped_multi)

# 8. 创建新特征 (Feature Engineering - Apply, Map)

In [None]:
# 假设 df 已经加载
# 基于 'price' 和 'discount' 列创建 'final_price' 列
if 'price' in df.columns and 'discount_rate' in df.columns: # 假设 discount_rate 是小数形式
   df['final_price'] = df['price'] * (1 - df['discount_rate'])
   print("\n创建 'final_price' 列:")
   print(df[['price', 'discount_rate', 'final_price']].head())

# 使用 apply 创建一个基于条件的新特征
# 假设 'age' 列存在
def age_group(age):
    if age < 18:
        return 'Child'
    elif age < 60:
        return 'Adult'
    else:
        return 'Senior'
if 'age' in df.columns:
   df['age_group'] = df['age'].apply(age_group)
   print("\n创建 'age_group' 列:")
   print(df[['age', 'age_group']].head())

# 使用 map 对分类变量进行编码
# 假设 'gender_str' 列包含 'Male', 'Female'
if 'gender_str' in df.columns:
    gender_map = {'Male': 0, 'Female': 1}
    df['gender_encoded'] = df['gender_str'].map(gender_map)
    print("\n对 'gender_str' 进行编码:")
    print(df[['gender_str', 'gender_encoded']].head())

# 9. 合并与连接数据 (Merging and Joining DataFrames)

In [None]:
# 创建示例 DataFrames
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2'], 'A': ['A0', 'A1', 'A2']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K3'], 'B': ['B0', 'B1', 'B3']})

# 使用 merge (类似于 SQL 的内连接 inner join)
merged_df = pd.merge(df1, df2, on='key', how='inner')
print("\n合并后的 DataFrame (inner join):")
print(merged_df)

# 使用 merge (左连接 left join)
merged_left_df = pd.merge(df1, df2, on='key', how='left')
print("\n合并后的 DataFrame (left join):")
print(merged_left_df)

# 使用 concat (沿行堆叠)
df3 = pd.DataFrame({'key': ['K4', 'K5'], 'A': ['A4', 'A5']})
concatenated_df = pd.concat([df1, df3], ignore_index=True) # ignore_index 重置索引
print("\n连接后的 DataFrame (concat):")
print(concatenated_df)

# 10. 数据透视表与交叉表 (Pivot Tables and Cross-Tabulations)

In [None]:
# 假设 df 已经加载，并且有 'category', 'region', 'sales' 列
# # 创建数据透视表：按 'category' 和 'region' 汇总 'sales' 的平均值
if all(col in df.columns for col in ['category', 'region', 'sales']):
    pivot_table = pd.pivot_table(df, values='sales', index='category', columns='region', aggfunc='mean')
    print("\n数据透视表 (sales 均值):")
    print(pivot_table)

# # 创建交叉表：查看 'category' 和 'approved_status' (假设存在) 之间的频率
# # 假设 df 有 'category' 和 'approved_status' 列
if all(col in df.columns for col in ['category', 'approved_status']):
   cross_tab = pd.crosstab(df['category'], df['approved_status'])
   print("\n交叉表 (category vs approved_status):")
   print(cross_tab)