# 数据处理

> 2024/02/19 by Leeasy

## 1. 数据预处理

### 数据清洗：处理缺失值、异常值和重复记录。

In [1]:
import pandas as pd

# 加载数据集
df = pd.read_csv('data-0.csv')

# 显示数据集的基本信息，包括每列的类型和非空值的数量
print(df.info())

# 查找列中包含的缺失值数
print(df.isnull().sum())

# 处理缺失值：你可以选择填充缺失值或者删除包含缺失值的行
# 例如，使用均值填充数值型特征的缺失值
for col in df.select_dtypes(include=['float', 'int']).columns:
    df[col].fillna(df[col].mean(), inplace=True)

# 对于分类特征，可以使用众数来填充缺失值
for col in df.select_dtypes(include=['object']).columns:
    df[col].fillna(df[col].mode()[0], inplace=True)

# 删除重复记录
df.drop_duplicates(inplace=True)

# 处理异常值：这需要根据具体情况来定义什么是异常值。
# 作为示例，这里我们简单地使用了标准差来识别异常值。
for col in df.select_dtypes(include=['float', 'int']).columns:
    deviation = df[col].std()
    mean_val = df[col].mean()
    # 假设异常值定义为均值加减3倍标准差之外的值
    outliers = (df[col] > mean_val + 3 * deviation) | (df[col] < mean_val - 3 * deviation)
    df = df[~outliers]

print("数据清洗后的数据集信息：")
print(df.info())

# 保存清洗后的数据集
df.to_csv('data-0_clean.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16000 entries, 0 to 15999
Data columns (total 82 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   个人编码               16000 non-null  float64
 1   一天去两家医院的天数         16000 non-null  int64  
 2   就诊的月数              16000 non-null  int64  
 3   月就诊天数_MAX          16000 non-null  int64  
 4   月就诊天数_AVG          16000 non-null  float64
 5   月就诊医院数_MAX         16000 non-null  int64  
 6   月就诊医院数_AVG         16000 non-null  float64
 7   就诊次数_SUM           16000 non-null  int64  
 8   月就诊次数_MAX          16000 non-null  int64  
 9   月就诊次数_AVG          16000 non-null  float64
 10  月统筹金额_MAX          16000 non-null  float64
 11  月统筹金额_AVG          16000 non-null  float64
 12  月药品金额_MAX          16000 non-null  float64
 13  月药品金额_AVG          16000 non-null  float64
 14  医院_就诊天数_MAX        16000 non-null  int64  
 15  医院_就诊天数_AVG        16000 non-null  float64
 16  医院_统筹金_MAX         160

数据转换：对非数值型数据进行编码，如 One-Hot 编码。
特征规范化：将特征缩放到统一的范围或分布。