In [None]:
import pandas as pd         # 导入pandas库，它就像一个超级强大的Excel工具，用来处理表格数据非常方便。
import numpy as np          # 导入numpy库，它主要用于进行数值计算，特别是在处理数组（例如一堆数字）时效率很高。
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库，这个库是用来画图的，比如折线图、柱状图等，让数据可视化。

# 读取数据集
data = pd.read_csv('credit_data.csv') # 使用pandas的read_csv函数，读取名为 'credit_data.csv' 的文件。
                                       # 这就相当于我们打开这个CSV文件，把里面的内容读取到一个叫做 'data' 的表格（DataFrame）里。

# 1. 数据完整性审核
missing_values = data.isnull().sum()       # 数据缺失值统计 2分
# data.isnull()：这个方法会检查 'data' 表格中的每一个单元格，如果它是缺失值（通常表示为 NaN），则返回 True，否则返回 False。
# .sum()：对上面生成的 True/False 表格按列进行求和。在Python中，True被视为1，False被视为0。
# 所以，某一列的 True 数量之和，就代表了该列的缺失值数量。
# 这样，'missing_values' 变量就存储了一个系列（Series），显示了每一列有多少个缺失值。

duplicate_values = data.duplicated().sum()   # 数据重复值统计 2分
# data.duplicated()：这个方法会检查 'data' 表格中的每一行，看看它是否是前面已经出现过的重复行。
# 如果某一行与之前某行完全相同（所有列的值都一样），则返回 True，否则返回 False。
# .sum()：对上面生成的 True/False 系列进行求和，得到整个表格中重复行的总数量。
# 这样，'duplicate_values' 变量就存储了一个数字，表示有多少行是重复的。

# 输出结果
print("缺失值统计:") # 打印一个标题，说明接下来要显示什么。
print(missing_values) # 打印出 'missing_values' 系列，显示每列的缺失值数量。
print("重复值统计:") # 打印另一个标题。
print(duplicate_values) # 打印出 'duplicate_values' 数字，显示重复行的总数量。

# 2. 数据合理性审核
data['is_age_valid'] = data['Age'].between(18, 70)              # Age数据的合理性审核 2分
# data['is_age_valid']：在 'data' 表格中新建一个名为 'is_age_valid'（年龄是否合理）的列。
# data['Age'].between(18, 70)：这是一个非常方便的pandas方法，用来检查 'Age' 列的每个值是否在指定范围 [18, 70] 之间（包含边界）。
# 如果年龄在18到70岁之间，结果为 True；否则为 False。这个结果会被赋值到 'is_age_valid' 列。

data['is_income_valid'] = data['Income'] > 2000                 # Income数据的合理性审核 2分
# data['is_income_valid']：新建一个名为 'is_income_valid'（收入是否合理）的列。
# data['Income'] > 2000：检查 'Income' 列的每个值是否大于2000。
# 如果收入大于2000，结果为 True；否则为 False。这个结果会被赋值到 'is_income_valid' 列。

data['is_loan_amount_valid'] = data['LoanAmount'] < (data['Income'] * 5)      # LoanAmount数据的合理性审核 2分
# data['is_loan_amount_valid']：新建一个名为 'is_loan_amount_valid'（贷款金额是否合理）的列。
# data['LoanAmount'] < (data['Income'] * 5)：检查 'LoanAmount'（贷款金额）列的每个值是否小于对应行 'Income'（收入）的5倍。
# 这是一个业务逻辑判断：贷款金额通常不应过高，这里设定为不能超过收入的5倍。
# 如果贷款金额小于收入的5倍，结果为 True；否则为 False。

data['is_credit_score_valid'] = data['CreditScore'].between(300, 850)   # CreditScore数据的合理性审核 2分
# data['is_credit_score_valid']：新建一个名为 'is_credit_score_valid'（信用评分是否合理）的列。
# data['CreditScore'].between(300, 850)：检查 'CreditScore'（信用评分）列的每个值是否在标准FICO信用分范围 [300, 850] 之间。
# 如果信用评分在此范围内，结果为 True；否则为 False。

# 合理性检查结果
validity_checks = data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']].all(axis=1)
# data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']]：
# 选取我们刚才创建的这四列布尔值（True/False）列。
# .all(axis=1)：这个方法会检查所选这些列的每一行。
# axis=1 表示沿着行的方向进行操作（即检查一行中的所有这些列）。
# 如果一行中的所有这四列的值都为 True（表示年龄、收入、贷款金额和信用评分都合理），那么这一行的结果就是 True。
# 只要其中有一列为 False，则这一行的结果就是 False。
# 也就是说，'validity_checks' 会生成一个 Series，表示每一行数据是否“完全合理”。

data['is_valid'] = validity_checks
# data['is_valid']：在 'data' 表格中新建一个名为 'is_valid'（整条数据是否合理）的列。
# 将上面 'validity_checks' 的结果（每行是否完全合理）赋值给这个新列。

# 输出结果
print("数据合理性检查:") # 打印一个标题。
print(data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']].describe())
# 选取所有合理性检查的布尔值列和最终的 'is_valid' 列。
# .describe()：这是一个非常有用的统计方法，它会为数值列（在这里True/False会被当作1/0）提供描述性统计信息。
# 对于布尔值列，它会告诉我们有多少个True（合理）和False（不合理），最小值（0或False），最大值（1或True），平均值等。
# 这有助于我们快速了解各项合理性检查的通过率。

# 3. 数据清洗和异常值处理
# 标记不合理数据
invalid_rows = data[~data['is_valid']]
# data['is_valid']：这是我们之前创建的，标记每行数据是否完全合理的列。
# ~data['is_valid']：这个波浪号（~）是逻辑“非”的意思。
# 如果 'is_valid' 为 True，那么 ~'is_valid' 就为 False；如果 'is_valid' 为 False，那么 ~'is_valid' 就为 True。
# data[...]：用这个 True/False 系列来筛选原始的 'data' 表格。
# 这样，'invalid_rows' 变量就会包含所有被标记为“不合理”的行。

# 删除不合理数据行
cleaned_data = data[data['is_valid']]
# data[data['is_valid']]：再次使用 'is_valid' 列进行筛选。
# 这次我们只选择那些 'is_valid' 为 True 的行，也就是所有被认为是“合理”的数据行。
# 将这些合理的数据行组成一个新的DataFrame，并赋值给 'cleaned_data'。

# 删除标记列
cleaned_data = cleaned_data.drop(columns=['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid'])
# cleaned_data.drop(...)：'drop' 方法用于删除DataFrame中的列。
# columns=[...]：传入一个列表，列出所有我们想删除的列名。
# 这些列 ('is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid') 都是我们在数据合理性审核过程中创建的临时标记列。
# 在数据清洗完成后，这些标记列就不再需要了，所以将它们删除，让最终数据更简洁。
# 将删除列后的DataFrame重新赋值给 'cleaned_data'。

# 保存清洗后的数据
cleaned_data.to_csv('cleaned_credit_data.csv', index=False)
# cleaned_data.to_csv(...)：这是pandas用来将DataFrame保存为CSV文件的方法。
# 'cleaned_credit_data.csv'：指定新保存的文件的名字。
# index=False：这个参数很重要，它表示在保存CSV文件时，不要把DataFrame的索引（左边默认从0开始的数字序号）也写入到CSV文件中。
# 如果不设置这个参数，CSV文件里会多一列无用的索引号。
print("数据清洗完成，已保存为 'cleaned_credit_data.csv'") # 打印一条消息，告诉用户数据已经清洗完成并保存。
