In [None]:
import pandas as pd # 导入pandas库，它是一个非常强大的数据处理工具，我们通常用它来处理表格数据（就像Excel一样）
import numpy as np  # 导入numpy库，它主要用于进行数值计算，特别是在处理数组和矩阵时非常高效

# 读取数据集 1分
data = pd.read_csv('patient_data.csv') # 使用pandas的read_csv函数读取名为'patient_data.csv'的文件
                                       # 这类似于我们打开一个Excel文件，将里面的数据加载到内存中，并将其命名为'data'

# 1. 统计住院天数超过7天的患者数量及其占比
# 创建新列'RiskLevel'，根据住院天数判断风险等级 3分
# 这一行代码的目的是给每个患者打上“风险标签”，看看他们是“高风险”还是“低风险”。
data['RiskLevel'] = np.where(data['DaysInHospital'] > 7, '高风险患者', '低风险患者') 
# 让我们一步步拆解：
# data['RiskLevel']：这表示我们要在'data'这个表格中新建一个叫做'RiskLevel'（风险等级）的列。
# np.where(...)：这是numpy库里的一个非常实用的函数，它可以根据一个条件来给数据分类。
# 它的基本用法是：np.where(条件, 如果条件为真赋的值, 如果条件为假赋的值)。
# data['DaysInHospital'] > 7：这就是我们的“条件”。它检查'data'表格中每一行'DaysInHospital'（住院天数）的值，
# 看看是不是大于7。如果住院天数超过7天，条件就成立（为True）；否则，条件就不成立（为False）。
# '高风险患者'：如果上面的条件成立（住院天数大于7天），那么在新建的'RiskLevel'列中，这一行对应的患者就会被标记为'高风险患者'。
# '低风险患者'：如果上面的条件不成立（住院天数不大于7天，也就是小于等于7天），那么在'RiskLevel'列中，ta就会被标记为'低风险患者'。
# 简单来说，这行代码就是对所有患者进行一次“风险评估”，住院超过7天就“打上”高风险标签，否则就是低风险标签。

# 统计不同风险等级的患者数量 2分
risk_counts = data['RiskLevel'].value_counts()
# data['RiskLevel']：我们之前创建的那个充满'高风险患者'和'低风险患者'标签的列。
# .value_counts()：这是pandas里一个非常方便的函数，它的作用是统计一个列中每个不同值出现的次数。
# 比如，如果'RiskLevel'列里有5个'高风险患者'和10个'低风险患者'，那么这个函数执行后，
# risk_counts就会变成一个类似于“高风险患者：5，低风险患者：10”这样的统计结果。
# 这样，我们就能一眼看出两种风险等级的患者分别有多少人了。

# 计算高风险患者占比 1分
high_risk_ratio = risk_counts['高风险患者'] / len(data)
# risk_counts['高风险患者']：从上面统计的结果中，取出'高风险患者'的数量。
# len(data)：这个函数用来获取'data'这个表格（数据集）的总行数，也就是总患者数量。
# 相除：将高风险患者数量除以总患者数量，得到的就是高风险患者在所有患者中所占的比例（或者说百分比，如果乘以100的话）。
# 比如说，如果有20个高风险患者，总共有100个患者，那么占比就是20/100 = 0.2。

# 计算低风险患者占比 1分
low_risk_ratio = risk_counts['低风险患者'] / len(data)
# 同理，这行代码是计算低风险患者的占比。
# risk_counts['低风险患者']：从统计结果中，取出'低风险患者'的数量。
# len(data)：依然是总患者数量。
# 相除：得到低风险患者在所有患者中的比例。

# 输出结果
print("高风险患者数量:", risk_counts['高风险患者']) # 打印出“高风险患者数量”以及对应的数值。
print("低风险患者数量:", risk_counts['低风险患者']) # 打印出“低风险患者数量”以及对应的数值。
print("高风险患者占比:", high_risk_ratio)       # 打印出“高风险患者占比”以及对应的比例。
print("低风险患者占比:", low_risk_ratio)        # 打印出“低风险患者占比”以及对应的比例。

# 2. 统计不同BMI区间中高风险患者的比例和统计不同BMI区间中的患者数
# 定义BMI区间和标签
bmi_bins = [0, 18.5, 24, 28, np.inf]
# bmi_bins：这是一个列表，里面定义了一些数字，用来划分BMI的“边界”。
# 比如：0到18.5是一个区间，18.5到24是一个区间，24到28是一个区间，28到一个无限大的数（np.inf代表无限大）是一个区间。
# 这些边界是根据医学上对BMI的分类标准来的。
bmi_labels = ['偏瘦', '正常', '超重', '肥胖']
# bmi_labels：这也是一个列表，里面是和上面BMI区间一一对应的“标签”。
# 比如：0-18.5的BMI我们称之为“偏瘦”，18.5-24的BMI称之为“正常”，以此类推。
# 这些标签会用来标识每个患者所属的BMI区间。

# 根据BMI值划分指定区间 4分
data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels, right=False)  # 使用左闭右开区间
# data['BMIRange']：在'data'表格中新建一个名为'BMIRange'（BMI区间）的列。
# pd.cut(...)：这是pandas库里的一个函数，它的主要功能就是把一列的数值数据按照我们设定的“区间边界”进行分组，然后给每一组打上对应的“标签”。
# data['BMI']：我们要对哪个列进行分组？当然是患者的'BMI'（身体质量指数）列。
# bins=bmi_bins：告诉pd.cut函数，分组的边界在哪里，就是我们上面定义的那个bmi_bins列表。
# labels=bmi_labels：告诉pd.cut函数，每个分组应该用什么标签来表示，就是我们上面定义的那个bmi_labels列表。
# right=False：这是一个很重要的参数。它决定了区间的开闭形式。
# right=False 意味着区间是“左闭右开”的。
# 举个例子：[0, 18.5) 表示0包含在内，18.5不包含在内。
# [18.5, 24) 表示18.5包含在内，24不包含在内。
# 这样做是为了避免边界值重复计算，或者说是符合常规的区间表示法。
# 总结：这行代码就是根据每个患者的BMI值，判断他们属于哪个BMI区间（偏瘦、正常、超重、肥胖），然后把对应的标签填入新的'BMIRange'列。

# 计算每个BMI区间中高风险患者的比例 2分
bmi_risk_rate = data.groupby(data['BMIRange'])['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())
# 这行代码有点复杂，我们分解一下：
# data.groupby(data['BMIRange'])：这是pandas中一个非常强大的操作，叫做“分组”。
# 它的作用是把'data'这个表格，按照'BMIRange'（我们刚刚创建的BMI区间）这一列的不同值进行分组。
# 想象一下，它会把所有“偏瘦”的患者分到一组，所有“正常”的患者分到另一组，以此类推。
# ['RiskLevel']：在每个分组内部，我们只关心'RiskLevel'（风险等级）这一列的数据。
# .apply(lambda x: (x == '高风险患者').mean())：这是对每个分组应用一个自定义的函数。
# lambda x: ... 是Python中定义匿名函数的一种简洁方式，这里的'x'代表了每个分组里的'RiskLevel'这一列的数据。
# (x == '高风险患者')：对于每个分组内的'RiskLevel'数据（也就是'x'），检查其中哪些值是'高风险患者'。
# 这会生成一系列True（如果是高风险）和False（如果不是高风险）。
# .mean()：对于True和False组成的系列，Python会把True当做1，False当做0。
# 那么，求这一系列True/False的平均值，实际上就是“高风险患者”的数量除以这个分组的总患者数量。
# 举例：如果一个“正常”BMI区间里有10个患者，其中3个是'高风险患者'，7个是'低风险患者'。
# 那么(x == '高风险患者')会得到[True, True, True, False, False, False, False, False, False, False]。
# 它的平均值就是 (1+1+1+0+0+0+0+0+0+0) / 10 = 3 / 10 = 0.3。
# 所以，这整行代码的意思是：先把患者按BMI区间分组，然后分别计算每个BMI区间内高风险患者所占的比例。

# 统计每个BMI区间的患者数量 1分
bmi_patient_count = data['BMIRange'].value_counts()
# data['BMIRange']：我们创建的那个包含BMI区间标签的列。
# .value_counts()：再次使用这个函数，这次是统计每个BMI区间（偏瘦、正常、超重、肥胖）分别有多少个患者。
# 比如，“偏瘦”区间有20人，“正常”区间有50人等等。

# 输出结果
print("BMI区间中高风险患者的比例和患者数:") # 打印一个标题。
print(bmi_risk_rate)                 # 打印每个BMI区间中高风险患者的比例。
print(bmi_patient_count)             # 打印每个BMI区间中患者的总数量。

# 3. 统计不同年龄区间中高风险患者的比例和统计不同年龄区间中的患者数
# 定义年龄区间和标签
age_bins = [0, 26, 36, 46, 56, 66, np.inf]
# age_bins：这是一个列表，定义了年龄的各个区间边界。
# 比如：0-26岁，26-36岁，等等，直到66岁以上。
age_labels = ['≤25岁', '26-35岁', '36-45岁', '46-55岁', '56-65岁', '＞65岁']
# age_labels：这是和上面年龄区间一一对应的标签。

# 根据年龄值划分指定区间 4分
data['AgeRange'] = pd.cut(data['Age'], bins=age_bins, labels=age_labels, right=False)  # 使用左闭右开区间
# 这行代码和上面划分BMI区间的pd.cut非常相似，只是这次我们是根据'Age'（年龄）列来划分的。
# data['AgeRange']：新建一个叫做'AgeRange'（年龄区间）的列。
# pd.cut(data['Age'], bins=age_bins, labels=age_labels, right=False)：
# 对'Age'列应用pd.cut函数，使用age_bins作为区间边界，ag_labels作为标签，并且依然是左闭右开区间。
# 这样，每个患者的年龄就会被归类到对应的年龄区间，并被打上相应的标签。

# 计算每个年龄区间中高风险患者的比例 2分
age_risk_rate = data.groupby(data['AgeRange'])['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())
# 这行代码也和上面计算BMI区间高风险患者比例的逻辑完全相同。
# data.groupby(data['AgeRange'])：这次是根据'AgeRange'（年龄区间）来分组。
# ['RiskLevel'].apply(lambda x: (x == '高风险患者').mean())：
# 在每个年龄分组中，计算'RiskLevel'列中'高风险患者'所占的比例。
# 最终，age_risk_rate会存储每个年龄区间中高风险患者的比例。

# 统计每个年龄区间的患者数量 1分
age_patient_count = data['AgeRange'].value_counts()
# data['AgeRange']：我们创建的那个包含年龄区间标签的列。
# .value_counts()：再次使用这个函数，这次是统计每个年龄区间（如'≤25岁', '26-35岁'等）分别有多少个患者。
# 比如，“≤25岁”区间有30人，“26-35岁”区间有45人等等。

# 输出结果
print("年龄区间中高风险患者的比例和患者数:") # 打印一个标题。
print(age_risk_rate)                 # 打印每个年龄区间中高风险患者的比例。
print(age_patient_count)             # 打印每个年龄区间中患者的总数量。
