In [None]:
# 和昨天一样，第一步永远是导入 Pandas 和加载数据
import pandas as pd
df = pd.read_csv("netflix_titles.csv")

# --- 第二步：定义我们的“缺失值诊断”函数 ---
# def 是 define（定义）的缩写，后面跟着函数名和括号里的“入口”（参数）
def missing_info(data):#data可以随便替换名字，只是告诉大家，要放的东西放在名叫data的箱子里面，等待函数的处理
                        #data 这种“指向”关系称为 “引用” (Reference)。
    
    # 1. 统计每列的缺失值数量
    # data.isnull() 会把每个单元格是缺失值的地方标记为 True
    # .sum() 会把 True 当作 1，False 当作 0 来计算总和
    missing_count = data.isnull().sum()
    
    #data 是我们传进来的 DataFrame。
    #.isnull() 是一个内置函数，它对 data 的每一列进行操作，返回了一个布尔值的 DataFrame。
    #.sum() 是另一个内置函数，它对 isnull() 的结果进行操作，返回了一个包含缺失值数量的 Series。
    # missing_count = data.isnull().sum()处理了一整个列表然后返回了一个series 索引index是每一列的名字 value是缺失的总数
    # missing_count 只是一个变量-----“先计算出右边所有东西的最终结果，然后把这个结果存到左边的名字里。”
    

    
    # 2. 计算每列的缺失值百分比
    # len(data) 是数据的总行数
    missing_percent = (missing_count / len(data)) * 100
    #基于上一个定义的变量返回了一个带有缺失率百分比的series
    
    # 3. 把上面两个结果合并成一个新的 DataFrame，让报告更美观
    # 把字典传给了pd.DataFrame使其成dataframe结构 字典定义={'': }
    result_df = pd.DataFrame(
        {
        'missing_count': missing_count,
        'missing_percent': missing_percent
        }
    )
    
    # 4. 只返回那些真正有缺失值的列，并按缺失比例从高到低排序
    # 这样我们就能一眼看到最严重的问题
    
    # 这里我们同时做了两件事，从里往外读：
    #  a) result_df[result_df['missing_count'] > 0]：首先，我们只保留报告中
    #     那些“缺失数量”大于0的行。（我们不关心健康的科室）。
    #有关筛选：result_df['missing_count']: 这会从 result_df DataFrame 中选择名为 'missing_count' 的那一列 (Series)。
    
    #  b) .sort_values(...)：然后，我们把筛选后的报告排个序，
    #      ascending=False 的意思是 “降序排列”,最大的在前面
    final_result = result_df[result_df['missing_count'] > 0].sort_values(
        by='missing_percent', 
        ascending=False  
    )
    
    # 5. return 关键字，表示函数执行完后，把这个最终结果“吐”出来
    return final_result
###自定义的函数到此结束


# --- 第三步：调用函数，对我们的Netflix数据进行诊断 ---
missing_summary = missing_info(df)

# --- 第四步：打印诊断报告 ---
print("Netflix 数据集缺失值诊断报告:")
print(missing_summary)

Netflix 数据集缺失值诊断报告:
            missing_count  missing_percent
director             2634        29.908028
country               831         9.435676
cast                  825         9.367549
date_added             10         0.113546
rating                  4         0.045418
duration                3         0.034064
